基于聚类分析的ADR信号检测模型.doc
《基于聚类分析的ADR信号检测模型.doc》由会员分享,可在线阅读,更多相关《基于聚类分析的ADR信号检测模型.doc(20页珍藏版)》请在沃文网上搜索。
1、基于聚类分析的ADR信号检测模型 摘要: 随着数据库技术的迅速发展与数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据内部隐含着许多重要信息,通常的分析手段已不能满足数据分析的深度与数据伸缩性的需要,人们希望能够对其进行更高层次的分析,以便更好的利用这些数据。然而,相对于数据库技术的发展,对数据中知识挖掘的手段却停滞不前,从而导致了“数据爆炸但知识贫乏”的现象。这种情况同样发生在我国的药品不良反应(adverse drug reactions ,ADRs)监测系统的数据库中。本课题通过对目前国内外在ADR信号检测方面的研究现状分析,首次提出了用聚类的方法对ADR信号进行检测。通过构建
2、ADR信号检测的聚类模型,对江苏省ADR中心2008年数据库中的部分数据进行研究分析,信号检测的最低标准为聚类分成的每一类里没有导致目标不良反应的药品数不超过3种,得出的结果与该药品的说明书进行比对。最终我们在西药类里挖掘出了56个符合标准且在药品说明书上没有标明的新的不良反应。关键词:药品不良反应;聚类;FCM; 信号检测一、引言药品安全问题是关系到人民健康和国计民生的重大问题,注重合理用药及用药卫生是每个人都必须做到的。随着社会的发展和科学的进步,越来越多的药品经研发并被投入市场,由此带来的药品不良反应也相应增加。药品不良反应(adverse drug reaction,ADR)指的是合格
3、的药品在正常用法用量下出现的与用药目的无关的或者意外的有害反应。包括:副作用、毒性反应、过敏反应、依赖性、特异质反应等方面。据世界卫生组织统计,因药品不良反应住院的人数达5%-10%,而住院病人中发生药品不良反应的人数达10%-20%,致死率为0.24%-2.9%。由此可见,药品不良反应的发生已成为一个全社会都必须关注的重大医药卫生问题。我国药品不良反应的检测主要采用的是自发呈报系统(spontaneous reproting system,SRS),它是目前世界上最主要的ADR检测手段,也是目前发现ADR信号的最主要来源。世界卫生组织(WHO)对信号的的定义为:未知的或是尚未完全证明的药物与
4、不良反应(医疗产品与不良事件)可能有因果关系的信息。根据事件的严重程度与信息的质量,一般需要多份报告才能产生一项信号。传统针对SRS数据库的信号检测工作主要靠专家委员会来完成。但随着计算机科学技术的发展以及ADR自发呈报数量日益增加,ADR数据库逐步建立,专家评价的局限性开始显现,如主观偏差、耗时长、效率低下、时间滞后等。2006年一年全国收集的ADR报告数就超过36万份,从如此海量的数据中专家人工发现ADR信号难度系数相当高。怎样有效的分析和利用这些报告资料,利用这些数据库所包含的巨大数据资源结合计算机辅助技术进行数据挖掘处理成为一个关键环节。本课题旨在结合江苏省ADR监测中心给出的数据,从
5、统计学的角度出发构建统计模型,深层次的挖掘和分析药品/药品类-不良反应/不良反应类之间的关系,从而为不良反应信号监测和预警工作提供理论与决策支持。具体包括:对数据进行规范化处理,并对各种药品及不良发应进行编码、分类,为下面的分析做好准备工作。从统计学角度出发,对所有药品进行聚类,最终得出药品新的类别,然后再进行分析、探讨。利用其他的药品不良反应信号检测办法(如:四格法等等)来对数据进行分析,并与聚类分析得出的结果进行比对检验。二、ADR信号检测的研究背景1.ADE概述药品不良事件(adverse drug evevt,ADE)指在治疗过程中发生的任何意外的有害反应,其与用药间的必然因果关系尚待
6、确定。上个世纪六十年代之后,陆续出现了一些与上市药品相关的严重不良反应报告。如著名的沙利度胺(反应停)与海豹肢畸型1、己烯雌酚、与妇女阴道透明细胞癌2、普拉洛尔与眼粘膜皮肤综合症3、氨己烯酸与视野缺损4,另有一些已经上市较长时间的药物,在临床应用过程中逐渐发现一些与之相关严重的不良反应,如减肥药氟苯丙胺(芬氟拉明),长期使用会增加瓣膜病变的风险。2.研究背景 自20 世纪 50 年代开始,世界新药研制出现高潮,药品的品种多达数万种,全球药品不良反应的发生率、严重性日益突出。据WHO统计,在世界许多国家,因药物不良反应导致的死亡在其死因顺位中居第 4至6位。而在我国,不合理用药占用药者的12%至
7、32%,在中国现有的聋哑儿童中,60%以上是不合理用药所致,每年因药品不良反应事件死亡的人数高达几十万人,远远超过因传染病死亡的人数。由于药品本身“治病又致病”的特殊性,许多药品在前期临床试验中,因检验的样本小、观察时间与范围有限等原因,很难发现一些药品潜在的危险,因此当这些药品进入临床使用后很可能导致不可预测的危害。那么在要求药品能治病的同时,怎样尽可能减少ADR的发生?为此,需要深入分析ADR与各种可能因素的关系,探求ADR的内在发生机制。可是影响ADR发生的因素十分复杂,不仅有药物的因素,也有非药物的因素,还有病人的体质及用药环境等多方面原因。面对成千上万种药物,不同体质的病人与用药环境
8、,性质各异的不良反应,要研究其中隐藏的深层次规律并合理运用,这对ADR监测和预警工作而言,是一项巨大挑战。具体体现为:如何从海量数据中发现ADR信号?怎样根据数据库特点选取适当的信号检测方法?如何检验信号的真实性?如何挖掘出ADR中隐藏的大量规律?要解决好以上问题,除了需要精深的医学理论与实践作指导外,还离不开现代化信息手段、先进的数据挖掘技术、严谨的数学建模(含统计建模)技术。为此,本课题试图将计算机信息处理技术、数据挖掘技术、统计建模技术有机结合起来,在医学理论与实践的指导下,在海量数据中深层次探究ADR 发生的内在规律,从而尽量减少国家和个人的损失,并有助于在保证药品能治病的同时,尽可能
9、把ADR的危害降到最低限度,从而为构建和谐社会做出贡献。三、国内外关于ADRs信号检测的研究现状1.国内研究现状 我国的ADR监测比国外晚了近20年。1989年,卫生部成立了ADR监测中心,并开展了相应的工作。1998年3月,我国正式加入了WHO国际药品监测合作中心并成为第68个成员国。1998年4月,国家药品监督管理局成立。截止到2002年12月底,31个省、自治区、直辖市均成立了本地区药品不良反应监测中心,加上解放军ADR监测中心,共有32个省级ADR监测中心,国家药品不良反应监测技术体系框架全部建成。2003 年建成覆盖全国的国家ADR监测信息网络系统,这为中国的ADR监测工作提供了现代
10、化的管理手段。而科学有效的ADR监测及应急管理,依赖于高质量的数据库及严谨而科学的ADR综合分析技术。关于我国ADR数据库及相关研究的现状可概括如下:(1) ADR数据采集方式单一且漏报率较高。药品不良反应监测采取的是自愿性报告和强制性报告相结合的方式,药品不良反应报表主要来源于医疗机构,我国药品不良反应的发生率约为5%,但上报率却仅有1%。漏报率较高导致无法计算ADR的发生率,且对自发呈报的ADR进行适宜解释的暴露人群的资料缺乏,由于对药品的ADR报告率的差异,在同等情况下,可影响医生对药品的选择,对ADR的分析质量无疑会产生不利影响。(2)缺乏适合我国国情的ADR信号检测方法和标准。近几年
11、,国内的学者也开始了ADR信号检测的研究工作:李婵娟等人将国外的多种信号检测方法应用于广东省ADR数据并进行了比较与分析5,章少华等根据江苏省ADR数据作了相应的统计分析6,取得了一定的成效,但均未能建立适合我国ADR数据特点的信号检测方法和标准。根据CNKI文献数据库资料查询,国内ADR预警相关文献仅十余篇,并且大部分文献主要讨论了药品安全预警的必要性和意义,因此对于适合我国特点的信号检测方法与标准方面的研究几乎空白。此外在ADR因果评价方面,面对大型数据库,复杂的不确定性影响因素,在医学领域一直是个公认的难题,目前只能采用成本较高的流行病学等方法。其原因在于缺少多学科专业人员的有机融合。(
12、3)缺乏对不良反应内在发生机制的分析。即使有准确的信号检测方法与因果评价方法、及准确的预警,如果没有对ADR内在机制的综合分析,就不会制定出更详细的应急预案,进而更有效地实行应急管理。综观国内不良反应分析方面的学术论文,往往仅是对不良反应病案信息进行简单的归类论述,如计算各类临床表现的构成比和年龄段、性别构成比等,缺少能深入揭示不良反应发生机制的有价值的知识发现。之所以出现这些现象,除了缺少高质量的数据库外,根本原因还在于没有使用数据挖掘、统计建模等深层次的数据分析技术。(4)现代信息技术应用不够。目前ADR主要通过网络进行数据的收集,异常信号检测以主观经验判断和人工评阅为主,2006年全国收
13、集的ADR报告达36万份,从如此海量的报告中通过人工的方式来发现异常信号几乎是不可能的。同时,ADR监测工作主要以药物学和医学相关专业人员构成,缺乏信息处理的技术和能力,不能采用先进的数据处理与分析技术来实现数据的自动处理。2.国外研究现状自著名的“反应停”事件之后,西方各发达国家纷纷着手本国的“ADR监测体系建设”。1968年,WHO应各成员国的要求开始推行“国际ADR监测合作计划”,并最终于瑞典的乌普萨拉镇成立了国际ADR监测中心,即现在著名的UMC中心。随着WHO国际ADR监测合作计划在全球的推广,到本世纪初,各发达国家的ADR报告体系日臻成熟。在现在药品市场日益全球化的大背景下,ADR
14、监测也逐步走向全球一体化。为此WHO及国际ADR监测组织密切合作、协调、制定相关的通行标准与要求,以期提高世界各国ADR报告的数量和质量;并在世界范围内组织研究利用ADR数据库检测生成ADR信号的方法;用流行病学方法进行某些特定药品的安全性研究,加强世界范围内的ADR信息交流等。ADR数据库的建立和完善,将为ADR信号检测提供强有力的数据保证。国外基于ADR数据库的定量研究,较多地集中在ADR信号检测层面,比较而言,利用数据挖掘进行ADR因果评价的研究相对较少。而关于ADR信号检测,目前国际上尚无统一的标准,各国体制不一样,ADR数据的来源、质量和性质不一样,因而检测方法也不可能完全相同。但主
15、流的方法都是基于“比例失衡测量法”, 该方法建立在经典的四格表的基础上,其思想就是估计自发报告系统中实际出现的与某种药物有关的不良反应数量与预期数量或者与其他药物引发的其他不良反应数量的比值来确定信号。目前,该方法已被荷兰的药物警戒中心、英国的药品不良反应监测系统、世界卫生组织Uppsala药品不良反应监测中心(WHO-UMC)及美国的药品不良反应自发报告系统、处方事件监测数据库广泛应用。比值失衡测量法中具体测量比值失衡程度的方法很多,可概括为两大类:即频数方法与贝叶斯方法,都是基于分子的方法(不考虑分母)。前者主要有报告比值比法(ROR)、比例报告比法(PRR)、MHRA法等;后者包括贝叶斯
16、判别可信区间递进神经网络模型(BCPPN)与美国FDA采用的经验性贝叶斯伽玛泊松分布缩减法等。在上述各种定量信号检测方法中,频数方法使用简单、方便、易理解,但具有某些情况下不能计算的缺点;而贝叶斯方法无应用条件限制,可做时间趋势分析,但计算过程复杂,不易理解常需借助计算机程序。所有上述方法的共同缺陷是没有充分考虑ADR数据库中所提供的患者信息与临床信息,并要求报告数足够大(这与预警目的相悖),仅进行关联度分析而非真正意义上的因果分析,且灵敏度和特异度难以同时满足要求,各种方法的结果差异较大,如:日本于2004年开展相关的研究,结果显示在药物-不良反应组合报告数为1、2例时,一致性较差7。在国外
17、现有的上述信号检测方法中,除了BCPPN法可称为真正意义上的数据挖掘之外,其他方法至多可称为基于数据库信息的知识发现,而不是典型或严格意义上的数据挖掘。在信号的因果评价上,国外利用ADR数据库及电子病案等数据库进行了成功的药物流行病学研究工作,如Strom BL利用Medicaid数据库资料,对西米替丁引起中性白细胞减少症进行评价,发现二者因果关系不明显8 ,并通过研究否定了透皮东莨菪碱的使用引起惊厥得假设9。但从因果评价的一般方法来看,仍然主要采用传统的流行病学方法、临床前药理学和毒理学的再验证及Meta方法,或建立在专家知识和经验基础上的“全面内省法”。而基于ADR数据库并利用数据挖掘和数
18、学模型进行因果分析的研究却很少。3.四格表法传统的ADR信号检测方法的研究都是基于四格表原理,报告比例比(proportional reporting ratios,PRRs)就是一种基于四格表原理信号检测方法,通过计算数据库中出现某特定Drug-ADR组合(Drug-ADR combinations)的比例,所得结果与背景相比,如有明显增强并达到一定标准时,可以认为是一个可能的信号。表2.3中,a表示数据库中同时出现目标药物与目标ADR的报告数量,b为目标药物出现的其他所有ADR的总数,c为数据库中除目标药物之外其他药物出现目标ADR的总数,d为整个数据库中除了目标药物以及目标ADR之外的报
19、告总数,n为整个数据库的报告总量。在一个已知数据库中,四个表中a、b、c、d的具体值都可以通过对数据的筛选获得。表2.1 四格表法目标ADR 所有其他ADRs目标药物 a b数据库中所有其他药物 c d 即: 卡方检验校正公式4.小结综观以上国内外研究现状,以及我国在ADR研究方面的不足,在信号检测方法上,针对国外主流类的“比例失衡测量法”的不足,即:某些情况上不可计算、没有充分利用患者信息和临床信息、仅进行关联度分析而非真正意义上的因果分析、且灵敏度和特异度难以同时满足要求,要求报告数足够大等,本课题将利用数据挖掘技术和统计建模的思想对 “比例失衡测量法”中的几种通用的信号检测方法进行有效改
20、进,并建立相应的信号检测标准,使之适合我国体制特点。在信号的因果评价上,无论是国内还是国外,都缺少基于ADR 数据库的定量因果研究, 所以本课题将在遵循因果联系准则的前提下,结合医学理论与实际,通过统计建模技术,解决因果评价的难题。在ADR发生规律的研究上,由于国内基于数据挖掘和统计模型的研究还属空白,国外的相应研究也很少,本课题将利用统计建模思想并结合数据挖掘技术,对ADR数据进行综合分析,多角度多侧面地研究 ADR的发生规律。由于数据挖掘和统计建模技术具有很强的专业性,所以需将这些研究方法得到的结果进行综合,并结合专家意见。四、存在的缺陷及假设性解决方案的提出1.存在的缺陷综上所述,现在国
21、内适合我国特点的特色检测方法与标准方面的研究几乎空白。而国外主流的方法都是基于“比例失衡测量法”,该方法建立在经典的四格表的基础上。比值失衡测量法中具体测量比值失衡程度的方法很多,可概括为两大类:即频数方法与贝叶斯方法,都是基于分子的方法(不考虑分母)。频数方法使用简单、方便、易理解,但具有某些情况下不能计算的缺点;而贝叶斯方法无应用条件限制,可做时间趋势分析,但计算过程复杂,不易理解常需借助计算机程序。所有上述方法的共同缺陷是必须要有足够量的样本,且分母不能为0,否则无法计算结果。2.假设性解决方案的提出我们提出用聚类的方法来对ADR信号进行检测。通过构建多维矩阵,借助Matlab软件实现对
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 聚类分析 ADR 信号 检测 模型