数据挖掘在医学方面的应用
1引言
随着数据库技术的飞速发展,信息技术已渗透到包括医学在内的各种领域。很多大中型医院都相继建立了自己的医院信息系统(HIS),随着HIS的应用和不断发展,数据库中的数据量迅速膨胀,数据库规模逐渐扩大,复杂程度日益增加。但是尽管积累了大量的业务数据,真正能将这些数据的价值挖掘出来,并运用到医院的临床辅助诊断和日常管理决策中去的却很少。提出了建立基于HIS系统的医学信息数据仓库,在此基础上,对数据仓库中的医疗数据进行疾病监测、预测、医院管理辅助决策等方面的数据挖掘。为医务工作者、临床管理人员、科研人员提供辅助决策与综合分析的工具。在医疗方面具有重要的意义。
2.数据挖掘技术介绍
2.1数据挖掘额的概念
数据挖掘是商务智能应用中较高层次的一项技术,是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程1。利用数据挖掘用户将可以更加方便地发现数据的规律,用户可以利用这些规律对某些符合特征的数据作出预测。
数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先未知是指数据挖掘所得到的信息应该是先前不能凭直觉或一般的技术方法所能得到的信息,挖掘到的住处越是出乎意料就可能越有价值。在这方面的一个典型例子就是一家连锁商店通过数据挖掘发现小孩尿布和啤酒之间有着惊人的联系。而有效和可实用是数据挖掘的目的所在。
数据挖掘的分析方法有很多种,针对不同的用途就有不同的分析方法,比较常见的分析方法有一下集几种:分类、预测、相关性分组活关联规则、聚类、估值、描述和可视化、复杂数据类型挖掘,包括文本数据挖掘。WEB数据挖掘、图形图像数据挖掘、视频和音频数据挖掘。
2.2数据挖掘的过程
数据挖掘的过程一般由三个主要的阶段构成:数据准备、开采操作、结果表达和解释,对知识的发现可以描述为这三个阶段的反复过程。
(1)数据准备
这个阶段又可进一步分成三个子步骤:数据集成,数据选择、数据预处理。数据集成将多文件和多数据库运行环境中的数据进行组合,解决语义模糊性,处理数据中的遗漏和清洗无效数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。
(2)数据挖掘
这个阶段进行实际性分析工作,包括的要点是:先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对数据库中可能包含的知识提出假设,前一种称为发现型的数据挖掘;后一种称为验证型的数据挖掘。再选择合适的工具进行发掘知识的操作,最后进行证实。
(3)结果表述和解释
根据用户的需求对提取的信息进行分析,挑选出有效信息,并且通过决策支持工具进行移交。因此,这一步骤的任务不仅是把结果表达出来(例如采用信息可视化方法),还要对信息进行过滤处理,如果不能令用户满意,需要重复以上数据挖掘的过此,这一步骤的任务不仅是把结果表达出来(例如采用信息可视化方法),还要对信息进行过滤处理,如果不能令用户满意,需要重复以上数据挖掘的过程。
2.3数据挖掘的功能
(1)自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
(2)关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
(3)聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。
(4)概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
(5)偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
3数据挖掘在医学中的应用
3.1数据挖掘在生物医学/DNA中的应用 随着全球人类基因组计划(Human Genome Project)对人类24对染色体全部基因测序的完成,人类基因的研究将进入全新的发展阶段。因此对DNA的序列模式分析是分子生物医学领域工作者面临的重要任务,而数据挖掘成为DNA分析中的强有力的工具,并在以下方面对DNA的分析做出不小的贡献。
(1)DNA序列问相似搜索与比较:在基因分析中一个最为重要的搜索问题是DNA序列中的相似搜索和比较。对分别来自带病和健康组织的基因序列,进行比较以识别两类基因间的差异。做法可以是首先从两类基因中检索出基因序列,然后找出并比较每一类中频繁出现的模式,通常在带病样本中出现频度超出健康样本的序列,可以认为是导致疾病的基因因素;另一方面,在健康样本中出现频度超出带病样本的序列,可以认为是抗疾病的因素。
(2)关联分析:同时出现的基因序列的识别:目前许多研究关注的是一个基因与另一个基因的比较。大部分疾病不是由单一基因引起的,而是基因组合起来共同起作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现的基因种类,此类分析将有助于发现基因组和x,-t基因间的交叉与联系的研究。
(3)路径分析:发现在不同阶段的致病基因:引起一种疾病的基因可能不止一个,不过不同基因可能在不同阶段起着作用。如果能找到疾病发展的不同阶段遗传因素序列,就有可能开发针对疾病不同阶段的治疗药物,从而取得更为有效的治疗效果,在遗传研究中路径分析会起到重要的作用。
4.国内生物医学数据挖掘的应用现状及展望
联系方式:大数据开发公司
(4) DNA序列分类:DNA序列中有外显子和内含子,外显子是被转录为信使RNA并被翻译成蛋白质的序列,而内显子则不然。区分DNA序列中的外显子和内含子也是很重要的,非线性相关统计法——AMI(average mutual information)是可行的,另外,神经网络、分类及聚类算法也是有用的。
3.2数据挖掘在医学中的应用
(1)疾病诊断:正确的诊断对于指导病人的用药及康复显然是重要的,在临床中有些疾病错综复杂,数据挖掘的有关分类分析可以应用于疾病的诊断。粗糙集理论、人T神经网络、模糊逻辑分析在疾病诊断方面是有效的。国内有学者将粗糙集理论应用于中医类风湿的诊断,取得了满意的效果,大大提高了诊断准确率,国外A.Kusiak等将基于粗糙集理论的两种算法应用于实体性肺结节的诊断,诊断准确率达100%,Roshawrma Scales等基于人工神经网络理论及模糊逻辑开发的对心血管疾病诊断的工具对疾病诊断的正确率达到92%。
(2)疾病相关因素分析:在病案信息库中有大量的关于病人的病情和病人的个人信息,包括年龄、性别、居住地、职业、生活情况等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。Jonathan C.Prather等成功地应用数据挖掘的有关理论对Duke大学医学中心的产科病人早产的3个危险因素进行了分析。
(3)疾病预测:确定某些疾病的发展模式,根据病人的病史预测病情的发展趋势,从而有针对性的预防疾病的发生。应用粗糙集理论根据以往病例归纳出诊断规则,用来预测新的疾病的发生,现有的人工预测早产的准确率只有17%~38%,应用粗糙集理论则可提高到68%~90%。
(4)在医疗质量管理中的应用:医疗保健领域的改革使得费用压力增加,另外一方面对医院医疗质量的需求也增高,以及其他医疗服务机构的增多,使得医院管理者比以往更关心医疗及管理的质量以及费用一效益比率。医疗质量管理的核心是数据、标准、计划以及治疗的质量,这些质量可以用不同的指数来衡量,数据挖掘可以帮助质量管理者解决下列任务:发现新的关于数据、标准、计划以及治疗的质量指数的假说;检验现有的关于数据、标准、计划以及治疗的质量指数是否有效;提炼,粗糙化及调整关于数据、标准、计划以及治疗的质量指数。常见的问题有:什么原因导致违背标准?个人信息、年龄、性别是怎样影响对标准的违背的?比如:若年龄因素和某种治疗导致住院时间比标准住院时间长,是否考虑修改治疗方案?数据挖掘可以帮助发现有关提高临床服务效率及质量潜力的证据。
(5)在医学图像中的应用:医学领域中越来越多地应用图像作为疾病诊断的工具,如SPECT、CT、MRI、PET等,数据挖掘可以应用于医学图像的分析。Sacha等成功地运用基于贝叶斯分类的数据挖掘模式对心肌SPECT图像进行分类诊断。
(6)在医学其他方面的应用:数据挖掘还应用于毒理学方面,药物的新的副作用发现。
4.国内生物医学数据挖掘的应用现状及展望
我国的医院信息系统(HIS)经过多年的自动化建设,已具备相当的物质条件和人才储备,并积累了大量数据,为数据挖掘应用奠定了一定的物质基础。而且,医院信息化发展是我国信息化建设的重要组成部分,国家对此给予了高度的重视并提供了大量政策上和经济上的支持,为行业性数据挖掘的实施提供了良好的政策环境和经济保障。
在我国,尽管医学的数据极为丰富,但运用数据挖掘技术分析和处理这些数据资源的研究尚处于起步阶段。原因主要在于以下两个方面:其一,数据挖掘采用许多复杂的数学工具,这可能使生物医学科学研究者“望而却步”。其实,这种“恐惧”心理是不必要的。对于生物医学领域的研究者而言,并不需要设计这些数学工具,他们需要的是理性地使用这些现有的工具。许多数据处理软件包(如Weka、BMiner、SPSS Clementine和SAS Enterprise Miner等)都包含常用数据挖掘方法的功能。其二,当前医学教育中的知识结构使大部分生物医学研究者对“数据挖掘”这类数据分析处理技术不甚了解、也不甚敏感,也就更难以自觉地应用。随着生物医学研究人员对“数据挖掘”及其应用的理解不断深入,这种新颖的数据分析工具必将对生物医学研究产生积极的促进作用。
5结语
生物医学数据库是一个复杂数据库,包括电子病历、医学影像、病理参数、化验结果等。目前数据挖掘技术主要应用于以结构化数据为主的关系数据库、事务数据库和数据仓库,对复杂类型数据的挖掘尚在起步阶段。
造成这种局面的可能原因有:挖掘结果的可理解性欠佳;挖掘结果数量过大,难以处置:挖掘方法在实际应用中与用户的交互作用不理想等。数据挖掘在经过多年的发展之后已经形成相对成熟的技术体系,特别是在数据挖掘设计、数据抽取以及联机分析处理技术等方面都取得了令人满意的进展,为数据挖掘的应用奠定了技术基础。随着数据挖掘技术的广泛应用和各种挖掘算法的不断改进完善,结合生物医学信息自身的特殊性和复杂性,处理好挖掘过程中的关键技术,使数据挖掘技术在处理生物医学资料中的功能日益强大。数据挖掘技术在生物医学研究、医疗卫生管理与决策中的应用范围也会越来越广,并带来可观的经济和社会效益。
造成这种局面的可能原因有:挖掘结果的可理解性欠佳;挖掘结果数量过大,难以处置:挖掘方法在实际应用中与用户的交互作用不理想等。数据挖掘在经过多年的发展之后已经形成相对成熟的技术体系,特别是在数据挖掘设计、数据抽取以及联机分析处理技术等方面都取得了令人满意的进展,为数据挖掘的应用奠定了技术基础。随着数据挖掘技术的广泛应用和各种挖掘算法的不断改进完善,结合生物医学信息自身的特殊性和复杂性,处理好挖掘过程中的关键技术,使数据挖掘技术在处理生物医学资料中的功能日益强大。数据挖掘技术在生物医学研究、医疗卫生管理与决策中的应用范围也会越来越广,并带来可观的经济和社会效益。
电话:010-52895342,400-886-7161
邮件:service@hivekion.com
网址:http://bdp.hivekion.com
【北京华盛恒辉科技有限公司 ——(hivekion)是全球领先的北京软件开发公司,专注软件产品研发与服务,华盛恒辉坚持稳健经营、持续创新、开放合作,在安全生产、军工航天铁路、大数据处理等领域构筑了端到端的解决方案优势,为企业客户提供有竞争力的IT解决方案、 产品和服务, 并致力于使能未来信息社会、 构建更美好的世界。】
上一篇:大数据时代下数据挖掘技术的应用
下一篇:中国大数据公司主力军