Exclusive Subject医疗健康大数据论坛特别专题传统医学统计学与医疗大数据应用的对比研究蔡宏伟①摘 要 从传统医学统计学角度,分析医疗大数据的演化过程,并从数据特征、技术特征、应用特征等方面,剖析医疗大数据概念中出现的新元素。同时,讨论了医疗大数据在应用中的局限性。关键词 大数据 医疗 医学统计学Doi:10.3969/j.issn.1673-7571.2016.10.004[中图分类号] R319;TP391 [文献标识码] AThe Comparative Study on the Application of Traditional Medical Statistics and Medical Big Data / CAI Hong-wei//China Digital Medicine.-2016 11(10): 12 to 14Abstract From the perspective of traditional medical statistics, the evolution process of medical big data is analyzed. From data features, technical characteristics, application features and other aspects, new elements appearing in the concept of medical big data are analyzed. At the same time, the limitations of medical big data in application are discussed about.Keywords big data, healthcare, medical statisticsCorresponding author Network Information Department, The First Affiliated Hospital of Xi'an Jiaotong University, Xi'an 710061, Shaanxi Province, P.R.C.1 大数据基本概念目前,被大多数人普遍接受的大数据定义是Gartner在2011年给出的3V定义,即Volume(数据量大)、Variety(类型繁多)以及Velocity(数据产生速度快,处理要求快)。后来,又有人增加了Veracity(真实性)及Value(有价值)两个特性。维基百科中,大数据被定义为所涉及的数据量规模巨大且复杂,以致于无法通过传统的数据处理工具和手段将其整理为人类所能解读的信息。可以看出,以上的定义并不严密。首先,对于“多大的数据量算是大数据”没有清晰的定义。另外,“超出传统工具和方法的处理能力”这个参照也是一个动态过程,因为随着技术的不断进步,处理数据的能力会随之提高。2016年6月21日,国务院办公厅发布《关于促进和规范健康医疗大数据应用发展的指导意见》,该意见是国家层面对医疗大数据发展、应用的一个顶层设计。为了全面、理性看待医疗大数据,需要同时看到它的优势和局限性。[4][3][2][1]2 传统医学统计学与医疗大数据相关概念对比传统医学统计学的核心是通过“样本”推断“总体”情况。经常使用的方法是通过“随机分组”和“随机抽样”,按照一定的统计模型,分析某个事件的发生概率。即从一个严格控制的有代表性的“样本”中,推论出“该样本”所能代表的“总体”规律,再将这个规律去推论个体情况。医疗大数据是假设可以得到或者接近得到这个“总体”数据,通过直接分析“总体数据”,得到“总体”的参数。当可以获得的医疗数据从代表总体的“小样本”逐步接近它所代表的“总体”时,就从传统医学统计学领域进入到医疗大数据范畴。2.1 二者目的是相同的 传统的医学统计学主要目的是通过对已发生的事件分析,对未来事件发生的可能性做出统计推断,①西安交通大学第一附属医院网络信息部,710061,陕西省西安市雁塔西路277号[5]12·China Digital Medicine,Eec.2016,Vol.11,No.10第10期cs4-改.indd 1217-2-13 下午4:16也就是预测[5]。大数据分析的目的也是从复杂的数据池中发现新的模式和知识,挖掘得到有价值的新信息,并指导实践。2.2 医疗大数据中出现的新元素 医疗大数据分析是传统统计学的发展,二者的区别主要体现在三方面,分别是数据特征、技术特征和应用特征。2.2.1 数据特征2.2.1.1 数据来源不同 传统医学统计学的数据一般是经过严格设计和控制的,在前瞻性研究(prospective study)中,研究方案就详细定义了需要采集的数据内容、采集频次、持续时间等,为控制数据质量以及降低数据采集成本,数据来源一般比较局限。医疗大数据的来源比较广泛,可以来自电子病历数据(或健康档案),实验室检验数据、影像数据;医疗保险数据;基因组学、蛋白质组学数据;移动可穿戴设备采集的个人数据;社交媒体数据;公共卫生数据(如政府公开的数据库);家族疾病史背景数据;居住环境数据等。很多情况下,还要求将不同来源的数据进行关联整合,以建立全方位的立体视图,发挥数据的协同作用[6]。2.2.1.2 数据量级不同 传统医学统计学中一个重要概念是“样本量计算”,即通过计算得到“为达到某个统计结论所需要的最小的样本例数”[7]。因为所有统计推断都是基于统计模型的,且出于控制成本考虑,传统医学统计学要求样本数量能够达到统计结论即可,数量一般从几例到上千例不等。医疗大数据则是在工作或生活中伴随产生的副产品,如电子病历数据、基因组数据、可穿戴设备采集的数据等,其数量级可达数十万第10期cs4-改.indd 13Exclusive Subject特别专题医疗健康大数据论坛至上亿。system)等。2.2.1.3 数据质量等级不同 传统医学2.2.2.3 数据处理方式不同 医疗大数统计学中,因不同的研究类型对数据一般采用MapReduce分布式计算框据质量有不同的要求。其中,RCT架,将大量的计算任务通过Map任务(Randomized Controlled Trials,随进行分布式部署到每个终端,然后通机对照临床试验)被称为“评价临床过Reduce任务对所有Map任务的执行药效以及干预措施的金标准”[8],它要结果进行汇总[10]。求数据准确、完整、真实、一致、可2.2.2.4 数据分析方式不同 传统医学追溯。新药临床试验大都基于这种设统计学一般使用经典统计模型(如t计,其试验结果直接决定某种药物是检验)以及贝叶斯方法来分析数据;否可以上市销售。前瞻性的队列研究而医疗大数据除采用传统的统计分析对数据质量要求有所降低,而回顾性技术外,还引入对未知数据信息的分的病历对照研究,其数据质量要求则布式挖掘和深度学习技术。其分析方更低。法主要有聚类、分类、关联分析以及由于分析目的不明确,数据来源机器学习等[4]。IBM的Watson在医学广泛以及数据产生阶段质量控制环节大数据分析领域以及模拟人工认知方的缺乏,医疗大数据的数据质量一般面,做了很多有益探索[6]。较差,影响数据质量的主要因素包括2.2.3 应用特征 传统医学统计学可以“数据缺失、噪声数据、错误数据以得出“相关关系和因果关系”,而医及多数据来源时数据间的自相矛盾”疗大数据分析一般只能得出“相关关等[4]。系”。目前,医疗大数据分析主要应2.2.2 技术特征 由于医疗大数据的体量用在以下几方面。巨大,其技术处理方面主要是采用各2.2.3.1 临床决策 通过医疗大数据研种“分布式”技术来分解压力,提高究,发现既往难以发现的规律,指效率。导临床实践,如预测ICU(Intensive 2.2.2.1 数据采集方式不同 传统医Care Unit)病人的再次入住率和死学统计学数据的采集主要通过人工亡率[11]。还有研究发现,人工智能方录入,而医疗大数据的采集一般来法对动脉瘤的诊断正确率(95%)自设备数据收集和Web数据爬取要高于人工对该病的诊断正确率两大类,数据采集软件有Splunk、(70%)。另外,通过个性化基因分Sqoop、Flumey;爬虫类采集软件如析,可以预测个体罹患某种疾病或癌Hertitrix、Nutch等。症的概率,以帮助其做出科学决策。2.2.2.2 数据存储方式不同 医疗大数据2.2.3.2 临床研究 通过医疗大数据分析的存储一般采用分布式存储系统。如的帮助,可以降低药物临床试验的成分布式数据库和分布式文件系统[9],本,加速药品上市时间以及更早发现分布式数据库系统如Greenplum、严重的药物不良反应[12]。Vertica等;分布式文件系统如HDFS2.2.3.3 公共健康 医疗大数据的分析应(Hadoop分布式文件系统)、用有很强的实时性。对搜索引擎关键GFS(Google分布式文件系统)、词的分析可以提前预测(比CDC的分KFS(Kosmos distributed field 析结果提前1-2周)“流感样疾病”的《中国数字医学》2016年第11卷第10期 ·1317-2-13 下午4:16Exclusive Subject特别专题医疗健康大数据论坛传播情况[13-14]。它可通过数据模型快合时,还需考虑数据标准以及数据互速追踪传染性疾病的爆发规律,结合操作性[12]。而计算机软硬件的发展、危急值预警采取有效的预防措施。另医疗大数据分析的理论模型以及大数外,通过对病人所有健康数据的综合据分析人才的培养供给,也会影响其分析,可以为个人提供包括“生活方应用效果。对医疗大数据分析结果的式”在内的全方位健康指导。“正当”使用也是需要考虑的问题。总之,医疗大数据分析应用才3 医疗大数据应用的局限性刚刚起步,还需在互联互通、隐私保3.1 医疗大数据仍是样本 大多数情况护、获益主体承担的义务等多方面做下,很难得到“总体”数据,而仍然出探索并制定规则。是“大样本”数据。只要是样本,就可能存在“偏倚”,在“偏倚”数据 参参考考文文献献的基础上,必然得出“偏倚”的结[1] Laney D.The Importance of 'Big Data':A 论。且在某些情况下,这种“偏倚”Definition[EB/OL].[2012-06-21]. https://还可能被放大[15]。同时,数据质量www.gartner.com/doc/2057415.的缺陷无法通过单纯数量的增加来弥[2] Demchenko YZZGP.Addressing Big Data 补,所以医疗大数据分析目前还无法取代严格控制的“小样本临床研challenges for Scientific Data Infrastructure.究”[16]。Taipei,Taiwan:IEEE Computing Society,based 3.2 医疗大数据对全新事件的预测无能in California, USA,2012:614-617.为力 医疗大数据的人工智能分析只能[3] Wikipedia TFE.Definition of Big Data[EB/对以往发生的事件规律进行归纳,如OL].https://en.wikipedia.org/ wiki/Big_data.将来发生的事情是以往没有发生过的[4] Hilbert M.Big Data for 全新事件,则需结合理论指导对未来Development:A Review of Promises 做出预测。and Challenges[J]. Development Policy 3.3 大数据中“噪音数据” “噪音数据”或“伪数据”会干扰到决策实Review,2016,34(1):135-174.施,对这些“伪数据”的鉴别,目前[5] 蔡宏伟.统计推断与平均组间效应[J].中国研究还很少。卫生统计,2016(1):166-168.[6] Chen Y,Elenee AJ,Weber G.IBM 4 医疗大数据分析应用的Watson:How Cognitive Computing Can Be 制约因素Applied to Big Data Challenges in Life Sciences 医疗大数据的应用仍有很多制约Research[J].Clin Ther,2016, 38(4):688-701.因素。如数据安全和病人隐私问题,[7] Sakpal TV.Sample size estimation in clinical 包括系统漏洞导致的病人信息泄露,拥有权限人员对病人信息的无意泄trial[J].Perspect Clin Res, 2010,1(2):67-69.露,以及由于权限划分不当导致数据[8] Van Poucke S,Thomeer M,Heath J,et 使用者获取超过实际需要的隐私信息al.Are Randomized Controlled Trials the 等[17]。(G)old Standard? From Clinical Intelligence 当不同来源的医疗大数据进行融to Prescriptive Analytics[J]. J Med Internet 14·China Digital Medicine,Eec.2016,Vol.11,No.10第10期cs4-改.indd 14Res,2016,18(7):e185.[9] Yang C,Shih W,Chen L,et al.Accessing medical image file with co-allocation HDFS in cloud[J].Future Generation Computer Systems,2015, s43-44:61-73.[10] Mohammed EA,Far BH,Naugler C.Applications of the MapReduce programming framework to clinical big data analysis:current landscape and future trends[J].Bio Data Min,2014,7:22.[11] Herland M,Khoshgoftaar TM,Wald R.A review of data mining using big data in health informatics[J].Journal of Big Data,2014,1(1):1-35.[12] 蔡宏伟,李砚泓,张子豹,等.药物临床试验数据互联互通的应用及展望[J].药学学报,2015(11):1415-1419.[13] Zhang Y,Fong S,Fiaidhi J,et al.Real-time clinical decision support system with data stream mining[J].J Biomed Biotechnol,2012,2012(5):489- 506.[14] Raghupathi W,Raghupathi V.Big data analytics in healthcare:promise and potential[J].Health Inf Sci Syst,2014,2:3.[15] Kaplan RM,Chambers DA,Glasgow RE.Big data and large sample size:a cautionary note on the potential for bias[J].Clin Transl Sci,2014,7(4): 342-346.[16] Fan J,Han F,Liu H.Challenges of Big Data Analysis[J].Natl Sci Rev,2014, 1(2):293-314.[17] Kum HC,Ahalt S.Privacy-by-Design:Understanding Data Access Models for Secondary Data[J].AMIA Jt Summits Transl Sci Proc,2013:126-130.【收稿日期:2016-08-05】(责任编辑:赵士洁)17-2-13 下午4:16
好文档 - 专业文书写作范文服务资料分享网站