摘要:区域卫生数据来源于不同的医院,经历多轮采集、转换、整合过程,数据可能存在各种质量问题。提出了一套“数据可用性”的评估流程,从临床科研需求出发,设计评估需求模板,采集评估需求,进而获得评估度量。通过面向心力衰竭疗效分析的需求实例,获得了与数据的完整性和一致性相关的10个度量指标,并对某省级区域平台的数据进行了可用性评估。结果发现,与临床科研相关的数据的完整性和一致性都仍有待提高。 关键词:区域卫生数据;数据质量;数据可用性;疗效分析
1 引言
在过去的十余年中,为促进医疗信息的互联互通与信息共享,加强卫生监管监督,各省市大多建立了区域卫生信息平台。经过若干年的积累,这些平台已经收集和存储了区域内医院的大量电子病历(electronic medical record,EMR)数据,这些数据不但记录了病人的基础信息,也记录了医生的诊断信息、患者的用药等治疗信息。将这些数据用于临床科研,对激活区域卫生数据有重要的作用。临床科研人员可以通过对海量临床电子病历数据的分析发现病人治疗的效果、病情的变化情况,从而促进新治疗方案的提出和药物的研发。近几年各国政府正在积极推动使用电子病历进行临床研究,例如,美国国立卫生研究院推动的战略健康IT高级研究项目(Strategic Health IT Advanced Research Projects,SHARP)[1]等。而在疗效分析、转归分析和临床工作流分析等临床科研中,基于电子病历的研究也受到广泛的关注 [2,3,4]。
由于区域卫生平台上的数据来源于医院电子病历系统,或医院多个信息系统融合而成的临床数据中心(clinical data repository,CDR),这些系统在
医院发展过程中经历了多次版本变化,而在不同系统之间,数据的统一表示、关联和集成都存在各种问题。区域卫生平台数据又来源于不同医院,异构性更强。同时,医生录入电子病历主要记录医疗过程,记录过程中数据本身会有缺失,而如何记录和表示这个过程,也缺乏语义规范。 另外,无论是区域平台的构造,还是电子病历本身,都并不直接面向科学研究。从管理收费角度来看质量良好的数据可能无法满足临床科研的需求。因此,为了掌握区域平台数据能否或在多大程度上支撑某一类临床科研,就需要在做科研之前,对数据进行质量评估。评估结果可以用于设计与细化实验分析过程,也可以用于未来改造医学系统,提升电子病历数据质量。 目前,电子病历的研究工作集中在提出电子病历数据的度量指标以及利用指标发现数据集合上的质量问题[5]。例如, Weiskop f N G等人[6]提出了Breadth、Documentation、Density、Predictive等多个面向数据完整性的指标,并在医院数据上进行了验证。参考文献[7]提出电子病历数据中存在的错误和不准确主要包括数据实体错误、数据字段缺失、整个记录缺失以及数据抽取和变换过程引发的错误。参考文献[8]提出了面向电子病历的3个数据质量维度:一致性、完整性和真实性,从外部规定和内部特征两个方面给出了质量度量指标,并给出了每个度量指标的实例,但这些度量指标没有应用在具体的数据集中。参考文献[9]不仅从完整性、准确性和及时性3个方面定义了13个评估指标,还利用这13个指标对支持iSanté系统的95家机构的数据进行了定量评估,发现了各机构的数据质量问题,并给出机构的数据质量排名。
在上述研究中,使用哪些质量指标评估数据完全是根据评估者的经验。根
据数据质量公认 的定义[10],质量是“数据适合使用的程度(fit to use)”,数据使用的场景是数据质量的核心,数据质量评估的结果应反映数据与使用的适合程度。为此,本文提出了一套基于“数据可用性”的通用评估流程,该流程包括评估需求模板的设计、评估需求的采集以及从评估需求中得到的评估度量。根据此评估流程,可以获得一系列评估度量。基于该方法,针对某个省级区域平台的心力衰竭病人数据的临床疗效分析需求,做了数据质量可用性评估。
2 相关工作
Wang R Y[11]最早提出了一种基于过程管理的数据质量管理(total data quality management,TDQM)方法,引入了工程管理中质量管理的方法,全面管理数据的质量。该方法分为4个步骤:定义、评估、分析、提高。该方法面向数据库用户建立一套信息质量度量体系,评估数据错误率、数据丢失率,并记录一致性和最近数据情况等。随后Lee Y W等人[12]提出了信息质量评估方法(methodology for information quality assessment, AIMQ),帮助企业全面了解信息质量状况,并能随时监视信息质量的改进过程。AIMQ将信息按信息产品质量和信息服务质量、符合规范和满足用户期望情况分为4类:健全信息、有用信息、可信赖信息、可用信息。通过专家调研得到每类信息的质量维度,构建产品服务性能/信息质量(product service performance /information quality,PSP/IQ)模型。TDQM和AIMQ从不同角度分别建立了信息质量度量体系,但这两种方法均没有涉及评估需求的产生过程,且建立的指标体系与应用场景无关。
考虑具体的应用场景,Batini C等人[13]提出了一种 综合数据质量管理方法——CDQM (complete data quality methodology)。CDQM关注数据与组织之间的密切关系,认为数据质量评估和改进与业务流程和组织密切相关。该方法将评估分为3个阶段:数据状态的重构、评估和选择最优的改进流程。数据状态的重构阶段重新建立组织机构、流程、服务和数据之间的关系;评估阶段根据与提供服务有关的主要问题定义新的质量维度,评估数据流和数据库的数据质量,并确定质量问题所在的位置。该方法能快速发现产生质量问题的数据所在位置,为提升数据质量提供了依据。此外, Woodall P等人[14]提出了一种数据质量评估的混合方法,目的是省略不必要的评估步骤,节约数据质量评估的成本、时间和资源。通过抽取现有评估技术中的活动,对不同的活动进行分类,然后明确评估目标,根据需求选择所需的活动,省略不必要的活动或者将这些活动并行运行,组合成新的评估技术。上述研究的评估目标主要是提升企业的数据质量,要求数据符合管理需求。但在实际应用中,数据集除了适用于管理,还有许多其他用途。
在医疗领域中,参考文献[15]针对衣原体病和淋病患者的电子报告(ePR)进行数据质量评估。评估过程分为5个步骤:验证报告文件格式,确认所需字段都存在;分析ePR记录是否都可报告;分析ePR记录是否都能正确显示;平行验证历史数据中患者地址、治疗日期、治疗信息、种族、民族的完整性,测试ePR每日数据记录的完整性和及时性;重新评估过程,对实验室报告记录进行再次验证,并将结果作为金标准。参考文献[16]对电子病历的数据用于产科研究的可靠性进行了评估。研究者首先从电子病
历报告中提取数据,然后根据经验定义了评估指标:分娩方法、诱导产程、宫颈成熟、顶点呈现和产后出血等,对评估指标的数据一致性进行了评估。由于在医疗领域中每种应用场景的质量要求各不相同,评估的度量体系也各不相同,因此,需要定义一套可操作的通用评估流程,分析数据集在不同的应用场景中是否适用。
3 评估方法
本文提出的数据可用性评估方法如图1所示。首先,通过评估需求模板收集评估需求,汇聚需求得到评估字段;其次,利用数据集成和数据筛选过程确定评估需求;再次,建立评估映射关系并定义评估度量,定义评估度量后可返回更新评估映射;最后,利用错误自动检测技术定量地评估数据质量,并根据评估结果分析数据的可用性。
图1 数据可用性评估方法示意 整个过程可分为以下6个步骤: 步骤1 收集评估需求; 步骤2 确定评估数据; 步骤3 建立评估映射;