专题策划——临床科研数据库建设Special Planning鼻咽癌专病科研数据库建设与应用孙颖① 李超峰① 林丽① 韩冠平② 刘水清② 郑淑怡②【摘要】 目的:阐述鼻咽癌专病科研数据库建设过程中关于数据标准建设、多源异构数据整合、深度数据治理以及临床数据时序排列等的成效与经验。方法:鼻咽癌专病科研数据库建设过程中,通过梳理“肿瘤通用集、瘤种专科集”两个层次的数据标准,建立数据集-业务活动-数据来源对应关系实现多源异构数据整合,同步进行结构化数据的规范映射存储、文本数据的后结构化和归一化、多病例来源数据的逻辑运算三个级别的数据治理过程,对患者临床数据进行时序排列,实现患者数据有效整合。结果:鼻咽癌专病科研数据库实现了本中心2000年至今的6.6万余例鼻咽癌患者临床数据的有效整合,可实现智能病例检索、患者科研全景和诊疗时间轴查看、科研项目管理和患者随访等功能,有效支撑医生的临床研究工作。结论:建设鼻咽癌专病科研数据库,有助于提升医生的科研效率,挖掘真实世界医疗大数据背后潜在的临床规律。【关键词】 鼻咽癌 专病数据库 大数据 真实世界研究Doi:10.3969/j.issn.1673-7571.2021.01.002【中图分类号】 R319 【文献标识码】 AEstablishment and Application of Database for Nasopharyngeal Carcinoma / SUN Ying, LI Chao-feng, LIN Li, et al.Abstract: Objective: To elaborate the experience of establishment of clinical data standard, integration of heterogeneous data from multi-source, deep data governance and orderly arrangement of clinical data in the process of database construction for nasopharyngeal carcinoma(NPC). Methods: During the construction of the database for NPC, both of the standards of tumor-general data set and NPC-speci?c data set, and the mapping relations of data set-business activities-data source were established. A data governance process at three di?erent levels, including standard mapping storage of structured data, post-structure and normalization of text data and logical computation of multi-source data, and an orderly arrangement of clinical data were carried out. Results: An e?ective integration of clinical data of more than 66,000 NPC patients at Sun Yat-sen University Cancer Center since 2000 were realized by the database for NPC,which can realize intelligent case search, viewing of diagnosis and treatment timeline, management of research projects and patients follow-up. Conclusion: The establishment of a database for NPC would help improve research e?ciency of investigators and discover clinical insights underlying real world data.Keywords: nasopharyngeal carcinoma, disease-speci?c database, big data, real world studyCorresponding author: Sun Yat-sen University Cancer Center, Guangzhou 510060, Guangdong Province, P.R.C.鼻咽癌是我国高发肿瘤之一,东最多[1]。中山大学肿瘤防治中心来,本中心多项前瞻性随机对照临床占头颈部肿瘤发病率首位。据统年收治鼻咽癌逾5 000例,在临床诊研究(RCT)结果改写鼻咽癌国际诊计全球超过40%的鼻咽癌发生在中疗的同时开展大量临床研究,旨在疗指南,成为全球治疗标准[2-4]。除国,华南地区尤为高发,其中以广提高患者生存率和生存质量。近年外RCT,我们不断探索从真实世界①中山大学肿瘤防治中心,510060,广东省广州市越秀区东风东路651号②医渡云(北京)技术有限公司,100191,北京市海淀区花园北路35号《中国数字医学》2021第16卷 第1期 ·7专题策划——Special Planning临床科研数据库建设医疗数据中发现潜在的临床规律,心、区域乃至全国性的肿瘤学科单指导鼻咽癌诊治[5-8]。然而,基于一病种的科研数据库,首先应将真实世界大数据的研究仍然面临诸采集数据标准和规范进行统一和多困难和挑战,例如数据标准不统完善。一、医院各个信息系统事实上存在参考国内外行业标准(表1)的“数据孤岛”、深度数据治理高以及癌症统计数据库SEER度依赖医生手工操作、复杂临床事(Surveillance,Epidemiology,and 件难以有序组织排列等。End Results)的建设经验[11],同时为解决上述问题,提高真实世结合自身实际情况,本中心形成了界大数据研究质量与效率,本中“肿瘤通用集”和“瘤种专科集”心自2015年开始建设基于医院数两个层次的相互补充的标准。“肿据平台的鼻咽癌单病种数据库,瘤通用集、瘤种专科集”双层次的截至2020年11月,全库已经纳入自设置思路既有利于横向其他病种的2000年2月起在本中心就诊的患者拓展,也有利于纵向单一病种数据66 742名。在肿瘤个体化精准诊疗维度的延伸。时代,建设鼻咽癌专病数据库一方肿瘤通用数据集标准,包括18面可以赋能临床研究、挖掘临床规个模块、259个数据元,而鼻咽癌律,另一方面能够帮助医生总结经专病数据集标准包括18个模块(同验、提升疾病的诊治水平,为临床肿瘤通用数据集标准,表2)、804实践提供强有力的数据支撑。本研个数据元,“瘤种专科集”在“肿究就鼻咽癌专病数据库标准化建设瘤通用集”的基础上实现了瘤种特经验、多源异构数据整合、通过数色的数据维度延伸。每个数据元具据治理提升数据可及性、临床数据有9个属性描述,包括模块名称、时序逻辑组织等方面的内容作简要子模块、数据元编码、数据元名阐述和总结。称、数据元英文名、数据元说明、值域、参考标准以及是否可以为1 数据标准先行,通用专用空。对于每个数据元的值域设置,标准相互补充参考了相关的国际标准,同时也兼在医学标准术语体系方面,虽顾了国内临床科研实践、医院信息然我国近年来已引入并形成了诸如化建设中的实用性和可行性。中文医学主题词表(CMeSH)、通过数据标准,对大数据技术国际疾病分类(ICD)及其各个修和管理等方面进行规范化和标准订版等术语标准体系[9],并已在国化,有助于形成强大的信息整合和内发布了卫生健康信息行业标准、数据挖掘能力,对于前瞻性研究可团体标准数十项[10],但上述数据标以实现数据在中心内部以及多中心准体系仍然不足以覆盖临床医疗记之间的互联互通共享,而对于回顾录,尤其是特定疾病专科诊疗过程性的真实世界大数据研究,则有助中形成的所有临床信息。建设全中于从单病种全样本中快速准确地8·China Digital Medicine. 2021,Vol.16,No.1筛选出某个亚组。例如,想从近10年本中心诊治的鼻咽癌患者中筛选出应用顺铂药物化疗的患者,由于临床填报/书写标准和方式不统一(如顺铂、DDP、顺铂-PDD等),从病案首页、化疗小结和医院信息系统收费模块中均无法实现该亚组患者的有效、统一筛选。而数据标准化之后,则能够在专病科研数据库中通过“肿瘤药物治疗,药物成分名,包含顺铂”的简单检索条件实现该亚组患者的迅速筛选。进一步开发基于条件树的多维度查询,可以实现更加精细化、特异性的患者筛选,极大提升专科医生的科研效率。2 打破数据孤岛,多源异构数据自动导入既往临床科研工作中,医疗数据散落在医疗机构内部的各个业务信息系统中,因此应用时存在数据难以共享复用、人工录入过程繁琐、错误率高等诸多问题,使得医疗数据无法有效地整合利用,从而导致真实世界大数据研究无法开展或效率低下。在多来源、异构数据的集成方面,通过科研大数据平台的数据库同步技术和数据仓库技术(Extract-Transform-Load,ETL)等,对院内各个业务系统的数据进行同步、抽取,实现针对医院多个信息系统的多源异构数据的采集和汇聚,同时支持信息孤岛及外部来源数据的导入(图1),确保符合条件的病例自动、持续性入库,形成全量、连续、完整、可再利用的数据资产。在数据整合的过程中值得注意专题策划——临床科研数据库建设Special Planning表1 鼻咽癌专科数据集所参考行业标准(部分)要专科医生、技术人员的共同努分类标准名称力,专科医生负责梳理产生数据可能涉及的业务活动,技术人员需要国家卫生健康委中国卫生信息数据元值域代码WS364.X-2011(X行业数据标准从1到17,共17部分)理解专科医生对数据的需求并转化电子病历基本数据集WS445.X-2014(X从1到为对应的数据来源、拆解为具体的17,共17部分)HL7 CDA文档数据项,在这个过程中跨学科的沟HL7 China CDA规范试行(2013版)(共5个)通和努力尤为重要。国际性肿瘤数据美国国家癌症研究所(NCI)SEER计划编码和库结构分期手册(2015版)美国外科医生学院机构肿瘤注册数据标准FORDS3 提升数据可及,医疗数据(2015版)三级智能治理英国国家癌症智能网络国家癌症数据储存库数据在基于专科知识的数据治理方定义NCDRR_V5.2面,根据数据性质、来源、质量的美国肿瘤临床协会(ASCO)治疗计划最终版(Online)不同可分为3个级别:①第1级的数英国国家临床分析与特定应用小组(NCASAT)据以结构化存储、质量较高为特放疗数据集RTDS数据手册及实施指导V4.0.8点,例如性别、年龄等人口学信息肿瘤学国际诊治以及药品医嘱等,只需要建立规范指南AJCC/UICC临床分期手册(第7版)美国国家癌症研究所常见不良事件评价标准(第的映射存储关系就可以抽取利用。4版)CTCAE V4②第2级的数据以长文本、人工录美国国家癌症研究所肿瘤放疗小组远期放疗反应评估表入为特点,例如影像检查报告、主实体肿瘤疗效评估标准(RECIST) V1.1(美国、诉、现病史、既往史等,需要通过英国、加拿大、欧洲等)后结构化、归一化等数据技术进行……处理,通过自然语言处理技术将大相关术语标准国际疾病分类(第9版)临床修订第三卷:手术段自然语言转化为标准字段和阈与操作 ICD-9-CM-3值,方可供专科医生、科研工作者国际疾病分类(第10版) ICD-10用于统计分析。③第3级的数据以国际疾病分类肿瘤学专辑(第3版) ICD-O-3多病历来源、跨文本、有逻辑关系观测指标标识符逻辑命名与编码系统LOINC V2.42为特点,是在1级和2级数据的基础Karnofsky功能状态评分标准(Online)上增加逻辑计算得出的结果[12],例如放疗和化疗的序贯关系是诱导、国家相关数据标准GB/T 2261.1-2003 个人基本信息分类与代码 第1部分 人的性别分类同期还是辅助等,根据多份病历……(时间关系)、多次结果(不同来GB/T 4671-2008 家庭关系代码源)、进行多种形式的关联和复杂逻辑计算,需要后台“标签”功能的是需要系统梳理鼻咽癌专病数面,可以确保各个数据(业务系统、赋予数据更多的内涵。据集-业务活动-数据来源的对应关业务活动)的可溯源性(图2)。确中文医疗文书作为一种复杂信系,一方面确保鼻咽癌专病科研数保数据的可溯源性有助于后期拓展息,其表达具有重叠、嵌套以及非据库全面覆盖了医院各信息系统,分析维度,并为产出的科研成果提连续要素较多的特点,存在大量的保障数据的全面、有效采集;另一方供丰富、坚实的支撑。这个过程需专业词汇,而且医生个体的习惯用《中国数字医学》2021第16卷 第1期 ·9
好文档 - 专业文书写作范文服务资料分享网站