Data Management and Utilization数据管理与利用基于TCGA数据挖掘的乳腺癌预后相关mRNA研究范荣① 叶明全②* 蒋永超① 熊月玲①【摘要】 目的:寻找可作为乳腺癌生物标志物的mRNA。方法:利用癌症基因组图谱和基因表达数据库的转录组测序数据集进行差异分析和功能富集分析,构建蛋白相互作用(Protein Protein Interaction,PPI)网络,然后采用Lasso回归构建风险预后模型,以鉴别高风险和低风险病例。结果:共鉴定出176个上调mRNA和562个下调mRNA;PPI网络主要由6个模块组成;风险预后模型由ATP5B等16个mRNA组成;预测训练集和验证集的一年、三年和五年ROC曲线下面积分别为0.820、0.792、0.747和0.741、0.747、0.699。结论:研究成果为乳腺癌诊断和预后提供候选生物标志物,也为进一步阐明乳腺癌分子病理机制提供生物信息学基础。【关键词】 mRNA TCGA 乳腺癌 PPI 预后Doi:10.3969/j.issn.1673-7571.2021.01.024【中图分类号】 R319 【文献标识码】 APrognosis-related mRNA of Breast Cancer Based on TCGA Data Mining / FAN Rong, YE Ming-quan, JIANG Yong-chao, et al.Abstract: Objective: Looking for mRNA that can be used as breast cancer biomarkers. Methods: To use the transcriptome sequencing data set of the Cancer Genome Atlas and the Gene Expression Omnibus for differential analysis and functional enrichment analysis, construct a protein interaction (PPI) network, and then use Lasso regression to construct a risk prognosis model to identify high-risk and low-risk cases. Results: A total of 176 up-regulated mRNAs and 562 down-regulated mRNA were identi?ed. The PPI network is mainly composed of 6 modules. The risk prognosis model consists of 16 mRNA including ATP5B. The area under the receiver operating characteristic (ROC) curve for the training set and the validation set for one, three and five years are 0.820, 0.792, 0.747 and 0.741, 0.747, 0.699 respectively. Conclusion: The research results provide candidate biomarkers for the diagnosis and prognosis of breast cancer, and provide a bioinformatics basis for further elucidating the molecular pathology of breast cancer.Keywords: mRNA, TCGA, breast cancer, PPI, prognosisFund project: General Project of National Natural Science Foundation of China (No. 61672386); General Project of Natural Science Foundation of Anhui Province (No. 1708085MF142); Research Planning Fund of Humanities and Social Sciences of Ministry of Education (No. 16YJAZH071)Corresponding author: School of Medical Information, Wannan Medical College, Wuhu 241002, Anhui Province, P.R.C.基金项目:国家自然科学基金面上项目(编号:61672386);安徽省自然科学基金面上项目(编号:1708085MF142);教育部人文社会科学研究规划基金(编号:16YJAZH071)*通信作者:皖南医学院医学信息学院,241002,安徽省芜湖市高教园文昌西路22号①皖南医学院医学信息学院,241002,安徽省芜湖市高教园文昌西路22号②皖南医学院健康大数据挖掘与应用研究中心,241002,安徽省芜湖市高教园文昌西路22号《中国数字医学》2021第16卷 第1期 ·107数据管理与利用Data Management and Utilization乳腺癌是女性最常见的恶性肿1.2 研究方法 瘤之一[1-2]。2019年估计有268 6001.2.1 乳腺癌数据集差异分析 采用例新发病例和41 760例死亡病例,R语言edgR数据包差异分析TCGA-占所有新发癌症病例的30%和癌症BRCA,设置筛选标准P<0.001,相关死亡的15%[3]。目前乳腺癌临|log2FC|>1;利用GEO2R方法差异床治疗得到改善,但因其预后差和分析GSE139038,设置筛选标准高死亡率,乳腺癌仍严重威胁女性P<0.01,|log2FC|>1;对上述两种健康,病情恶化还会影响患者生命差异分析结果进行交集运算。安全。随着肿瘤基因组学的快速发1.2.2 差异表达基因的功能富集分展,发现高度特异性的生物标志物析 针对共同上调mRNA和共同下已成为乳腺癌临床诊断和治疗的内调mRNA进行功能富集分析,包在需求[4]。括生物进程、分子功能和细胞成癌症基因组图谱(The Cancer 分。利用R包clusterProfiler进行功Genome Atlas,TCGA[5])和基能富集分析,P<0.05有统计学差因表达数据库(Gene Expression 异,每个项目选取前10个类目进Omnibus,GEO)作为最权威的癌行作图。症基因组数据库,为大规模肿瘤研1.2.3 蛋白互作网络和MCODE分析 究提供丰富的原始数据。本研究利采用Metascape在线数据库(http://用TCGA和GEO中乳腺癌相关数据metas cape.org/gp/index.html#/main/集进行差异分析,以识别共同的差step1)对176个共同上调mRNA进异表达基因(Di?erentially Expressed 行蛋白质相互作用(Protein-Protein Genes,DEG),并对差异表达基因Interaction,PPI)网络分析。利用进行功能富集分析。然后,本研究应Cytoscape软件(https://cyto scape.用单变量Cox回归和Lasso回归[6]分析org/)进行可视化,MCODE插件构建乳腺癌预后模型,预测患者预识别关键模块。每个模块中功能后。其中,通过单因素Cox回归,富集分析均在Metascape数据库中以P<0.001为标准,确定49个可以进行。预测预后的mRNA;通过Lasso回1.2.4 构建乳腺癌预后模型[7] 利用归进一步筛选16个mRNA组成一个乳腺癌数据集(TCGA-BRCA)风险预后模型,利用乳腺癌4种亚进行单变量Cox回归分析和Lasso型评估该预后模型的临床效用。研回归分析,以确定预后相关基究结果为预测和评估乳腺癌患者的因,构建预后基因集。单因素临床预后提供新的见解。Cox回归分析P<0.001被认为具有明显统计学意义。预后基因1 资料与方法特征表现为风险评分=(系数1.1 资料来源 本研究从TCGA乳腺mRNA1×表达mRNA1)+(系数癌数据集(TCGA-BRCA)和GEOmRNA2×表达mRNA2)+…+(系乳腺癌数据集(GSE139038)中数mRNAn×表达mRNAn)。R包获取mRNA和临床数据。其中,“Survival”和“Survminer”被用TCGA-BRCA数据集包含1 102个乳于探索风险得分的最佳截断值,腺癌样本和113个正常乳腺样本;绘制Kaplan-Meier生存曲线。R包GSE139038包含41个乳腺癌样本和“Survminer”中“surv_cutpoint”24个正常乳腺样本。函数用于确定将患者分为高风险108·China Digital Medicine. 2021,Vol.16,No.1组和低风险组的最佳截断值。R包“survivalROC”用于研究预后基因集的时间依赖性预后价值。双尾logrank检验P<0.05被认为对患者生存预后具有统计学意义。2 结果2.1 识别乳腺癌差异表达基因 通过差异分析,得到TCGA-BRCA中1 255个mRNA显著上调,1 015个mRNA显著下调(图1A),以及GSE13908中438个mRNA显著上调和2 430个mRNA显著下调(图1B),通过交集运算,得到176个共同上调mRNA和562个共同下调mRNA(图1C,图1D)。2.2 差异表达mRNA的功能富集分析 选取共同上调和共同下调mRNA分别做功能富集分析,以显示在乳腺癌中过度激活的功能通路和受抑制功能。在生物进程方面,共同上调mRNA主要参与有丝分裂、染色体分裂等生物功能,共同下调mRNA则主要参与阿米巴样迁移、血管发育的调节等。在细胞成分方面,共同上调mRNA主要集中在纺锤体和染色体区域,共同下调mRNA则主要集中在细胞外基质胶原和细胞间链接成分。在分子功能方面,共同上调mRNA主要功能为微管蛋白结合和ATP酶活性,共同下调基因主要功能则为肌动蛋白结合和硫化物结合(图2A,图2B)。 2.3 蛋白相互作用网络构建 通过功能富集发现,乳腺癌中共同上调mRNA主要参与有丝分裂、纺锤体、微管蛋白结合等。为进一步探讨共同上调mRNA的互作情况,利用共同上调mRNA构建一个整体蛋白相互作用(PPI)网络(图3A),通过Cytoscape软件中MCODE插件识别6个亚集(图3B)。通过对6个亚集的功能Data Management and Utilization数据管理与利用NF674训练组中,根据最佳截断值17.414(图4A)将744个样本分为高风险组和低风险组,结果显示高风险组总体生存期(Overall Survival,OS)明显更差(图5A)。一年、三年和五年ROC曲线下面积分别为0.820、0.792和0.747(图6A)。验证组中,根据最佳截断值17.457(图4B)将318个样本分为高风险组和低风险组。结果显示高风险组的OS明显低于低风险组(图5B)。一年、三年和五年ROC曲线下面积分别为0.741、0.747和0.699(图6B)。 2.5 预后模型在乳腺癌亚型中的验图1 差异分析结果证 乳腺癌主要分为基底细胞型、富集分析,发现第1个亚集包含18AM47E-STBD1+0.544481053*INHer2基因阳性型、管腔A型和管个mRNA,主要参与姐妹染色单体PP5A+0.012442297*MMGT1+0腔B型等4种亚型。由于4种亚型预凝聚力的分解、有丝分裂前中期.240226175*MRO+0.127665554后不一致,本文分别在4种亚型中和有丝分裂的M期(图3C);第2*MURC+0.034864656*PGK1-0-验证风险预后模型的效果。结果个亚集包含12个mRNA,主要富集.052263593*RPL29+0.014546939*显示,在基底细胞型(图7A)、在同源定向修复和DNA双链断裂SDCBP2-0.217423827*SIPA1L1+0.Her2基因阳性型(图7B)、管腔修复;第3和第4个亚集分别包含013488637*STXBP5+0.236903211*A型(图7C)和管腔B型(图7D)4个mRNA,主要功能包括参与有TARS+0.156997454*TMEM233+0.2中,高风险患者预后均比低风险患丝分裂G1-G1/S期和ECT2-KIF23-02116355*WWOX+0.054385153*Z者预后差,结果均有统计学意义。PACGAP1复合体;第5和第6个亚集分别包含3个mRNA,参与G2/M期的转化和钙离子进入胞浆的正向调节。2.4 乳腺癌预后模型构建 将TCGA乳腺癌样本按7:3的比例随机分为训练组和验证组,其中训练组包括744个样本,验证组包括318个样本。训练组中,通过批量单因素回归分析,筛选出49个mRNA作为乳腺癌预后因素(P<0.001)。通过Lasso回归分析进一步降维,获得一个由16个mRNA组成的风险预后模型。风险值计算模型:0.117692865*ATP5B+0.122637274*DCUN1D4+0.23425161*F图2 差异表达基因的功能富集分析《中国数字医学》2021第16卷 第1期 ·109
好文档 - 专业文书写作范文服务资料分享网站