基于加权极限学习机的肿瘤基因表达谱数据分类
姜琳颖, 余东海, 石 鑫
【摘 要】基因表达谱数据一般来源于临床试验,而在临床试验中,试验样本的类分布情况是不确定的,这就使得表达谱数据往往具有比较明显的不平衡性.采用加权极限学习机来对不平衡基因表达谱数据进行分类,为了减少因为不平衡数据引起的分类误差,一个临时的权重被分配给每一个样本以增强少样本类的影响,同时减少多样本类的影响,进而提高肿瘤分类的准确率.实验结果表明,所提方法能够提高少样本类的识别率,从而提高分类器的总体性能. 【期刊名称】东北大学学报(自然科学版) 【年(卷),期】2017(038)006 【总页数】6
【关键词】关 键 词:基因;表达谱数据;加权极限学习机;不平衡性;肿瘤分类
基因芯片技术的出现,使得人们能够同时监控成百上千的基因表达水平.但对于生物信息学来说,如何有效地利用这些基因表达数据来预测和诊断疾病也具有很大的挑战性.肿瘤分类是其中一种典型的值得关注的应用,近年来已经有很多的研究证明了其可行性[1-5].
一般来说,基因表达谱数据来源于临床试验,而在临床试验中,试验样本的类分布情况是不确定的,这就使得表达谱数据往往具有比较明显的不平衡性.如文献[1]中所用的结肠癌数据集(Colon),总共具有62个样本:其中40个为癌症样本,22个为正常样本.而且数据类型的不平衡性不仅仅是表现在健康和病变样本之间,也有在不同肿瘤样本之间进行分类时出现的类型不平衡,例如文献[4]中的Lung-
Brigham数据集,其中MPM样本31个,ADCA样本150个.所以可以看出基因表达谱数据集中的类不平衡问题是普遍存在的.而当要分类的数据具有复杂的类分布时,由于一般的学习算法都是默认地将数据假设为类平衡分布或者是相同的错分代价,而使得分类结果更偏向于多样本类别[6].
对于不平衡数据分类问题,现如今主要采用的方法有:过采样、欠采样以及代价敏感方法等.过采样是指对少数样本类(少类)的样本重复采样以降低数据的不平衡性,如文献[7]中的少类样本随机重复采样(oversampling),文献[8]中采用SMOTE方法对少类样本进行过采样处理等,但过采样比较难以区分重复采样的是有益样本还是冗余样本,这就使得采样的结果得不到有效保证;欠采样是指对多数样本类(多类)的样本进行部分采样以使数据尽量达到平衡,如文献[9]中基于聚类融合欠抽样的改进AdaBoost分类算法,就是采用欠采样的方式来处理数据的不平衡问题.欠采样会导致样本信息的丢失,基因表达谱数据的样本信息普遍较少,故不适合做欠采样处理,而且欠采样也具有与过采样相同的问题:难以区分冗余和有益样本数据;代价敏感学习是通过对少类样本赋予更多的错分代价方式来处理不平衡数据问题,如文献[10]中的代价敏感超网络算法,文献[6]中的加权极限学习机算法.总之,代价敏感学习能够在保全所有样本信息的情况下,通过赋予一个代价敏感错分矩阵来处理不平衡数据问题,但是该方法的难点在于难以确定一个有效的代价敏感错分矩阵.本文所提出的算法是在文献[6]提出的加权极限学习机基础上增加类别权重值的可调性,使其能够更好处理数据的不平衡性,并将其应用于基因表达谱数据.
1 方 法
1.1 基因特征提取算法
每个基因表达谱样本都记录了组织细胞中所有可测基因的表达水平,这使得每个样本都具有很高的维度,但实际上只有其中的少数基因包含了样本的某种分类信息,与样本的类别有关,这些特殊的基因被称为分类特征基因.而分类特征基因的选取是建立有效分类模型的关键之一.目前,已经有很多有效的特征提取算法应用于基因表达谱数据.例如文献[4]中的ReliefF算法,文献[11]提出的GBC算法,文献[12]中的分层特征提取算法等.ReliefF算法原理较为简单,而且已在其他文献中证明其具有较好的性能,所以本文采用该算法对数据集进行特征提取.
ReliefF是在Relief算法的基础上提出的利用特征之间的依赖强度来估计特征质量的算法.该算法的基本思想在于调整权重矩阵W=[w(1),w(2),…,w(m)]来获得特征之间更多的关联,从而用来更好区分不同类别.
算法随机选出一个样本x,然后分别在其同类样本(hj)和不同类样本(mj)中分别选出k个最近邻域的样本对权值进行更新.更新方程为 W(f)=W(f)-+ ∑c≠class(x)· . (1)
其中:P(c)表示类别c的先验概率;P(class(x))表示包含x样本的类别的先验概率;dist(f,x,hj)和dist(f,x,mj)分别表示基于f特征,样本x和同类样本hj及不同类样本mj之间的距离.
在重复运算t次之后,算法最终可以得到每一个特征的相关系数权重值,然后利用该权重值,从原始样本m个基因中提取权重值排名靠前的g个基因作为特征基因(g