好文档 - 专业文书写作范文服务资料分享网站

基于二层特征筛选的HIV-1蛋白酶特异位点预测

天下 分享 时间: 加入收藏 我要投稿 点赞

基于二层特征筛选的HIV-1蛋白酶特异位点预测

袁啸尘2,钮 冰2,尹京苑 1,*

【摘 要】摘 要:在抗艾滋病治疗中,HIV-1蛋白酶抑制剂发挥着重要作用。对于HIV-1蛋白酶裂解作用位点的研究有助于找到新的治疗靶点。为了对HIV-1蛋白酶特异位点进行预测,本研究用氨基酸索引数据库(Amino Acid Index,AAIndex)中的531个氨基酸物理化学性质参数直接表征肽样本的结构,通过二层特征筛选,最终将4248个表征参数降为57个表征参数。分别采取四种核函数进行HIV-1蛋白酶特异位点的支持向量机(SVM)建模,并通过10折交叉验证及外部测试集方法来验证建模的准确性。结果表明选取NormalizePolyKernel核函数进行SVM建模效果优于其他核函数(PolyKernel、PUK、RBFKernel),所建立的模型对于训练集的10组交叉验证预测准确率达到93.947%,对于外部测试集的预测正确率达到93.684%。 【期刊名称】生物信息学 【年(卷),期】2012(010)004 【总页数】6

【关键词】关键词:变量筛选;支持向量机;10折交叉验证;预测模型;HIV-1蛋白酶

1 引言

获得性免疫缺陷综合症(Acquired Immune Deficiency Syndrome,艾滋病,以下简称AIDS)是全球一大医学难题。人类免疫缺损病毒(Human Immunodeficiency Virus,以下简称 HIV)[1,2,3]被证实为 AIDS的致病原,其直径约120nm,大致成球形。病毒外膜是磷脂双分子层,来自宿主细胞,

并嵌有病毒的蛋白gp120与gp41。向内是由蛋白p17形成的球形基质,以及蛋白p24形成的半锥形衣壳。该病毒选择性地感染CD4细胞从而导致机体免疫缺陷。

自1981年首例AIDS病例发生以来,全球科学工作者们一直致力于寻找有效的治疗艾滋病的药物。根据Kramer等人[4]的研究结论,HIV-1蛋白酶可能作为 AIDS药物的突破点。HIV-1蛋白酶[5]是由两条相同的肽链组成的二聚体,每条肽链含99个残基。HIV-1蛋白酶可以裂解Tyr-Pro及Phe-Pro[6]等难以裂解的肽键。HIV-1蛋白酶在病毒复制过程中,HIV的前体蛋白裂解成各种结构和功能酶蛋白,阻止HIV前体蛋白的裂解是一条潜在的病毒抑制途径。HIV-1蛋白酶的活性在体内受到抑制后,产生的子代病毒将不成熟、不具传染性,因而可以有效地阻止病毒进一步感染。

HIV-1蛋白酶的活性部位有8个氨基酸(Amino Acid,以下简称 AA)残基[7],分别为:S4 -S3 -S2-S1-S1’-S2’-S3’-S4’;有8个相应残基与其结合,分别为:P4-P3-P2-P1-P1’-P2’-P3’-P4’。每个残基位置可出现的氨基酸情况,如以20种常见氨基酸计,可形成2.56X108个肽分子,如逐个通过实验方法验证其裂解特性,工作量巨大。

随着生物信息技术的发展,对生命科学领域的海量数据进行数据挖掘,从而对研究起到推动、辅助,已成为一种重要的手段。在以往的研究中,Chou曾使用0/1氨基酸编码[8]HIV-1/HIV-2蛋白酶来进行其可裂解作用位点的预测,其方法固然直观有效,但对多肽序列表征方法失去一般性,并且难以进一步找出特征与其生化机理之间的联系。近来,也有学者致力于用人工神经网络[9,10,11,12]、KNN(K- nearest neighbors)[13]算法来进行此方面

的建模预测工作。总体而言,现阶段可用于此方面研究的参数表征、特征筛选以及建模预测的方法很多,因此,此项工作仍有较大的探索发掘空间。 支持向量机(Support Vector Machine,以下简称SVM)是一种监督性的模式识别方法,近年来已被运用在蛋白质的亚细胞定位[14]、结构预测[15]、蛋白质相互作用[16]、蛋白质功能分类[17]等生物学领域。根据现有的结果,SVM建模在预测以上分类问题时相较于其他一些机器学习算法,往往具有一定的优越性。

本研究根据已有的关于HIV-1的文献报道结果,搜集8肽片段样本构建了训练集及外部测试集,并对所有样本的每个氨基酸残基,逐一用AAIndex(Amino Acid Index,氨基酸索引)的531个物理化学参数进行表征描述。对所得数据集进行特征筛选,减少其特征变量的数量,之后用4种核函数进行SVM建模并比较优劣,最终确定了较优的SVM建模参数。

2 材料和方法

2.1 数据集与参数表征

本文中,数据集选自于 Aleksejs Kontijevskis[18]及Chou[19]等相关报告中的8肽片段,共计样本570个,对于其中具有可作用裂解位点的样本,定义其为正样本,反之为负样本。从中随机选取380个为训练数据集,其中正样本159个,负样本221个;190个作为测试数据集,其中正样本80个,负样本110个。对每个8肽样本,逐一按其AA残基组成,用AAIndex中的531个物理化学参数进行表征,得到每个样本由4248个特征变量表征的数据集。 2.2 CFS特征选择算法(Correlation-based Feature Subset)

对于一个含有n个变量的数据集,其变量子集数为2n。从中寻找最优子集的最

基于二层特征筛选的HIV-1蛋白酶特异位点预测

基于二层特征筛选的HIV-1蛋白酶特异位点预测袁啸尘2,钮冰2,尹京苑1,*【摘要】摘要:在抗艾滋病治疗中,HIV-1蛋白酶抑制剂发挥着重要作用。对于HIV-1蛋白酶裂解作用位点的研究有助于找到新的治疗靶点。为了对HIV-1蛋白酶特异位点进行预测,本研究用氨基酸索引数据库(AminoAcidIndex,AAIndex)
推荐度:
点击下载文档文档为doc格式
2mu2r99jlr3jk4h7sglc72h8v7sa2300vhk
领取福利

微信扫码领取福利

微信扫码分享