如有你有帮助,请购买下载,谢谢!
第四节 蛋白质三维结构预测
1、同源模型化方法
同源模型化方法是蛋白质三维结构预测的主要方法(Blundell 1987)。对蛋白质数据库PDB分析可以得到这样的结论:任何一对蛋白质,如果两者的序列等同部分超过30%(对于排列长度大于80),则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。蛋白质的结构比蛋白质的序列更保守,如果两个蛋白质的氨基酸残基序列有50%相同,那么约有90%的?碳原子的位置偏差不超过3 ?。这是同源模型化方法在结构预测方面成功的保证。同源模型化方法的主要思想是:对于一个未知结构的蛋白质,首先通过同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。这里的前提是必须要有一个已知结构的同源蛋白质。这个工作可以通过搜索蛋白质结构数据库来完成,如搜索PDB。同源模型化方法是目前一种比较成功的蛋白质三维结构预测方法。从上述方法介绍也可以看出,因为预测新结构是借助于已知结构的模板而进行的,选择不同的同源的蛋白质,则可能得到不同的模板,因此最终得到的预测结果并不唯一。
假设待预测三维结构的目标蛋白质为U(Unknown),利用同源模型化方法建立结构模型的过程包括下述6个步骤:
(1) 搜索结构模型的模板(T)。同源模型化方法假设两个同源的蛋白质具有相同的骨架。为
待预测的蛋白质建立模型时,首先按照同源蛋白质的结构建立模板T。所谓模板是一个已知结构的蛋白质,该蛋白质的与目标蛋白质U的序列非常相似。如果找不到这样的模板,则无法运用同源模型法。
(2) 序列比对。将目标蛋白质U的序列与模板蛋白质序列进行比对,使U的氨基酸残基与模
板蛋白质的残基匹配。比对中允许插入和删除操作。
(3) 建立骨架。将模板结构的坐标拷贝到目标U,仅拷贝匹配残基的坐标。在一般情况下,
通过这一步建立目标蛋白质U的骨架。
(4) 构建目标蛋白质的侧链。可以将模板相同残基的坐标直接作为目标蛋白质的残基坐标,
但是对于不完全匹配的残基,其侧链构象是不同的,需要进一步预测。侧链坐标的预测通常采用已知结构的经验数据,如ROTAMERS 数据库(Janin et al., 1978; Ponder and Richards, 1987)。ROTAMERS含有所有已知结构蛋白质中的侧链取向,按下述过程来使用ROTAMER:从数据库中提取ROTAMER分布信息,取一定长度的氨基酸片段(对于螺旋和折叠取7个残基,其它取5个残基);在U的骨架上平移等长的片段,从ROTAMER库中找出那些中心氨基酸与平移片段中心相同的片段,并且两者的局部骨架要求尽可能相同,在此基础上从数据库中取局部结构数据。
(5) 构建目标蛋白质的环区。在第2步的序列比对中,可能加入空位,这些区域常常对应于
二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验性方法,从已知结构的蛋白质中寻找相应的环区,拷贝其结构数据。如果找不到相应的环区,则需要用其它方法(Collura et al., 1993)。
(6) 优化模型。通过上述过程为目标蛋白质U建立了一个初步的结构模型,在这个模型中可
能存在一些不相容的空间坐标,因此需要进行改进和优化,如利用分子力学、分子动力学、模拟退火等方法进行结构优化。 对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。当然,这种计算方法要占用大量的计算时间,主要是由于第4步的数据库搜索过程耗时较多。
如果序列的等同部分小于30%或更少,那么预测结果的准确性如何呢?随着U和T的相似度降低,比对这两个蛋白质序列所需插入的环(LOOPS)增多。为环区建立精确的三维模型意味着解决结构预测的问题。有许多具体的方法可用于为环区建立三维模型,其中最好的方法在一些情况下能够得到环区正确的取向。为环区建立三维模型的一种方法是分子动力学模拟。由于环区一般来说相对比较短,可以用分子动力学方法来模拟,但在动态模拟过程所需要的计算时间随着多肽链的残基数指数增长。
然而,即使序列等同部分下降到25%-30%,同源模型化方法也能产生出未知结构蛋白质整体折叠的粗糙模型。对于这样初始模型可以进行优化。常常用分子动力学技术进行优化,以提高精度。通
1页
如有你有帮助,请购买下载,谢谢!
过分子动力学的进一步模拟,往往能够得到较好的结果。
也可以用人工神经网络(如BP网)来预测同源蛋白质的空间结构。Bohr等人曾利用BP网预测同源蛋白质的折叠模式(Bohr et al.,1990),该方法应用距离点矩阵表示蛋白质的结构,同源蛋白质的距离矩阵相似。沿水平轴和垂直轴画出蛋白质序列,如果两个氨基酸C?原子之间的距离小于指定的距离,则在矩阵对应位置打上点标记。与二级结构预测的神经网络方法相似,将一个窗口在蛋白质序列上移动,利用窗口内蛋白质序列、二级结构类型、反映空间结构信息的点距离矩阵作为神经网络的输入输出数据。其中在网络的输入层输入一个窗口内氨基酸序列信息,于中心氨基酸两侧分别取30 个氨基酸,窗口大小为61。网络的输出层有33个节点,其中30个节点对应于中心氨基酸前30 个氨基酸,其值为“0”或者“1”,这取决于该氨基酸与中心氨基酸的距离是否小于给定的值(如8?),这与点距离矩阵相对应。另外3个输出节点用于表示二级结构类型(螺旋、折叠、卷曲)。利用已知结构的同源蛋白质训练该网络,然后用训练好的网络对属于同一家族的蛋白质结构进行预测。该模型可以同时进行二级结构和空间结构的预测。
在实际研究中,对于蛋白质结构的分析和预测往往着眼于某些关键部位,或者功能区域。通过对蛋白质序列分析可以发现,在一个蛋白质家族中,存在着保守的氨基酸序列片段(Dayhoff et al.,1983),这些保守的区域称为氨基酸序列模式。在蛋白质家族进化的过程中,序列模式的变化被强制约束,以保证蛋白质的主要结构和功能不变。一个序列模式与蛋白质特定的局部空间结构相对应。序列模式可能以单个形式出现,也可能以连续重复的形式出现。在一组蛋白质序列中,如果各个序列模式以一种特定的先后次序出现,则它们被称为有序系列模式(OSM,ordered-series-of-motifs;McClure, 1991)或蛋白质特征。
对于序列模式,一方面要能够在蛋白质家族中识别序列模式,另一方面利用已知的家族序列模式去分析新蛋白质的结构,标注潜在功能,研究该蛋白质家族的进化等。其中识别序列模式是最重要的,也是非常困难的。多重序列比对是一种基本的序列模式识别方法(Depiereux et al.,1997)。序列比对分为全局比对和局部比对,在序列模式识别方面,基于全局比对的识别结果优于基于局部比对的识别结果(McClure et al., 1994)。其它的方法还有隐马尔柯夫模型HMM(Krogh et al.,1994; Hughey and Krogh,1996)、Gibbs采样方法( Neuwald et al., 1995)等,这些方法与第5章介绍的DNA序列中功能位点识别方法相似。 2、线索化方法(折叠识别方法)
在前一节已经提到,两个自然进化的蛋白质如果具有30%的等同序列,则它们是同源的蛋白质,具有基本相同的三维结构。那么,其余的是否就不是同源的呢?实际并非如此。在最新的蛋白质数据库PDB中,有上千对蛋白质具有同源的空间结构,但它们的序列等同部分小于25%,即远程同源。许多结构相似的蛋白质都是远程同源的。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。
对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。一个成功的远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质(T);(2)U和T的序列必须被正确地对比排列;(3)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。检测远程同源蛋白质是一个基本问题,而正确比对U和T则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题,其基本思想是建立一个从U到已知结构T的线索,并通过一些基于环境或基于知识的势,评价序列与结构的适应性。至于最后建立三维结构模型则是非常困难的,这是因为建立模型的过程不能校正在序列比对阶段出现的错误。
现在,线索技术已成为蛋白质结构预测领域中最活跃的一块。在90年代发表的第一篇关于线索化方法的文章推动了线索化方法的深入研究。线索化的主要思想是利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。不久提出另一种不同的方法,即利用蛋白质数据库中丰富的信息,通过提取平均势场取出结构知识。利用势场监视特定氨基酸残基对之间的观察距离,而这些残基对具有特定的间隔(即两个残基之间的间隔的残基数)。直到1995年,许多线索化方法才开始用平均势场。有一种针对二级结构预测的线索化方法,该方法首先对未知结构的蛋白质序列预测其二级结构,然后在已知结构的数据库中提取该二级结构,最终根据标准的动态规划方法,通过序列比对比较从数据库中得到的和预测得到的二级结构。
由于不同平均势场刻画蛋白质不同的结构特征,正确的远程同源蛋白质很可能是所得到的查找
2页
如有你有帮助,请购买下载,谢谢!
结果之一。然而,目前还没有一个单独方法能够在一半以上的情况下检测到正确远程同源蛋白质。凡是经过大量测试、严格评估的方法,得到正确的远程同源蛋白质的几率小于40%。即使这样,其性能也远远好于传统的序列对比排列方法(在序列等同部分小于25%的情况下)。另外,各种结构预测实验的成功表明,在专家仔细筛选各种选择后,检测到远程同源蛋白质的可能性将会得到进一步地提高。
下面讨论蛋白质序列到蛋白质结构的线索化方法。建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。如果找到这样的模板,则将U的序列与模板的结构进行比对(sequence-structure alignment),即建立线索。在此基础上利用模板结构为蛋白质U建立结构模型。线索化(threading,Bryant 1993;Fetrow 1993;Jones和Thornton,1996)是一个比预测三维结构更复杂的问题,是NP完全问题,需要采用近似求解方法或启发式求解方法。解决该问题的回报是非常高的,如果能够解决线索化问题,那么预测更多的蛋白质结构将成为可能。
对于不同的序列-结构匹配程度度量方法有不同的线索化方法,但是线索化方法一般有5个基本组成部分:(1)已知三维折叠结构的数据库(Fischer et al., 1994);(2)一种适合于进行序列-结构比对的三维折叠信息的表示方法(Bowie et al., 1991);(3)一个序列-结构匹配函数,该函数对匹配程度进行打分;(4)建立最优线索的策略,或者是进行序列-结构比对的策略;(5)一种评价序列-结构比对显著性的方法(Bryant and Altschul, 1995)。
在线索技术中,假设存在有限数目的核心折叠(core folds)。核心折叠实际上是构成蛋白质空间形状的基本模式。线索技术的首要任务是建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。
这里介绍一种基于序列与结构比对的最优线索化算法(Lathrop and Smith,1996)。令s1, s2,…, sn为蛋白质序列S的n个元素,C1, C2,…, Cm为数据库中核心折叠C的m个核心区域。每一个核心区域由若干个氨基酸残基构成。令Cij为第i个核心区域第j个氨基酸位置。假设核心折叠C中所有重要的相互作用都体现在各个Cij之间的两两作用,利用图这样的数据结构来表示这些相互作用。用图中的顶点表示Cij,如果Cij和Ci’j’之间存在相互作用,则在图中画一条从Cij所在顶点到Ci’j’所在顶点的边。
设t是一个从序列到核心折叠的线索,那么t说明了序列S的哪些元素si,sj,sk,…代表核心区域C1, C2,C3,…的起始位置。这实际上是一种从序列S到核心折叠C的比对,但是在这样的比对中序列元素内部没有空位,但是序列元素之间存在空位,这些空位将序列元素分割开来。
令?代表核心折叠C中的环到序列S中空位的映射,显然?是通过线索化而确定的。令f(t)是进行比对的得分函数,其定义如下:
f(t) = g1 (v,t) + g2 (u,v,t) + g3 (?,t) (7-14) 其中g1 (v,t) 评价氨基酸残基v所处的位置;g2 (u,v,t) 评价残基u和v的相对位置,如果u和v 键合,则得分高;g3 (?,t)评价环区,根据环区的大小进行打分。 完成上述概念定义之后,可以非常简单地描述线索化问题:对于给定的序列S和核心折叠C,选择一个线索t,使得f(t)的值最小,即寻找一个从S到C的最佳映射。虽然问题的描述非常简单,但是要解决这个问题却非常复杂,这是一个NP-完全问题(Lathrop,1994)。准确地求解需要巨大的运算量,在实际应用中只能采用近似或启发式的方法进行求解。如采用分支约束的方法,通过压缩搜索空间,提高算法的执行效率。 3、从头预测方法
在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法(Ab initio; Defay and Cohen,1995),即(直接)仅仅根据序列本身来预测其结构。在1994年之前,还没有一个从头算方法能够预测蛋白质的空间结构。从那以后,人们陆续提出一些方法,表明了今后进一步研究可能的方向。有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样的工作非常有希望突破。Srinivasan 和Rose报道了他们利用层次搜索方法而得到的每一个令人鼓舞的结果(Srinivasan and Rose,1995)。
从头预测方法一般由下列3个部分组成(Osguthorpe, 2000):(1)一种蛋白质几何的表示方法。
3页