蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自 布丁布果 最终编辑 布丁布果 4月18日
蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,SWISS-PROT数据库包括了从EMBL翻TrEMBL(Translated EMBL) 数据库被建立译而来的蛋白质序列,这些序列经过了起来。TrEMBL也是一个蛋白质数据库,检验和注释。该数据库主要由日内瓦它包括了所有EMBL库中的蛋白质编码区大学医学生物化学系和欧洲生物信序列,提供了一个非常全面的蛋白质序列息学研究所(EBI)合作维护。数据源,但这势必导致其注释质量的下SWISS-PROT的序列数量呈直线增长。 降。 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。 1988年,美国的NBRF、日本的JIPID网址: (the Japanese International Protein Sequence Database日本国我国的北京大学生物信息中心() 设立了家蛋白质信息数据库)、德国的MIPSExPASy的镜像(Mirror)。 (Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。 1 / 14
主要蛋白质序列数据库的网址 SWISS-PROT 或 TrEMBL PIR MIPS——Munich Information Centre for Protein Sequences JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy 二、蛋白质结构数据库 1、PDB数据库: 5、 CATH 数据库: CATH(Class, Architecture, Topology and Homologous superfamily)是与SCOP类似的一个数据库。 实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(Protein Data Bank)中。PDB是国际上主要的蛋白质蛋白质结构数据库网址 结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很PDB 快。PDB贮存有由X射线和核磁共振 (美国) (NMR)确定的结构数据。 2、NRL-3D 数据库: (欧洲) NRL-3D NRL-3D(Naval Research Laboratory-3D)数据库提供了贮存在PDB库中蛋白质的序列,它可以进 行与已知结构的蛋白质序列的比较。 HSSP 3、HSSP数据库: 对来自PDB中每个已知三维结构的蛋2 / 14
白质序列进行多序列列线(multiple sequence alignment)同源性比较的SCOP 结果,被贮存在HSSP(homology-derived second structures of proteins)数据库中。CATH 被列为同源的蛋白质序列很有可能具有相同的三维结构,HSSP因此根据 同源性给出了SWISS-PROT数据库中所有蛋白质序列最有可能的三维结构。 4、 SCOP数据库: 要想了解对已知结构蛋白质进行等级分类的情况可利用SCOP(Structural classification of proteins)数据库,在该库中可以比较某一蛋白质与已知结构蛋白的结构相似性。 三、蛋白质二级结构预测网站(数据库) 3 / 14
4、Prosite(蛋白质序列功能位点数据库) 始建于1990年代初,由瑞典生物信息学研究所SIB负责维护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件Prosite;说明文件PrositeDoc。 Prosite的网址: 5、DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP的网址: 6、FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP的网址: 7、HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库 HSSP的网址: 在前面已经述说过了。 4 / 14
第二节、蛋白质序列分析方法 一、多序列比对 双序列比对是序列分析的基础。然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征。多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。 多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。 因此,正如我们不能对双序列比对的结果得出“正确或错误”的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。 目前,构建多序列比对模型的方法大基于序列信息和基于结构信息的比对都体可以分为两大类。 是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完第一类是基于氨基酸残基的相似性,全反映蛋白质分子所携带的全部信息。 如物化性质、残基之间的可突变性蛋白质序列是经过DNA序列转录翻译得到5 / 14