生物信息学复习题及答案

由天下分享时间：2025/1/5 7:03:40 加入收藏我要投稿点赞

生物信息学复习题

名词解释

1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。

（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。

（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。 Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。值：得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段

-E

对）得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e

9. 打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。

10．空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有BLAST, Entrez ,GenBank等工具，还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc.

序列格式：是将DNA或者蛋白质序列表示为一个带有大于号（>）开始的核苷酸或者氨基酸序列的新文件，其中大于号后可以跟上序列的相关信息，其他无特殊要求。

13genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释，主要包含生物功能或数据库信息；第三部分是feature，对序列的注释；第四部分是序列本身，以“统发生树（Phylogenetic tree ）是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。是用来研究物种进化与多样性的基础，是相近物种相关生物学数据的来源。 17.基因树与物种树：物种树反映一组物种进化历程的系统树，其中每一个内部节点就代表一个物种形成的过程，而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树，而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

复制事件可能发生在物种形成之前或之后，造成基因树与物种树拓扑结构存在差异的（来自两个物种的两个基因的分化可能发生在物种形成事件之前）。

18. 有根树：包含一唯一的节点，将其作为树中所有物种的共同祖先，并且这一节点到其他节点的路径也是唯一的，最常用的确定树根的方法就是利用分子钟理论。在相同序列数条件下，有根树的可能的形式要多于无根树，这就有根树出错的概率明显高于无根树；无根树：找不到代表祖先树根的唯一节点的系统树。无根树只能确定之间的亲缘关系的远近，在相同序列数条件下，可能的构树形式相对有根树要少，并且无根树是没有方向的，其中线段的两个演化方向都有可能。

19.分子钟：认为在进化过程中物种间分子进化速率是恒定的或者几乎不变的假说，即蛋白序列间的氨基酸替换数正比于序列间的分歧世代数。意义：利用蛋白质序列的恒定的进化速率，可以推算不同物种序列发生分化的时间，从而将一些不同物种的系统发生关系确定下来以及推断出物种起源的时间。缺陷：不同生物体的分子进化速率差别是很大的，如病毒的一些序列；不同基因的分子钟一般不同；只能用于长期进化历程中仍保持其生物学功能的那些基因，那些进化丢失功能或基因复制后改变功能的不能适用；进化速率是可变的，某些基因在自我扩增后进化速率大大提高；

20.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

21. 邻接法（neighbor-joining method）：其首先确定距离最近的分类单元对。然后使系统树的总距离达到最小，不断循环将相邻分类单元秉承一个新的分类单元，最终建立相应的系统发育树。其是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。需要理解的地方：window size dotplot

1. 序列的相似性与同源性有什么区别与联系？答：（1）相似性是指序列之间相关的一种统计学的量度，两序列的的相似性可以基于序列的一致性和相似度的百分比，也可以用相应的分数来衡量这种相似；而同源性是指序列所代表的物种具有共同的祖先，强调进化上的亲缘关系，不能用相应的数字去量化这种关系，我们只能说序列具有高的一致性的百分比的可能是同源的。

（2）相似的不一定是同源的，同源的则表现出一定的相似性。因为在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕见。相反同源序列由于来源于共通过祖先则表现出一定的相似性。

2. why the reliability of protein alignment is higher than that of DNA?

(1)核酸序列有四种碱基构成，当用两条核酸序列比对时出现随机匹配的概率是25%，而蛋白序列由20种氨基酸序列组成，当用两条蛋白序列比对时出现随机匹配的概率是5%，因此用核酸序列比对时出现假阳性概率比较大，可靠性差。

（2）密码子的简并。由于密码子存在简并现象，导致密码子的变化不一定会导致氨基酸的变化，即一个氨基酸可以有多个密码子，因而在进化过程中蛋白质序列比核酸序列更为保守，采用蛋白序列比对更具有实际的意义。

（3）当序列相似性很高时可以选择DNA序列进行比对。矩阵的假设条件及PAM1与PAM250的关系。

（1）假设条件：a.临近突变独立。相邻位置的突变是独立的互不影响的。b.进化历程的独立。每个位点的突变概率仅由当前状态决定。c.位置独立。某个氨基酸突变为另一个氨基酸仅有这两个氨基酸决定。

（2）基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即100个氨基酸中有1个发生可能被自然选择接受的突变改变。PAM250则是PAM1自乘250次后得到的，即100个氨基酸中发生250个可被自然选择接受的点突变，但这并不意味250次PAM后，每个氨基酸都发生变化，最后仍然具有20%的相似性，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸；PAM1常用于近缘序列（85%），而PAM250用于相似度为20%左右的的远缘序列。

（3）PAM1-PAM250生物学意义：PAM250矩阵适用于20%一致性的的远相关蛋白的比对，而PAM1适用于85%的近缘序列，说明了生物进化是朝着趋异进化的，但总能彼此保持一定的相似性。PAM 120: 40% similar; PAM 80: 50% similar; PAM 60: 60% similar;

（4）PAM矩阵的局限性：Basic assumption: No correlations in exchange frequencies between neighboring analysis has confirmed role of neighboring residues in 3D wx?gxstructure。Different sites within proteins show different levels of variability； A phylogenetic tree must be constructed first, implying some circularity in the analysis

The original PAM1 matrix was based on a limited number of families, not necessarily representative of all protein families

4. 此矩阵与PAM矩阵的比较：相同之处是都在打分矩阵中使用对数比值；执行双序列比对时都基于查询序列和匹配序列的一致程度，然后选择矩阵。

（1）PAM矩阵是建立在一个进化突变模型的基础上，他认为aa的突变是一个马尔科夫的过程，即每个位点的aa突变是相互独立的，且与该位点以前的突变无关；而BLOSUM矩阵没有明确的进化模型，他根据同一蛋白家族中序列保守的aa模块中观察到的替换情况得到。（2）用于产生矩阵的蛋白质家族及多肽链数目，BLOSUM比PAM大约多20倍,结果将更加可靠。

（3）PAM基于全局比对得到的，用于追朔蛋白的进化起源而BLOSUM是基于局部比对，用于寻找局部的保守的区域。

（4） PAM-n中，n 越小，表示氨基酸变异的可能性越小；相似的序列之间比较应该选用n值小的矩阵，不太相似的序列之间比较应该选用n值大的矩阵。PAM-250用于约20%相同序列之间的比较。BLOSUM-n中，n越小，表示氨基酸相似的可能性越小；相似的序列之间比较应该选用 n 值大的矩阵，不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62％相似度的序列，BLOSUM-80用来比较80％左右的序列。 5.空格罚分机制

线性罚分模型：是某个固定的罚分，不区分起始空位与延伸空位，无论有多少个空格每个空格罚分的值是固定的，可以用公式Wx=gx表示。

仿射罚分。由两部分组成，起始空位罚分大，延伸空位罚分小，可由方程Wx=g+r(x-1)or Wx=g+rx表示，其中Wx为gap penalty score of a gap of length ；g为gap opening penalty；r为gap extension penalty；X为gap length

通常Gap opening penalty: 2 – 3 times larger than the most negative value in the substitution matrix that is being used；Gap extension penalty: to times the value of the gap opening penalty.

空格的末端罚分机制：对于全局比对和序列长度相同同源性比对，一般包含罚分。而不知道同源性或长度不同的应不包含对末端空格的罚分。 6. PSI-BLAST and PHI-BLAST

PSI-BLAST:位点特异性反复比对，首先进行一般的blastp比对，从比对结果中构建多序列