NCBI中Blast种类及使用简介

由天下分享时间：2025/3/21 17:19:39 加入收藏我要投稿点赞

文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.

NCBI中Blast种类及使用简介

NCBI中Blast种类简介

1． Blast Assembled Genomes

在一个选择的物种基因组序列中去搜索。

2．Basic Blast

2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索，包括3个程序

2.1.1 Blastn----核酸序列（n）到核酸序列数据库中搜索，是一种标准的搜索。

2.1.2 megablast----该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较

2.1.3 discontiguous megablast----与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。

2.2 Protein Blast

2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索，是一种标准的搜索。

2.2.2 psi-blast---位点特异迭代BLAST — 用蛋白查询来搜索蛋白资料库的一个程式。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐，从这个对齐，一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料库，以找到额外的显著对齐，这个过程可能被反复迭代一直到没有新的对齐可以被发现。

2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。

2.3 Translating BLAST

2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。

2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。

1文档收集于互联网，如有不妥请联系删除.

文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.

2.3.3 tblastx----先将待查询的

核酸序列和核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后再将两种翻译结果在蛋白质水平上进行比较

3．Specialized Blast Specialized BLAST pages 可以对特殊生物或特殊研究领域的序列数据库进行检索。

例：CD - Search

CD - Search 是使用RPS - BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。

Pairwise BLAST Pairwise BLAST是用BLAST程序实现两个序列之间的比较。选择“序列1”为待比较序列,则“序列2”就是被比较序列。

IgBLAST —IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能∶1）报告与查询序列最相似的可变，D，或J区，2）根据Kabat et al.来注解免疫球蛋白domains（从FWR1到FWR3），3）对於搜索核酸或蛋白nr资料库，通过匹配IgBLAST的发现和最接近的生殖系变化区基因来简化识别相关序列的过程。

等等。。。。。。。。。

在线BLAST的使用方法

1、登陆blast主页：.nih.gov/BLAST/ 2、根据数据类型，选择合适的程序

3、填写表单信息

序列的输入、比对搜索区域的选择、数据库的选择：

_/ [&限制调节、打分矩阵及其他参数的设置：

图中各参数的含义：（不同的平台有少许差异，请对比参照）9 L4 N3 I) u+ N0 {$ q

Word siez选项：4 c, r* F* g\

BLAST 程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配

2文档收集于互联网，如有不妥请联系删除.

文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.

序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为“word”,即字)的联配得分总和来决定。联配时，“字”的每个碱基均被计分：如果碱基对完全相同(如 A 与 A)，得某一正值；如果碱基对不很匹配(W与A或 T)，则得某一略小的正值；如果两个碱基不匹配，则得一负值。总的合计得分便决定了序列间的相似程度。得分高的匹配序列被称为高比值片段对(high-scoring segment pairs, HSP)。BLAST 程序在两个方向扩展 HSP，直至序列结束或联配已变为不显著。替换矩阵在扫描(scanning)和扩展过程被应用。最后在 BLAST 报告中被列出的序列都是所有得分最高的序列。以上述及的初始字长便是由Word siez值设定。BLAST只对字长为W的“字”进行扩展联配。BLAST 的字长缺省值为 11，即 BLASTN 将扫描数据库，直到发现那些与未知序列的 11 个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和几乎所有随机产生的显著联配。 “Filter”(过滤器)选项：

BLAST 2.0版本的新功能，过滤器将锁定诸如组成低复杂(low

compositional complexity)序列区(如Alu序列)，用一系列N(NNNNNN)替代这些程序。N 代表任意碱基(IUB-code)。只有未知待检序列被过滤替代，而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的，例如，多A 碱基的尾部和脯氨酸富积的序列，会得到人为的高联配得分而误导分析。这是因为这类序列数量极大，遍布整个基因组，直至整个数据库。# p$ r4 W! O1 x5 n8 i! j3 m

“Matrix”(矩阵)选项：

联配的显著性是由返回的比对分值决定的，该分值反映的是所得到的联配随机产生的概率有多大。矩阵被用于鉴别数据库中的序列，同时又用来预测匹配的显著性大小。一般应接受运行程序推荐的矩阵。BLAST系列程序主要使用两种类型矩阵(PAM和BLOSUM，前面都有介绍)。要准确地选择矩阵，必须了解矩阵和矩阵的具体计分方式。值得注意的是，直接比较使用不同替换矩阵而获得的联配得分是没有意义的。 “EXPECT”选项：

您可以为搜索设定一个期望值阀值(EXPECT)，例如缺省值设为10。这一设置则表示联配结果中将有10个匹配序列是由随机产生，如果联配的统计显著性值(E值)小于该值(10)，则该联配将被检出。换句话说，比较低的阀值将使搜索的匹配要求更严格，结果报告中随机产生的匹配序列减少。 “Score Value”(分值)选项：（有些平台上没有此选项）6 [- q+ J# k9 ?6 N( M( d0 a

在“wordsize”选项中曾论及碱基对匹配程度的赋分问题，其赋分的标准可由分值选项的M和N 两个参数设置。M 参数为匹配碱基的赋值，必需为一正整数；N 参数为不匹配碱基的赋值，必需为一负整数。M/N 的比率决定了你所接受的进化分歧程度(degree of divergence)，M 和N 的缺省值为5和-4。该比率(1.25)相当于在100个残基中约有47可以观测到的核酸点突变(PAM)。PAM 是被用来预测分子序列从祖先序列进化而来的程度。如果你调整M和N使比率提高，则 PAM 矩阵也应选择大些(指PAM矩阵后的数字)，以适应相应的较大的分歧程度。

3文档收集于互联网，如有不妥请联系删除.

文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.

NCBI使用方法 2010-07-19 20:22 NCBI使用方法

NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心

NCBI是NIH的国立医学图书馆（NLM）的一个分支。

NCBI提供检索的服务包括：

1．GenBank（NIH遗传序列数据库）：一个可以公开获得所有的DNA序列的注释过的收集。GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长，最近的数据为它已经有来自47000个物种的30亿个碱基。

2．Molecular Databases（分子数据库）：

Nucleotide Sequence（核酸序列库）：从NCBI其他如Genbank数据库中收集整理核酸序列，提供直接的检索。

Protein Sequence （蛋白质序列库）：与核酸类似，也是从NCBI多个不同资源中编译整理的，方便研究者的直接查询。

Structure（结构）-—— 关于NCBI结构小组的一般信息和他们的研究计划，另外也可以访问三维蛋白质结构的分子模型数据库（MMDB）和用来搜索和显示结构的相关工具。MMDB：分子模型数据库 — 一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。

Taxonomy（分类学）——NCBI的分类数据库，包括大于7万余个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。

3．Literature Databases（文献数据库）

（1）PubMed是NLM提供的一项服务，能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问，并可以连接到参与的出版商网络站点的全文文章和其他相关资源。

（2）PMC/PubMed Center：也是NLM的生命科学期刊文献的数字化存储数据库，用户可以免费获取PMC的文章全文，除了部分期刊要求对近期的文章付费。（3）OMIM（孟德尔人类遗传）：有关人类基因和无序基因的目录数据库由Victor

4文档收集于互联网，如有不妥请联系删除.

文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.

A.McKusick和他的同事共同创造和编辑的，由NCBI网站负责开发，其中也包括对MEDINE众多资源和Entrez系统的序列记录，以及NCBI中其他有关资源的链接。

（4）Books：NCBI的书库不断收集生物医学方面的书籍，提供这些书籍的出版信息、摘要、目录和全文的连接，用户可以直接在检索文本框内输入一个观念就可以查询。

4．NCBI提供的附加的软件工具有：

开放阅读框寻觅器（ORF Finder），电子PCR，和序列提交工具Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系方式等信息，还提供了到NIH、NLM等的链接。

使用方法:

用户可以免费登陆NCBI的网站，NCBI为使用者提供了方便的检索系统和检索方法：

1．Entrez是NCBI为用户提供整合所有数据库的访问序列，定位，分类，和结构数据的搜索和检索工具系统，同时也提供序列和染色体图谱的图形视图。用户进入系统或者进入任意一个数据库，都会看到简单检索的界面，选择数据库输入关键词即可进行查询。Entrez也提供条件限制和高级检索、布尔逻辑查询。使用新的Linkout服务，外部资源可以被链接到Entrez记录。

2．BLAST是一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

5文档收集于互联网，如有不妥请联系删除.