好文档 - 专业文书写作范文服务资料分享网站

如何进行多基因组比对共线性分析 - 图文

天下 分享 时间: 加入收藏 我要投稿 点赞

如何进行多基因组比对和共线性分析

pf20200919

1、比对基因组

一个基因组比对的简单用户图形界面是Mauve。双击启动软件后,只需从“File”菜单中选择“Align…”或“Align with progressiveMauve…”。

然后Mauve 就提供一个比对的对话框:

下面部分的描述是对话框中各个输入参数的设置。

1.1使用比对对话框 1.1.1序列文件的输入格式

基因组序列文件可以以任何FastA、Multi-FastA、GenBank flat文件或原始格式提供给Mauve。Mauve根据文件扩展名推导出文件格式。默认情况下,任何无法识别的文件扩展名都假定为(Multi-)FastA格式。Mauve能识别的扩展名是.gbk (GenBank格式)和.raw(原始序列数据)。请注意,一些非常老版本的Mauve(直到20040219)也假定.txt文件是原始文件格式。你研究的生物体基因组的FastA和GenBank格式文件通常可以从NCBI下载ftp://ftp.ncbi.nih.gov/genomes/。.fna文件为FastA格式,.gbk文件为GenBank格式。对于质粒的基因组,可能需要下载多个.fna或.gbk文件并组合为单个文件(例如运行代码:cat *.gbk > my_genome.gbk)。

当单个文件包含多个序列时,它们将被连接起来,然后整个连接起来的序列将与其他文件中的序列进行比对。这种行为允许多个染色体基因组通过被列在单个序列文件中的所有染色体进行比对。类似地,由几个序列contigs组成的不完整基因组也可以被比对,但要注意, 在Mauve结果显示中,排序不正确的contigs将被认为是基因组的重排。

或者,可以指定一个包含所有要比对的基因组的单一多fasta文件。在这种情况下,Mauve假设多快序列条目组成一个基因组,并将在基因组间相互比对。

1.1.2选择要比对的基因组

顶部的入口区域列出了将要比对的基因组序列文件。要添加序列文件,点击“Add

sequence…”按钮并选择要添加的文件。Windows版本的Mauve支持拖拽文件到该区域,允许通过点击鼠标拖放序列文件来添加。

1.1.3设置输出结果文件的位置

可以使用“File output:”文本输入字段设置Mauve输出比对结果的位置。如果留空,Mauve将提示选择输出文件的位置。

1.1.4设置自定义比对参数

在原始的Mauve(mauveAligner)和渐进Mauve(Progressive Mauve)这2种算法之间的比对参数是不同的,将在后面的部分中详细讨论。

1.1.5计算比对

一旦基因组序列被载入,点击“Align…”按钮就开始比对了。将弹出一个控制台对话框,显示比对的进度。

1.1.6取消运行比对

在2.1.0版本中,可以通过返回“Align sequence…”对话框并点击“Cancel alignment”按钮来取消正在运行的比对。此外,退出Mauve程序也会使得运行中的比对终止。如果所有这些都失败了,可以使用Windows任务管理器、Mac OS X进程检查器或unix中的“kill”命令来终止正在运行的比对(mauveAligner或progressiveMauve)。

2、渐进的基因组比对参数

默认情况下,Mauve选择了一组比对参数,这些参数适合于比对具有中到高数量的基因组重排事件的亲缘关系接近基因组。但是,有些时候需要(而且应该!)调整一些比对参数来改变Mauve的行为。例如,最小LCB权重的默认值经常太低,应该手动选择一个恰当的值替换。当比对时,

2.1progressiveMauve参数描述:

匹配种子重量Match seed weight

与mauveAligner一样,在第一次锚定比对时,种子大小参数设置为种子模式的最小权重用于生成局部多重比对(匹配)。当在比对差异基因组或同时比对更多的基因组时,较低的种子权重可能提供更好的灵敏度。然而,因为Mauve还要求匹配的种子必须在每个基因组中是唯一的,所以将这个值设置得太低会降低灵敏度。

默认的种子权重(重量)Default seed weight

设置此选项将允许Mauve选择一个初始匹配种子权重,该权重适宜于被比对的序列长度。1MB基因组的默认种子大小通常是11个左右,5MB基因组的默认种子大小是15左右,种子大小随着比对基因组的大小而增加。默认值可能是相对保守的(太大),特别是当比对有更多差异性的基因组时。另一方面,较高的种子权重减少了噪声匹配,在某些情况下可以产生更好的比对结果。

使用种子家族Use seed families

设置这个选项会导致progressiveMauve使用三种间隔的种子模式来搜索匹配项,而不是只使用一个。使用三种种子模式可以极大地提高对不同基因组的敏感性,并允许使用较高的种子权重对亲缘关系密切相关的生物体进行分析而不失去其分析的灵敏度。在大多数情况下,使用种子家族仅需要多出少量的额外计算时间。

确定LCBs Determine LCBs

如果禁用此选项,Mauve将简单地识别基因组之间的匹配(局部多重比对)。在命令行界面一章中可以看到匹配生成的描述。

假设为共线性基因组Assume collinear genomes

如果确定要比对的基因组之间没有重排,则选择此选项。在比对共线基因组时使用这个选项可以加快progressiveMauve的运行时间。

完全比对和迭代细化Full alignment and Iterative Refinement

选择“Full alignment”选项导致Progressive Mauve对基因组序列施用MUSCLE执行递归的锚搜索和一个完全的空位比对。如果没有选择,Progressive Mauve将识别比对锚,将它们聚类成LCBs中以完成比对。“Iterative Refinement”选项应用MUSCLE来优化初始比对,通常会改进初始比对。当MUSCLE执行独立树的细化迭代时,应该使用这个选项来避免使用单一的引导树导致有偏见的系统发育关系推断。 Sum-of-pairs LCB得分 Sum-of-pairs LCB scoring

此选项选择是否在所有对现存序列中应用断点罚分,或者是否将罚分应用于推断的祖先基因排序上。由于Progressive Mauve不能准确推断祖先的基因顺序,即使它能,它也不能推断祖先的基因组含量,因此这个选项应该被认为是“实验性的”,只能在比对共线性基因组时禁用。

原始Mauve(mauveAligner)比对参数

默认情况下,Mauve选择了一组比对参数,这些参数适合于对具有中等到高数量级基因组重排事件的亲缘关系密切相关基因组进行比对。但是,可以(而且应该!)调整一些比对参数来改变Mauve的行为。例如,最小LCB权重的默认值经常太低,应该手动选择适合的值替换。当比对有更多差异性的基因组时,可以减少种子的大小,以找到更多的比对锚,并在基因组上实现更大的比对覆盖率。另一种选择是禁用完整的比对过程,允许Mauve快速生成基因组组织的比较图。

3r3sd7cqdb3jk4h7sglc72h8v7sa2300vi2
领取福利

微信扫码领取福利

微信扫码分享