好文档 - 专业文书写作范文服务资料分享网站

有参考基因组的转录组生物信息分析模板

天下 分享 时间: 加入收藏 我要投稿 点赞

v1.0 可编辑可修改 一、生物信息分析流程

获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:

1

v1.0 可编辑可修改

二、项目结果说明

1 原始序列数据

高通量测序(如illumina HiSeqTM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述,如下:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT

+

@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。

illumina 测序标识符详细信息如下:

EAS139 136 FC706VJ Unique instrument name Run ID Flowcell ID 2

v1.0 可编辑可修改 2 2104 15343 197393 1 Y 18 ATCACG Flowcell lane Tile number within the flowcell lane 'x'-coordinate of the cluster within the tile 'y'-coordinate of the cluster within the tile Member of a pair, 1 or 2 (paired-end or mate-pair reads only) Y if the read fails filter (read is bad), N otherwise 0 when none of the control bits are on, otherwise it is an even number Index sequence 第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illumina HiSeqTM2000/MiSeq的碱基质量值用Qphred表示,则有下列关系:

公式一: Qphred = -10log10(e)

illumina Casava 版本测序错误率与测序质量值简明对应关系如下:

测序错误率 5% 1% % % 测序质量值 13 20 30 对应字符 . 5 40 I

2 测序数据质量评估

测序错误率分布检查

3

v1.0 可编辑可修改 每个碱基测序错误率是通过测序Phred数值(Phred score, Qphred)通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:

illumina Casava 版本碱基识别与Phred分值之间的简明对应关系

Phred分值 10 20 30 40 不正确的碱基识别 1/10 1/100 1/1000 1/10000 碱基正确识别率 90% 99% % % Q-sorce Q10 Q20 Q30 Q40 测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点:

(1)测序错误率会随着测序序列(Sequenced Reads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jiang et al.)。

(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et al.)。测序错误率分布检查用于检测在测序长度范围内,有无异常的碱基位置存在高错误率,比如中间位置的碱基测序错误率显著高于其他位置。一般情况下,每个碱基位置的测序错误率都应该低于%。

4

v1.0 可编辑可修改

图 测序错误率分布图

横坐标为reads的碱基位置,纵坐标为单碱基错误率

5

有参考基因组的转录组生物信息分析模板

v1.0可编辑可修改一、生物信息分析流程获得原始测序序列(SequencedReads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:1v1.0可编辑可修改二、项目结果说明1原始序列数据高通量测序(如illuminaHiSeqTM200
推荐度:
点击下载文档文档为doc格式
1cfgq4d81l6trx01723y3gzju6vsv000dlz
领取福利

微信扫码领取福利

微信扫码分享