北京诺禾致源生物信息科技有限公司 2.4 测序数据质量情况汇总
Raw reads:统计原始序列数据,以四行为一个单位,统计每个文件的测序序列(Sequenced Reads)的个数。
Clean reads: 计算方法同 Raw Reads、Raw bases,只是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于Clean reads。
Clean bases: 测序序列(Sequenced Reads)的个数乘以测序序列的长度,并转化为以G为单位。Clean bases 要大于合同上规定的测序数据量。
Error rate:通过公式1计算得到。
Q20、Q30:分别计算 Phred 数值大于 20、30的碱基占总体碱基的百分比。 GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。 Sequence duplication level:重复的reads数占总reads数的比例,重复的reads的定义为两个reads在序列水平上完全相同。相对于基因组测序,RNA-seq的较高的测序序列重复水平是由于PCR 扩增带来的(Mamanova et al.)。除了PCR-free实验(例如FRT-seq)产生的RNA-seq数据,reads重复率一般都会在 70% 左右。而简单的去除这部分测序重复的RNA-seq数据并不会提高定量的准确性,所以现有基因表达水平的分析方法是保留这部分数据的基础上进行的,而在做 SNP 分析的时候需要除去这部分数据(Chepelev et al., 2009)。
3. 参考序列比对分析
3.1 RNA-Seq reads参考基因组比对统计
测序序列定位算法:根据不同的基因组的特征,我们选取相对合适的软件(动植物用TopHat (Trapnell et al., 2009)、真菌或者基因密度较高的物种用BLAT (Kent, 2002)),合适参数设置(如最大的内含子长度,会根据已知的该物种的基因模型来进行统计分析),将过滤后的测序序列进行基因组定位分析,下图为TOPHAT 的算法示意图:
31 北京诺禾致源生物信息科技有限公司 Tophat的算法主要分为两个部分:
(1) 将测序序列整段比对到外显子上。 (2) 将测序序列分段比对到两个外显子上。
比对结果统计表:
Sample name Total reads Total mapped Multiple mapped Uniquely mapped
Read-1 Read-2 Reads map to '+' Reads map to '-' Non-splice reads Splice reads Reads mapped in proper pairs
TS1 97714806 88921431(91%) 961182 (0.98%) 87960249 (90.02%) 44157413 (45.19%) 43802836 (44.83%) 43944185 (44.97%) 44016064 (45.05%) 64211264 (65.71%) 23748985 (24.3%) 77892308 (79.71%)
TS2 101418138 92225043 (90.94%) 1053580 (1.04%) 91171463 (89.9%) 45745753 (45.11%) 45425710 (44.79%) 45558208 (44.92%) 45613255 (44.98%) 67345511 (66.4%) 23825952 (23.49%) 82296934 (81.15%)
TR3 75638160 54554812 (72.13%) 1422941 (1.88%) 53131871 (70.24%) 26677577 (35.27%) 26454294 (34.97%) 26479698 (35.01%) 26652173 (35.24%) 42758444 (56.53%) 10373427 (13.71%) 45364262 (59.98%)
TR5 111582336 91773760 (82.25%) 1481392 (1.33%) 90292368 (80.92%) 45296200 (40.59%) 44996168 (40.33%) 45055089 (40.38%) 45237279 (40.54%) 68211989 (61.13%) 22080379 (19.79%) 80126002 (71.81%)
(1)Total reads: 测序序列经过测序数据过滤后的数量统计(Clean data)。
(2)Total mapped: 能定位到基因组上的测序序列的数量的统计; 一般情况下,如果不存在污染并且参考基因组选择合适的情况下,这部分数据的百分比大于 70%。 (3)Multiple mapped: 在参考序列上有多个比对位置的测序序列的数量的统计; 这部分数据的百分比一般会小于10%。 (4)Uniquely mapped: 在参考序列上有唯一比对位置的测序序列的数量的统计。 (5)Read-1, Read-2: 双端测序序列,其中两端分别能定位到基因组上的数量的统计; 两部分的统计的比例应该大体相同。
(6)Reads map to '+', Reads map to '-': 测序序列比对到基因组上正链和负链的统计。
(7)Splice reads:(2)中,分段比对到两个外显子上的测序序列(也称为Junction reads)的统计,Non-splice reads为整段比对到外显子的将测序序列的统计,Splice reads的百分比取决于测序片段的长度。 (8)Reads mapped in proper pairs,双端测序序列定位到基因组上相对的距离符合测序片段的长度分布。
3.2 RNA-Seq reads参考基因组比对分布图
对Total mapped的比对到基因组上的各个部分的情况进行统计,如下图所示,定位区域分为Exon (外显子), Intron(内含子)和 Intergenic(基因间隔区域)。
32 北京诺禾致源生物信息科技有限公司 正常情况下,Exon (外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能为基因组注释不完全以及背景噪音。
3.3 RNA-Seq reads参考序列密度分布图
对Total mapped的比对到基因组上的各个染色体的密度进行统计,如下图所示,图中只保留前30个最长的染色体,如果基因组中的染色体的数量不够30的情况则全部显示,具体作图的方法为用滑动窗口(window size)为1K,计算窗口内部比对到碱基位置上的reads的中位数,并转化成 log2 。
正常情况下,整个染色体长度越长,该染色体内部定位的reads总数会越多(Marquez et al.)。
33 北京诺禾致源生物信息科技有限公司 4. 可变剪切分析
用 Astalavista 软件 (Foissac and Sammeth, 2007; Sammeth, 2009; Sammeth et al., 2008) 对基因组的已知的基因模型、Cufflinks (Trapnell et al.) 预测出的基因模型(包括单个实验组中所有重复样品的数据, 所有实验样品的数据), 具体算法流程以及结果图片如下所示:
可变剪切事件图例 (Wang et al., 2008)
Skipped exon (SE);外显子跳跃
(1)
(2)
Retained intron(RI); 内含子滞留
(3)
Alternative 5’ splicing stie(A5SS); 可变5’端剪切
(4)
Alternative 3’ splicing site(A3SS); 可变3’端剪切
(5)
Mutually exclusive exon (MEX); 互相排斥的外显子
34 北京诺禾致源生物信息科技有限公司
5.SNP分析
具体缺相应的图表信息。
6. 新转录本预测
将所有数据的基因组定位结果放到一起,用 Cufflinks 进行组装,然后用 Cuffcompare 和 已知的基因模型进行比较,发现新的转录区域。具体的算法流程和可变剪切分析里到 Astalavista 软件分析之前是一样的。
35