v1.0 可编辑可修改 的算法示意图:
Tophat的算法主要分为两个部分: (1) 将测序序列整段比对到外显子上。 (2) 将测序序列分段比对到两个外显子上。
我们统计了实验所产生的测序序列的定位个数(Total Mapped Reads)及其占clean reads的百分比,其中包括多个定位的测序序列个数(Multiple Mapped Reads)及其占总体(clean reads)的百分比,以及单个定位的测序序列个数(Uniquely Mapped Reads)及其占总体(clean reads)的百分比。 Reads与参考基因组比对情况统计
表 Reads与参考基因组比对情况一览表
11
v1.0 可编辑可修改 Sample name Total reads HS1 HS2 HT1 HT2 HW1 HW2 Total mapped Multiple mapped Uniquely mapped Read-1 Read-2 Reads map to '+' Reads map to '-' Non-splice reads Splice reads Reads mapped in proper pairs %) %) %) %) %) %) 606556 %) 633575 %) 714678 %) 450156 %) 389470 %) 335509 %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) %) (43%) %) %) %) %) %) %) %) %) %) %) %) %) 9910559 %) %) 比对结果统计详细内容如下:
(1) Total reads:测序序列经过测序数据过滤后的数量统计(Clean data)。 (2) Total mapped:能定位到基因组上的测序序列的数量的统计;一般情况下,如果不存在污染并且参考基因组选择合适的情况下,这部分数据的百分比大于 70%。
(3) Multiple mapped:在参考序列上有多个比对位置的测序序列的数量统计;这部分数据的百分比一般会小于10%。
(4) Uniquely mapped:在参考序列上有唯一比对位置的测序序列的数量统计。
(5) Reads map to '+',Reads map to '-':测序序列比对到基因组上正链和负链的统计。
12
v1.0 可编辑可修改 (6) Splice reads:(2)中,分段比对到两个外显子上的测序序列(也称为Junction reads)的统计,Non-splice reads为整段比对到外显子的将测序序列的统计,Splice reads的百分比取决于测序片段的长度。 Reads在参考基因组不同区域的分布情况
对Total mapped reads的比对到基因组上的各个部分的情况进行统计,定位区域分为Exon(外显子)、Intron(内含子)和Intergenic(基因间隔区域)。
正常情况下,Exon (外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能是因为基因组注释不完全以及背景噪音。
13
v1.0 可编辑可修改 图 Reads在参考基因组不同区域的分布情况
Reads在染色体上的密度分布情况
对Total mapped reads的比对到基因组上的各个染色体(分正负链)的密度进行统计,如下图所示,具体作图的方法为用滑动窗口(window size)为1K,
14
v1.0 可编辑可修改 计算窗口内部比对到碱基位置上的reads的中位数,并转化成 log2 。正常情况下,整个染色体长度越长,该染色体内部定位的reads总数会越多(Marquez et al.)。从定位到染色体上的reads数与染色体长度的关系图中,可以更加直观看出染色体长度和reads总数的关系。
15