北京诺禾致源生物信息科技有限公司 2.4 测序数据质量情况汇总
样品测序产出数据质量评估情况详见表1。
表1 数据产出质量情况一览表
Sample TS-1_1 TS-1_2 TS-2_1 TS-2_2 TR-3_1 TR-3_2 TR-5_1 TR-5_2
Raw reads 48900437 48900437 50753113 50753113 37877095 37877095 55854530 55854530
Clean reads 48857403 48857403 50709069 50709069 37819080 37819080 55791168 55791168
Bases 4.89G 4.89G 5.07G 5.07G 3.78G 3.78G 5.58G 5.58G
Error(%) 0.03 0.03 0.03 0.03 0.03 0.04 0.03 0.03
Q20(%) 98.24 96.96 98.26 97.11 97.41 95.91 97.9 96.66
Q30(%) 94.22 91.59 94.3 91.92 92.21 89.18 93.38 90.83
GC(%) 43.69 43.68 43.41 43.44 47.79 47.81 45.57 45.54
Dup(%) 79.61 78.21 79.26 77.83 82.78 81.45 81.97 80.75
Raw Reads:由测序得到的原始图像数据经base calling 转化而来的原始序列reads。 Clean reads:将Raw Reads过滤得到的reads。 Bases (Clean bases): 过滤得到的数据的总碱基数。
Error (Error rate):指测序错误率,与碱基质量值之间有一定的对应关系。 Q20:测序错误率≤1%的碱基数目比例。 Q30:测序错误率≤0.1%的碱基数目比例。
GC content:G+C的数量占总的碱基数量的百分比。
Dup (Duplication level):重复的reads数占总reads数的比例。
6 北京诺禾致源生物信息科技有限公司 3. 参考序列比对分析
3.1 RNA-Seq reads参考基因组比对统计
如果参考基因组选择合适并且相关实验不存在污染的情况下,实验所产生的测序序列的定位的百分比正常情况下会高于70% (Total Mapped Reads or Fragments),其中具有多个定位的测序序列(Multiple Mapped Reads or Fragments)占总体的百分比通常不会超过10%。项目结果见表2。
表2 参考基因组比对的统计情况一览表
Sample name Total reads Total mapped Multiple mapped Uniquely mapped
Read-1 Read-2 Reads map to '+' Reads map to '-' Non-splice reads Splice reads Reads mapped in proper pairs
TS1 97714806 88921431(91%) 961182 (0.98%) 87960249 (90.02%) 44157413 (45.19%) 43802836 (44.83%) 43944185 (44.97%) 44016064 (45.05%) 64211264 (65.71%) 23748985 (24.3%) 77892308 (79.71%)
TS2 101418138 92225043 (90.94%) 1053580 (1.04%) 91171463 (89.9%) 45745753 (45.11%) 45425710 (44.79%) 45558208 (44.92%) 45613255 (44.98%) 67345511 (66.4%) 23825952 (23.49%) 82296934 (81.15%)
TR3 75638160 54554812 (72.13%) 1422941 (1.88%) 53131871 (70.24%) 26677577 (35.27%) 26454294 (34.97%) 26479698 (35.01%) 26652173 (35.24%) 42758444 (56.53%) 10373427 (13.71%) 45364262 (59.98%)
TR5 111582336 91773760 (82.25%) 1481392 (1.33%) 90292368 (80.92%) 45296200 (40.59%) 44996168 (40.33%) 45055089 (40.38%) 45237279 (40.54%) 68211989 (61.13%) 22080379 (19.79%) 80126002 (71.81%)
7 北京诺禾致源生物信息科技有限公司 3.2 RNA-Seq reads参考基因组比对分布图
定位到基因组上的测序序列分布统计,用于检测测序序列基因组上的来源。项目结果见图4。
图4 RNA-Seq 测序得到的reads比对到参考基因组不同区域上的分布情况
8 北京诺禾致源生物信息科技有限公司 3.3 RNA-Seq reads参考序列密度分布图
对定位到基因组上的测序序列完成染色体密度分布统计,用于检测染色体上测序序列分布的异常情况。项目结果见图5。
图5 RNA-Seq 测序得到的reads比对到参考基因组不同染色体上的分布情况 横坐标为染色体的长度信息(以百万碱基为单位),纵坐标为log2(reads的密度的中位数)
9 北京诺禾致源生物信息科技有限公司 4. 可变剪切分析
对该物种及其相应的测序样品进行可变剪切事件的统计。项目结果见图6。
图6 可变剪切类型分析
横坐标为可变剪切事件的五种分类缩写,纵坐标为该种事件下可变剪切的数量,
不同颜色代表不同的样品组合或者已知的基因模型
(1) (2) (3) (4) (5)
Skipped exon (SE);外显子跳跃 Retained intron(RI); 内含子滞留
Alternative 5’ splicing stie(A5SS); 可变5’端剪切 Alternative 3’ splicing site(A3SS); 可变3’端剪切 Mutually exclusive exon (MEX); 互相排斥的外显子
10