北京诺禾致源生物信息科技有限公司 8. RNA-seq整体质量评估 8.1 均一性分布检查
根据转录组建库实验的特点,转录本其产生的测序序列(reads)实际覆盖度的分布特点见下图:距离转录本的5'端和3'端越近,平均测序深度越低,但总体的均一化程度比较高。项目结果见图11。
图11 不同表达水平的转录本的reads密度分布图
High:高表达量转录本;Medium:中度表达量转录本;Low:低表达量转录本。 横坐标为距离转录本5’端的相对位置(以百分比表示),纵坐标为覆盖深度的平均值。
8.2 饱和曲线检查
定量饱和曲线检查反映了基因表达水平定量对数据量的要求。表达量高的基因,就越容易被准确定量;反之,表达量低的基因,需要较大的测序数据量才能被准确定量。项目结果见图12。
图12 定量饱和曲线检查分布图
横坐标代表定位到基因组上的reads数占总reads数的百分比,纵坐标代表定量误差
在10%以内的基因的比例。n代表在此RPKM范围内的基因数。
16 北京诺禾致源生物信息科技有限公司 8.3 重复相关性检查
样品间基因表达水平相关性是检验实验可靠性和样本选择是合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。通常生物学重复要求 R2 > 0.92。
图13 RNA-Seq 生物学重复相关性分析
对取自同一时间点均进行RNA-Seq测序的样本进行生物学重复相关性分析
17 北京诺禾致源生物信息科技有限公司 9. 差异表达分析
9.1 不同试验条件下,基因表达水平对比图
图14 在不同试验条件,所有基因的表达水平的箱线图
18 北京诺禾致源生物信息科技有限公司 9.2 样本间差异基因筛选
图15 样本间基因差异表达分析火山图
有显著性差异表达的基因用红色点表示;横坐标代表基因在不同样本中表达倍数变化; 纵坐标代表基因表达量变化差异的统计学显著性,红色圆点表示有显著性差异的基因。
19 北京诺禾致源生物信息科技有限公司 9.3 差异表达基因列表
项目结果见 ./Results/DEseq/DESeq.out.xls。
表5 差异基因列表(部分)
chromosome SL2.40ch06 SL2.40ch10 SL2.40ch06 SL2.40ch11 SL2.40ch06 SL2.40ch04
gene_id Solyc06g009960 Novo_02114 Novo_01304 Solyc11g028010 Novo_01303 Novo_00935
RPKM1 0.107986 0.04235 0.015863 19.92548 0.006346 0.017206
RPKM2 158.3342 63.33414 22.18282 0.021828 31.31789 41.81995
log2FoldChange
10.7241 10.77632 10.67336 -9.55392 12.53154 11.47674
padj 2.46E-221 3.06E-200 4.24E-126 2.38E-125 1.50E-121 3.76E-119
20