北京诺禾致源生物信息科技有限公司
上图为不同区域的RPKM的累积分布(包括外显子,内含子,新转录本区域以及基因间隔区域),从图上看,累积分布线上升的越快则代表相应区域的整体RPKM数值比其他上升较慢的区域低。(整体的RPKM数值 外显子 > 新基因区域 > 内含子 > 基因间隔区域 )。
上图为不同区域的RPKM的盒形图(包括外显子,内含子,新转录本区域以及基因间隔区域)。 每个区域的盒形图对五个统计量(至上而下分别为最大值,上四分位数,中值,下四分位数和最小值)。
36 北京诺禾致源生物信息科技有限公司
上图为不同区域的RPKM的密度分布图(包括外显子,内含子,新转录本区域以及基因间隔区域)。
7. 基因表达水平分析
一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度程度越高,则基因表达水平越高。在RNA-seq分析中,我们可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度、测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们引入了 RPKM的概念,RPKM(Reads Per Kilo bases per Million reads)是每百万reads中来自某一基因每千碱基长度的reads数目。RPKM同时考虑了测序深度和基因长度对reads计数的影响,是目前最为常用的基因表达水平估算方法 (Mortazavi et al., 2008)。
不同表达水平区间的基因数量统计表
RPKM Interval
0 – 0.01 0.1 - 0.3 0.3 - 3.57 3.57 - 15 15 - 60 > 60
Gene Counts Sample1 13724 (36.73%) 2032 (5.44%) 9783(26.18%) 7641 (20.45%) 3041 (8.14%) 1143 (3.06%)
Gene Counts Sample2 13459 (36.02%) 1909 (5.11%) 9786 (26.19%) 7981 (21.36%) 3116 (8.34%) 1113 (2.98%)
Gene Counts Sample3 14515 (38.85%) 2101 (5.62%) 9984 (26.72%) 7075 (18.94%) 2668 (7.14%) 1021 (2.73%)
Gene Counts Sample4 13728 (36.74%) 1982 (5.30%) 10379 (27.78%) 7424 (19.87%) 2800 (7.49%) 1051 (2.81%)
37 北京诺禾致源生物信息科技有限公司 基因表达水平统计表
chromosome SL2.40ch00 SL2.40ch00 SL2.40ch00 SL2.40ch00 SL2.40ch00 SL2.40ch00
gene_id Novo_00001 Novo_00002 Novo_00003 Novo_00004 Novo_00005 Novo_00006
start 876120 1146195 1230237 4277120 4641283 4640465
end 876253 1147157 1234310 4277288 4642496 4641341
RPKM (TS1) 0.965 0.282 0.387 17.526 1.332 0.546
RPKM (TS2) 3.255 0.440 0.493 20.280 1.365 1.108
RPKM (TR3) 0.985 0.000 0.142 22.794 0.000 0.000
RPKM (TR5) 0.403 0.000 0.351 27.304 0.000 0.000
上表分别统计了不同表达水平下基因的数量以及单个基因的表达水平。一般情况下,RPKM 数值0.1 或者 0.01 作为判断基因是否表达的阈值, 不同的文献所采用的阈值不同。RPKM的数据值为1代表一个细胞中含有一个RNA 分子(Mortazavi et al., 2008);RPKM 在 0.1 到 3.75 之间可以认为是低丰度表达水平的基因;RPKM 在 3.75 到 15 之间为中等丰富度表达水平基因;RPKM大于15之间为高丰富度表达水平基因。
8. RNA-seq整体质量评估
8.1 均一性分布检查
理想条件下,对于RNA-seq技术来说,测序序列(reads)之间为独立抽样并且reads在所有的表达的转录本的上的分布应该呈现均一化分布。然而很多研究表明,很多偏好型的因素都会影响这种均一化的分布(Dohm et al., 2008)。例如,在RNA-seq建库过程中,片段破碎和RNA反转录的顺序不一样会导致RNA-seq最终的数据呈现严重的3’偏好性。其他因素还包括转录区域的GC含量不同、随机引物等等,并且生物体内从5’或者3’的降级过程同样会导致不均一性分布。
如上图显示,左边为正常的RNA-seq的均一性分布;右边存在严重的3’端的偏好性,而右图的数据会对的表达水平的定量分析产生影响。
38 北京诺禾致源生物信息科技有限公司 8.2 表达水平的饱和曲线检查
表达水平的饱和曲线的具体算法描述如下:
分别对10%, 20%,30% … 90%的总体测序数据分别的单独进行基因定量分析,并把所有数据条件下得到的基因的表达水平作为最终的数值。用每个百分比条件下求出的单个基因的RPKM数值和最终对应基因的表达水平数值进行比较,如果差异小于15%, 则认为这个基因在这个条件下定量是准确的。
如上图所示,RPKM数值大于3.75的条件下基因的在该数据量的情况下对于基因定量分析而言是饱和的。
8.3 重复相关性检查
生物学重复是任何生物学实验所必须的,高通量测序技术也不例外(Hansen et al.)。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且变异不大,另一个为后续的差异基因分析所需要的。
如上图所示,两个生物学重复样品间的RPKM数值大部分都落到对角线上,并且皮尔逊相关系数的平方大于0.92(Encode计划建议),如果小于0.92,需要对样品做出合适的解释,否则需要重新进行实验。
39 北京诺禾致源生物信息科技有限公司 9. 差异表达分析
差异表达分析找出在不同样本间存在差异表达的基因。
参照Simon Anders等人于2010年发表在Genome Biology上的基于测序序列数据的差异基因检测方法(DEseq)进行筛选两样本间的差异表达基因,判断条件为 FDR < 0.05。(Anders and Huber)
9.1 不同实验条件下,基因表达水平对比图
通过所有基因的RPKM的分布图以及盒形图对不同实验条件下的基因表达水平两两进行比较。对于同一实验条件下的重复样品,最终的RPKM为所有重复数据的平均值。
RPKM分布图(左图)的横坐标为log10 RPKM, 纵坐标为基因的密度。
RPKM盒形图(左图)的横坐标为样品名称,纵坐标为log10 RPKM,每个区域的盒形图对五个统计量(至上而下分别为最大值,上四分位数,中值,下四分位数和最小值)。 实例图上两个不同实验的RPKM分布差异不显著。
9.2 样本间差异基因筛选
用火山图可以推断差异基因的整体分布情况,从差异倍数(Fold change)和显著水平(P-value)两个水平进行评估,如下图所示:
40