北京诺禾致源生物信息科技有限公司
9.3 差异表达基因列表
差异基因列表
chromosome SL2.40ch06 SL2.40ch10 SL2.40ch06 SL2.40ch11 SL2.40ch06 SL2.40ch04
gene_id Solyc06g009960 Novo_02114 Novo_01304 Solyc11g028010 Novo_01303 Novo_00935
RPKM1 0.107986 0.04235 0.015863 19.92548 0.006346 0.017206
RPKM2 158.3342 63.33414 22.18282 0.021828 31.31789 41.81995
log2FoldChange
10.7241 10.77632 10.67336 -9.55392 12.53154 11.47674
padj 2.46E-221 3.06E-200 4.24E-126 2.38E-125 1.50E-121 3.76E-119
差异基因分析表主要包括的内容:
(1) 基因信息:
包含基因名称(如无参考基因组,不提供)、基因标号、两组实验条件下均一化的测序片段的度数、RPKM 或者 FPKM 数值 (表达水平)、log2Fold Change (相对差异倍数,计算方法用两个实验条件下的表达水平数值相除) 和 特定分布下的统计量(如 z-score 等,取决于假设分布)。 (2) 统计学检验:
p-value:不同的分析方法所采用的统计学模型不一样,如DESeq(在有重复的条件下,检测差异基因的效果最好)在检验差异基因时采用负二项分布,p-value 是指在原假设认为在两组实验条件下的所有基因都不存在差异的情况下出现极端情况的概率。
Corrected p-value : 基因差异表达分析是对于成千上万的基因进行独立的假设统计学检验,这种多重检验会存在总体假阳性偏高的问题,因此为了降低假阳性,需要对p-value进行校正。q-value (Benjamini et al. 1995), q-value(Storey et al. 2003)是采用不同的方法对p-value进行校正后的结果。q-value越低,基因表达差异越显著。
Significant (q-value(Storey et al. 2003) < 0.05) : 当q-value小于默认阈值0.05时,为TRUE,表示基因表达差异显著,反正为FALSE,无统计学差异。
41 北京诺禾致源生物信息科技有限公司 9.4 差异基因维恩图
差异基因的维恩图代表不同实验条件之间比对得到的差异基因共有的和特异的部分。
如上图所示,不同部分分别代表不同差异基因集共有以及特有的部分。
9.5 差异基因聚类分析
不同的实验条件之间的差异倍数作为输入,用K均值(K-means)或者层次聚类(hierarchical clustering)的方法对不同表达调控模式进行分类,如下图所示:
不同的颜色的区域代表不同的聚类分组信息,同组内的基因表达调控模式类似,可能参与到相同的生物学过程中。
42 北京诺禾致源生物信息科技有限公司
10. 差异基因Gene Ontology富集分析
得到差异表达基因之后,我们对差异表达基因做Gene Ontology 富集分析。
Gene Ontology(简称GO)是基因功能国际标准分类体系。根据实验目的筛选差异基因后,研究差异基因在Gene Ontology中的分布状况将阐明实验中样本差异在基因功能上的体现。GO功能显著性富集分析给出与基因组背景相比,在差异表达基因中显著富集的GO功能条目,从而给出差异表达基因与哪些生物学功能显著相关。该分析首先把所有差异表达基因向Gene Ontology数据库(http://www.geneontology.org/)的各个term映射,计算每个term的基因数目,然后应用超几何检验或者其他统计学方法,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目,下图为超几何分布分计算公式:
公式2:
其中,N为所有基因中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有基因中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。计算得到的p-value通过Bonferroni校正之后,以corrected p-value≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。通过GO功能显著性富集分析能确定差异表达基因行使的主要生物学功能。
分析Gene Ontology的富集分析的软件为GOseq (Young et al.), 除了完成上述分析功能以外,GOseq还消除了转录本长度对于功能富集结果的影响。
10.1 差异表达基因GO富集分析
样品中差异基因的Gene Ontology 分类
GO ID GO:0005813 GO:0005634 GO:0005351 GO:0042645 GO:0043533 GO:0005737 GO:0032792 GO:0005896 GO:0016853 GO:0005515
GO Term
centrosome nucleus
sugar:hydrogen symporter activity mitochondrial nucleoid
inositol 1,3,4,5 tetra kisphosphate binding cytoplasm
negative regulation of CREB transcription factor activity interleukin-6 receptor complex isomerase activity protein binding
Term type C C M C M C P C M M
P-Value 6.50E-06 5.47E-05 0.000130 0.000156
Correct DEG P-Value item 0.07377 0.31026 0.44389 0.44389
17 108 3 5
Bg/ref item 252 4569 6 31 2 4488 3 3 111 8310
0.000312 0.67799 2 0.000358 0.67799 105 0.000542 0.87928 2 0.000626 0.88749 2 0.000714 0.90057 7 0.000803 0.91167 172
43 北京诺禾致源生物信息科技有限公司 上述表格为差异基因的Gene Ontology富集分析结果表格。 GO ID: Gene Ontology数据库中唯一的标号信息 GO Term: Gene Ontology功能的描述信息
Term type为该GO的类别(C:细胞组分;P:生物路径;M:分子功能)
P-value: 富集分析统计学显著水平,一般情况下,P-value < 0.05 该功能为富集项 Correct P-Value 矫正后的P-Value
DEG item:差异基因中与该Term相关的基因数
DEG item:所有(bg)基因中与该Term相关的基因数
10.2 GO有向无环图分析
有向无环图为差异基因GO富集分析的结果图形化展示方式,分支代表包含关系,从上至下所定义的功能范围越来越小,一般选取GO富集分析的结果前10 位作为有向无环图的主节点,并通过包含关系, 将相关联的GO Term一起展示,颜色的深浅代表富集程度。
11. 差异基因KEGG富集分析
在生物体内,不同基因相互协调行使其生物学功能,通过Pathway显著性富集能确定差异表达基因参与的最主要生化代谢途径和信号转导途径。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库(Kanehisa,2008)。Pathway显著性富集分析以KEGG Pathway为单
44 北京诺禾致源生物信息科技有限公司 位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。该分析的计算公式同公式2中GO功能显著性富集分析,在这里N为所有基因中具有Pathway注释的基因数目;n为N中差异表达基因的数目;M为所有基因中注释为某特定Pathway的基因数目;m为注释为某特定Pathway的差异表达基因数目。FDR≤0.05的Pathway定义为在差异表达基因中显著富集的Pathway。
11.1 差异基因KEGG显著性富集列表
差异基因KEGG显著性富集列表
Term
ID
Sample number
VEGF signaling pathway Leishmaniasis Endocytosis
Glycine, serine and threonine metabolism SNARE interactions in vesicular transport mmu04370 mmu05140 mmu04144 mmu00260 mmu04130 3 / 58 4 / 58 7 / 58 3 / 58 3 / 58 Background number 76 / 6865 65 / 6865 224 / 6865 35 / 6865 35 / 6865 0.0260412 0.002117 0.0026149 0.0030921 0.0030921 P-Value
Corrected P-Value 0.0069057 0.0027138 0.0027138 0.0027138 0.0027138
Term:KEGG通路的描述信息。
ID:KEGG数据库中通路唯一的编号信息。
Sample Number:在该通路下的差异基因的个数 / 涉及到KEGG通路中的差异基因的个数。 Background Number:所有通路下的差异基因的个数 / 所有通路下的基因的个数。 P-value:富集分析统计学显著水平。
Corrected P-value:矫正后的统计学显著水平,一般情况下,P-value < 0.05 该功能为富集项。
11.2 差异基因KEGG富集散点图
差异基因KEGG富集散点图中,KEGG富集程度的分布到不同的象限中,横坐标Rich factor 是差异表达的基因中位于该pathway 条目的基因数目与所有有注释基因中位于该pathway 条目的基因数的比值。Rich factor越大,表示富集的程度越大。纵坐标-log10(Qvalue)中Qvalue是做过多重假设检验校正之后的pvalue,-log10(Qvalue)越大,表示富集越显著。我们挑选了富集最显著的20条pathway条目在该图中进行展示。我们给出的参考重要程度排序如下: 1 Phase > 2 > Phase > 3 Phase > 4 Phase。
45