转录组有参考生物信息分析结题报告模版-V2.0

由天下分享时间：2025/3/20 12:36:30 加入收藏我要投稿点赞

北京诺禾致源生物信息科技有限公司 11.2 差异基因KEGG富集散点图

差异基因KEGG富集分析的散点图，其中四个象限内的KEGG通路的富集程度不同。

图19 差异基因代谢通路分析的四象限图

Rich factor 是差异表达的基因中位于该pathway 条目的基因数目与所有有注释基因中位于该pathway 条目的基因数的比值。Rich factor越大，表

示富集的程度越大。-log10（Qvalue）中Qvalue是做过多重假设检验校正之后的pvalue，-log10（Qvalue）越大，表示富集越显著。

26 北京诺禾致源生物信息科技有限公司 12．差异基因蛋白互作网络分析

差异基因的蛋白互相作用的信息，结果如图20所示：

图20 差异基因相互作用网络分析

27 北京诺禾致源生物信息科技有限公司三、结果说明文档 1. 原始序列数据

FASTQ格式文件中每个read由四行描述，如下： @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT +

@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

其中第一行以“@”开头，随后为Illumina 测序标识别符（Sequence Identifiers）和描述文字（选择性部分）。第二行是碱基序列；第三行以“+”开头，随后为Illumina 测序标识别符（选择性部分）；第四行是对应序列的测序质量；(Cock et al.)

Illumina 测序标识别符（Sequence Identifiers）详细信息如下：

EAS139 136 FC706VJ 2 2104 15343 197393 1 Y 18 ATCACG

Unique instrument name

Run ID Flowcell ID Flowcell lane

Tile number within the flowcell lane 'x'-coordinate of the cluster within the tile 'y'-coordinate of the cluster within the tile

Member of a pair, 1 or 2 (paired-end or mate-pair reads only)

Y if the read fails filter (read is bad), N otherwise

0 when none of the control bits are on, otherwise it is an even number

Index sequence

第四行中每个字符对应的ASCII值减去33，即为对应第二行碱基的测序质量值。如果测序错误率用e表示，Illunima HiSeqTM2000/ Miseq的碱基质量值用Qphred表示，则有下列关系：

公式1:

Illunima Casava 1.8版本测序错误率与测序质量值简明对应关系

测序错误率

5% 1% 0.1% 0.01%

测序质量值

13 20 30 40

对应字符

. 5 ? I

碱基识别（Base Calling）分析软件：Illunima Casava 1.8版本测序参数：双端测序（Paired end）；测序序列读长：100bp （或者单位为循环数(cycle)）

28 北京诺禾致源生物信息科技有限公司 2. 测序数据质量评估

2.1 测序错误率分布检查

每个碱基测序错误率是通过测序Phred数值（Phred score ,Qphred）通过公式1转化得到，而Phred 数值是在碱基识别(Base Calling)过程通过一种预测碱基判别发生错误概率模型计算得到的，对应关系如下表所显示：

Illunima Casava 1.8版本碱基识别与Phred分值之间的简明对应关系

Phred分值

10 20 30 40

不正确的碱基识别

1 / 10 1 / 100 1 / 1000 1 / 10000

碱基正确识别率

90% 99% 99.9% 99.99%

Q-sorce Q10 Q20 Q30 Q40

对于RNA-seq技术，测序错误率分布具有两个特点：

（1）测序错误率会随着测序序列（Sequenced Reads）的长度的增加而升高，这是由于测序过程中化学试剂的消耗而导致的，并且为illumina高通量测序平台都具有的特征（Erlich and Mitra, 2008; Jiang et al.）。

（2）前6个碱基的位置也会发生较高的测序错误率，而这个长度也正好等于在RNA-seq建库

过程中反转录所需要的随机引物的长度。所以推测这部分较高的测序错误率原因为随机引物和RNA 测序错误率分布检查用于检测在测序长度范围内，有无异常的碱基位置存在高错误率，比如中间位置的碱基的测序错误率显著的高于其他位置。一般情况下，每个碱基位置的测序错误率应该低于0.5 %。

2.2 A/T/G/C含量分布检查

在illumina测序平台的转录组测序中，反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸的组成存在一定的偏好性。而这种偏好型独立于所测序的物种和实验室，并会影响转

29 北京诺禾致源生物信息科技有限公司录组测序的均一化程度(Hansen et al.)。

除此之外，理论上G和C碱基及A和T碱基含量每个测序循环上应分别相等，且整个测序过程稳定不变，呈水平线。

A/T/G/C含量分布检查用于检测有无AT、GC 分离现象, 而这种现象可能是测序或者建库所带来的，并且会影响后续的定量分析。

2.3 测序数据过滤

数据处理的步骤如下：

1）去除带接头（adopter）的reads。

2）去除N（N表示无法确定碱基信息）的比例大于10%的reads。

3）去除低质量reads（质量值sQ <= 5的碱基数占整个read的50％以上的reads）。

RNA-seq 的接头（Adopter, Oligonucleotide sequences for TruSeqTM Small RNA Sample Prep Kit）信息：

RNA 5’ Adapter (RA5), part # 15013205: 5’ -GUUCAGAGUUCUACAGUCCGACGAUC-3’ RNA 3’ Adapter (RA3), part # 15013207: 5’- TGGAATTCTCGGGTGCCAAGG-3’

原始测序序列（Sequenced Reads）的数据处理（过滤）结果：

不同颜色代表对不同过滤条件的统计

转录组有参考生物信息分析结题报告模版-V2.0

北京诺禾致源生物信息科技有限公司11.2差异基因KEGG富集散点图差异基因KEGG富集分析的散点图，其中四个象限内的KEGG通路的富集程度不同。图19差异基因代谢通路分析的四象限图Richfactor是差异表达的基因中位于该pathway条目

推荐度：

点击下载文档文档为doc格式

转录组有参考生物信息分析结题报告模版-V2.0

转录组有参考生物信息分析结题报告模版-V2.0

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表