有参考基因组的转录组生物信息分析模板

由天下分享时间：2024/12/18 7:12:06 加入收藏我要投稿点赞

v1.0 可编辑可修改

GC含量分布检查

GC含量分布检查用于检测有无AT、GC 分离现象，而这种现象可能是测序或者建库所带来的，并且会影响后续的定量分析。

在illumina测序平台的转录组测序中，反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和实验室环境无关，但会影响转录组测序的均一化程度(Hansen et al.)。除此之外，理论上G和C碱基及A和T碱基含量每个测序循环上应分别相等，且整个测序过程稳定不变，呈水平线。对于DGE测序来说，由于随机引物扩增偏差等原因，常常会导致在测序得到的每个read前6-7个碱基有较大的波动，这种波动属于正常情况。

v1.0 可编辑可修改

图 GC含量分布图

横坐标为reads的碱基位置，纵坐标为单碱基所占的比例；不同颜色代表不同的碱基类型

测序数据过滤

测序得到的原始测序序列，里面含有带接头的、低质量的reads，为了保证信息分析质量，必须对raw reads进行过滤，得到clean reads，后续分析都基于clean reads。

v1.0 可编辑可修改数据处理的步骤如下：

(1) 去除带接头(adapter)的reads；

(2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads； (3) 去除低质量reads。

RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeqTM RNA and DNA Sample Prep Kits) 信息：

RNA 5’ Adapter (RA5), part # ：

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’

RNA 3’ Adapter (RA3), part # ：

5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3’

v1.0 可编辑可修改

图原始数据过滤结果

测序数据质量情况汇总

表数据产出质量情况一览表

Sample name Raw reads Clean reads clean bases Error rate(%) Q20(%) Q30(%) GC content(%) 9

v1.0 可编辑可修改 HS1_1 HS1_2 HS2_1 数据质量情况详细内容如下：

(1) Raw reads：统计原始序列数据，以四行为一个单位，统计每个文件的测序序列的个数。

(2) Clean reads：计算方法同 Raw Reads，只是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于Clean reads。

(3) Clean bases：测序序列的个数乘以测序序列的长度，并转化为以G为单位。

(4) Error rate：通过公式1计算得到。

(5) Q20、Q30：分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。

(6) GC content：计算碱基G和C的数量总和占总的碱基数量的百分比。

3 参考序列比对分析

测序序列定位算法：根据不同的基因组的特征，我们选取相对合适的软件(动植物用TopHat(Trapnell et al., 2009)、真菌或者基因密度较高的物种用Bowtie)，合适的参数设置(如最大的内含子长度，会根据已知的该物种的基因模型来进行统计分析)，将过滤后的测序序列进行基因组定位分析。下图为TopHat

有参考基因组的转录组生物信息分析模板

v1.0可编辑可修改GC含量分布检查GC含量分布检查用于检测有无AT、GC分离现象，而这种现象可能是测序或者建库所带来的，并且会影响后续的定量分析。在illumina测序平台的转录组测序中，反转录成cDNA时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和实验室环境无关，但会影响转录组测序

推荐度：

点击下载文档文档为doc格式

有参考基因组的转录组生物信息分析模板

有参考基因组的转录组生物信息分析模板

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表