好文档 - 专业文书写作范文服务资料分享网站

有参考基因组的转录组生物信息分析模板

天下 分享 时间: 加入收藏 我要投稿 点赞

v1.0 可编辑可修改

GC含量分布检查

GC含量分布检查用于检测有无AT、GC 分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。

在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和实验室环境无关,但会影响转录组测序的均一化程度(Hansen et al.)。除此之外,理论上G和C碱基及A和T碱基含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。对于DGE测序来说,由于随机引物扩增偏差等原因,常常会导致在测序得到的每个read前6-7个碱基有较大的波动,这种波动属于正常情况。

6

v1.0 可编辑可修改

图 GC含量分布图

横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型

测序数据过滤

测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads进行过滤,得到clean reads,后续分析都基于clean reads。

7

v1.0 可编辑可修改 数据处理的步骤如下:

(1) 去除带接头(adapter)的reads;

(2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads; (3) 去除低质量reads。

RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeqTM RNA and DNA Sample Prep Kits) 信息:

RNA 5’ Adapter (RA5), part # :

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’

RNA 3’ Adapter (RA3), part # :

5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3’

8

v1.0 可编辑可修改

图 原始数据过滤结果

测序数据质量情况汇总

表 数据产出质量情况一览表

Sample name Raw reads Clean reads clean bases Error rate(%) Q20(%) Q30(%) GC content(%) 9

v1.0 可编辑可修改 HS1_1 HS1_2 HS2_1 数据质量情况详细内容如下:

(1) Raw reads:统计原始序列数据,以四行为一个单位,统计每个文件的测序序列的个数。

(2) Clean reads:计算方法同 Raw Reads,只是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于Clean reads。

(3) Clean bases:测序序列的个数乘以测序序列的长度,并转化为以G为单位。

(4) Error rate:通过公式1计算得到。

(5) Q20、Q30:分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。

(6) GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

3 参考序列比对分析

测序序列定位算法:根据不同的基因组的特征,我们选取相对合适的软件(动植物用TopHat(Trapnell et al., 2009)、真菌或者基因密度较高的物种用Bowtie),合适的参数设置(如最大的内含子长度,会根据已知的该物种的基因模型来进行统计分析),将过滤后的测序序列进行基因组定位分析。下图为TopHat

10

有参考基因组的转录组生物信息分析模板

v1.0可编辑可修改GC含量分布检查GC含量分布检查用于检测有无AT、GC分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和实验室环境无关,但会影响转录组测序
推荐度:
点击下载文档文档为doc格式
1cfgq4d81l6trx01723y3gzju6vsv000dlz
领取福利

微信扫码领取福利

微信扫码分享