北京诺禾致源生物信息科技有限公司 转录组有参考基因组生物信息分析结题报告
一、生物信息分析流程
获得原始测序序列(Sequenced Reads)后,并且其相应的基因组参考序列( Reference Genome )可以获得的情况下,可以用有参考基因组信息分析流程对数据进行详细的分析,分析流程图如下:
1 北京诺禾致源生物信息科技有限公司 二、结果展示
1. 原始序列数据
高通量测序(如Illunima HiSeqTM2000/ Miseq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。测序样品中真实数据随机截取结果如下:
@HWI-ST1106:227:D14F6ACXX:1:1101:1202:2188 1:N:0:GCCAAT
CGGATGATCTTCTTAATCTCTCCTTGCATAGTTATGAAACAGTCCGTGGACTTGCTGGAAAATCTCTCTTGAAGATGATGAAGAGATGGCCCTCTACAAT +
CCCFFFDFFHHHHJJJJJIJIGGGIGICIGIIJEIIJIIJJI@DHEDHECFGGAHGGJGHIICGEEIEHGGGIECEEHH@HE>C@EBBE@CCDDCCCDDC @HWI-ST1106:227:D14F6ACXX:1:1101:1237:2217 1:N:0:GCCAAT
GAAGGTGAGTCTGAGGAGGCCAAGGAGGGAATGTTTGTGAAAGGATATGTCTACTAAGATATTAGAAAGTATGTACTACTACTACTACTACATGTTTTCA +
@@@FDADDFDHFHIIIDHIIJJJGICGGGCGHGFIGHBHEHHGI;BDHHCFGCHIIIIEHGIGHHIJJE7??ACHCDFFFFFEEECCEE>C>ACCCDC>@ @HWI-ST1106:227:D14F6ACXX:1:1101:1382:2195 1:N:0:GCCAAT
TTTTGCAACAATGGCTTCCACCATGATGACTACTCTACCACAGTTCAATGGACTCAAACCCCAACCTTTCTCAGCTTCTCCAATTCAAGGCTTGGTGGCA +
@@@DD3DDFFFF:CDGI@GIEEDH
CGGATTTTCAAGGGCCGCCGGGAGCGCACCGGACACCACGCGACGTGCGGTGCTCTTCCAGCCGCTGGACCCTACCTCCGGCTGAGCCGATTCCAGGGTG +
CCCDFFFFHHH?FHIIIJJJJJIGBEHHJJBHBDDCDAC??@@BDBBBBD8BDDCDDACC@A?@BBB@<
CTTGTATTGCTCTCCCACAACCCCGTTTTCACGGTTTAGGCTGCTCCCATTTCGCTCGCCGCTACTACGGGAATCGCTTTTGCTTTCTTTTCCTCTGGCT +
CCCFDFFFHHHHHJJIJJJJJIJJGGIHIIGIIJGIGGIJJGGGJGIJ>FGIIGHGGBEHBCCBBDDD@BB@@
2 北京诺禾致源生物信息科技有限公司 2. 测序数据质量评估 2.1 测序错误率分布检查
测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。通常测序序列(Sequenced Reads)5’端前几个碱基的错误率相对较高,随着序列的延伸,3’端碱基错误率会不断升高,这是由高通量测序的技术特点决定的。项目结果见图1。
图1 测序错误率分布图
横坐标为reads的碱基位置,纵坐标为单碱基错误率。其中前100个碱基位置为双端 测序序列的第一端测序Reads的分布情况,随后100bp是另一端测序reads的分布情况。
3 北京诺禾致源生物信息科技有限公司 2.2 A/T/G/C含量分布检查
对于RNA-seq来说,因随机性打断及G/C和A/T含量分别相等的原则,理论上GC及AT含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。项目结果见图2。
图2 GC含量分布图
横坐标为reads的碱基位置,纵坐标为单碱基所占的比例。不同颜色代表不同的碱基类型
4 北京诺禾致源生物信息科技有限公司 2.3 测序数据过滤
测序得到的原始测序序列(Sequenced Reads)或者raw reads,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads过滤,得到clean reads,后续分析都基于clean reads。项目结果见图3。
图3 原始数据过滤结果
5