第十三章 新一代测序技术与复杂疾病 一、新一代测序技术基本概念 (一)读段、重测序与从头测序
将gDNA打碎形成小片断DNA的文库,这些小片断DNA能够在百万次平行反应中被一致且准确的测序。新识别出的碱基串,被称为读段(read)。
使用一个已知的参考基因组作为支架将这些读段进行重新组合,这个过程被称为重测序(resequencing)。
在参考基因组缺失的情况下将读段进行组合,这个过程被称为从头测序(de novo sequencing) (二)测序分辨率、覆盖度与测序深度 覆盖度,又称为测序深度(depth),一般定义为比对到样本DNA中单个碱基的测序读段数量的均值。
二、新一代测序技术常见测序仪及工作流程 新一代测序仪产品:
美国Roche Applied Science公司的454基因组测序仪
美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪 美国Applied Biosystems公司的SOLiD测序仪
Dover/Harvard公司的Polonator测序仪以及美国Helicos公司的HeliScope单分子测序仪 有这些新型测序仪都使用了一种新的测序策略: 循环芯片测序法(cyclic-array sequencing),也可将其称为“新一代测序技术或者第二代测序技术”。
定义:对布满DNA样品的芯片重复进行基于DNA的聚合酶链反应(模板变性、引物退火杂交及延伸)以及荧光序列读取反应。
与传统测序法相比,优点:操作更简易、费用更低廉 层流加样方法,生物传感器 (一)新一代测序技术流程 工作流程(Roche) 产生单链模板DNA文库 对文库进行em-PCR扩增 边合成边测序
利用生物信息学工具分析数据 1.样品准备与文库准备
样品准备:先分离基因组DNA,随机切割成小片段分子,然后通过有限稀释和聚合酶扩增反应即体外克隆方式制备模板片段。这样,从模板制备到最后的测序反应,整个过程都能在体外完成。
文库制备:首先随机切割样品基因组,获得大量DNA片段,然后接上接头进行扩增反应。新一代测序技术的样品制备 程序和Craig等人的鸟枪法样品制备程序有着本质的差别。 通过乳糜PCR(emPCR)或桥式PCR等方法对文库进行扩增,获得测序模板。 emPCR:454 & SOLiD
具体:将制备的DNA文库与油水包被的直径大约28um的磁珠在一起孵育、退火,由于磁珠表面含有与接头互补的寡聚核苷酸序列,因此ssDNA会特异性地连接到磁珠上。同时孵育体系中含有PCR反应试剂,因此可以保证每一个与磁珠结合地小片段都会在各自地孵育体系内独立扩增,扩增反应物仍可以结合到磁珠上。反应完成后,破坏孵育体系并富集带有DNA的磁珠。经扩增反应,每一个小片段都将被扩增大约100万倍,从而达到下一步测序反应所需的模板量。
桥式PCR:
正向引物和反向引物都被通过一个柔性接头固定在固相载体上。经过PCR反应,所有的模板扩增产物就被固定到了芯片上固定的位置。
Illumina测序仪的桥式PCR与传统的PCR不同,它会交替使用Bst聚合酶进行延伸反应以及使用甲酰胺进行变性反应。这样,经过桥式PCR扩增后,也会在固相载体上形成一个个的模板“克隆”。一块芯片的8条独立“泳道”上每一天泳道都可以容纳数百万的模板“克隆”,这样一次就可以同时对8个不同的文库进行测序。 2.合成测序法
循环可切除终止测序法 焦磷酸测序法
(二)单分子测序技术:第三代测序技术 Heliscope单分子测序仪 SMRT技术
纳米孔单分子技术
三、新一代测序数据存储、处理与分析
作图(mapping)或定位:对读段进行定位的过程 新一代测序数据库SRA:NCBI最近专门为短片段序列建立了数据库Short Read Archive(SRA),并同步制定数据提交格式。SRA数据库不仅会收集包括实验注释信息、实验参数等信息的数据,而且还会被整合到Entrez查询系统当中。目前的工作主要包括开发线上搜索工具、数据图形化工具。
根据SRA数据产生的特点,将SRA数据分为四类: study—研究课题
experiment—实验设计 run—测序结果集 sample—样品信息
第三节
二、DNA测序数据分析方法 (一)数据的质量控制:FastQC (二)片段比对:Bowtie
(三)变异的识别:SNP、INDEL、CNV、SV (四)数据可视化:IGV 三、DNA测序应用
(一)DNA重测序与个体变异发现 (二)细菌基因组测序与致病位点发现 (三)宏基因组测序与感染性疾病分析 如何利用重测序进行SNP分析?
(1) 测序结果的预处理,去除低质量的数据;
(2) 利用短序列比对软件进行全基因组比对,找出多态性位点;
第四节 RNA测序技术与数据分析
一、RNA测序技术流程(详情见P111) (一)RNA样本的准备
(二)cDNA测序文库的构建
构建特异cDNA文库的方法:①通过在RNA的5N和3N端添加不同的接头,标记RNA的方向 ②在cDNA第二条链合成时添加dUTP化学标记,降解被标记的cDNA链 (三)高通量测序
二、RNA-seq 数据分析 (一)RNA-seq数据的比对 问题:
reads来源于剪接后的转录组序列,但由于参考转录组信息不完善,当前研究通常是将reads比对到参考基因组,而不是参考转录组。这种现象可能导致一些位于剪接区域的reads比对不准确。
由于测序错误引起的碱基插入、缺失、错配等现象使得reads比对更为复杂,影响比对结果的准确性。
在序列比对过程中,一个read可能比对到基因组的多个位置。 软件:
(二)转录组的重建:利用reads定位信息推断出表达转录本的外显子结构,从而将比对的reads组装成转录单元,最终确定所有表达的转录本的结构:
基因组引导法:Cufflinks和Scripture 基因组独立法(从头组装):Trinity (三)转录本的表达定量
常用:RPKM ,该测序同时考虑了转录本的长度及映射到的基因组的reads总数。 而对于双末端的RNA-seq的测序结果,则通常使用FPKM定量表达 (四)RNA-seq的差异表达分析 包括:
①统计基因或转录本对应的reads计数;
②对reads计数进行标准化,使样本间和样本内的表达水平能够进行精确比较;
③对标准化后reads分布进行统计学模型拟合,利用统计学检验评估基因的差异表达,得到相应的P值和差异倍数(fold change),并完成多重检验校正; ④根据特定阈值(例如FDR<0.05)提取显著差异表达的基因。 常用分析方法:edgeR和DESeq
三、RNA-seq的应用 (一)选择性剪接识别 1.基本概念
选择性剪接又称可变剪接,是调节真核生物基因功能的多样性的重要机制之一。可变剪接是指mRNA前体中的外显子以不同的组合方式进行剪切和拼接,从而产生不同结构、不同功能的mRNA和蛋白质。
同一基因产生的不同结构的mRNA和蛋白质也被称作可变剪接异构体。
可变剪接的方式主要包括5种类型:外显子盒、外显子互斥、可变5’供体、可变3’受体和内含子保留。
2.RNA-seq识别可变剪接
单末端和双末端RNA-seq测序均可用于检测可变剪切事件,但原理略有不同
单末端测序:通过将reads比对到参考基因组,检测每个外显子中落入的reads和覆盖外显子边界的reads,如果特定外显子没有reads覆盖,则提示在转录本中可能被剪切。
对于双末端测序产生的成对的reads,通过比较每对reads之间的实际距离和匹配到基因组位置之间的理论距离,推测转录本的结构。
目前常用的基于RNA-seq的识别可变剪接软件,TopHat的工作流程: 步骤
1.reads基因组比对
利用Bowtie将所有reads比对到参考基因组,并分为匹配的reads和未匹配的reads。其中,未匹配的reads称为初始未匹配reads 2.预测潜在外显子
利用MAQ重新将匹配的reads比对到参考基因组,得到reads富集的基因组区域,这些区域被称为岛序列(island sequence),即潜在的外显子。 3.预测可能的剪切方式
TopHat将岛序列两端各延长一定距离的侧翼序列(默认为45bp)以包含供体位点和受体位点。供体位点和受体位点分别指内含子的5’末端的剪接位点和3’末端的剪接位点。TopHat遍历所有延长后岛序列的供体和受体位点,并进行邻近岛序列间的两两组合,使其能够形成经典的GT–AG结构,这些组合被认为是候选的剪接方式。 4.匹配识别剪接位点
对于每种候选的剪接方式,TopHat利用“种子延长”策略确定是否存在IUM reads覆盖潜在的剪接位点。最后,TopHat返回所有满足条件的的剪接位点和组合方式。 (二)复杂疾病中融合基因识别 1.基本概念
融合基因是指染色体重排过程中两个或多个不同基因的编码区首尾相连,并被同一套调控序列(如启动子、增强子等)控制所构成的嵌合基因。融合基因可以编码异常的融合蛋白,从而参与疾病的发生。 2.RNA-seq识别融合基因
全基因组测序和转录组测序是主要的两种用于融合基因识别的技术。
由于WGS技术具有明显的缺点——测序耗时过长、分析复杂、价格昂贵。因此,当前大多数研究都是基于RNA-seq数据开发识别融合基因的算法,这些算法主要分为两种:先匹配、先组装。
先匹配算法首先将reads匹配到参考基因组,然后从比对结果中寻找融合位点从而识别融合基因。而先组装算法则首先将有重叠的reads组装形成长序列片段,然后将这些长序列片段匹配回参考基因组,进而识别融合基因事件。
先匹配算法相比于先组装算法运行速度更快、计算更方便。因此,先匹配算法的使用更为广泛。
分离reads同时适用于单末端和双末端测序,而跨越对只适用于双末端测序。以先匹配算法为例,融合基因的识别主要经过三个步骤: 1)匹配和过滤; 2)融合位点的检测;
3)融合基因的组装和选择。
三、ChIP-seq技术应用 (见P114)
(一)识别转录因子或组蛋白修饰的协同调控 (二)调控元件的识别
基因的启动子: H3K4me3信号主要富集在基因的转录起始位点附近,因此H3K4me3的峰能够识别基因的启动子(举例);
增强子:H3K4me1和H3K27ac信号可用于定义激活的增强子区域; 绝缘子:转录因子CTCF信号可用于定义基因组绝缘子区域; 转录区域:H3K36me3可用于定义基因组转录区域。 抑制区域:H3K27me3信号可用于定义基因组抑制区域。 (三)motif发现
模体:转录因子的结合位点通常具有特定的DNA序列模式,称为模体(motif),它是转录因子与DNA结合的重要功能域,长度一般为5?20bp。 (四)预测基因表达