m1m1m2m2
t/s (s?t)/s t/s
注:M1-m1和M2-m2分别为QTL左侧和右侧的相邻标记;r1、r2和r分别为QTL与左侧标记和右侧标记
之间及左、右两标记之间的重组率;s?1?r,t?cr1r2,其中c为符合系数
图5.5 番茄第10号染色体上果实性状QTL区间定位的一个例子. LOD曲线超过显著阈值(水平线表示)的峰顶为QTL的估计位置. 虚线为果实pH值的LOD曲线,其高峰显示了在染色体端部和中部各存在一个QTL. 下方两条分别为果实重量和果实可溶固形物浓度的LOD曲线, 均没显示QTL的存在(引自Lynch and Walsh 1998)
对模型(5.12)的最大似然估计需要进行迭代运算,所以计算上比较繁琐费时。如果让自变量xi取其期望值(表5.1),亦即使xi有个确定值,则模型(5.12)就可用最小二乘法进行配合(Haley and Knott 1992),从而使计算大为简化、速度大为提高。为了便于与原来基于最大似然估计的区间定位法进行比较,在最小二乘估计中也可以用似然比来进行统计显著性检验。这时的似然比统计量为:
LR??nln[RSS(b?0)/RSS(b?0)] (5.15)
其中n为样本大小(个体数)。研究表明,基于最小二乘估计的区间定位法与基于最大似然估计的区间定位法所得的结果非常接近(Haley and Knott 1992)。
区间定位法提出后,得到了广泛应用,对QTL定位研究的发展起到了重要的推动作用。但区间定位法也存在明显的缺点。当一条染色体上同时存在一个以上的QTL时,区间定位法也会出现与前述单标记均值差检验法相似的问题,或者检测到“幻影QTL”(当两个QTL
相引连锁时),或者检测QTL的灵敏度(统计功效)降低(当两个QTL为相斥连锁时),这是因为它无法排除被检区间之外的QTL对被检区间的影响。为克服区间定位法的缺点,不少学者提出了改进意见。Haley和Knott(1992)建议同时对多个可能存在的QTL(标记区间)进行回归分析,这时的回归模型形式上与(5.11)相同,但其自变量是QTL而非标记,其基因型指示变量xij也取期望值。该方法的缺点是,必须确定染色体上到底有多少个可能存在的QTL,这往往并不容易,因而在回归模型的选择上带有较大的任意性。另外,配合包含多个QTL的回归模型需要进行多维搜索,这也增加了计算上的难度。Moreno-Gonzalez(1992)提出了另一种方法,先假定所有标记区间都包含一个QTL,且位于区间的中点,然后通过逐步回归分析筛选出偏回归显著的标记区间(QTL)。显然,仅当分子标记图谱较密且标记在染色体上分布较均匀时,这种方法才可能是有效的。
五、性状-QTL-标记回归法
对区间定位法最有效的改进方法是将它与多标记的性状-标记回归法相结合。根据性状-标记回归中每个QTL的效应只被其两侧相邻标记所吸收的统计特性,可以用被检区间以外的部分(Jansen 1993; Zeng 1994)或全部(Zeng 1994)标记作为回归模型中的余因子(cofactor)来消除其它QTL或遗传背景对被检区间的影响。根据这一思想,Jansen(1993)和Zeng(1994)分别提出了多QTL模型(multiple-QTL model)和复合区间定位法(composite interval mapping),其中复合区间定位法由于直观性较好、计算上易于自动化而被普遍接受和广泛应用,已逐步取代区间定位法。这里仍以DH群体为例,其复合区间定位的统计模型为:
myi???bx??bjxij??i (5.16)
**ij?1式中,b和xi*分别为被检QTL的效应和基因型指示变量[相当于式(5.12)中的b和xi],其它符号的含义与式(5.11)相同。必须注意的是,模型(5.16)中不一定要包含全部的标记。根据前面提到的性状-标记回归的统计特性,理论上只需将可能与QTL相邻因而拥有信息的标记纳入模型中就可以了,这样可增加回归分析的自由度,提高参数估值的准确性。这些作为余因子的标记可以通过用模型(5.11)进行逐步回归分析或其它方法获得的先验知识来选择。不难看出,模型(5.16)实际上是模型(5.11)和(5.12)混合而成的,所以复合区间定位的模型配合和显著性测验与区间定位是基本相似的,其似然比检验为
*LR??2ln[L(b*?0)/L(b*?0)] (5.17)
式中符号含义与(5.13)相似。图5.6给出了一个应用复合区间定位法定位QTL的例子。可以看出,与区间定位法相比,复合区间定位法大大提高了QTL定位的精确度,这是复合区间定位方法的突出优点。
然而,复合区间定位法对QTL定位精确度的提高是以降低灵敏度(统计功效)为代价的,这是因为与被检标记区间相邻的作为余因子的标记会部分吸收被检区间中QTL的效应。因此,与被检区间靠得太近的标记不宜作为余因子。为了解决这个问题,可以在被检区间的两侧各开设一个“窗口”,只有在该窗口之外的标记才能选作余因子。由于不同的被检区间
所要求的合适的窗口宽度可能是不同的,因此在实际应用中,应尝试使用多种窗口宽度,以寻找各个被检区间所适合的窗口宽度。
图5.6
老鼠X染色体上体重QTL定位的一个例子. 区间定位的LOD曲线(虚线)表现为一个很宽的峰, 而复合区间定位的LOD曲线(实线)则显示两个单独的峰. Bw1和Bw2表示两个可能存在的QTL, 染色体上的黑点示标记的位置(引自Lynch and Walsh 1998)
由于复合区间定位的回归模型的参数较多,其计算量比区间定位大大增加。为了简化复合区间定位的计算,可以采取与区间定位法相似的做法,令被检QTL的基因型指示变量xi*取其期望值,这样就可以应用最小二乘法来配合回归模型(Wu et al. 1996b)。基于最小二乘的复合区间定位的似然比统计量为:
LR??(n?m)ln[RSS(b*?0)/RSS(b*?0)] (5.18)
其中m为余因子标记的数量,其它符号含义与(5.15)相似。
复合区间定位法最初是针对大样本情况提出来的。但在实际研究中,所用的实验群体往往都不很大。在小样本(特别是个体数少于标记数)的情况下,复合区间定位所需的余因子的选择会发生困难,为了保证足够大的回归自由度,选用的余因子不能太多,而余因子选择的不同又会影响QTL定位的结果。因此,在小样本情况下如何进行复合区间定位是一个需要解决的问题。一种比较可行的策略是(Wu et al. 1999),考虑到各条染色体在遗传上(因而在统计上)是相互独立的,因而可以对每条染色体(而非整个基因组)分别进行复合区间定位。不过,在小样本中,由于抽样误差,不同染色体之间还是可能存在相关性的。因此,在完成复合区间定位之后,最好再用逐步回归分析的方法对所有检测出的QTL进行重新评估,以排除假阳性(Wu et al. 1999)。
复合区间定位法可以推广到多性状分析的情形(Jiang and Zeng 1995),称为多性状复合区间定位法(multiple-trait composite interval mapping)。多性状复合区间定位法利用了不同性状间相关的遗传信息,因而具有比(单性状的)复合区间定位法更多的优点:(1)可以提高QTL定位的灵敏度和精确度;(2)可以用来鉴别QTL的紧密连锁和多效性;(3)可以用来分析多年多点试验数据,检测QTL与环境间的相互作用。为了提高计算速度,与(单性状的)复合区间定位法的情况相似,多性状复合区间定位模型也可以用最小二乘法来配合(Wu et al. 1999)。
新近还提出了基于混合线性模型(即同时包含固定效应和随机效应的线性模型)的复合区间定位方法(mixed-model-based composite interval mapping;Zhu and Weir 1998)。这种方法的优点是减少了回归自由度对复合区间定位的限制,能够用来估计QTL的上位性效应(即不同等位基因间的互作效应)和QTL与环境的互作效应,从而拓展了复合区间定位法的应用范围。不过,这种方法在检测QTL上位性效应时,必须在基因组上进行二维搜索,因而计算上比较复杂。
六、基于性状-标记回归的区间定位
前面已提到,在性状-标记回归中,每个QTL的效应只被其两侧相邻标记所吸收。Whittaker等(1996)证明,在只有加性效应的情况下,性状-标记回归与基于最小二乘的复合区间定位法具有等价性,当两个相邻标记的回归系数同号(即同为正或负)时,能够计算
出位于它们之间的QTL的位置和效应。以DH群体为例,从模型(5.11)出发,当某个标记区间(k, k+1)中存在一个QTL时,则区间两端标记的偏回归系数(bk和bk+1)将同号,并且有
bk?bk?1(1?2r)?1?rk??1?(1?2r)? (5.19)
2?b?b(1?2r)?k?1k??a2?[bk?bk?1(1?2r)][bk?1?bk(1?2r)] (5.20)
1?2r式中,rk为第k(即区间左端)标记与QTL间的重组率,r为两标记间的重组率,a为QTL的加性效应。可见,从相邻标记的偏回归系数就足以求出标记区间内QTL的位置和效应。但是,仅根据标记的偏回归系数还不足以确定某个标记区间中是否存在QTL。为此,我们可以采取与复合区间定位法相似的方法,用似然比统计量来检验某个标记区间中QTL是否存在(吴为人等2000),其似然比统计量为:
LR??(n?m?1)ln[RSS(bk?0,bk?1?0)/RSS(bk?bk?1?0)](5.21)
式中符号含义与(5.18)相似。利用式(5.21)可以计算出每个标记区间的似然比值,从而可以非常直观地判断出哪个区间内可能存在QTL。研究表明,这种性状-标记回归区间定位法的QTL定位结果与基于最小二乘的复合区间定位法完全相同,但它无需进行全基因组逐点扫描,因而其计算速度极快。因此,在只有加性效应的情况下,完全可以用性状-标记回归区间定位法来代替复合区间定位,以节约大量的计算时间。
七、QTL定位的计算机软件
从上面的介绍可以看出,QTL定位涉及到相当复杂的统计计算,并需要处理大量的数据,这些工作都必须靠计算机来完成。因此,为了便于从事实际QTL定位研究的遗传育种学家分析他们的试验结果,将各种QTL定位方法编制成通用的计算机软件是十分必要的。第一个推广发行的QTL分析通用软件是Mapmaker/QTL,它是针对区间定位法而设计的。该软件的发行,大大促进了区间定位方法的实际应用。此后,陆续开发出了许多QTL分析软件,如QTL Cartographer、PLABQTL、Map Manager、QGene、MapQTL等。许多QTL分析软件都可以从因特网上查寻到并免费下载。通过由美国Wisconsin-Madison大学建立的
数量性状的分子标记(QTL定位的原理和方法讲义)



