且,r值越小,标记与QTL间连锁越紧密,则?MM与?mm之间的差异就越大。当r = 0,亦即标记与QTL之间完全连锁时,标记基因型间的均值差异达到最大,这时有?MM ? ?mm = ?QQ ?
?qq。因此,用t测验方法检验两种标记基因型间的数量性状表型均值差异是否显著,就能推
断该标记是否与QTL连锁。t值越大,即显著性越高,则连锁越紧密。
如果群体中每个标记存在3种基因型(如F2群体),或者尽管群体中每个标记只有两种基因型(如DH、RI群体),但试验中设置了重复(李维明等 1993),则可以采用方差分析的方法来检测标记与QTL之间的连锁关系。以F2群体为例。假设某个标记与一个QTL连锁,采用与图5.2类似的推导方法,可以得到3种标记基因型的性状均值分别为:
?MM?(1?r)2?QQ?2r(1?r)?Qq?r2?qq (5.3) ?Mm?r(1?r)?QQ?[1?2r(1?r)]?Qq?r(1?r)?qq (5.4)
?MM?r2?QQ?2r(1?r)?Qq?(1?r)2?qq (5.5)
式中所用符号的含义与式(5.1)和(5.2)的相似。比较式(5.3) ~ (5.5),可以看出,与上面DH群体的情形相似,仅当标记与QTL间的重组率为r?0.5,亦即标记与QTL间没有连锁时,才有?MM = ?Mm = ?mm(?14;而只要r < 0.5,亦即标记与QTL间存在?QQ?1?Qq?1?qq)24连锁,则总有?MM ? ?Mm ? ?mm。因此,用单因素方差分析法检验3种标记基因型间的性状均值差异是否显著,就能推知该标记是否与QTL连锁。标记与QTL间连锁越紧密,则标记基因型间均值的差异就越大,方差分析中F测验得到的F值也越大(即显著性越高)。
单标记均值差检验法的优点是简单直观。一般而言,标记离QTL越近,它与QTL间的重组率就越小,则其t值或F值就越大;反之,标记离QTL越远,它与QTL间的重组率就越大,则其t值或F值就越小。因此,根据染色体上各个标记的t值或F值的大小,可以大致判断出QTL的位置。但是,单标记均值差检验法不能估计QTL的具体位置和效应,灵敏度较低,且一般不适用于一条染色体上存在多个QTL的情形。当两个QTL呈相引连锁(即两增效基因连锁在一起或两减效基因连锁在一起)且相距不太远时,由于两QTL的效应相互累加,可能会使得位于两QTL之间的标记表现出最大的t值或F值,从而导致无法识别那两个真实QTL,却错误地认为在它们之间的某个位置上存在一个QTL。这个推断出的QTL显然是虚假的,是一个“幻影QTL”(ghost QTL)。相反,当两个QTL呈相斥连锁(即一个
增效基因与一个减效基因连锁在一起)且相距不太远时,由于两QTL的效应相互抵消,可能会使得两QTL附近的标记表现出很小的t值或F值,从而无法检测出这两个QTL。由于这些局限性,目前单标记均值差检验法仅用于对数据的初步分析。
对单标记均值差检验法的一种改进方法,是将同一条染色体上各标记的t测验或方差分析联合于一个回归分析之中,称为联合定位法(joint mapping;Wu and Li 1994, 1996a, b)。下面以DH群体为例来说明联合定位法的原理,它也适用于BC和RI群体。至于F2群体的联合定位法,读者可参阅Wu 和 Li (1996b)。
从式(5.1)和(5.2)可以得到:
?MM??mm?(1?2r)(?QQ??qq) (5.6)
令y = ?MM ? ?mm,x = 1 – 2r,b = ?QQ ? ?qq,则式(5.6)可写成
y?bx (5.7)
可以看出,式(5.7)形式上恰好是一个截距为零的一元线性回归方程。假设Haldane作图函数成立(参见第三章),则有
r?12(1?e或
?0.02|zM?zQ|) (5.8)
x?e?0.02|zM?zQ| (5.9)
式中,zM和zQ分别是标记和QTL在染色体上的位置,以厘摩(cM)为单位。在完整的标记连锁图上,每个标记的位置都是已知的。因此,在式(5.9)中,只有QTL的位置zQ是未知的。当zQ值给定时,x也就确定了。如果一条染色体上有n个标记,那么在zQ值给定的情况下,就有n对观察值:(yi, xi), i = 1, 2, …, n。这样,就能应用最小二乘法配合方程(5.7)。
?Q)沿着整条染色体以一定步长(如1 cM)改变zQ的值,必能找到某一点(z,使方程(5.7)?Q)即为QTL位置的配合得最好(即剩余平方和RSS达到最小;图5.4)。那么,该点(z?即为QTL效应的估计值。需要指出的是,由于同一条染色体估计值,而得到的回归系数b上的标记互相连锁,因而不同观察值yi (i = 1, 2, …, n)之间不是相互独立的。因此,应使用
广义最小二乘法来配合方程(5.7),才能获得最小估计误差。
方程(5.7)可以推广到一条染色体上存在多个(如m个)QTL的情形(图5.4),这时方程的形式为:
my??bjxj (5.10)
j?1式中,bj为第j个QTL的效应值;xj取决于标记与第j个QTL的之间的图距。只要染色体上有足够多的标记,用方程(5.10)原则上可以定位任意多个QTL。
图5.4
QTL联合定位的一个模拟例子. 连锁图上每隔10cM有一个标记, 黑色三角形示QTL的真实位置, 剩余平方和曲线最低点为QTL的估计位置, 水平点线示?0.05(1)?3.84, 它与每个QTL的剩余平方和曲线的两个交点确定了该QTL位置的95%置信区间(引自Wu and Li 1996a)
2
联合定位法的优点是综合利用了一条染色体上所有标记的遗传信息,所以提高了灵敏度和精确度,并可同时估计多个QTL的位置和效应,而且与性状分布无关,适用范围广,计算简单。不足之处是使用矩量(均值)而非原始观察数据,因而要求有较大的实验群体。另外,联合定位法对分子标记图谱质量的要求较高,这是它在实际应用中的主要限制因素。
三、性状-标记回归法
性状-标记回归法是将个体的数量性状表型值对单个标记(Soller et al. 1976)或多个标记(Rodolphe and Lefort 1993)的基因型进行回归分析。前者属于单标记分析的方法,可以看作是后者的一种特例,目前已很少使用。所以下面我们只需介绍性状对多标记回归分析的方法。仍以DH群体为例。这时的多标记的性状-标记回归模型为:
myi????bjxij??i (5.11)
j?1式中,yi为第i个体的性状值;?为模型均值;bj为第j标记的偏回归系数;xij为第i个体第j标记基因型的指示变量,依标记基因型为MM或mm而取值1或0;m为标记个数;?i为随机误差。式(5.11)是一个多元线性回归模型,可以用最小二乘法来配合。偏回归系数的大小反映了各个标记与数量性状的相关程度。一般而言,如果某标记的偏回归达到显著水平,则说明在该标记附近可能存在QTL。但是,性状-标记回归法通常不能给出QTL位置和效应的估计值,除非QTL正好位于标记座位上,这时的偏回归系数就是QTL的效应值。不过,根据各标记回归系数的显著性,能够大致判断出可能存在QTL的染色体区域。
值得提到的是,性状-标记回归有一个有趣的统计特性。这就是,在回归中,一个QTL的效应只被其两侧相邻标记的偏回归系数所吸收,而不会影响到该标记区间之外的标记。这一特性非常重要。后面我们将看到,这一特性对提高QTL定位的准确性很有帮助。
四、性状-QTL回归法
性状-QTL回归法是将个体的数量性状表型值对假设存在的某个或某些QTL的基因型进行回归分析。以DH群体为例,单个QTL的回归模型为:
yi???bxi??i (5.12)
式中,yi为第i个体的表型值;?为模型均值;b为QTL的效应;xi为第i个体的QTL基因型的指示变量,依QTL基因型为QQ或qq而取值1或0;?i为随机误差。由于被检QTL的基因型是未知的,因而xi的值实际上是不确定的,或者说是“缺失”的。在这种情况下,只
能根据与QTL连锁的标记的基因型来推断xi为1或0的概率,并用似然比检验法来估计参数和检验回归显著性,即
LR??2ln[L(b?0)/L(b?0)] (5.13)
或
LOD?log10[L(b?0)/L(b?0)] (5.14)
其中L(b = 0)和L(b ? 0)分别表示b = 0和b ? 0时的最大似然值(注:LR与LOD之间存在转换关系:LOD ? 0.217LR)。当似然比统计量LR或LOD的值大于给定的显著阈值时,则认为b?0,即假定的QTL的效应不为零,因而可推断QTL存在。
早期的性状-QTL回归分析是利用单个连锁标记来推断xi取值概率的,亦即属于单标记分析的方法(Simpson 1989),目前已很少使用。分子标记技术出现之后,Lander和Botstein(1989)提出了更为准确的方法,即用被检QTL两侧相邻的连锁标记来推断xi取值的概率(表5.1),称为区间定位法(interval mapping)。由表5.1可以看出,xi取值的概率取决于QTL与两侧相邻标记间的重组率或图距。因此,以一定的步长(如1 cM),沿整条染色体逐步改变假设存在的QTL的位置,就能得到LOD(或LR)值沿染色体变化的曲线。大于显著临界值的LOD曲线高峰所对应的染色体位置就是存在QTL可能性最大的位置(图5.5)。
表5.1 在DH群体中用两侧相邻标记推断QTL基因型概率及其指示变量的期望值
标记基因型
Qq 期望值
xi?1
M1M1M2M2
xi?0
t/s
xi
(s?t)/s
(s?t)/s
M1M1m2m2
(r2?t)/r (r1?t)/r
(r1?t)/r (r2?t)/r
(r2?t)/r (r1?t)/r
m1m1M2M2