基因组选择及其应用
李恒德1, 包振民2 , 孙效文1,3
【摘 要】摘要: 品种选育在农业生产中占有十分重要的地位, 育种值估计是品种选育的核心。随着遗传标记的发展, 尤其是高通量的基因分型技术, 使得从基因组水平估计育种值成为可能, 即基因组选择。文章将基因组选择的方法分为两类:一是基于估计等位基因效应来预测基因组估计育种值(GEBV), 如最小二乘法, 随机回归-最佳线性无偏预测(RR-BLUP)、Bayes、主成分分析等方法; 二是基于遗传关系矩阵来预测GEBV, 通过采用高通量标记构建个体间的遗传关系矩阵, 然后用线性混合模型来预测育种值, 即 GBLUP法, 并以这两种分类简要介绍了基因组选择各种方法的大致原理。影响基因组选择准确性的因素主要有标记类型和密度、单倍型长度、参考群体大小和标记-数量性状基因座(QTL)连锁不平衡(LD)大小等; 在基因组选择的各种方法中, 一般说来 Bayes方法和 GBLUP方法具有较高的准确性, 最小二乘法最差; GBLUP计算速度快, 能够将标记和系谱结合起来,因而比其他方法更具优势。尽管基因组选择取得了很大进展, 但在理论方面还面临着一些挑战, 如联合育种、长期选择的遗传进展及如何解析与性状有关和无关的标记等。基因组选择在一些动植物育种上已经开始应用,在人类遗传倾向预测和进化动力学研究中也有潜在的应用前景。基因组选择在个体间亲缘关系的量化上有了突破, 比传统方法更加精确, 因此, 基因组选择将会是动植物育种史上革命性的事件。 【期刊名称】遗传
【年(卷),期】2011(033)012 【总页数】9
【关键词】关键词: 基因组选择; 高通量遗传标记; 育种值估计
在农业生物(作物、畜禽和水产生物)的产业链中,品种培育占有十分重要的地位。20世纪70年代, 美国前国务卿基辛格曾说过:“谁控制了石油, 谁就控制了所有国家; 谁控制了粮食, 谁就控制了所有的人”。世界上与农业生产有关的著名公司, 如泰国正大集团、美国孟山都公司、瑞士先正达公司等之所以能够影响全球某个产业就是因为这些公司有优秀的品种出售, 占有着全球市场的最大份额。所以毫不夸张地讲“农业生产中, 谁控制了品种, 谁就控制了产业”。
通过选择进行品种(系)培育是进行育种的重要手段, 选择育种的核心是育种值估计, 即选择依据。传统的育种值估计方法是从 Hazel的选择指数法[1]到 Henderson提出的基于性状和系谱的最佳线性无偏预测(Best linear unbiased prediction, BLUP)[2] , 记为TP-BLUP, TP- BLUP法通过系谱构建分子亲缘相关矩阵(Numerator relationship matrix)(通常记为 A)将个体间的遗传联系用矩阵形式表示出来, 利用线性混合模型(Linear mixed model)计算个体的估计育种值(Estimated breeding value, EBV)。这一方法已经得到广泛应用, 并为动植物的遗传改良做出了重大贡献。
随着微卫星(Microsatellite)、单核苷酸多态(Single nucleotide polymorphisms, SNP)等遗传标记的发现, 将遗传标记与表型信息关联起来, 通过连锁分析找到与性状有关的标记或数量性状基因座(Quantitative trait loci, QTL), 与TP-BLUP结合起来进行遗传评定, 这样不仅可以提高育种值估计的精确性, 而且可以在能够获得 DNA时进行早期选择,缩短世代间隔, 提高遗传进展, 即标记辅助选择(Marker assisted selection, MAS)[3,4]。标记辅助选择中育种值估计的准确性随所用标记数目的增加而增高。
农业动植物基因组信息的公布和高通量基因型分型技术的实用化, 使得我们可以得到高通量标记如SNP, 通过整个基因组SNP信息估计出单个SNP或者不同染色体片段的效应值, 然后再将这些效应值相加最终得到个体全基因组估计育种值(Genomic estimated breeding value, GEBV), 由于同时利用这些高通量的SNP标记来进行育种值估计, 大大提高了育种值估计的准确性, 即基因组选择(Genomic selection)[5]。研究表明应用基因组选择可以节省大量成本, 成倍提高遗传进展[6]。目前农业生物中已经开展了基因组选择研究[7~9]。
基因组选择实质上是全基因组水平的标记辅助选择, 从育种值估计的思路上大致分为两种:一是通过参考群体(Reference population)估计出每个SNP等位基因或者不同染色体片段的效应值, 然后利用这些效应值来计算候选群体(Candidate population)的 GEBV。可以看出以参考群体估计标记效应计算GEBV的方法只能够对具有基因型的个体估计GEBV, 目前在大的育种群体中往往很难对全部或大部个体做到基因型检测, 另外参考群体和育种群体的遗传结构也不尽相同, 随着选育进展差别会越来越大, 所以需经常构建参考群体并进行标记效应测定加以校正, 同时这种方法也不能利用长期育种过程中积累的丰富翔实的系谱和育种记录。二是通过已测定的基因型计算个体间的相关关系, 利用已测定基因型的个体计算的G矩阵和根据系谱计算的A矩阵合并成一个矩阵(记为 H), 采用类似 TPBLUP方法进行育种值估计的方法, 以提高基因组选择的准确性, 这种基于遗传关系矩阵估计 GEBV的方法可以将系谱和基因型信息结合起来, 充分利用育种过程中积累的资料。
1 基于估计等位基因效应的基因组选择方法
基于估计等位基因效应的主要方法有最小二乘法(Least squares)[5]、随机回归