多基因遗传病遗传分析的研究进展
国外医学遗传学分册 1998年 第21卷 第2期
上海第二医科大学医学遗传学教研室(上 海 200025) 顾鸣敏综述 陈仁彪审校 提要 多基因遗传病易感基因的定位和遗传分析是近年来遗传病研究的新热点。由于多基因遗
传病的病因较复杂,给研究工作带来了不少困难。目前,国内外学者主要从改进实验技术和分析方
法等方面开展研究,并取得了一些进展。本文主要综述多基因遗传病的遗传分析方法,包括连锁分
析、受累同胞对分析、关联研究和动物模型的多基因分析等,剖析这些方法的优缺点,并举例加以说 明。
多基因遗传病(polygenic inheritance dis- orders)是指由许多对微效累加基因和某些环 境因素共同作用而引起的一大类遗传病。由于 发病过程中需要许多因子共同参与,故又称为 多因子遗传病(multifactorial inheritance dis- orders)或复杂性疾病(complex disorders)[1]。 多基因遗传病的一个显著特点是其性状变异呈 现连续的数量级差的改变,不符合孟德尔遗传 所具有的质量性状的变异。多基因遗传病的另 一个显著特点是其所涉及的主要为一些常见病 和先天畸形。前者包括精神分裂症、哮喘、原发 性高血压、糖尿病、冠心病、风湿性关节炎和癫 痫等,群体总体患病率为600‰;后者包括唇
裂、脊柱裂、无脑儿、先天性心脏病等,群体患病 率为46.4‰。两者之和远远高于染色体病的 3.8‰和单基因遗传病的20‰[2]。由此可见,多 基因遗传病既是一类较难研究的遗传病,又是 一类极具研究价值的遗传病。
80年代以来,由于多态性微卫星遗传标记
的应用、定位克隆等技术的日趋成熟以及各种 遗传分析方法的建立,使单基因遗传病的基因 定位和克隆进展神速,迄今已有1 000多种疾 病基因被定位,100多种疾病基因被克隆[3]。同 时,也使多基因病易感基因的定位成为可能。 ·60·
目前,多基因遗传病易感基因的分子遗传
学研究已形成了一套模式。如常用的遗传标记 为法国GENETHON实验室建立的5 264个微 卫星标记(microsatellite marker)[4]中的一部 分,常用的实验材料是被检者的全基因组
DNA,常用的实验仪器为自动化或半自动化的
基因组扫描仪如ABI373或ABI377,常用的实 验技术有定位克隆法、候选定位克隆法以及排 除作图法等,常用的遗传分析方法有连锁分析、 受累同胞对法和受累家系成员法、关联研究与 连锁不平衡分析、动物模型的多基因分析等。本 文主要讨论上述4种遗传分析方法的特点及应 用。
一、连锁分析法
根据基因的重组率来计算两基因之间的染 色体图距称为连锁分析(linkage analysis)[5]。 连锁分析得益于Fisher提出的似然性(likeli- hood)的概念。所谓似然性可被认为重组分数 传递过程中的观察概率或表型概率。似然性估 计在方法上常采用对数概率,这样可将概率密 度的相乘转化为对数密度的相加。1955年 Morton利用似然性估计的原理提出了优势对 数分数法(log odds score)简称为lods法[6]。 lods法主要检测在两基因以某一重组率(θ)相 连锁时,出现这种情况的似然性(L)有多大。此 法的基本公式为Z(θ)=log[L(θ)/L(1/2)]。 lods法的优点在于:①可用于两代小家系资料 的分析。②每个家系的计算结果可逐个相加,无 时间限制,一旦能作出判断即可停止调查。③计 算基因连锁的似然性及染色体图距准确性较 高。④结果判断较容易,如lods值>1支持连 锁、lods值>3肯定连锁、lods值<-2否定连 锁。重组率的判断为:θ<0.10为紧密连锁(遗 传距离<10cM),θ>0.20为松弛连锁(遗传距 离>20cM),0.10<θ<0.20为中度连锁[7]。 lods法的不足在于其不适合三代或三代以
上大家系的连锁分析。另外,亲代基因型必须已 知,且其中必有一个为双重杂合子。为了弥补 lods法的不足,Elston和Stewart提出了家系 资料分析的通用模式[8],此模式既可对两代以 上家系资料进行分析,又可对某些数量性状进 行分析。此后还发展了利用高度多态性遗传标 记进行多位点连锁分析的方法[9]。连锁分析法 主要适用于已知遗传方式的单基因遗传病的基 因定位,如外显率完全的显性遗传病和能定量 的隐性遗传病的基因定位。可用于连锁分析的 计算机软件包主要有LIPED[10]、LINKAGE[11] 和VITESSE[12]等。
然而,连锁分析在多基因遗传病易感基因
定位研究中的作用非常有限。原因首先在于多
基因遗传病的遗传没有一个固定的模式,无法 设置参数并套用公式;其次在于多基因遗传病 一般发生率很高,使基因突变的机会大大增高, 影响了基因定位时目的基因的确定;还在于多 基因遗传病在不同家系中甚至在一个大家系中 存在遗传异质性,使这些家系资料无法累加。解 决的方法之一是先对某个多基因遗传病进行综 合分离分析[7],找出该病中外显率相对较高,并 对疾病易感性有实质影响的主基因(major gene),然后进行连锁分析和主基因定位。成功 的例子有通过对遗传性持续性胎儿血红蛋白症 的综合分离分析和连锁分析,发现在第6号染 色体的β-球蛋白外侧有一个该病的主要作用位 点[13]。连锁分析的另一个不足是假阳性或假阴 性的出现。解决的方法是遗传模式一定要选正 确,另外还需重复已做的实验和分析。
二、受累同胞对分析和受累家系成员分析 受累同胞对(affected sib-pair,ASP)分析 法是连锁分析的一种特殊形式,其特点是无需 知道遗传病的遗传方式,即可对同胞对中某一 遗传标记与疾病易感基因作出连锁关系的判 断。
ASP分析首先由Penrose提出来的[14],当
时主要用于比较单基因遗传病中同胞对的观察 值与期望值的分布,以分析标记位点与疾病间 的连锁关系。以后经过改进,此法被成功地应用 于HLA相关疾病的连锁分析和以RFLP作为 遗传标记的APS连锁分析。1990年Risch发表 了以复杂遗传性状的连锁分析策略为主题的3 篇系列文章[15],阐明了多位点模式和受累亲戚 对有效性等理论问题,使ASP分析法得以广泛 应用于多基因病的遗传分析和基因定位。 ASP分析涉及到一个基本概念——血缘 同一(identical by descent,IBD)。即一条染色 体的DNA区域或等位基因有一个共同祖先的 起源。假如亲代基因型已知,在零假设的情况 下,同胞对中任何位点IBD的机会分别是0、1、 2,基因型分布分别是25%、50%和25%。显然, 同胞对IBD的机会要高于其他亲戚对(如祖孙 对、叔侄对、表兄妹对和半同胞对),更明显高于 随机孟德尔分离群体。当ASP中某个遗传标记 的IBD超过随机同胞对的5%~10%(P<
0.05)时,就可判断该标记与某个易感基因间存 在连锁关系。
用ASP法检出疾病易感位点的能力依赖
于该位点产生某个性状的遗传变异的作用大小 (contribution),而这种作用大小可通过测量一 个ASP的患病风险(Ks)与群体患病率的风险 (K)之比(λs)来实现,λs=Ks/K。比如,有人调 查得到胰岛素依赖型糖尿病(IDDM)的Ks= 0.060,K=0.004,那么λs=15。λs是用ASP法 检出易感基因和遗传标记间连锁关系的重要参 数,也是所有易感位点的总效应的综合度量。那 么,到底有多少个基因的作用才产生这种有效 性(power)呢?这些基因又是如何共同起作用 的呢?这些问题可用Risch的相乘模式加以解 释[15]。根据相乘模式,设有N个易感位点参与 某个遗传病的发生,λi为第i个位点的风险率,
那么总体风险率λs=λ1λ2……λn。如已发现ID- DM有12个易感位点,那么总体λs等于各个
位点λi的乘积,即λs=16.24[16、17]。相乘模式解 决了各位点间的相互关系/上位关系的问题,其 优点在于只要探索到数个位点与疾病相连锁, 那么根据λs就能估计这些位点的总作用大小。 如果各位点λi相乘所得的λs低于ASP与群体 患病率的风险比,说明还有某些遗传位点未被 发现,需作进一步检出。
另外,到底选择多少ASP样本或有多大的
λs值时才能说明遗传标记和易感基因之间存 在连锁关系呢? Risch认为应采用最大lods值 (maxinum lod score,MLS)的统计阈值T来判 断。T值也是以底数为10的对数值,故T值为 3.0相当于是odds值的1 000∶1。传统意义 上,3.0是肯定连锁的一个阈值。然而,在ASP 的研究中,高T值(T=3.0)与低T值(T=
1.0)的意义是不同的。使用T=1.0时,常能保 证作用较弱的易感基因位点不被丢失,但却增 加了假阳性率。为此,在分析感兴趣的各个位点 时,必须通过增加遗传标记数目或ASP的数目 以提高这些位点的T值。目前,国际上分2~3 期作全基因组扫描来寻找易感基因就是基于这 个理论。如果一开始就采用T=3.0的标准寻 找易感基因,虽可获得作用较强的连锁位点,并 降低了假阳性率,但却丢失了一些作用较弱的 位点。因此,T=3.0的分析往往用于全基因组 扫描的2期或3期。
样本大小、T值、作用大小和λs之间存在 如下关系[18、19]。当T=3.0,ASP的数目为100
时,达到90%作用大小的λs为3.5;当T= 3.0,ASP的数目增加到200时,达到90%作用 大小的λs降到2.25。当T=1.0,ASP的数目 为100时,达到90%作用大小的λs为2.1;当 T=1.0,ASP的数目为200时,达到90%作用 大小的λs降至1.6。因此,在实验设计或研究 中,应根据实际情况选择合适的样本数和T 值,以达到最低λs值。
ASP法除了用于IDDM的遗传分析外,还
用于哮喘病[20]、精神分裂症[21]、原发性高血压 和老年性痴呆症等多基因遗传病的研究,并分 别找到了各自的一些易感基因或位点。 ASP法的不足在于为了排除遗传异质性
的影响,往往需要收集几百个受累同胞对,这对 一、二个实验室来说是很难做到的。为此有必要 进行国际间的大合作,以得到有意义的结果。另 一个不足是不能象lods法那样得出遗传标记 和易感基因之间的距离。
还有一种类似的方法称为受累家系成员法 (affected pedigree member,APM)[22]。此法的 原理与ASP法相同,只是把分析对象扩展到整 个家系的所有成员,从而解决了ASP法分析时 ·62·
国外医学遗传学分册 1998年 第21卷 第2期 APM法所不同的是分
析家系中所有个体的状态同一(identical by state,IBS)即只考虑家系成员的遗传标记或等 位基因的相似性,而不考虑其是否来自于共同 的祖先。因此,该法取材容易,但分析遗传标记 和易感基因之间的有效性要比ASP法低。 目前,APM法较多用于同胞对收集较困
难的晚发性多基因遗传病的遗传分析。如该法 用于晚发型Alzheimer病的研究确立了APOE 基因与该病的连锁关系,并将APOE基因定位 在19号染色体上[23]。该法还用于原发性高血 压[24]等的研究。
三、关联研究和连锁不平衡
关联研究(associated studies)是基于群体
中无亲缘关系的病例组和表现型正常的对照组 在某个遗传标记位点上会出现不同的频率而设 计的。通过两者频率的不同,就能推测所研究的 遗传标记和某个遗传病易感位点之间是否存在 因果关系或连锁不平衡(linkage disequilibriu- m)。