细菌能随环境的变化,迅速改变某些基因表达的状态,这就是很好的基因表达调控的实验型。人们就是从研究这种现象开始,打开认识基因表达调控分子机理的窗口的。
一、操纵元的提出
大肠杆菌可以利用葡萄糖、乳糖、麦芽糖、阿拉伯糖等作为碳源而生长繁殖。当培养基中有葡萄糖和乳糖时,细菌优先使用葡萄糖,当葡萄糖耗尽,细菌停止生长,经过短时间的适应,就能利用乳糖,细菌继续呈指数式繁殖增长(见下图)。
大肠杆菌利用乳糖至少需要两个酶:促使乳糖进入细菌的乳糖透过酶(lactose permease)催化乳糖分解第一步的β-半乳糖苷酶(β-galactosidase)(见下图)。
在环境中没有乳糖或其他β-半乳糖苷时,大肠杆菌合成β-半乳糖苷酶量极少,加入乳糖2-3分钟后,细菌大量合成β-半乳糖苷酶,其量可提高千倍以上,在以乳糖作为唯一碳源时,菌体内的β-半乳糖苷酶量可占到细菌总蛋白量的3%。在上述二阶段生长细菌利用乳糖再次繁殖前,也能测出细菌中β-半乳糖苷酶活性显著增高的过程。这种典型的诱导现象,是研究基因表达调控的极好模型。 针对大肠杆菌利用乳糖的适应现象,法国的Jacob和Monod等人做了一系列遗传学和生化学研究实验,于1961年提出乳糖操纵元(lac operon)学说,如下图所示。下图中z、a是大肠杆菌编码利用乳糖所需酶类的基因,P是转录
z、a所需要的启动子,调控基因i编码合成调控蛋白R,R能与O结合而阻碍从P开始的
基因转录,所以O就是调节基因开放的操纵序列,乳糖能改变R结构使其不能与P结合,因而乳糖浓度增高时基因就开放,转录合成所编码的酶类,这样大肠杆菌就能适应外界乳糖供应的变化而改变利用乳糖的状况,这个模型是人们在科学实验的基础上第一次开始认识基因表达调控的分子机理。
二、操纵元(operon)的基本组成
乳糖操纵元模型被以后的许多研究实验所证实,对其有了更深入的认识,并且发现其他原核生物基因调控也有类似的操纵元组织(见下图),操纵元是原核基因表达调控的一种重要的组织形式,大肠杆菌的基因多数以操纵元的形式组成基因表达调控的单元。下面就以半乳糖操纵元为例子说明操纵元的最基本的组成元件(elements)。
(一)结构基因群
操纵元中被调控的编码蛋白质的基因可称为结构基因(structural gene, SG)。一个操纵元中含有2个以上的结构基因,多的可达十几个。每个结构基因是一个连续的开放读框(open reading frame),5’端有翻译起始码(DNA存储链上是ATG,转录成mRNA就是AUG),3’端有翻译终止码(DNA存储链上是TAA、TGA或TAG,转录成mRNA就是UAA、UGA或UAG)。
各结构基因头尾衔接、串连排列,组成结构基因群。至少在第一个结构基因5’侧具有核糖体结合位点(ribosome binding site, RBS),因而当这段含多个结构基因的DNA被转录成多顺反子mRNA,就能被核糖体所识别结合、并起始翻译。核糖体沿mRNA移动;在合成完第一个编码的多肽后,核糖体可以不脱离mRNA而继续翻译合成下一个基因编码的多肽,直至合成完这条多顺反子mRNA所编码的全部多肽。
乳糖操纵元含有z、y和a三个结构基因。z基因长3510bp,编码含1170个氨基酸、分子量为135,000的多肽,以四聚体形式组成有活性的β-半乳糖苷酶,催化乳糖转变为别乳糖(allolactose),再分解为半乳糖和葡萄糖;y基因长780bp,编码由260个氨基酸组成、分子量30
000的半乳糖透过酶,促使环境中的乳糖进入细菌;a基因长825bp,编码含275
氨基酸、分子量为32,000的转乙酰基酶,以二聚体活性形式催化半乳糖的乙酰化。z基因5’侧具有大肠杆菌核糖体识别结合位点(ribosome binding site, RBS)特征的Shine
Dalgarno(SD)序列,因而当乳糖操纵元开放时,核糖体能结合在转录产生的mRNA上。由于z、y、a三个基因头尾相接,上一个基因的翻译终止码靠近下一个基因的翻译起始码,因而同一个核糖体能沿此转录生成的多顺反子(polycistron) mRNA移动,在翻译合成了上一个基因编码的蛋白质后,不从mRNA上掉下来而继续沿mRNA移动合成下一个基因编码的蛋白质,一气依次合成基因群所编码的所有蛋白质。 (二)启动子
启动子(promoter,P)是指能被RNA聚合酶识别、结合并启动基因转录的一段DNA序列。
操纵元至少有一个启动子,一般在第一个结构基因5′侧上游,控制整个结构基因群的转录。用RNA聚合酶与分离的一段DNA双链混合,再加入外切核酸酶去水解DNA,结果只有被RNA聚合酶识别结合而被保护的那段DNA不被水解,由此可以测出启动子的范围及其序列。虽然不同的启动子序列有所不同,但比较已经研究过的上百种原核生物的启动子的序列,发现有一些共同的规律,它们一般长40-60bp,含A桾碱基对较多,某些段落是很相似的,这些相似的保守性段落称为共有性序列(consensus sequences)。如下图所示,启动子一般可分为识别(R,recognition)、结合(B, binding)和起始(I, initiation)三个区段。转录起始第一个碱基(通常标记位置为+1)最常见的是A;在-10bp附近有TATAAT一组共有序列,因为这段共有序列是Pribnow首先发现的,称为Pribnow盒(Pribnow box);在-35bp处又有TTGACA一组共有序列 。
不同的启动子序列不同,与RNA聚合酶的亲和力不同,启动转录的频率高低不同,即不同的启动子起动基因转录的强弱不同。
(三)操纵子
操纵子(operator)是指能被调控蛋白特异性结合的一段DNA序列,常与启动子邻近或与启动子序列重叠,当调控蛋白结合在操纵子序列上,会影响其下游基因转录的强弱。以前许多书中将操纵子称为操纵基因(operator gene)。但现在基因定义是为蛋白质编码的核酸序列,而操纵序列并不是编码蛋白质的基因,却是起着调控基因表达强弱的作用,正如启动序列不叫启动基因而称为启动子一样,操纵序列就可称为操纵子。以前将operon译为操纵子则可改译为操纵元,即基因表达操纵的单元之意。
举乳糖操纵元中的操纵子为例,如下图所示,其操纵子(o)序列位于启动子(p)与被调控的基因之间,部分序列与启动子序列重叠。仔细分析该操纵子序列,可见这段双链DNA具有回文(palindrome)样的对称性一级结构,能形成十字形的茎环(stem loop)构造。不少操纵子都具有类似的对称性序列,可能与特定蛋白质的结合相关。
阻遏蛋白与操纵子结合,就妨碍了RNA聚合酶与启动子的结合及其后β-半乳糖苷酶等基因的转录起始,从而阻遏了这群基因的表达。最早只把与阻遏蛋白结合、起阻遏作用的序列称为操纵子,但其后发现有的操纵元中同一操纵序列与不同构像的蛋白质结合,可以分别起阻遏或激活基因表达的作用,阿拉伯糖操纵元中的序列就是典型的例子。
因而凡能与调控蛋白特异性结合、从而影响基因转录强弱的序列,不论其对基因转录的作用是减弱、阻止或增强、开放,都可称为操纵子。
(四)调控基因
调控基因(regulatory gene)是编码能与操纵序列结合的调控蛋白的基因。与操纵子结合后能减弱或阻止其调控基因转录的调控蛋白称为阻遏蛋白(repressive protein),其介导的调控方式称为负性调控(negative regulation);与操纵子结合后能增强或起动调控基因转录的调控蛋白称为激活蛋白(activating protein),所介导的调控方式称为正性调控(positive regulation)。
某些特定的物质能与调控蛋白结合,使调控蛋白的空间构像发生变化,从而改变其对基因录的影响,这些特定物质可称为效应物(effector),其中凡能引起诱导发生的分子称为诱导剂(inducer),能导致阻遏发生的分子称为阻遏剂或辅助阻遏剂(corepressor)。因此,正负调控又有以下几种形式,如下图:
例如在乳糖操纵元中,调控基因1ac I位于P1ac邻近,有其自身的启动子和终止子,转录方向和结构基因群的转录方向一致,编码产生由347个氨基酸组成的调控蛋白R,在环境没有乳糖存在的情况下,R形成分子量为152000的活性四聚体,能特异地与操纵子o紧密结合,从而阻止利用乳糖的酶类基因的转录,所以R是乳糖操纵元的阻遏蛋白;当环境中有足够的乳糖时,乳糖受β-半乳糖苷酶作用转变为别乳糖,别乳糖与R结合,使R的空间构像变化,四聚体解聚成单体,失去与操纵子特异性紧密结合的能力,从而解除了阻遏蛋白的作用,使其后的基因得以转录合成利用乳糖的酶类。在这过程中乳糖(实际起作用的是