DNA序列的分类方法
摘 要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值
??(C?G)/(A?T)进行分类;模型三根据各序列中氨基酸分布不同引入分类参数?得到
分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.
关键词:DNA 分类 模糊聚类分析
一、问题的提出及分析
1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则.
DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.
在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类. 二、模型的基本假设与符号说明
(一)基本假设
(1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA中我们所关注的主要信息;
(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;
(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.
(二)符号说明
a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶; A,T,G,C表示DNA片段中分别含a, t, g, c的百分比含量; a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);
??(C?G)/(A?T); ?=
赖氨酸的百分比含量(第11号)?苯丙氨酸的百分比含量(第14号).
精氨酸的百分比含量(第2号)?甘氨酸的百分比含量(第8号)三、模型的建立与求解
模型一 单碱基分类法
通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1.
表1
A类中碱基百分比含量 B类中碱基百分比含量
A T G C
A T G C 0.2973 0.1351 0.3964 0.1712 0.2703 0.1532 0.4144 0.1622 0.2703 0.0631 0.4505 0.2162 0.4234 0.2883 0.1802 0.1081 0.2342 0.1081 0.4234 0.2342 0.3514 0.1261 0.3964 0.1261 0.3514 0.1892 0.3604 0.0991 0.2793 0.1892 0.3694 0.1622 0.2072 0.1532 0.4324 0.2072 0.1818 0.1364 0.4091 0.2727
0.3545 0.5000 0.1000 0.0455 0.3273 0.5000 0.1455 0.0273 0.2545 0.5182 0.1273 0.1000 0.3000 0.5000 0.1182 0.0818 0.2909 0.6455 0.0636 0 0.3636 0.4636 0.0909 0.0818 0.3545 0.2636 0.1364 0.2455 0.2909 0.5000 0.0909 0.1182 0.2182 0.5636 0.0727 0.1455 0.2000 0.5636 0.0636 0.1727 上述表格中的数据表明,除第4个数据外,A类中的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分
比含量大于0.45,g的百分比含量小于0.146.
由此得到分类标准为:若T?0.2636且G?0.1802,则该序列属于A类;若
T?0.2883且G?0.1802,则该序列属于B类.
对21~40序列进行统计得到表2.
表2 21~40序列中碱基百分比含量
A 0.2743 0.2885 0.1765 0.2087 0.2476 0.2193 0.2308 0.2564 0.1485 0.2897 0.2411 0.1743 0.2703 0.2353 0.2427 0.2286 0.2136 0.2222 0.2736 0.1983
T 0.3628 0.2212 0.1863 0.4087 0.2190 0.3860 0.2308 0.4444 0.1881 0.2523 0.3571 0.3303 0.3333 0.1617 0.2039 0.2095 0.2039 0.4359 0.2358 0.4310 G 0.1681 0.2500 0.3824 0.1913 0.3048 0.1842 0.3165 0.1538 0.4455 0.2150 0.2232 0.2661 0.2072 0.3627 0.3398 0.2571 0.3301 0.1709 0.2075 0.1724 C 0.1947 0.2404 0.2549 0.1913 0.2286 0.2105 0.2024 0.1453 0.2178 0.2430 0.1786 0.2294 0.1892 0.2353 0.2136 0.3048 0.2524 0.1709 0.2830 0.1983 根据序列21~40的数值结果(见表2),对序列21~40进行分类可得如下结果:
A类:22,23,25,27,29,30,34,35,36,37,39(共11个); B类:21,28,38,40(共4个);
评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.
模型二:参变量?分类法
根据DNA基因技术理论,不同来源的DNA序列???C?G??A?T?的值?1?不同,引进参数???C?G??A?T?,得到A类,B类以及序列21~40关于?的数据(见表3、表4).
表3 A、B类关于?的数据表
???C?G??A?T? A B
表4 序列21~40关于?的数据表
1.3125 1.3617 2.0000 0.4051 1.9211 1.0943 0.8500 1.1346 1.7750 2.1429 0.1702 0.2088 0.2941 0.2500 0.0680 0.2088 0.6176 0.2644 0.2791 0.3095 ???C?G??A?T? 21~30 0.5694 0.9623 1.7568 0.6197 1.1429 0.6522 1.1667 0.4268 1.9706 0.8448 31~40 0.6716 0.9818 0.6567 1.4878 1.2391 1.2826 1.3953 0.5195 0.9630 0.5890
通过以上数据的分析,我们发现A类中?的值在0.85~2.1429之间(除第4个数据外),B类中?的值在0.1702~0.6176之间,我们认为A类具有?>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以?为标准对序列21~40进行分类可得
A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);
B类:21 、24、 28、 38、40(共5个);
评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21~40,且具有实际的生物意义?1?和价值.
模型三:氨基酸含量分类法
我们尝试从氨基酸的分布着手,找出属于A类(或B 类)DNA 的数据特征,就认为未知DNA序列只有A类(或B类)的性质.
我们对A类和B类DNA序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):
按生物学理论[1]对氨基酸进行分析,由分布图形可以断定,A类中精氨酸(cga、cgg、cgc、cgt、aga、agg)和甘氨酸(ggc、ggt、gga、ggg),B类中赖氨酸(aaa、aag)和苯丙氨酸(ttt、ttc)为特征氨基酸,引入参数
?=
赖氨酸的百分比含量(第11号)?苯丙氨酸的百分比含量(第14号).
精氨酸的百分比含量(第2号)?甘氨酸的百分比含量(第8号)并求得A、B类以及序列21~40关于?的数值(见表5、表6).