您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页DNA序列的分类方法

DNA序列的分类方法

来源:爱go旅游网
DNA序列的分类方法

摘 要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值

(CG)/(AT进行分类;)模型三根据各序列中氨基酸分布不同引入分类参数得到

分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.

关键词:DNA 分类 模糊聚类分析

一、问题的提出及分析

1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则.

DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.

在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类. 二、模型的基本假设与符号说明

(一)基本假设

(1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA中我们所关注的主要信息;

(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;

(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.

(二)符号说明

a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶; A,T,G,C表示DNA片段中分别含a, t, g, c的百分比含量; a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);

(CG)/(AT); =

赖氨酸的百分比含量(第11号)苯丙氨酸的百分比含量(第14号).

精氨酸的百分比含量(第2号)甘氨酸的百分比含量(第8号)三、模型的建立与求解

模型一 单碱基分类法

通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1.

表1

A类中碱基百分比含量 B类中碱基百分比含量

A T G C A T G C 0.2973 0.1351 0.39 0.1712 0.2703 0.1532 0.4144 0.1622 0.2703 0.0631 0.4505 0.2162 0.4234 0.2883 0.1802 0.1081 0.2342 0.1081 0.4234 0.2342 0.3514 0.1261 0.39 0.1261 0.3514 0.12 0.3604 0.0991 0.2793 0.12 0.3694 0.1622 0.2072 0.1532 0.4324 0.2072 0.1818 0.13 0.4091 0.2727

0.35 0.5000 0.1000 0.0455 0.3273 0.5000 0.1455 0.0273 0.25 0.5182 0.1273 0.1000 0.3000 0.5000 0.1182 0.0818 0.2909 0.55 0.0636 0 0.3636 0.4636 0.0909 0.0818 0.35 0.2636 0.13 0.2455 0.2909 0.5000 0.0909 0.1182 0.2182 0.5636 0.0727 0.1455 0.2000 0.5636 0.0636 0.1727 上述表格中的数据表明,除第4个数据外,A类中的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分

比含量大于0.45,g的百分比含量小于0.146.

由此得到分类标准为:若T0.2636且G0.1802,则该序列属于A类;若

T0.2883且G0.1802,则该序列属于B类.

对21~40序列进行统计得到表2.

表2 21~40序列中碱基百分比含量

A T G C 0.2743 0.2885 0.1765 0.2087 0.2476 0.2193 0.2308 0.25 0.1485 0.27 0.2411 0.1743 0.2703 0.2353 0.2427 0.2286 0.2136 0.2222 0.2736 0.1983

0.3628 0.2212 0.1863 0.4087 0.2190 0.3860 0.2308 0.4444 0.1881 0.2523 0.3571 0.3303 0.3333 0.1617 0.2039 0.2095 0.2039 0.4359 0.2358 0.4310 0.1681 0.2500 0.3824 0.1913 0.3048 0.1842 0.3165 0.1538 0.4455 0.2150 0.2232 0.2661 0.2072 0.3627 0.3398 0.2571 0.3301 0.1709 0.2075 0.1724 0.1947 0.2404 0.29 0.1913 0.2286 0.2105 0.2019 0.1453 0.2178 0.2430 0.1786 0.2294 0.12 0.2353 0.2136 0.3048 0.2524 0.1709 0.2830 0.1983 根据序列21~40的数值结果(见表2),对序列21~40进行分类可得如下结果:

A类:22,23,25,27,29,30,34,35,36,37,39(共11个); B类:21,28,38,40(共4个);

评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.

模型二:参变量分类法

根据DNA基因技术理论,不同来源的DNA序列CGAT的值1不同,引进参数CGAT,得到A类,B类以及序列21~40关于的数据(见表3、表4).

表3 A、B类关于的数据表

CGAT A B

表4 序列21~40关于的数据表

1.3125 1.3617 2.0000 0.4051 1.9211 1.0943 0.8500 1.1346 1.7750 2.1429 0.1702 0.2088 0.2941 0.2500 0.0680 0.2088 0.6176 0.24 0.2791 0.3095 CGAT 21~30 0.5694 0.9623 1.7568 0.6197 1.1429 0.6522 1.1667 0.4268 1.9706 0.8448 31~40 0.6716 0.9818 0.6567 1.4878 1.2391 1.2826 1.3953 0.5195 0.9630 0.50

通过以上数据的分析,我们发现A类中的值在0.85~2.1429之间(除第4个数据外),B类中的值在0.1702~0.6176之间,我们认为A类具有>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以为标准对序列21~40进行分类可得

A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);

B类:21 、24、 28、 38、40(共5个);

评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21~40,且具有实际的生物意义1和价值.

模型三:氨基酸含量分类法

我们尝试从氨基酸的分布着手,找出属于A类(或B 类)DNA 的数据特征,就认为未知DNA序列只有A类(或B类)的性质.

我们对A类和B类DNA序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):

按生物学理论[1]对氨基酸进行分析,由分布图形可以断定,A类中精氨酸(cga、cgg、cgc、cgt、aga、agg)和甘氨酸(ggc、ggt、gga、ggg),B类中赖氨酸(aaa、aag)和苯丙氨酸(ttt、ttc)为特征氨基酸,引入参数

=

赖氨酸的百分比含量(第11号)苯丙氨酸的百分比含量(第14号).

精氨酸的百分比含量(第2号)甘氨酸的百分比含量(第8号)并求得A、B类以及序列21~40关于的数值(见表5、表6).

表5 A、B类关于的数值表

A、B类关于的数值 A 0.3333 0.1818 0 B 3.3333 3.0000

表6 序列21~40关于的数值表 1.4000 0.3077 0.1000 0.3846 0.2353 0.0909 0.3333  11.000 18.000 5.0000 1.5000 6.5000 8.5000  序列21~40中的值 21~30 31~40 2.0000 1.6000 0.6000 2.2500 0.3846 1.6000 12.000 0.3333 0.6250 0.4000 4.000 0.500 0.8750 0.7143 5.000 1.800 0.0769 1.0000 1.5000 4.000

容易得出分类标准为:当01.4,则序列属于 A类;当01.4,则序列属于B类;当1.41.5时,则序列无法区分.

根据上述分类标准,对序列21~40进行分类得: A类:22,23,25,27,29,34,35,36,37,39(共10个) B类:21,24,26,28,30,31,32,33,38,40(共10个) 模型四:中心距离分类法

对任何的DNA序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量Si(si1,si2,,si20),则Si为一个20维的向量,对于己知的DNA序列,A,B类氨基酸的含量百分比和均值分别为:

AASiA(siA,s,,s,2,,10; 1i2i20),i1BBSiB(siB,2,,10; 1,si2,,si20),i1110ASSij,j1,2,,20;

10i1Aj110BSSij,j1,2,,20.

10i1BjAA类DNA序列氨基酸的空间重心为SA(S1A,S2A,,S20);

BB类DNA序列氨基酸的空间重心为SB(S1B,S2B,,S20).

我们定义Si到A,B中序列的氨基酸向量重心的中心距离分别为:

d(i)ASijSjA,i1,2,,10.

j12020d(i)BSijSjB,i1,2,,10.

j1A类中各序列的氨基酸向量到B序列的氨基酸向量重心的距离分别为

d(i)ABSijASjB,i1,2,,10;

j120B类中各序列的氨基酸向量到A序列的氨基酸向量重心的距离分别为

d(i)BABSijSjA,i1,2,,10. j120我们认为两个DNA序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:

(1)DNA序列的氨基酸向量与A的重心SA的距离d0.7733时,则序列属于A类;

(2)DNA序列的氨基酸向量与B的重心SB的距离d0.6660时,则序列属于B类;

(3)否则说明该DNA序列无法归类.

应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A类归于B类,己知的B类中的序列归于己知的A类. 数据结果如下:

dAB 1.13 1.1203 1.4174 0.7135 1.1955 1.1711 1.0278 1.1909 1.2186 1.1494 dBA 1.1287 1.1703 1.1444 1.1346 1.3420 1.0571 0.8704 1.1681 1.2228 1.2715

根据序列21-40的如下的数据结果:

dA 0.5904 0.4166 0.6991 0.7733 0.4585 0.5057 0.71 0.6239 0.5071 0.5185 dB 0.4416 0.6175 0.4385 0.4365 0.6013 0.3806 0.666 0.3792 0.5302 0.6317

21-30dA 31-40dB 0.8765 0.7521 0.7352 1.1169 0.7184 1.0159 0.5016 0.9800 0.7860 0.9628 0.9991 0.9538 0.7169 0.6041 0.5081 0.8746 0.7901 1.0551 0.8233 0.9888

用上述的分类准则对序列21-40进行分类得: A类:27,34,35 B类:28

评析:模型四引入DNA的氨基酸向量到己知类别(A类,B类)重心的距离,提出分类准则,对未知DNA序列进行分类,具有很好的新意,这样就把一个DNA序列的排列问题转化为一个空间向量的距离问题.若某DNA中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.

模型五:模糊聚类分析分类法

如题目已知:DNA序列1~20,按一定的方法分成A,B二类,我们用模糊聚类分析方法建立A,B二类合并后的20个序列的相似矩阵R(rij)2020,其中

rijSk120ABikSABiSABjkSABjkABj(Sk120ABikS)AB2i(Sk120, S)AB2j然后通过平方法求其他传递闭包R,我们取水平为0.73,这样将20个序列分为二类A类和B类,与原来的A、B两类唯一区别是A类中序列4通过处理后划分到B类中去,这种分类方法与原来已分好的A,B类所形成的差异,其原因可能有以下几种

(1) 原来的分类方法有误 (2) 序列4数据有误 (3) 数据信息特征的提炼不够

当然我们用某些特殊方法使得分类结果与原来假定的分类吻合.如凡以gt开头的序列划分为B类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手.为了避免A中序列4的异类特性对A类整体特征的影

响,我们将它从 A类中删除,只留下其余9个序列作为进一步分析的对象. 我们将待分类的20个序列的集合定义为C.

C中序列Ci与A中(或B中)每个元素ai(i1,,9)或bi(i1,,10)的相关系数的平均值定义为ria(或rib)

对于C中任一元素ci,如riarib,且ria0.6,则认为ci隶属于A类:如

ribria,且rib0.6,则认为ci隶属于B类。今用Matlab程序可求得20个隶属数:

ria0.67630.58280.79780.52160.68470.980.72600.190.79590.56960.58420.550.66070.82040.71630.52000.73600.65780.49040.3797rib0.80350.60820.56870.74440.59590.76850.7260

0.74420.47160.51840.71840.75210.72090.48600.45150.59530.71610.78650.51730.71取0.6用上述方法对序列21~40进行分类,结果为 A类:23,25,27,29,34,35,37 B类:21,24,26,28,31,32,33,38,40 不可分类:22,30,36,39 对182种序列进行分类如下:

A类:53612386713396811691271174473194975205177215379275582325883335984

87809193100104106109112115117118124134136137138141145147155158171B类:

122402234332442762872850829529301031561134571435601837626365667072747680818586929495969799101102103105107108 11011111311411912012112212312512612712812913013113213313513914014214314414614814915015115215311561571591611621631165166167168169170172173174175176177178179180181182

四、模型的分析

模型1:仅考虑t,g 的含量,特性突出,判断简便,但信息应用不够,可能造成分类不准确.

模型2:该分类方法是DNA的分类的常用方法,它具有实际意义. 模型3:对某两种氨基酸含量的分析,能迅速判断出主要特征,同样有信息利用不够的缺陷.

模型4:对20个氨基酸的含量进行统计分析,用多元统计的方法分类,能有效的进行分类,但存在边缘模糊不清的缺点.

模型5:用模糊聚类分析方法对20 个氨基酸含量分类,同类元素相互之间的相似性较好且载植可去取不同数值,使分类动态调节,以适合实际情况.

五、模型的改进

我们在几个模型中仅提取核苷酸或氨基酸的含量数据,并对它们进行分析,没有考虑其编码的次序,也许不同的编码次序隐含着DNA的重要的遗传特性,由于这种研究工作量大,且分类结果正确与否无法通过实验验证,使得此项工作难以进行.

参考文献

[1]高天祥、田竟生,医学分子生物学,科学出版社,北京,1999.

SAi[2]李涛、贺勇军、刘志俭,Matlab工具箱应用指南,电子工业出版社,北京,2000.

[3]张尧庭、方开泰,多元统计分析引论,科学出版社,北京,1997. [4]杨伦标、高英仪,模糊数学,华南理工大学出版社,广州,1995.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务