您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页MATLAB7.X生物信息工具箱的应用——基因序列分析(一)

MATLAB7.X生物信息工具箱的应用——基因序列分析(一)

来源:爱go旅游网
维普资讯 http://www.cqvip.com

・l1 8・ 现代生物医学进展w1】l .biomed.net.Oil Progress in Modern Biomedicine 2oo8 V01.8 No.1 ・技术与方法・ MATLAB 7.X生物信息工具箱的应用——基因序列分析(一)水 刘新星李红燕杨英杰△ (中南大学生物冶金教育部重点实验室湖南长沙410083) 摘要:MATLAB 7.X生物信息工具箱为广大用户提供了一个用于基因组和蛋白质组分析的综合环境,它利用数据库资源,使科学 研究事半功倍,在工具箱提供的开放环境里,用户甚至可以按照自己的目的来设计和利用分析工具。本文主要介绍了MATLAB7. x生物信息工具箱在基因序列分析中的应用,包括确定核苷酸组成,密码子组成,氨基酸转化和组成等,所有操作简便高效,结果 可视化程度高。 关键词:生物信息工具箱;序列分析;开放阅读框;密码子 中图分类号:TP391文献标识码:B文章编号:1673—6273f 2008)01一O118一O4 The Application of MATLAB Bioinformatics ToolbOx ——Sequence Analysis of Gene(1)术 LIUXin-xing,LIHong-yan,YANG Ying-jie ̄ (KeyLaboratoryofBiometallurgyofMinistryofEducation.Central south University,Changsha,410083,China) ABSTRACT:The Bioinformatics Toolbox of MATLAB 7.X provides an integrated software environment for genome and proteome analysis,it makes your work more eficientf with the using of databases,in the open environment provided by the Bioinformatics Toolbox you can customize orf development and deployment ofthe analytical tools you will need、In this paper,the use ofthe Bioinformatics Toolbox in sequence analysiS of gene will be introduced,including determining nucleotide content,determining codon composition, amino acid conversion and composition,et a1.All operations are simple and eficifent,with high degree of visualization. Key words:Bioinformatics Toolbox;sequence analysis;open reading frame;codon Chinese Library Classiifcation(CLC):TP391 Document code:B Article ID:1673.6273(2008)01 0l18.04 功能性T具箱用于多种学科;而学科性工具箱的专业性比较 前言 强,都是南该领域内学术水平很高的专家编写的,生物信息工 。 近年来,生物信息学的发展对生物学的发展起了巨大的推 具箱就是学科性工具箱中的一种”],2 MATLAB生物信息工具箱 动作用。MathWorks公司推出的MATLAB7,0及以上版本为广 1大科研工作者提供了一个可用于生物信息分析的生物信息T MATLAB生物信息工具箱(Bioinformatics Toolbox)提供 其中绝大多数 具箱。它具有简单易学,操作方便而且功能强大等特点,即使不 了许多用于基因组学和蛋白质组学分析的函数,并有可供查看的源代 懂编程也能用它进行生物信息的分析研究。本系列文章依据该 是M代码的工具(MATLAB程序语言),它扩展了MATLAB在生物信息方面的应用,提供了一个用 软件的功能将分期介绍MATLAB 7,X生物信息1-具箱在基因 码;序列分析、微阵列分析和系统发生分析等几个方面的应用,希 于基因组和蛋白质组分析的综合软件环境。科研人员可以利用 基因工程和生物信息方 望对从事基因组学、蛋白质组学和药物研究的科研人员和相关 生物信息工具箱解决药物研究和设计,专业的师生有一些帮助。 面的问题,并可利用这个工具箱提供的基本生物信息函数来创 建更复杂的算法和应用程序。 1.3 MATLAB生物信息工具箱特点及功能 1 MATLAB及生物信息工具箱简介 1.1 MATLAB简介 生物信息工具箱可以进入许多网络数据库,它支持许多普 用户可以直接复制序列和基因表达信息 MATLAB全称为“Matrix Laboratory”,即矩阵实验室之 通的基因组文件格式, 意。MATLAB被称为计算机语言,它的一大特色是含 到MATLAB中。目前主要的序列数据库有国际基因库Gen—nPept,欧洲分子生物数据库EMBL,蛋 有许多功能强大的工具箱。其_T具箱分为两大类:功能性_r 具 Bank,蛋白质序列库Ge箱和学科性工具箱。功能性 具箱主要用来扩充其符号计算功 白质数据库PSD。用户也可以从同源蛋白家族数据库PFAM kov模型图谱,系统发生树数 能,图示建模仿真功能,文字处理功能以及硬件实时交互功能, 中得到多重比对序列,隐藏Mar据。此外,MATLAB还可以从基因测序仪、质谱仪和Agilent微 本系列文章由《现代生物医学进展》编辑部特别约稿 基金项目:国家F{然科学基金(50774102) △通讯作者:杨英杰,E—mail: ̄yangcsu@126.com (收稿日期:2007—12—02接收日期:2007—12一l8) 维普资讯 http://www.cqvip.com

现代生物医学进展Ⅵrww.biomed.net.Cll Progress in Modern Biomedicine 2008 Vo1.8 No.1 ・l19・ 阵列扫描仪j 读取数据。 执行成对或多重序列比对,确定序列的一系列统计量,在一个 2.1.3显示信息点击链接标签NC001807即显示人类线粒体 利川生物信息 I 具箱,用户可以选择一系列的分析方法来 基因组信息页面,图1 3是该页面的主要部分。 Aee, ̄aion; 免 鳢鲢 O' B 档8e甜enc树:l§研 b0 序列Lf1食找特定序列,或是查找开放阅读框。此外,还可以创建 随机序列,从一-一组多序列比财的氨基酸、核苷酸序列中找出共 同序列,对序列格式化或1【丰I频率数据图解显示一个序列比对结 果。MATLAB的附加功能还可以用正则表达式有效地处理字 符串,以便在一个序列中查找特定序列,并查找串匹配的信息 库。通过查找 文序列在DNA/RNA序列中搜索可能的断点 。 用户可以使用一系列的蛋白质分析方法从数据中选取信 C口m *led;M l 2 《……,’ *… 息。丁具箱提供了Hj于计算蛋白质序列性质的多个函数,比如 基本组成,分子量和等电点。用户可以预测氨基酸序列的统计 量并获得有关特征的编码信息;计算两生物序列间的距离和计 算替换率;利用距离数据构建系统发生树;在交互性的图形用 户界面 观察系统发生树和编辑数据;也可以在这个图形用户 界丽中修剪分支、重排、改名和测量距离。 总之,MATLAB可用来执行成对序列或多重序列的比对, 进行序列转换,绘制序列冈谱,进行蛋白质分析和氨基酸序列 分析,创建并分析系统发生树,进行微阵列数据分析等。用户还 可以创建自 的算法和应州程序,并与其他用户分享。 2序列分析 序列分析是利用汁算机方法来寻找有关核苷酸或氨基酸 序列的信 。序列分析的一般 作是基 识别,确定两个基 的相似性,确定一个基 的赁一质编码以及研究另一有机体中 卡Ij似基 的功能 。 在分析完一段DNA序列之后,首要任务就是研究序列中 的核苷酸含量 。本节使用序列统计函数来确定核苷酸含量,并 找fl{ 放阅读框。如无特别说明,均以人类线粒体基闪组为例, 逐个介绍序列分析的相 数。 2.1搜索网络数据库资源 苒‘先需要搜索网络数据库资源,查找有关人类线粒体的信 息,找m基 组的核甘酸序列。 2.1.1连接网络可川web函数连接到网络,下面的命令以一个 独 的浏览器窗口打开NCBI网站的主页。 web(’http://www.ncbi.nlm.nih.gov/'); 2.1.2查找信息如任NCBI网站上查找人类线粒体基因组,可 在搜索列表【Search】选择基冈【Genome】,在目的栏【for]输入 人科线粒体【mitochondrion homo sapiens】后进行搜索(图1—1)。 图1—1查找相关信息 Fig.1—1 Searching for relevant information NCBI网站查找并返 一系列相关页的链接(图1—2)。 {{ 莲 ome r3:∽~ il暖 j 婚}?  嚣 嚣 嚣 出 啪 ¨㈣j17981 8张i ef}N 一∞ls。?4l  图1-2查找结果 Lt" : 嚣: : :嚣: I谴00b0nd}i黼 Organism; 融 图1-3线粒体基因信息 Fig.1—3 Information about mitochondrion homo sapiens 2,2获取序列信息 MATLAB提供了一个读取序列信息的getgenbank函数。 由于国际基因库GenBank的条目数量非常巨大,而用户也许 只对特定的序列感兴趣,所以利用getgenbank函数可以通过登 陆号码查找特定序列的信息。比如,人类线粒体基因组共同序 列的GenBank的登陆号码为NC001 807,可用getgenbank函 数从GenBank网络数据库中搜索人类线粒体基因组的序列信 息,并读人MATLAB]一作区。 mitochondria=getgenbank(’NC O0 1 807’,’SequenceOnly’,true) mitochondria gatcacaggcctatcac……tacgttcaata ̄acaggcgaacatac— ctactaaagt... 2.3确定核苷酸的组成 一个含A+T丰富的核苷酸DNA片段通常是序列的一部 分,而含A+T低,含G+C丰富的核苷酸则是潜在的基因。通 常,一个基闪的CG二核苷酸含量都是已经确定的 。在读取一 段序列到MATLAB中以后,用户可以使用序列统计函数确定 这个序列是否含有蛋白质编码域的特征。 2.3.1绘制密度图可用ntdensity函数绘制单体密度和联合体 密度图,图1—4显示这个基因组富含A+T。 ntdensity(mitochondria): 2.3.2计算核苷酸数目可用basecount函数计算5’.3’链中的 核苷酸数目。 basecount(mitochondria) ans=A:51 13 C:5l92 G:2180 T:4086 2.3.3计算互补核苷酸数目可用seqrcomplement函数计算互 图1-4单体和联合体密度图 Fig.1.一4  Density cha ̄s ofmonomer and complex补5,一3,链中的核苷酸数目。 维普资讯 http://www.cqvip.com

・120・ 现代生物医学进展w哪.biomed.net.cn Progress in Modern Biomedicine 2008 Vo1.8 No.1 codoncount(mitochondria,’reverse ,true,'lame ,fflame,'ifg— ure’,basecount(seqrcomplement(mitochondria) arts=A:4086 C:2180 G:5192 T:5113 tue);r 2.3.4显示核苷酸分布可用basecount函数显示核苷酸分布的 title(sprintf(’Codons for reverse frame%dt,flame)); 饼状图(图l一5)。 basecount(mitochondria,’chaa’,'pie’); 图1.5核苷酸分布饼状图 Fig.1・5 Pancake plot of nucleotide distribution 图1—6二聚体数目条形图 Fig.1—6 Bar chart ofthe number ofdimer 2.3.5计算二聚体个数可用dimercount函数计算一个序列中 的二聚体个数,并在一个条形罔中显示出来,见图1-6。 dimercount(mitochondria,’chart’,’bar’); 2.4确定密码子组成 三核苷酸(密码子)编码一个氨基酸,在一个核苷酸序列中 有64个可能的密码子。知道序列中密码子的百分比有助于用 户假设密码子的排列情况。 2.4.1计算密码子数目可用codoncount函数计算一个核苷酸 序列中的密码子数目。 codoncount(mitochondria) AAA.1 72 AAC.】57 AAG.67 AAT.1 23 I”I’A一¨5 I”I’C—l l3 I I G一3 7 I”I。I 一99 2.4.2绘制热红外分布图可用下列程序绘制热红外分布图显 示出6个阅读框中的所有的64个密码子(图1—7(a—C))。 f0rframe:l:3 ifgure割color’,[1 11】) subplot(2,1,1); codoncount(mimchondria,’frame ,frame,’ifugre’,true); title(sprintf(’Codons for frame% flame)); subplot(2,1,2); end 2.5开放阅读框 为一个真核基因确定蛋白质编码序列是一项困难的工作, 一 }一 l 黑 _ !_ 』 ,a) ( [c) 图1—7密码子分布图 Fig.1—7 Profile ofcodons 因为内含子和外显子是间杂的,mRNA序列的内含子是移动 的。但是,原核基因通常是没有内含子的嘲。通过识别翻译的起 始密码子和终止密码子,可以确定序列中蛋白质编码段,即开 放阅读框ORF。一旦用户知道基因或者mRNA的ORF,就可 以将一个核苷酸序列转化成相应的氨基酸序列网。 2.5.1显示核苷酸序列的ORF可用seqshoworfs函数显示核苷 酸序列的ORF。 seqshoworfs(mitochondria) 将命令的执行结果与NABI网页上NC_001807的基因作 比较,会发现其比想象中的要少。这是由于脊椎动物线粒体的 遗传密码与标准遗传密码稍有不同。 2.5.2显示脊椎动物线粒体编码的ORF orfs=seqshoworfs(mitochondria,’GeneticCode’,We ̄ebrate Mitochondrial','altemativestart’,true) 执行结果中,第一个阅读框有两个比较大的ORF。一个的 起始位置是447 1,另一个的起始位置是5905,它们分别对应于 基因ND2(人类NADH脱氢酶亚基2)和COX1(细胞色素C 氧化酶亚基1)啊。 2.5.3查找终止密码子可用find函数找出相应的终止密码子, ORF的起始和终止位置与起始和终止域的开始位置都有一样 的引物。 ND2Start:447l; Startlndex:find(orfs(1).Start—ND2Start); ND2Stop=orfs(1).Stop(Startlndex) ND2Stop=5512 2.5.4摘录子序列利用基因的起始和终止位置的序列引物,从 序列中摘录子序列。下面语句将子序列(蛋白质编码区域)摘录 到ND2Seq中,并显示在屏幕上。 ND2Seq=mitochondria(ND2Start:ND2Stop) ND2Seq=a ̄aatcccctggc‘‘‘‘‘‘catcaagtatttcctcacgcaagcaac— cgcatccataatccttc‘‘‘ 2.5.5确定密码子分布下面的密码子计算结果显示ACC,A— TA,CAT,ATC的含量较丰富。 codoncount(ND2Seq) AAA.10 AAC.14 AAG.2 AAT.6 TTA.8 T1℃.7 TTG.1 TTT.8 2.5.6查找编码的氨基酸可用aminolookup函数查找给定密 码子编码的氨基酸,下面是查找密码子ATA编码的氨基酸。 aminolookup(’code’,nt2aa(’ATA’) Ile isoleucine 维普资讯 http://www.cqvip.com 现代生物医学进展Ⅵ删.biomed.net.cn Progress in Modern Biomedicine 2008 Vo1.8 No.1 ・12 l・ 2.6氢基酸转化和组成 2.6.4确定氨基酸组成和分子量可用atomiccomp 数和mol— atomiccomp(ND2AASeq) ans=C:l8l8 H:3574 N:420 0:8l7 S:25 确定蛋白质相关的氨基酸组成町以提供给t【{j户蛋白质特 weight函数确定蛋白质的氨基酸组成和分子量。 征冈谱。通常,这个图谱含有足够的用来识别蛋白质的信息。利 用氨基酸组成、基本成分和分子量,用户可以在公共数据库中 查找类似的蛋白质。在用户定位基L大J的一个ORF之后,就可以 将它转换成一个氨基酸序列,并确定它的氨基酸组成闻。 2.6.1核苷酸序列转氨基酸序列可用nt2aa函数将核苷酸序列 传密码将ND2Seq序列转换,仅起始密码子和终止密码子间的 蛋白质编码序列被转换。 ND2AASeq=nt2aa(ND2Seq,’geneticcode','Vertebrate Mito— chondrial’) molweight(ND2AASeq) ans=3.8960e+004 如果此序列是未知的,用户还可以通过将其基本组成与数 转换为氨基酸序列。在下面的例子中,利用脊椎动物线粒体遗 据库中其他蛋白质作比较来识别蛋白质[91。 MNPLAQPVIY……PTPFLPTLIALTTLLLPISPFMLMIL 2.6.2转化结果比较可用getgenpept函数把转化结果与Gen— Pept中已公布的转化结果作比较,下面的语句从NCBI数据库 中获取已公布的转化结果并读取入MATLAB工作 。 ND2protein:getgenpept NP536844','sequenceonly',true); 2.6_3计算氨基酸数目可用aacount函数计算蛋白质序列中的 氨基酸数目,并绘制出条形图。图1—8显示亮氨酸,苏氨酸和异 亮氨酸的含量较高,而半胱氨酸和天冬氨酸的含量较低。 aacount(ND2AASeq,’chart','bar’); 图1-8氨基酸数目条形图 Fig.1—8 Bar chag ofthe number ofamino 表l序列分析的生物信息学函数 Table 1 Bioinformatics Ftmctions Of The Sequential Analysis University Press,2004 3小结 本文简单介绍了生物信息工具箱的功能特点,初步介绍了 【4]Peng En—lan,Tu Hong-yi,Chen Wei—min.Watch genetics and oncoma[J]. 【 jfeSciencesResearch,2006,lO(2):191-195(InChiese) 序列分析的基本操作,关于序列比对等进一步的内容将在后续 文章中逐一阐述。为了便于读者查阅,表1给出了本文介绍过 的序列分析的生物信息学 数。 参考文献(References) [1]罗军辉,冯平,哈力旦・A,等.MATLAB 7.0在图像处理中的应用[M]. 北京:机械工业出版社,2005 Luo Junhui,Feng Ping,Haride・A,et a1.Application of MATLAB 7.0 [5]Chen Shan,Liu Zhi—hong.Research technique ofProteomics[J].Pre clinical Medicine,2005,l4(1):52・58(In Chiese) [6]Mortuaire G,Marchetti P,Formstecher P,et al Micro—array based technologies to study the proteome protcome:technological progress and applications[J]l Ann Biol Clin(Paris),2004,62(2):139—4g [7]Chen Ming.Bioinformatics in Postgenome Era[J].Bioinformatics, 2004,2:29—34(In Chiese) [8]赵铁桥.系统生物学的概念和方法[M].北京:科学出版社,1996 Zhao Tie—qiao.Idea and method of systemic biology[M].Be0ing: Science Press,l 996 at image processing[M].Be0ing:China Machine Press. 【21 Mount,David W.Bioinformatics Sequence and genome analysis Bioinformatics:sequence and genome analyses[M].Beijing:Science Press,2006 [9]Wang Mi—qu,Zhang Luoxin,Wu Bin,et a1.Demonstration of mass data of Postgenome Era[J].Traditional Chinese Medicine Pharmacy Pub・ lish,2005,23(8]:l 357—1359(InChiese) [31李巍.生物信息学导论[M].郑州:郑州大学出版社,2004 Li Wei.Introduction of Bioinformatics【M].Zhengzhou:Zhengzhou 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务