高通量测序技术新名词的理解和辨析
王
海
京
(全国科学技术名词审定委员会,北100717)
摘要:高通量测序是指能一次并行对几十万到几百万条DNA分子进行序列测定的技术。高通量测序迅猛发展,已成为全 球生命科学研究的热点。由此衍生的新科技术语也不断出现。而规范统一的定名有助于科技成果的快速推广。文章从测 序技术的发展历史进行阐述,着重对高通量测序技术一词进行分析,并对其领域内主要的专业术语进行了归纳和解释。 关键词:高通量测序技术,新名词
中图分类号:N04;Q34 文献标识码:A
DOI : 10. 3969/j. issn. 1673-8578. 2017.04.010
Discrimination of Novel Terms in High-Throughput Sequencing/7/WANG Hai
Abstract: High-throughput sequencing is a technique that has capable of sequencing multiple DNA molecules in parallel,enabling hundreds of millions of DNA molecules to be sequenced at a time. With the rapid development of high-throughput sequencing,it has become a hot field in life sciences,and appeared some novel terms. This article expounds the development histor^^ of sequencing technology^ ,analyzes the term “ high-throughput sequencing technology”,and explains related main technical terms in this field. Keywords: high-throughput sequencing,novel terms
引言
科技术语是科学技术研究中的专用名词,它所 代表的意义必须力求准确统一,只有这样才符合科 学研究中要求的严格性与严密性。科技术语的混 乱,会影响科技工作者之间的交流,因此科技术语 的统一和规范化,对学科知识的传播与交流、新理 论的建立、新学科的开拓、最新信息的交流、科技成 果推广等方面都至关重要[|]。
高通量测序(high-throughput sequencing)是指 能一次并行对几十万到几百万条DNA分子进行序 列测定的技术。在21世纪初被国外生物公司首次 开发,继而迅速在全球范围内推广应用,它能够帮 助科研人员解决许多生物学问题,深人研究各物种 的基因组结构、功能、表达、调控等,更透彻地解密
“生命密码”。比如在基因组水平上对还没有参考 序列的物种进行从头测序(de novo sequencing),获 得该物种的参考序列;在转录组水平上进行mRNA 测序(mRNA sequencing),从而开展差异基因表达 分析、可变剪切分析等研究;从表观遗传学的角度, 研究DNA、RNA、蛋白质间相互作用或染色质构象 的测序技术,进行转录后调控等方面的研究。
“高通量测序”一词已广泛应用于生命科学的 研究,通过测序技术得到的基因组数据库、转录组 数据库等众多数据库,对生命现象的研究起着至关 重要的作用。因此以高通量测序为基础发展出许 多新名词,对这些新名词的规范命名和正确的理 解,能够有效地促进科学技术的传播,进而推动科 学的进一步发展。
收稿曰期:2017-05-04
基金项目:国家语委“十三五科研规划”2017年委托项目“‘双创’语境下汉语科技语言规范观及规范策略研究”(WT135-23)作者简介:王海(1985—),女,博士,全国科学技术名词审定委员会编辑,研究方向为医学名词审定、术语与规范等。通信方
式:wrangh@ cnctst. cn。
51
中国科技术语/2017年第19卷第4期
一测序技术的发展历史
众所周知,生物的遗传信息是由DNA序列决 定的,4种碱基A、T、C、G的排列方式决定了生物 的形态、生长发育、疾病等种种特征。DNA序列的 异常也将引起各种各样的疾病。那么某一个物种 的DNA序列究竟是什么,如何得到该物种完整的
序原理,采用的是边合成边测序(或边连接边测
(sequencing by synthesis, SBL)的原理,即以四
种标记不同荧光染料的碱基(dNTP)为底物,待检 测样品的单链DNA为模板,模拟DNA复制的过 程。复制中,检测与模板DNA链结合的碱基上包 含的荧光染料信号,从而获得DNA模板的序列[2]。
该方法带来了革命性的改变,具有高通量、高效率、 低成本等特点,其中尤以高通量特点最为显著,因 此产生一个新的科技名词“高通量测序冶,该技术 的诞生对基因组学的研究具有划时代的意义。
近年来,为了更精确、更有效地挖掘DNA的序 列信息,研究人员研发出一个新的测序技术,即单 分子测序(
序)
DNA序列,如何破解“生命密码冶,就成为20世纪
70年代生命科学研究领域的热门课题。
1977年,英国生物化学家桑格(F. Sanger)和 库森(A. R. Coulson)创建了第一代测序技术,通过
DNA双脱氧链终止法,成功得到噬菌体X174的全
部基因组序列,全长5374个碱基。该方法使用能
single molecule sequencing)。基于单分
DNA模板链上互补参人却不能延伸的四种双脱
氧核苷三磷酸(ddNTP)与正常的四种脱氧核苷三 磷酸(dNTP)竞争,合成的互补链可以在任何位置
在
终止,获得长短不一的反应产物,通过电泳分离,从 四条泳道上的条带顺序就能读出DNA的序列。这 一技术可以对样品直接进行测序,不需提前了解其 遗传背景,有较高的准确性,因此快速成为当时最 常用的基因测序技术,并命名为“桑格-库森法” (Sanger-Coulson method),也成为第一-代测序技术。 它的出现标志着生命科学的研究进人了基因组时 代。人类基因组计划(
子水平的边合成边测序,具有超长读长、不需要模 板扩增、运行时间短、直接检测表观修饰位点等特 点,弥补了第二代测序读长短、易受GC (鸟嘌呤和 胞嘧啶)含量影响等局限性。所以该技术刚出现, 就受到广大科研人员的热烈欢迎,并视此技术为第 三代测序[3]。因此该技术正处于发展阶段,商业化 的测序仪还比较少,相信随着科技的不断发展,该 技术会逐渐走向成熟和多元化。
虽然测序技术已发展到第三代,但并不意味着 第一代和第二代测序技术已被淘汰,相反,每一代 的测序技术都有其特点,现在依然在其各自领域发 挥着重要作用,比如用于亲子鉴定的3130仪器,就 是基于第一代测序技术原理;第二代测序技术以其 高通量、低成本的特点,仍然活跃在各类DNA、RNA 测序以及各种表观修饰的研究中;第三代测序技术 则凭借其当仁不让的读长优势,在基因组测序、全 长转录本测序中独占鳌头。
二
“高通量测序”名词的理解和辨析
human genome project, HGP)
就是用该技术完成的。
全国科学技术名词审定委员会审定公布的《遗 传学名词》(2007年)、《生物化学与分子生物学名 词》(2008年)、《细胞生物学名词》(2009年)中,均 将第一代测序技术命名为“桑格-库森法冶(Sanger-
Coulson method),定义是“以2,3-双脱氧核苷二磷 酸为底物,快速测定DNA中核苷酸序列的方法”。 而某些网站或期刊,仍使用“桑格法” “ Sanger法” “ Sanger法测序”等不规范、不统一的名称。
随着科技的发展,到21世纪初,“桑格-库森 法冶(Sanger-Coulson method)的第一•代测序技术已 不能满足科研人员的要求,科研人员需要一种通量 更大、速度更快、成本更低、灵敏度更高、准确度更 高的新的测序技术,来满足日益增长的科研需求, 第二代测序技术就应运而生,它不同于第一代的测
由于高通量测序(high-throughput sequencing) 技术的发展太快,以至于还没有对其给出准确统一 的中文定名,这就导致对“高通量测序”名词的使 用出现了混乱。
在高通量测序技术应用阶段之初,由于其给生 命科学的研究带来了革命性的改变,大量文献进行 了宣传报道,其中许多将高通量测序,又称为“第二
52
新科技新名词
代测序”或“新一代测序” “下一代测序冶(next-
录组的研究等。这些技术发展之快,让人应接不 暇,许多新的科技名词如雨后春笋般涌现,对这些 新名词的正确认识有助于科技知识的传播。比如:
全基因组测序
generation sequencing,NGS) 等, 甚至有些文章将
“第二代测序”“新一代测序”或“下一代测序”作为 正称使用,这也比较符合当时的科技发展要求。纵 观测序技术的发展历史,继第一代测序技术之后, 美国应用生物系统公司(ABI)、罗氏(Roche)公司 和Illumina公司相继研发出与第一代截然不同的 测序技术,并利用各自独特的测序技术推出了
(whole genome sequencing,
WGS):利用高通量测序技术,检测并获得细胞或组
织中全部染色体中DNA的序列。用于研究未知基
因组的序列、不同个体基因组的差异等。
外显子测序(
whole exon sequencing):利用序
Solid、454和Solexa三种测序平台,也是第二代测
序中最主流的三种测序平台。这些不同的测序平 台都具有高通量、高效率、低成本等特点,故被通称 为“高通量测序”,开创了第二代测序技术。当时, 由于这个新的测序技术过于高端和前沿,只有这三 个公司才具有能力提供这种“高通量测序”技术, 处于垄断阶段。所以在很长一段时间,高通量测序 都代表着第二代测序,或者是下一代的测序。
但是随着测序技术的迅猛发展,很快就出现了 第三代测序技术,“高通量测序”的名称就容易产 生误解,因为第三代测序技术的通量也很大,此时, “高通量测序”并不能特指第二代测序。“新一代 测序”“下一代测序”的命名更不符合“科技名词不 宜使用时效性词汇”的原则。某些不规范的名词随 着科技的发展,会越来越阻碍科技信息的传播。
全国科学技术名词审定委员会在2015年生物 物理学名词预公布中,对“ high-throughput
列捕获技术捕获并富集细胞或组织基因组中所有 外显子区域DNA,经高通量测序技术得到其所有 的序列。用于研究已知基因的单核苷酸多态性位 点、插人缺失位点等,不适合用于研究基因组结构 的变异。
mRNA 测序(mRNA sequencing, mRNA-seq): 从细胞或组织中提取其所有的信使RNA(mRNA),
通过高通量测序技术得到其所有的序列。用于研 究某特定状态下的细胞或组织中的转录组变化,比 如差异基因表达分析、可变剪切分析等。
microRNA sequencing, miRNA- seq ):从细胞或组织中提取其所有的微RNA (microRNA),通过高通量测序技术得到其所有的
序列。用于研究某特定状态下的细胞或组织中的 微
微 RNA 测序(
RNA的差异表达、寻找其作用的靶点mRNA,以 及发现新的微RNA等。
从头测序(de novo sequencing):不需要任何已
有的序列资料对某个物种进行的测序。利用生物 信息学分析方法对序列进行拼接、组装,从而获得 该物种的基因组图谱。应用于从头分析未知物种 的基因组序列、基因组成、进化特点等。
基因组重测序(genome re-sequencing):对基因 组序列已知的物种进行不同个体的基因组测序。 用于分析不同个体间基因组的差异,如发现单核苷 酸多态性位点、插人缺失位点、结构变异位点和拷 贝数变异位点等。
单细胞测序( single cell sequencing) : 利用单细
sequencing ”给出规范的中文定名“高通量测序”,
定义是“能一次并行对几十万到几百万条DNA分 子进行序列测定的技术”。那么,只要检测的DNA
分子量超过几十万,都可以是高通量测序,因此高 通量测序包含第二代测序和第三代测序。在使用 上,应正确理解其所指代的范围,把第二代测序和 高通量测序加以区分。而“新一代测序”“下一代 测序”等曾经特指第二代测序的名词,如出现在当 下则会引起歧义,属于不规范名词,不推荐使用。三高通量测序技术其他新名词的理解为满足科研人员对生命科学领域不同角度的 研究,高通量测序技术也发展出许多不同目的的测 序技术,有的应用于基因组的研究,有的应用于转
胞基因组扩增技术,通过高通量测序技术,得到单 个细胞中所有的基因组、转录组等序列的技术。能 够揭示该细胞内整体水平的基因表达状态和基因 结构信息,准确反映细胞间的异质性,深人理解其
53
中国科技术语/2017年第19卷第4期
基因型和表型之间的相互关系。
基因组水平上检测细胞或组织中RNA分子与RNA 结合蛋白相互作用的技术。
亚硫酸気盐测序(
tation sequencing, ChIP-seq) :一•类将染色质免疫沉 淀(chromatin immunoprecipitation, ChIP)与高通量测
序相结合,用以高效地在全基因组范围内研究细胞 或组织中蛋白质和DNA相互作用的技术。可用于 检测转录因子结合位点、组蛋白特异性修饰位点等。
染色质免疫沉淀测序(chromatin immunoprecipi-
Seq):利用高通量测序技术,检测细胞或组织中全
部染色体DNA上甲基化修饰情况的技术。通过分 析不同样品之间的甲基化差异,可研究DNA甲基
化水平对基因表达的调控。
文库标签(index):测序样品为混合样本时,为 区分不同样品而添加不同的标签。用于鉴别测序 样品。
喊基质量值(quality score,Q-score):喊基识别
bisulfite sequencing,BS-
RNA 免疫沉淀测序(RNA immunoprecipitation
sequencing, RIP.seq):—类将免疫沉淀与高通量测
序相结合,用以高效地在全基因组范围内研究细胞 或组织中蛋白质和RNA相互作用的技术。可用于 发现转录后调控网络、miRNA调节靶点等。
环状染色质构象捕获(circular chromosome con
formation capture, 4C): 又称“芯片染色质构象捕获” (chromosome conformation capture-on-c hip)。 基于染 色体构象捕获(chromosome conformation capture, 3C)发展而来。染色体构象捕获(3C)是一•种检测 DNA间是否存在相互作用的技术,用以分析染色质 的空间构象。4C是将3C和芯片技术相结合,在全 基因组范围内研究DNA间相互作用的技术。
3C碳拷贝(3C-carbon copy, 5C):基于染色体 构象捕获(3C)工作原理,结合连接介导的扩增 (ligation-mediated amplification, LMA),实现大通量 检测DNA间相互作用的技术。
高通量染色质构象捕获(Hi-C):染色体构象 捕获(3C)和高通量测序技术相结合的用以高通量 检测DNA间相互作用的技术。是目前对测序量要
求最高的一种技术。由于该技术是近几年高速发 展起来的,且广泛应用,在研究人员中只广泛采用 其英文缩写名“Hi-C”,尚未有成熟的中文定名,此 处是笔者根据全国科学技术名词审定委员会《科技 名词审定原则与方法》给出的中文名,仅供参考。
(base calling)出错的概率的整数映射。公式是:
Q-sco^-lOxlogmP,式中P为碱基识别出错的概
率。碱基质量值越高表明碱基识别越可靠,碱基测 错的可能性越小。
上述新名词已在生物学与医学领域研究人员 中广泛应用,但是仍有许多新的名词还没有给出准 确的中文定名,只能应用英文名词或英文简称,如
Hi-C、RPKM,这需要科技工作者与术语研究者密切
联系,共同关注新科技名词的命名。
四结语
几千年来,人们对“生命奥秘”的探索从未停 息,测序技术的发展也不会止步于此,可能在不久 的将来,第四代、第五代等测序技术也将应运而生。 在此过程中,每出现新的科技术语,伴随而来的科 学命名都非常重要。规范统一的定名,准确简单的 名称能够快速地推动新技术的传播,方便最新信息 的交流,也将为日后先进技术的发展与推广奠定坚 实的基础。参考文献
RNA纯化染色质分离高通量测序(chromatin
isolation by RNA purification, CHIRP-Seq) : ^•种在 全基因组水平上检测与RNA绑定的DNA和蛋白
的高通量测序方法。
紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high - throughput
[1] 科技名词术语的统一和规范化的意义[J].中国现代
医药杂志,2008 (6):109-109.[2] 王兴春,杨致荣,王敏,等.高通量测序技术及其应用
[J].中国生物工程杂志,2012(1):109-114.[3] 柳延虎,王璐,于黎.单分子实时测序技术的原理与应
用[J].遗传,2015(3):259-268.
sequencing,CLIP-seq):利用高通量测序技术,在全
54
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务