中国科学院生物物理所 陈润生
关键词:基因组信息 生物信息学
近年来,随着人类基因组计划(HGP)在世界范围内的开展,破译人类及多种模式生物的遗传密码已成为生物学领域的重要学科。同时产生了巨量的基因组信息。分析这些信息是人类基因组研究必不可少的重要内容,从而也促成了生物信息学的产生与发展。生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此在基因组研究时代,基因组信息学、蛋白质的结构模拟以及药物设计必然有机地连接在一起,它们是生物信息学的三个重要组成部分。当前,生物信息学已在理论生物学领域占有了核心的地位,并提出了大量的紧迫任务。
1 基因组相关信息的收集、储存、管理与提供
到1998年12月GenBank中收集的核酸序列已达3044000条,它们包含的碱基数目是2162000000个。与此同时有二十个生物体的完整基因组已被破译,约有至少40个完整基因组正在破译当中。大量基因数据的出现促进了数据库、分析工具以及网络连接等的快速发展。
1.1 生物信息数据库
建立数据库是存储基因组相关信息的重要步骤,当前在互联网络上可找到与基因组信息相关的大量重要数据库、服务器。其中:GenBank、EMBL、GDB、PDB、PIR等数据库更是频繁地被用户检索。在基因组织关数据库的发展中,以及几方面特别引起人们的重视:
a)、建立基因组信息的评估与检测系统
b)、数据标准化
c)、进行基因组信息的可视化和专家系统的研究
d)、发展次级与专业数据库
原始数据是庞大的。在原始数据的基因上,根据不同的特征将其加工,而构建出若干高级数据库,这不仅会给用户带来很多方便,更重要的是专业人员注入的知识会对用户有很大的启发。著名的二级数据库象:蛋白质结构分类数据库(SCoP),受体数据库,克隆载体数据库等……。
1.2 以因特网(Internet)为基础的基因组信息学传输网络
用户与数据库间迅速、有效地传递信息是基因组信息的收集、管理与使用的另一要素。目前与基因组信息相关的数据库都有了自己的Internet地址和主页(Homepage),同时在网上还出现了很多相关的在线(online)服务器。
我国在基因组信息的收集与提供方面也有了一定的工作:北京大学物理化学研究所建立的PDB数据库的中国节点;北京大学生命科学院建立的EMBL数据库的中国节点。中国科学院生物物理所与日本JIPID的合作,收集了我国科学家测定的DNA和蛋白质序列并与国际相应数据库进行交流。中国医学科学院肿瘤研究所建立的MEE-HOW服务器等。在数据库研究中有两点特别重要,一是构建我国自己的数据库;二是与国际常用数据库的有效连接和及时更新。经过努力,相信这一领域在我国会迅速发展。
2 新基因的发现与鉴定
发现一个新的基因就能了解与其相关的生理功能或疾病的本质,从而为新药的开发、设计奠定基础。使用基因组信息学的方法是发现新基因的重要手段,比如在啤酒酵母完整基因组(约1200万bp)所包含的5932个基因中,大约60%是通过信息分析得到的。使用EST序列信息寻找新基因是当前国际上基因争夺战的热点。
2.1 利用EST数据库(dbEST)发现新基因
eST序列(Expressed sequence Tags)是从基因表达的短c-DNA序列,它们携带着完整基因某些片段的信息。到1998年12月中在GenBank的EST数据库中已收集了EST序列2,020,608条,其中人EST序列为1,201,241条,它大约覆盖了人类基因的80%。由于EST序列中包括了大量未发现的人类基因的信息,因此如何利用这些信息发现新基因成了近几年的重要研究课题。
2.2 从基因组DNA测序数据中确定编码区
这一研究已经进行了很多年,并建立了多种方法。这些方法概括说来分为两类,一类是基于编码区所具有的独特信号,比如起始密码子、终止密码子等,另一类是基于编码区的碱基组成不同于非编码区。这是由于蛋白质中20种氨基酸出现的概率不同,每种氨基酸的密码子兼并度不同,同一种氨基酸的兼并密码子使用频率不同等原因造成的。近年来一批新的确定编码区的方法出现了,例如,考虑高维分布的统计方法、神经网络方法、分形方法等。将密码学方法用于识别编码区,也取得了较好的结果。
3非编码区信息结构分析
虽然对约占人类基因组95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域编码特征,信息调节与表达规律是未来相当长时间内的热点课题。
3.1非编码区中各种组分的分类与确定
非编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包含如下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(Microsatellite)DNA、非均一核RNA(简称hmRNA)短散置元(short interspersed elements,简称SINE)、长散置元(long interspersed elements,简称LINE)、伪基因(pseudogenes)等。除此之外顺式调控元件,如启动子、增强子等也属于非编码序列。一些科学家认为应当把染色体称为信息细胞器(information organelle)。了解“JunK”DNA是了解信息细胞器的关键步骤。
3.2寻找新的非三联体的编码方式
是否在基因组中仅存在三联体的编码方式呢?是否传递不同的信息应有不同字长的码呢?人们熟知三联码是用于将4个字符组成的基因中的信息传递给由20个字符组成的蛋白质。只有碱基三联体数(43=64)才是大于20(氨基酸的种类数)且最接近20的碱基组合。所以三联体是DNA与蛋白质间传递信息的最经济编码。按照这样的推理人们可以认为由DNA到结构RNA间的信息传递是单联体码,因为DNA与RNA的结构单元是一一对应的。如果考虑到人类基因的总数约为5万到10万,那么要调节单独的一个基因的调节单元的数目也要与此相应,达到若干万个。此时三联体编码方式的区分度就远为不足。这就是生物信息学家寻找其他非三联体编码方式的原因。
3.3编码区和非编码区中信息调节规律的研究
虽然Jacob和Monod的乳糖操纵子模型给出了基因表达调控的最基本模式,但近年来很多发现表明基因的调节是远为复杂与丰富的。随着基因组研究进入后基因组时代,功能基因的表达谱得以测定,这些深刻的问题会逐步得到解决。
4生物进化的研究
自1859年Darwin的物种起源(Origin of Species)发表以来,进化是对人类自然科学和自然哲学发展的最重要贡献之一。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。并建立了一套依赖于核酸、蛋白质序列信息的理论方法。现在随着序列信息的大量出现开展分子进化的研究具有了极好时机。
5完整基因组的比较研究
在后基因组时代,生物信息学家面对的不仅是序列和基因而是越来越多的完整基因组。科学家们对最早的七个完整基因组所做的分析得到了很多有意义的结论。这些生物体都是能独立存活的,最大的是啤酒酵母,它有5932个基因,最小的是生殖道枝原体,它只有470个基因。有了这些资料人们就能估计,最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?基因组研究还发现,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别不大于0.1%;人猿间差别不大于1%。因此其表型差异不仅应从基因、DNA序列找原因,也应考虑染色体组织上的差异。总之,由完整基因组研究所导致的比较基因组学必将为后基因组研究开辟新的领域。
6基因组信息分析的方法研究
6.1发展有效的能支持大尺度作图与测序需要的软件和数据库以及若干数据库工具,包括互联网络上的远程通讯工具,使之能容易地处理日益增长的物理图、遗传图和序列信息。改进现有的理论分析方法,象统计方法、隐含马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法等。创建一切适用于基因组信息分析的新方法、新技术。
6.2建立快速、严格的多序列比较方法
多序列比较是解决同源性分析等重要问题的关键手段,但迄今为止只有近似方法。虽然两个序列比较有动态规划算法这样的精确方法,但要把它推广到多序列的情况是不现实的。为此发展精确的多序列比较方法是当务之急。
7大规模基因功能表达谱的分析
目前,基因组的研究已从结构基因组(structural genome)逐渐过度到功能基因组(
