人类生命天书几近完美[图]
据科学时报 :国际人类基因组计划合作组织在不久前出版的英国《自然》杂志上宣布,经过多国科学家近3年的精心“雕琢”,一张精度达99.999%、误差小于十万分之一的人类基因组完成图绘制完成,原本遗漏了15万个细节的人类生命天书已经几近完美。
新图与旧图
1990年启动的人类基因组计划经过包括中国在内的多国科学家的10年努力,于2001年“大功告成”。2001年2月15日出版的英国《自然》杂志第409卷6822期以及2001年2月16日出版的美国《科学》杂志第291卷5507期,分别正式公布了人类基因组计划和塞莱拉遗传公司的人类基因组全序列数据,人类基因组草图诞生了。
根据草图,科学家分析得到的结果集中在以下几个方面:一是人类基因数量少得惊人。一些研究人员先前预测人类约有14万个基因,但此时的研究结果却大出所料,人类基因总数在2.6383万到3.9114万个之间,约3万个左右,只比果蝇多大约1.3万个基因。二是人类基因组中存在“热点”和大片“荒漠”。三是35.3%的基因组包含重复的序列,这意味着所有这些重复序列,即原来被认为的“垃圾DNA”应该被重新认识。四是地球上人与人之间99.99%的基因密码是相同的,人与人之间的变异仅为万分之一。
10月21日出版的《自然》杂志上,国际人类基因组测序委员会对已经完成的人类基因组序列给出了更为科学的陈述,将人类蛋白质编码基因的估计数目由原来的约35000个缩减到了20000至25000个,研究人员已经确定人类基因组中存在19599个蛋白质编码基因,并且还确定有另外的2188个DNA片断可能是蛋白质编码基因。人类基因数量如此之少,甚至与微小的开花植物拟南芥和小蠕虫的基因数量基本相同,这无疑对人类虚荣心是一次打击。在《自然》杂志的文章中,研究人员表示,这一人类基因组计划的精准结果为人类提供了最为清晰的人类基因组图谱,这一高精确度的人类基因组序列使全世界的研究人员能够更精确地对遗传信息以及它们对健康和疾病的影响进行研究。
鸟枪“不准”
是什么原因导致了2001年的草图遗漏了15万个“细节”呢?很多科学家都把“矛头”指向了测序技术,美国科学家更是一针见血地指出,塞莱拉遗传公司董事长兼首席科学家克雷格·文特尔使用的,通常用于大片段脱氧核糖核酸(DNA)测序的“鸟枪法”存在缺陷,正是由于这种测序技术所带来的遗憾,使得2001年人类基因草图略显潦草。
“鸟枪法”又称为“霰弹法”,是有着“基因魔鬼”之称的文特尔发明的一种快速基因测序技术。塞莱拉遗传公司与公共测序领域的科学家在人类基因测序竞争中采用了不同的路线。前者使用的是“鸟枪法”,其特点是测序速度快,但后期需要大量的计算;后者使用的是基于BAC连续克隆系的测序法,简称克隆法,这种方法早期需要较多的时间用于克隆和草图绘制。这两种不同的技术路线,一方面丰富了测序方法,另一方面也提高了测序技术水平。
美国文特尔学会的3位科学家对“鸟枪法”进行了重新研究,其中两位曾经参与过该方法的开发。他们把利用“鸟枪法”绘制的人类基因组草图和最新公布的精图进行了对比,发现“鸟枪法”无法测到人类基因组中某些重复出现的DNA片段,这些片段占到基因组的3%至5%,而这些无法“覆盖”到的基因组对于理解遗传性疾病具有重要意义。
负责这项技术研究工作的埃万·艾希勒表示,尽管“鸟枪法”可能有时“打”得不太准,但这个缺陷并不能抹杀“鸟枪法”在快速基因测序中所发挥的重要作用,在进行快速DNA测序时,“鸟枪法”仍然不失为一种可取的手段。而最佳的DNA测序法是,将“克隆法”和“鸟枪法”两种测序方法相结合,用“鸟枪法”进行整体测序,对于“鸟枪法”无法测序的区域,再通过传统方法对这些区域测序。
速度过快
除了测序技术之外,还有什么因素影响到了人类生命天书的精确呢?答案是:时间和速度。
人类基因组计划原定于2005年完成测序并向外界公布基本数据,然而,在1998年和2000年,人类基因组国际组织决定将原来确定的人类基因组测序工作完成时间提前到2001年6月。究其原因,一方面在于大规模测序技术的不断提高使基因组测序速度加快;另一方面就是私人公司加入到了人类基因组的测序行列,公私竞争“催化”了测序速度。
塞莱拉遗传公司董事长兼首席科学家克雷格·文特尔原本是参加人类基因组计划的科学家,由于在能否对基因进行专利申请方面与人类基因组的科学家们发生矛盾,他便于1998年5月另立门户,在美国的马里兰州罗克威尔组建了塞莱拉遗传公司进行基因测序。其目标也十分明确,与国际人类基因组计划展开竞争,投入3亿美元,到2001年绘制出完整的人体基因组图谱。
文特尔企图“垄断”基因的野心迅速遭到了世界各国政治家和科学家的强烈反对。有科学家一针见血地指出,“塞莱拉公司在基因组研究方面的‘欲望’助长了该公司与国际公共研究领域相悖的势头,这种做法无疑违背了世界上多数公众的利益,更妨碍了该领域科学的进步。”2000年3月14日,美国前总统克林顿和英国首相布莱尔联合发表声明支持基因组数据公开的政策,这一声明使得以塞莱拉公司为首的私营企业“垄断基因”的企图明显受挫。然而,基因的“公”、“私”之争并没有因此结束。
私营的塞莱拉遗传公司一问世便与国际人类基因组争抢进度,试图通过申请专利来获取利润,到2000年4月6日,塞莱拉遗传公司突然宣布已基本完成人类基因的全部测序工作,尽管这一结果遭到不少科学家的质疑,指出其是“有漏洞的”;但在这种形势下,国际人类基因组计划不得不把原定的时间再提前两年,但这个时间表仍然落后于塞莱拉遗传公司宣布的进度。
公私竞争大大加速了人类基因组测序工作,2000年6月26日,双方共同宣布绘制完成了人类基因组框架草图,但双方在时间与速度的竞争,使得第一次公布的人类基因组测序结果难以“十全十美”。此后,国际人类基因组计划合作组织立即启动了一项十分艰难、但非常必要的“纠错补漏”程序,用了3年的时间将草图一点点地丰满起来,那些令人头疼的缝隙也从原来的15万个减少到现在的341个。
“开始的结束”
在公布了人类基因组精确图以后,科学家们似乎并不为此感到“欢欣鼓舞”,国际人类基因组计划核心成员之一、美国冷泉港实验室教授林肯·斯坦说:“在整个人类基因组测序工程中,研究者已经胜利攀登了一座高山,走过了一条漫长而艰险的道路。但这仅仅是‘开始的结束’。”
科学家们表示,虽然从数量上相比人类的基因并不占优势,但人类的基因图谱却要复杂得多。人类的复杂性不仅仅涉及到基因的数目,而更在于自然界如何采用这些基因。但人类如何拥有较少的基因,而又是如此复杂呢?美国科学家埃里克·兰德尔说:“基因的数量多少并不是关键问题,最重要的因素是不同物种如何利用了这些基因。”另一位美国科学家克林斯则认为,这在于人有多种蛋白质,即复杂的蛋白质做更多的工作。很多生物学上的复杂性,不是基于单个蛋白质,而是基于多个蛋白质的组合。
蛋白质组研究作为功能基因组学的重要支柱,理所当然地成为当今生命科学领域的前沿。蛋白质组研究不仅可实现与基因组的对接与确认,直接揭示生命活动的规律和本质、发现人类重大疾病与病原体致病的物质基础以及发生与发展的病理机制;而且还可广泛推动生命科学基础学科以及分析、信息、材料等应用科学的发展,对提高人类生物医学原始创新能力、重大疾病防治水平具有重要意义。从基因图止步的地方开始,人类蛋白质组计划迄今已开展7个项目。
几近完美的人类生命天书要归功于国际人类基因测序组织对已经得到的富含基因的片段的基因组序列进行了彻底认真的检查,剔除多处错误和前后不一致的东西。现在,基因组精图在28.5亿个碱基对的编码中只剩下了341个缺口,测序的失误率降至十万分之一,也就是说几乎不存在什么“漏洞”了;而这种精确度意味着这一人类基因组序列将成为今后国际人类生命科学研究的“金标准”,任何人都可以通过免费使用这一非常可靠的序列数据库来探寻疾病根源和发现新的治疗药物。
人类基因组图谱大修正人类基因组仅有2万-2.5万个蛋白编码基因
被用作模式生物的低等动物秀丽隐杆线虫(C. elegans)只有1mm长,生命周期也只有短短数天,但其基因组却含有1.95万个左右的基因,同样被用作模式生物的低等植物拟南芥也有2.7万个左右的基因,而在进化上比这些低等动植物都优越得多的人类,其基因组竟然仅有2万-2.5万个基因!这是国际人类基因组测序协作组(IHGSC)最近公布的最新分析结果。
由美国国立人类基因组研究所(NHGRI)和能源部(DOE)领导的IHGSC不久前宣布,人类基因组测序工作已圆满完成,其发表在2004年10月21日Nature(2004,431:931)上的分析报告对2001年2月发表的初步分析报告进行了补充。这篇最新分析报告不但为世人展现了一张精度大于99%、误差小于10万分之一的精确版人类基因组图谱,而且还进一步纠正了蛋白编码基因的数量,仅为2万-2.5万个,而非原先估计的3万-3.5万个。
