您的位置:

人类基因组研究的突破性进展

2022-07-29
来源:求医网
1999年12月初,英国的《自然》杂志刊登了Dunham等[1]216位科学家联合署名的人22号染色体DNA序列的学术论文。这是人类第一次公布自身体内一条完整染色体上的全部遗传信息。论文的发表在科学界引起了极大的反响,它是人类基因组计划实施以来,在DNA大规模测序上的一项突破性进展,是最终完成人类全基因组序列测定的一个重要里程碑。

众所周知,人类基因组计划(Human Genome Project,HGP)是当代生命科学一项伟大的科学工程,它奠定了21世纪生命科学发展和现代医药生物技术产业化的基础。HGP的原始目标是用15年时间,到2005年完成人体23对染色体(包括X和Y性染色体)DNA核苷酸全部序列的测定。1998年5月,美国原TIGR公司的Vanter博士领衔与PE公司联手成立一个新公司——Celera公司,提出将于2001年完成人类基因组全序列的测定工作,此提议在全世界引起了很大反响。为此,由美国国立卫生研究院(NIH)的人类基因组研究所牵头,召开了由政府部门资助的HGP合作者会议,于1998年10月提出了1998~2003年的新目标[2],将提前两年完成人类基因组全序列的测定。

一、 人类基因组计划的主要研究内容

1.人类的遗传信息贮存于细胞染色体的脱氧核糖核酸(简称DNA)中。DNA基本组成单位是核苷酸,核苷酸有四种,按其碱基成分的不同分别称为A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和T(胸腺嘧啶),它们以不同的顺序依次排列,形成由两条线性长链组成的双螺旋结构;两条链以其碱基间的氢键维系着双螺旋的结构,其一条链上的A与另一条链上的T形成互补碱基对,同样,G与C之间形成了另一对互补碱基。

基因(gene)是携带生物体遗传性状的基本单位,它的实质是染色体DNA线性链上的一段特定的核苷酸序列,这段序列蕴含了细胞中某一蛋白质或RNA的完整的遗传密码。据估算,一般认为人体基因的总数在10万个左右。

基因组(genome)[3]是指一个细胞所含的全部遗传信息,即染色体DNA(还有线粒体DNA),它包括了全部的基因以及基因之间的区域。病毒的基因组很小,大肠杆菌的在4.6 Mb(百万碱基对),人体基因组即指储存在细胞23对染色体上的全部核苷酸序列,其总数大约为30亿碱基对(3×109 bp)。

2.HGP的最终目标是完成人类基因组全序列的测定,其内容主要分为遗传图、物理图的构建和DNA序列测定两个方面;基因的定位和分析也将包括在内。同时,还将开展模式生物基因组的研究。

采用遗传分析的方法构建的基因组图谱称谓遗传图(genetic map),它是指基因或DNA标志在染色体的相对位置与遗传距离,它又称为连锁图(linkage map)。遗传距离是以基因片段在染色体交换过程中的分离频率,即cM表示。cM值大,说明两点之间的距离远;反之亦然。使用的DNA标志越多,越密集,遗传图的分辨率越精细。

应用分子生物学的技术构建的基因组图谱叫做物理图(physical map),它是指DNA线性链上两个基因片段之间的实际距离,其距离的长短以核苷酸数目的多少来表示。它是由DNA的限制酶片段或克隆的DNA片段有序排列而成。物理图是序列分析和结构研究的基础。

3.cDNA及转录图。蛋白质是基因的表达产物,然而,基因必须先转录成相应的信使RNA(简称mRNA),随后才按mRNA模板上核苷酸序列所蕴含的氨基酸密码翻译成蛋白质。在细胞核内,由基因(DNA)合成mRNA的过程称为转录;然而,由mRNA变成DNA的过程叫反转录。反转录的过程能在试管中进行,因为产生的DNA序列是与mRNA相互补,所以,称它为cDNA(complementary DNA)。全长cDNA是指一个成熟mRNA被全部反转录的双链DNA,它包含了mRNA编码氨基酸的区域及其上游(5′端)和下游(3′端)的非编码区域。在试管中进行逆转录反应,经常只能是一个片段, 要获全长cDNA的难度是比较大的。其所获的片段通常称为“EST”(express sequencing tag,表达序列标签),EST可作为某一特定mRNA或基因的代表。

人体内的所有的细胞都有相同的基因组即染色体DNA,而其基因的转录却是受到严格的调控。不同的细胞为何显示不同的形态与功能,是因为基因组中不同的基因被转录的缘故。不同的细胞其基因组转录成mRNA的种类和数量不相同,产生的蛋白质不一样;就是同种细胞在其发育过程的不同阶段,mRNA的种类和数量也不尽相同。转录图的分析即可显示不同种细胞或同种细胞不同发育阶段、生理和病理状态下的基因表达情况,也可启示基因的生物功能[4]

4.基因组DNA(genomic DNA)测序是基因组学中最基础和最主要的任务,测序技术包括大片段基因组DNA文库构建、高质量DNA测序(错误率小于1/10 000)、片段序列组装、结合物理图和遗传图的基因结构分析。DNA测序的化学原理是依据Sanger的双脱氧链末端终止法,反应产物的分离则采用聚丙烯酰胺凝胶平板电泳技术,ABI 377DNA测序仪是最常使用的自动测序仪器,通过对产物所标记的荧光检测获得序列的信息。面对十分繁重的基因组序列测定任务,其一突破性进展是采用毛细管电泳替代凝胶平板的分离技术,以适应规模化测序的需求。目前已有商品的ABI 3700自动测序仪(Perkin-Elmer Co.)和MegaBase (Amersham Pharmacia Biotech.) 两种仪器均是采用毛细管电泳的分离技术[5]。另外,大规模测序的成功还需要正确的数据采集、处理以及建立和发展数据库。

HGP的目标是完成人基因组的全序列测定,实际工作分成了基因组作图和核苷酸序列测定两大部分。作图工作包括了遗传图、物理图以及DNA大片段(譬如YAC和BAC克隆)的重叠克隆群等;1998年 Vanter博士提出了基因组DNA随机测序的方案,并借助超级计算机进行庞大数据的处理以及片段的拼接,但从目前实际情况看,要最终完成整条染色体DNA的拼接,物理图谱和重叠克隆群仍将起重要作用。遗传图能在基因定位等方面显示作用。

二、 人类基因组研究进展

1990年正式启动 HGP,10年来取得了令人振奋的进展。归纳如下。

1.人类基因组作图已基本完成。遗传图的分辨率已精确到0.75cM左右;物理图已定位了52 000个STS(sequencing target site, 序列标签位点,指的是染色体上一段特异的核苷酸序列片段,可作为位置标志用);在基因的分离与鉴定方面,已测定出新的EST 180万条,全长cDNA的克隆进展甚速。

2.人类基因组全序列的“工作草图”即将完成。人的22号染色体是人23对染色体中第二小的一条(最小的是21号),它的DNA全序列已于去年12月初完成,这是英、日、美、加拿大和瑞典五国科学家共同努力的结果。Dunham等[1]216位科学家署名的论文报道了人22号染色体常染色质区的全序列由3 340万碱基对(3.34×107 bp)组成,至少编码有545个基因和134个“假基因”(pseudogene)。并发现这一区域中含有与某些遗传病有关的基因,如猫眼综合征(cat eye syndrome)和先天性胸腺发育不全 (即DiGeoge 综合征),还存在有与精神分裂症敏感性相关的位点。这是首次提供了人体一条完整染色体的全部遗传信息,对完成人类基因组全序列测定具有里程碑的意义;同时,也表明应用克隆拼接技术(clone by clone approach)是可以完成一条染色体全长的测定。

除22号染色体外,第7号、21号及X等染色体也都接近或完成了40%~50%的工作量(见:www.ncbi.nlm.gov/genome/seq/),有望在今年3月底完成人类23对染色体DNA全序列的“工作草图”。

3.模式生物基因组测序对象不断扩大。酵母的全序列(14 Mb)测定已于1996年4月完成,1997年9月和1998年底又相继完成了大肠杆菌(4.6Mb)与线虫基因组(100 Mb)的序列测定。果蝇和小鼠的基因组测序工作进展加快;微生物、真菌和寄生虫基因组研究倍受重视。根据TIGR微生物数据库(www.tigr.org/tdb/mdb/mdbhmtl )的报道,目前已有20多种微生物基因组完成了序列测定,其中与疾病相关的占了11种左右[6]。例如结核分支杆菌(Mycobacterium tuberculosis), 微小幽门螺旋菌(Helicobacter pylori) ,沙眼衣原体 (Chlamydia tetrachomatis) 等。在寄生虫方面,人恶性疟原虫的基因组分析进展很快。

4.疾病基因的定位与克隆倍受重视。迄今为止已确定的与单基因相关的人类遗传性疾病有六千多种,基因组研究加快了遗传病致病基因的定位和克隆。按去年下半年的统计,已有1 632个致病基因被定位,已克隆的基因达954个以上。在早期,致病基因的克隆是根据患者的生化缺陷或特征先确认相关的蛋白质,再倒过去寻找相应的基因。随着基因组研究的深入,更有效的方法是采用定位克隆(positional cloning)和定位候选(positional candidate)的策略。采用微卫星标记对患者以及家系进行连锁分析,确定相关基因在染色体上的位置,用定位最近的DNA标记筛选DNA大片段库(例YAC库),找出该位点上的DNA大片段克隆,通过保守序列与CpG岛的分析,以及表达序列或cDNA的筛选等手段,推断可能的基因[4]。要最终确定它是致病基因,则需进一步分析患者的DNA样本,检测该基因突变情况以及其与发病的关系。

肿瘤、心脑血管病等许多疾病除环境因素外,同样与遗传因素密切相关,而且,其发病往往涉及多个基因,称之多基因病。筛查其相关基因的方法虽与上述介绍的类似,也要进行全基因组扫描,但要确定与疾病的相关性,则更为复杂、困难。为提供合格的患者基因组标本,流行病学的调查和临床资料的详尽、正确,同样是非常重要的。