您的位置:

人类基因组的单核苷酸多态性及其医学应用

2022-07-29
来源:求医网
1引言

人类基因组计划已经取得了显著的进展,约占整个基因组6.3%的DNA序列已被测定,已鉴定的基因7 484个,约1万条人类基因的序列已被克隆。人类基因组全序列测定预计可以提前在2003年完成1]

人类基因组是一个十分稳定的体系,不同的民族、群体和个体都有46条染色体,有相同数目的基因和基因分布,也有基本相同的核苷酸序列。正是基因组结构的这种稳定性保证了人类作为一个物种的共同性和稳定性,也决定了目前基因组测定是有意义的,即有代表性的。

然而人类基因组又是一个变异的体系。在长期进化的过程中,基因组的DNA序列不断地发生变异。这些变异可能是有害的、有益的或中性的,它们其中的一些被保存下来,导致了不同种族、群体和个体间基因组的差异或多态性。除了同卵双生子外,没有两个个体的基因组是完全相同的。

随着基因组测序的进展,全面深入地了解个体和群体间基因组的变异或多态性已成为可能,并日益显示其重要性。这不仅因为更多的多态性标记有助于基因的鉴定和定位,同时通过建立序列变异与表型、序列变异与疾病风险之间的关系,将把对疾病,特别是对复杂疾病的预防、诊断和治疗置于坚实的遗传学基础上,从而使人类基因组计划给人类健康带来实际的利益。

人类基因组中的遗传多态性较多地表现在重复序列,特别是短串联重复序列,如小卫星DNA和微卫星DNA,它们的多态性主要是基于重复序列拷贝数的变异。微卫星DNA位点在人类基因组中数以千计,它们分布广泛,是很好的遗传标记。

另一类更加普遍的多态性是基因组中散在的单个碱基的不同。这种不同虽然也包括单个碱基的缺失和插入,但更多的是单个碱基的置换,即单核苷酸的多态性(single nucleotide polymorphism, SNP)。SNP为数众多,分布广泛。如果比较任意两条同源染色体的碱基序列,那么平均约1000碱基对(bp)就有一个碱基不同。单个碱基变异能导致基因功能异常者习惯上被称为突变。

随着人类基因组计划的进展,人们愈来愈相信基因组中的这类多态性有助于解释个体的表型差异、不同群体和个体对疾病,特别是对复杂疾病的易感性、以及对各种药物的耐受性和对环境因子的反应。因此,寻找研究SNP已成为人类基因组计划的内容和目标之一1,2]。例如美国国立卫生研究院(NIH)在1998年准备斥资4 000万美元就SNP的检测技术及应用进行招标,并强调SNP计划的迫切性3,4]。本文拟在对人类基因组SNP作一简要说明的基础上,着重介绍SNP的医学意义及其应用,并兼及一些发展中的批量鉴定和检出SNP的方法。

2单核苷酸多态性

单核苷酸多态性(SNP)是指基因组内特定核苷酸位置上存在两种不同的碱基,其中最少一种在群体中的频率不小于1%。尽管遗传密码由4种碱基组成,但SNP通常只是1种二等位基因的(biallelic),或二态的遗传变异。

SNP作为一种碱基的替换,大多数为转换,即一种嘧啶碱基换为另一种嘧啶碱基或一种嘌呤碱基换为另一种嘌呤碱基,转换与颠换之比2∶1。SNP在CG序列上出现最为频繁,而且多是C→T,原因是CG中C即胞嘧啶常为甲基化的、自发地脱氨后即成为胸嘧啶。

人类基因组中共有多少SNP位点,目前尚难以确定,这主要是因为还不确知单碱基变异的程度,而各作者对此估计不完全相同,有作者估计每400bp就有1个碱基不同,另一些作者估计碱基的变异频率在0.5‰~10‰之间。如果假定1/1000的碱基是多态的话,那么人类30亿碱基中当有约三百万SNP位点。由此可见,SNP数比微卫星标记数要高出几个数量级。

尽管就单个SNP而言只有两种变异体,变异程度不如微卫星或小卫星DNA。但SNP在基因组中数量巨大,分布频密,因此就整体而论,它们的多态性要高得多。而且由于SNP是二态的,易于自动化批量检测,因而被认为是新一代的遗传标记(第1代的遗传标记是RFLP,第2代是各种短串联重复序列STR标记)。目前的SNP计划希望首先鉴别出已知基因的cSNP,然后在5年内制作出拥有100 000个SNPs的基因组,以满足比较均质群体中的关联分析和其它研究的需要1,3]

SNP在单个基因或整个基因组中的分布不是均匀的。有根据认为,由于选择压力等原因,SNP在非转录序列中要多于转录序列。由于基因组中为蛋白质编码的序列仅约为3%,绝大多数SNP当位于非编码区。在蛋白质编码区的SNP被称为cSNP,它们和位于表达调控序列中的SNP在功能或致病方面具有更重要的意义4]。这样的多态性常被称为功能多态性(functional polymorphism)。

此外,在一些基因中有SNP的密集区,但由于已知SNP尚少,有关SNP的分布规律还有待进一步研究。

3SNP的医学意义和应用

基因在决定个体的正常表型,即形态、代谢和免疫状态等方面起着决定性的作用。通过赋予个体对疾病的易感性或抵抗力,以及影响机体与环境因素的相互作用,基因也对任何一种疾病的发生发展起着重要作用。因此,人们希望能识别这些基因,以加深对疾病的认识,从而改进疾病的诊断预防。

限于技术条件和其它一些原因,迄今疾病的遗传研究大多从单个基因入手,或按照单基因的模式进行,很少能够考虑包括成千上万基因的整个基因组及其功能状态。但随着SNP的不断发现和人类第3代遗传标记图的绘制,现在已有可能描绘在某一疾病时或发育阶段中多个基因位点甚至整个基因组的状态。

3.1连锁分析与基因定位SNP可以用于疾病的连锁分析和未知致病基因的定位。SNP数量大和分布广,在任何已知或未知致病基因附近都可能找到众多的SNP,并用于遗传病的单倍型诊断。在有适当的家系资料时,SNP又可用作遗传标记来定位未知基因。与目前广泛使用的微卫星小卫星基因图比较,未来SNP图的标记更多,分辨率更高,定位基因也更加准确。有作者计算,有700~900个SNP的基因图与目前用于基因组扫描的300~400个微卫星位点的基因图的分析能力相当,但制作前者要容易得多。而如果采用1 500~3 000个SNP作扫描,结果明显优于目前使用的微卫星扫描5]

3.2疾病的关联分析如果说连锁分析是基于家系中一种疾病或表型与某个等位基因的同时存在(coexistence)或相联系的话,那么关联分析则是基于群体中某种疾病与某个特定等位基因的频率相关。经典的连锁分析常苦于家系中患病成员的不足和DNA标本的不易取得,而关联分析无需家系资料,只需研究一个群体中的患者与非患者。当一个遗传标记的频率在患者明显超过非患者时,即表明该标记与疾病关联。通过比较分析两者的单倍型和发现连锁不平衡,关联分析也可将基因组中任何未知的致病基因定位。但要做到这一点,估计需要有3万~30万个SNP[4]

3.3复杂疾病或过程的基因定位迄今为止,在复杂疾病和复杂生理过程相关基因的识别和定位方面取得的成绩仍十分有限。这是因为它们涉及的基因众多,而一个基因怎样影响另一个基因的表达,即基因间的相互作用还不清楚,众多环境因素所起的作用也难以确定。结果是多数致病等位基因的外显率低,只有少数等位基因的携带者才有明显的表型或症状。这就使传统的家系连锁分析方法无能为力。近些年在复杂疾病基因定位方面比较成功的例子,如乳腺癌、遗传性非息肉性结肠癌和Ⅱ型糖尿病的某些亚型,都属涉及的基因相对不多和致病基因外显率高的肿瘤或疾病。

然而,如果有基于SNPs的高分辨率的基因图作为全基因组连锁分析或关联分析的基础,则可能同时筛查到复杂疾病或性状的众多相关基因。许多作者都希望SNP的大量发现和第3代的基因图的制成与应用能给复杂疾病的基因定位带来重大突破。最近有作者声称已通过SNP关联分析发现了两个前列腺癌相关基因6]。又有作者以SNP为标记,用半参数法作连锁/连锁不平衡综合分析和模拟基因组扫描试验以定位复杂性状的基因,并表明综合分析可以获得比单纯连锁分析或单纯连锁不平衡分析更好的结果7]

3.4法医学应用SNP作为最多的一类遗传标记可以用于基因分型,从而在个人识别、亲权鉴定中发挥作用。已有作者采用寡核苷酸连接分析(PCR-OLA)测定含有20个常见SNP的PCR扩增片段作基因分型。这种分型可以采用比色分光光度方法,并自动化地完成,因而能在较大群体中进行8]

3.5疾病发病的分子遗传机理的阐明遗传病研究中已经积累了大量碱基置换引起基因功能或表型异常的病例。近年来还建立了p53、HPRT、PAH等基因的突变数据库9,10]。如果能系统地鉴定和记录基因的cSNP和基因调控区的SNP,那么通过病例-对照的突变分析,就有可能阐明这类SNP与异常表型之间的关系,从而对疾病遗传机理的阐明作出重要贡献。

另一个诱人的前景是,由于DNA芯片及其它技术的发展,已存在大规模自动化检测SNP的可能。未来有可能检测许多个体的所有的多态位点,包括一切有功能意义的多态位点,这种全基因组多态性扫描或基因型分析如果能在大群体、或至少在许多个体中进行,那么通过表型与全基因组SNP图谱的相关研究,理论上可将人类的任何表型、功能、对任何疾病的易感性加以定位。除此以外,利用微阵<