中图分类号:Q987文献标识码:A
文章编号:0379-4172(2000)01-0001-0006
Geographic Distribution Maps of Human Genes in China
XIAO Chun-Jie,DU Ruo-Fu
(Institute of Genetics,Chinese Academy of Sciences,Beijing 100101,China)
L L Cavalli-Sforza,E Minch
(Stanford University,Stanford,CA94305,USA)
Abstract:The first set of geographic distribution maps of human gene in China are published,including 12 alleles:IB and IO of ABO system,m of MNS system,P1,Rh-D,A1 and A11 of HLA system,Gm1;21 and Gm1,3;5 of immunoglobulin,AK1,defficient typeof G6PD,and PTC test blindness gene t.These maps not only show the geographic distribution of alleles,but also can be used to study the origin and dispersal of some alleles,gene flow,and the effect of some selective factors on gene frequencies.
Key words:gene frequency;geographic distribution map;Chinese populations
某一基因座的某一等位基因在某一地区范围内的人群中的分布,一般是不均匀的,有的地方频率高,有的地方频率低。
等位基因地理分布图就是某一基因座上的某一等位基因在一定地区的人群中的频率分布地图。一般是以一条条平滑的等值线在地图上表示频率的分布区的边界,而且往往还以不同的灰度来标记不同频率的分布区。
造成单个基因在地理上分布不均匀的原因是多方面的。(1)基因流动,如入侵或和平迁徙,这是大规模的基因流动,但也可以是长时间内通过零星的短距离迁居、婚嫁等,缓慢地扩散、渗透;(2)自然选择:由于某些自然条件的差异及与此有关的疾病的流行等,产生自然选择,使带有某一等位基因的个体产生更多(或更少)的后代,于是使该等位基因在该人群中增多(或减少);(3)由于随机漂变及隔离所造成的某些等位基因频率与母群体不同;(4)突变,产生某些新的等位基因,如果是有利突变,则通过自然选择逐渐增加其频率,不利突变则被淘汰;如果是中性的,或者随机地淘汰,或者有时也有机会通过漂变及隔离而长期存在。
因此,研究单个等位基因在地理上的分布,绘制等位基因地理分布图,可以使人们了解小至一个地区范围内、大至全世界某一等位基因的分布状况,通过分析,以了解其起源、与人口迁移及自然选择的关系,进一步还可以分析与选择因子(包括疾病等)的具体关系。
自1980年以来,我国已陆续发表了我国人群中的基因频率的大量资料,因此,目前已具备条件对我国人群中某些基因的地理分布绘制地图。
1 材料和方法
从国内、外书刊中,收集我国人群的基因频率数据,经x2检测后,剔除不符合Hardy Winberg分布的数据。在合用的数据中,如同一地区在同一地点有两套以上的数据,便用加权法取其平均值备用。本文中各等位基因频率数据的套数(一个民族、一个地点、一个基因座的基因频率为一套数据)都是经过x2检测和同一地点数据合并后的值。作图大致步骤[1]如下。
1.1网络化采用墨卡托投影法(Mercator projection)按经纬度将中国地图网络化,形成一个矩形图。由于海南和台湾离大陆较近且数据较多,所以将大陆网络化延伸到这两个地方。
1.2输入按经纬度输入中国人群的基因频率。
1.3插值由于基因频率数据的地理分布极其不均匀,一些地方的数据较多,而另一些地区的数据较少或甚至缺乏,因此在数据没有或较少的地方就需要插入数值。具体步骤如下[2]。(1)计算每一观察点的期望值:根据邻近数据点的基因频率,采用Shepard公式[3]进行加权,计算每一个观察点的期望基因频率。为了获得根据尽可能多的点得出的期望值,计算从离它最近的3个数据点开始逐渐向远点推进,每增加一个邻位点,就计算一次2值,直到观察值与期望值差异显著为止。计算时把数据点的样本大小考虑在内,即用加权法进行。在计算下一个观察点的期望值时,仍用其邻近观察点原来的观察值进行计算,直到全部观察点都得出期望值为止。(2)给每个网络结点(node)赋值:根据期望基因频率来计算网络每一结点的期望值。先建立一个Voronoi网络,每个Voronoi多边形中仅有一个数据点,而且网络的每一边线是两个数据点间的中线。根据多边形中数据点的期望值和与之邻接的所有多边形中的数据点的期望值,用上述计算每一观察点期望值相同的方法对网络的结点赋值。计算时用的也是加权法,其加权值与样本大小成正比而与邻位点间距离的平方成反比。直至网络的每个结点都被赋值为止。
1.4平滑化如果第1次网络结点赋值的结果,所得到的结点数和原观察点数之和还太小,则进行第2次网络化,把第1次网络结点赋值所得的期望值和原观察点都网在Voronoi多边形中,每个多边形内仍只有一个数据点,然后再给网络的全部结点赋值一次,直到已赋值的点的密度达到作图要求为止。最后用二维移动平均法(Bidimensional moving averages)画出等值线。
1.5图象处理用灰度表示基因频率分布地图中基因频率的梯度,绘制出各个等位基因频率分布图。所有计算和绘图均在美国斯坦福大学医学院遗传学系L.L.Cavalli朣forza实验室中完成,所用的是该实验室的Genography软件[4]。
2结果与分析
我们一共绘制了38个基因座上130个等位基因(或单体型)在中国的地理分布图。其中,耵聍干型基因的地理分布图已发表[5]。由于篇幅有限,我们仅选其中基因频率数据点较多、地理分布规律最为明显的9个基因座上12个等位基因的地理分布图在此发表,并稍加讨论。
2.1ABO血型系统本基因座的基因频率调查得最早,数据也最多。至1995年,我国除拉祜、布朗、门巴、珞巴等4个民族尚无ABO血型的资料外,其余52个民族都已有基因 频率报道。经整理后少数民族和汉族合在一起共有214套数据。IB基因在中国总的说来是北部高、南部低,频率最低的是台湾、福建、广东、江西、湖南等地。IO基因则是南方高,东北最北有一个角也高,最低的是新疆(图1)。
图1中国人群中ABO系统的IB与IO,MNS系统的m,
Rh-D,P1,HLA系统的A1等等位基因的地理分布图
Fig.1Geographic distribution of IB and IO of ABO system,
m of MNS system,Rh-D,P1,and A1 fo HLA system in China
2.2MN血型系统我国已有41个少数民族的67个人群及汉族26个人群的数据,经检测与归并后共有72个点的数据。基因频率m在我国的梯度变化十分明显,而且变化幅 度很大,达0.43。基因频率m是从辽宁、河北、山东、江苏逐渐向西南方向递升,但向最东北角也略有升高,这是因为鄂伦春族与鄂温克族中m占多数。全国基因频率m最高地区是云南省(图1)。
2.3Rh血型系统Rh血型系统各等位基因中,以Rh朌检查的人数最多。Rh朌基因频率在全国绝大部地区均在0.905以上,尤其在福建、广东、海南、台湾、四川、云南、汉中及黑龙江中北部、西藏等地达0.95以上。而Rh朌基因频率在我国西北部地区则逐渐降低,在新疆西部最低,在0.762以下。这是因为维吾尔、哈萨克、乌孜别克、柯尔克孜等族中,Rh(D)阴性率极高的白种人的血缘占一定成分。白种人中Rh(D)阴性率达15%左右,即Rh朌基因频率仅0.6左右(图1)。
2.4P血型系统收集到14个地区中15个汉族人群和36个少数民族中49个人群的P血型的调查结果。将同一调查地点的汉族与少数民族合并后,有47个数据点。从图1可明显看出P1基因频率变化幅度很大,从0.492~0.443,直至0.049~0.000,变化相当有规律,在新疆北部最高,向东南方向逐渐降低,在福建、<
