东亚三大民族的遗传结构,分化和混合
东亚三大民族的遗传结构,分化和混合
东亚三大民族——汉族、日本人和韩国人在外貌、语言和文化上有很多相似之处,但他们在遗传上是否也如此接近?一项基于630个个体基因组数据的研究为我们揭示了答案。
东亚是世界上人口最多的地区之一,约占亚洲人口的38%,约占世界人口的22%。汉、日、韩是东亚三大民族,在外貌、语言、文化等方面有许多相似之处,但他们之间的亲缘关系、分化时间以及后来的遗传交流还没有得到很好的研究。
研究团队通过对来自全球8个群体的630名个体的数据进行分析,并特别关注了182名中国汉族、90名日本人和100名韩国人的基因组。利用全基因组关联研究(GWAS)数据,研究者们评估了这些人群的遗传结构,并通过主成分分析(PCA)、系统发育树构建、K均值聚类分析等方法,揭示了汉族、日本人和韩国人在遗传上的明显区分。
群体结构和遗传关系
FST分析
研究团队为揭示不同群体之间的遗传关系以及更深入地剖析更小范围下不同群体间的遗传关系,基于不同尺度做了Fst分析。结果显示:三个最小的FST值分别为(FST[CHB-CHS]=0.0014)、(FST[CDX-KHV]=0.0024)、(FST[CHB-KOR]=0.0026)。KOR与JPT的遗传差异大于KOR与CHB的遗传差异,但小于两个蒙古族群体。一般情况下,汉族人、日本人和朝鲜人之间的FST大于中国汉族人之间的Fst,但远小于欧洲(CEU)和任何东亚群体之间的FST。
系统发育树
基于成对等位基因频率差异重建的最大似然树提供了更好的对群体遗传关系的可视化。通过构建系统发育树,可以得出:所有东亚人共享一个支系,而蒙古人比其他任何东亚群体都更接近欧洲人。在8个非蒙古族东亚种群中,藏缅语群体(TIB)与其他7个群体表现出明显的区别。这7个种群包括4个典型的大陆种群(CDX、CHB、CHS和KHV)和3个岛屿或半岛种群(JPRK、JPT和KOR)。
此外,基于基因分型差异的全球1002个个体,研究团队还构建了NJ树(neighbor-joining tree)。从图中可以得出:非洲人和欧洲人分别聚集在一起,东亚群体也有展示出来明显的亚结构。在东亚个体中,蒙古人、琉球人和藏缅语人群具有相对明显的聚类性,而汉族、日本人和韩国人则表现出相对混合的系统发育,这表明他们之间的亲缘关系要密切得多。汉族样本也表现出与南方人群(CDX和KHV)的混合。仅用6个群体(两个汉族群体,日本人,韩国人和两个蒙古族人)重建一棵个体树,我们发现这些群体的系统发育变得更加清楚。日本人有自己的群体,而韩国人几乎与汉人不同。北方和南方汉族混杂在一起,但仍然有一些亚结构.
PCA分析
研究团队进一步对研究群体进行了主成分分析(PCA)以检查个体水平上的种群结构,分析了东亚人口与世界各地的人口的聚集情况。东亚族群紧密地聚集在一起,在PC图上远离欧洲或非洲,这与他们与其他大陆种群的分化一致。我们观察到一些个体向CEU簇延伸,其中大多数是蒙古族个体(BMON或QHM),这表明欧洲人和蒙古族人之间可能发生了最近的基因流动。尽管东亚个体在全球种群分析中聚集得非常紧密,但对10个东亚种群的主成分分析表明,它们具有实质性的亚结构。例如,汉族人(CHB和CHS)和南方人群(CDX和KHV)通过PC1与其他人群分开。基于PC2坐标,蒙古族和藏族居于一侧,岛屿居群(日本和琉球)居于另一侧。
在排除了标记密度较低的JPRK样本后,PCA的分析显示出类似的模式,只是个体更紧密地聚集在一起。除蒙古族和藏族外,其他种群在PC图上的亲缘关系要近得多。部分藏、蒙古族(QHM)个体向CHB聚集区分布,提示这些北方群体之间存在基因流动。在更精细的尺度上,两个蒙古族群体也表现出亚结构,QHM个体位于BMON和TIB聚类群之间,这与他们的历史一致。接下来,研究团队只对中国汉族人、日本人和韩国人进行了主成分分析,PC1将汉族人与日本人和韩国人分开,PC2从CHS和JPT中分离出CHB和KOR。日本人和韩国人各有自己的聚类群,都位于汉族人之外,而CHB和CHS在这种规模上不能完全分开。这些结果表明,虽然外貌相似,但中国汉族、日本人和韩国人在基因构成上是不同的,三个群体之间的差异远远大于北方和南方汉族之间的差异。
K均值聚类分析
研究团队用K-Means对中国汉族人、日本人和韩国人进行了分类。假设K=3,汉族人和韩国人没有很好的区分,而所有的日本人都很好地聚在一起。在汉语和朝鲜语中有两个簇,北簇NC(橙色)和南簇SC(绿色)。所有的韩国人都属于北簇的成分。假设K=4,可以很好地区分汉族和韩国人。在K=3时的NC进一步分为KC(蓝色)和NHC(橙色)。约64.0%的CHB个体和9.0%的KOR个体被分配到NHC,而分别有3.4%和32.6%的CHB个体被分配到KC和SC(绿色)。
筛选祖先信息标记
研究团队探索了是否可以用少量的祖先信息标记ancestry informative markers(AIMS)很好地区分这三个群体,分别使用89个SNP(CHB/KOR)、46个SNP(CHB/JPT)、44个SNP(CHS/KOR)、26个SNP(CHS/JPT)和73个SNP(JPT/KOR)来很好地区分每个群体对。这些目标有助于在未来的关联性研究中辨别和控制主要东亚人群的种群结构。
汉、日、韩三个群体的起源、分化时间和迁移史
为了揭示东亚三个主要民族的群体历史,研究团队进行了一系列的人口遗传分析和估计。首先估计了东亚和世界人口的有效人口规模(Ne),假设25年为一代。分析表明,非洲群体(YRI)在500代前的Ne最大。在1000代之前欧洲的Ne也大于大多数东亚种群(除CDX和KHV外)的Ne。然而,东亚种群都表现出强劲的近期增长(在最近500代中每代增长1%),因此大多数东亚群体在最近12.5Kya期间超过了YRI。在东亚,CDX和KHV的Ne最大,其次是CHB。由于数据的标记密度较低,JPRK的Ne估计可能不准确,但显然JPRK的Ne最小。
研究团队进一步基于FST和Ne估计了每个群体对的分歧时间(Tf),公式为Tf=2NeFST(1)。结果表明:如今的汉人和日本人最近的共同祖先可以追溯到3.0~3.6Kya(相当于中国历史上的商朝)。朝鲜族和北方汉族在古代交流频繁,两个民族之间的分歧时间估计为1.2Kya(对应于朝鲜三国晚期,或中国的唐朝)。日韩分离约1.4Kya,略早于汉韩分离(相当于日本飞鸟时期或朝鲜三国中期)。
东亚人群间的基因流动
为了探究精细规模下的种群结构和评估东亚群体的遗传构成,研究团队应用了一种基于模型的方法,STUCTURE,分析了全基因组数据和世界范围群体的数据。东亚群体表现出明显的遗传成分,其结构与欧洲或非洲的完全不同。
在东亚的基因组中,非洲人的贡献不超过0.5%,而在蒙古族中,欧洲血统的贡献相当大(12.5%16.9%)。根据该分析,研究团队确定了一种成分,我们将其命名为东亚北部成分(NEAC,红色),广泛存在于东亚人口中。相反,东亚南部成分(SEAC)主要存在于典型的大陆群体(CDX、CHB、CHS和KHV)(绿色),琉球成分(RC)主要存在于岛屿和半岛群体(JPRK、JPT和KOR)(黄色)。QHM有一些藏族成分(TC)(8.98%),而BMON的TC非常有限(~0.5%)(紫色)。为了进一步评估东亚人口的更精细规模的种群结构和遗传构成,研究团队对10个东亚人口进行了独立的结构分析。
与STRUCTURE结果类似,东亚个体表现出与非洲和欧洲完全不同的三个典型的祖先成分。没有发现非洲血统对东亚人口的强烈影响(TIB中3.1%,其他任何东亚人口中不超过2.4%)。然而,我们在蒙古人(15.5%16.1%)和其他一些东亚人(高达6.4%)中观察到相当多的欧洲血统。如图所示,东亚种群的三个主要祖先成分是NEAC(红色)、SEAC(绿色)和RC(黄色)。在藏族和蒙古族中也以NEAC为主,在汉族(27.3%39.4%)、日语(24.5%)和朝鲜语(39.9%)中分布均匀。SEAC和RC分别在CDX/KHV和JPRK中常见,两者都存在于其他东亚人群中,但它们的比例通常在人群中呈负相关。
使用F3检验来检测潜在的混合种群,显著负的F3值表明存在基因流和可能的混合模式。在某种程度上,中国汉族人、日本人和韩国人都从另外两个群体那里获得了基因流。根据F3结果,中国汉族人可能与CDX和KHV具有共同的起源,并接受来自北方群体(NEAC)和岛屿群体(RC)的基因流动。日本人对朝鲜的贡献很大,可以被视为琉球和其他东亚人口的混合体。进一步进行F4检验表明(A和B是两个参考种群,C是目标种群,O是外群):NEAC对CHB、CHS、JPT和KOR的贡献率分别为52.2%、44.0%、19.7%和37.5%;RC对CHB、CHS、JPT和KOR的贡献率分别为14.3%、12.4%、52.6%和33.8%;SEAC对CHB、CHS、JPT和KOR的贡献率分别为33.5%、43.6%、27.7%和28.7%。最后,我们应用D检验比较汉族人和日本人/朝鲜人之间的基因流动时,发现有显著的负值,这表明中国汉族人和韩国人之间的基因流动大于中国汉族人和日本人之间的基因流动。进一步用D检验检测日本/朝鲜人和南/北汉族之间的基因流动,D值与0无显著差异,表明北方汉族与日本/朝鲜人之间的基因流动与南方汉族与日本/朝鲜人之间的基因流动基本相同。
总结
在这个项目中,研究团队 基于全基因组高密度SNP数据对三个东亚人群进行了全基因组研究。结果表明,中国汉族人、日本人和韩国人这三个东亚群体虽然外表相似,但具有不同的遗传组成,在基因组水平上存在明显的分化。在这方面,研究团队建议在未来的研究中,特别是在群体结构重要的进化研究或医学研究中,应该将东亚三个民族作为独立的群体来对待,而不是作为一个整体。