东亚三大民族的遗传结构:分化与混合
东亚三大民族的遗传结构:分化与混合
东亚是世界上人口最多的地区之一,汉、日、韩作为东亚三大民族,在外貌、语言、文化等方面有许多相似之处。然而,他们之间的亲缘关系、分化时间以及后来的遗传交流一直缺乏深入研究。最近,一项基于全基因组关联研究(GWAS)数据的科研项目,通过对来自全球8个群体的630名个体的数据进行分析,特别是对182名中国汉族、90名日本人和100名韩国人的基因组进行了深入研究,揭示了这三个群体在遗传上的明显区分。
群体结构和遗传关系
研究团队采用了多种遗传学分析方法来揭示汉族、日本人和韩国人之间的遗传关系。
FST分析
FST(固定指数)是衡量群体间遗传差异的指标。研究结果显示:
- 三个最小的FST值分别为:FST[CHB-CHS]=0.0014、FST[CDX-KHV]=0.0024、FST[CHB-KOR]=0.0026。
- KOR与JPT的遗传差异大于KOR与CHB的遗传差异,但小于两个蒙古族群体。
- 一般情况下,汉族人、日本人和朝鲜人之间的FST大于中国汉族人之间的Fst,但远小于欧洲(CEU)和任何东亚群体之间的FST。
系统发育树
基于成对等位基因频率差异重建的最大似然树提供了更好的对群体遗传关系的可视化:
- 所有东亚人共享一个支系,而蒙古人比其他任何东亚群体都更接近欧洲人。
- 在8个非蒙古族东亚种群中,藏缅语群体(TIB)与其他7个群体表现出明显的区别。
- 7个种群包括4个典型的大陆种群(CDX、CHB、CHS和KHV)和3个岛屿或半岛种群(JPRK、JPT和KOR)。
此外,研究团队还构建了NJ树(neighbor-joining tree):
- 非洲人和欧洲人分别聚集在一起,东亚群体也有展示出来明显的亚结构。
- 在东亚个体中,蒙古人、琉球人和藏缅语人群具有相对明显的聚类性,而汉族、日本人和韩国人则表现出相对混合的系统发育,这表明他们之间的亲缘关系要密切得多。
- 汉族样本也表现出与南方人群(CDX和KHV)的混合。
PCA分析
研究团队进一步对研究群体进行了主成分分析(PCA)以检查个体水平上的种群结构:
- 东亚族群紧密地聚集在一起,在PC图上远离欧洲或非洲,这与他们与其他大陆种群的分化一致。
- 尽管东亚个体在全球种群分析中聚集得非常紧密,但对10个东亚种群的主成分分析表明,它们具有实质性的亚结构。
- 例如,汉族人(CHB和CHS)和南方人群(CDX和KHV)通过PC1与其他人群分开。基于PC2坐标,蒙古族和藏族居于一侧,岛屿居群(日本和琉球)居于另一侧。
在排除了标记密度较低的JPRK样本后,PCA的分析显示出类似的模式,只是个体更紧密地聚集在一起。除蒙古族和藏族外,其他种群在PC图上的亲缘关系要近得多。部分藏、蒙古族(QHM)个体向CHB聚集区分布,提示这些北方群体之间存在基因流动。
K均值聚类分析
研究团队用K-Means对中国汉族人、日本人和韩国人进行了分类:
- 假设K=3,汉族人和韩国人没有很好的区分,而所有的日本人都很好地聚在一起。在汉语和朝鲜语中有两个簇,北簇NC(橙色)和南簇SC(绿色)。所有的韩国人都属于北簇的成分。
- 假设K=4,可以很好地区分汉族和韩国人。在K=3时的NC进一步分为KC(蓝色)和NHC(橙色)。约64.0%的CHB个体和9.0%的KOR个体被分配到NHC,而分别有3.4%和32.6%的CHB个体被分配到KC和SC(绿色)。
筛选祖先信息标记
研究团队探索了是否可以用少量的祖先信息标记(AIMS)很好地区分这三个群体,分别使用89个SNP(CHB/KOR)、46个SNP(CHB/JPT)、44个SNP(CHS/KOR)、26个SNP(CHS/JPT)和73个SNP(JPT/KOR)来很好地区分每个群体对。这些目标有助于在未来的关联性研究中辨别和控制主要东亚人群的种群结构。
汉、日、韩三个群体的起源、分化时间和迁移史
为了揭示东亚三个主要民族的群体历史,研究团队进行了一系列的人口遗传分析和估计:
- 首先估计了东亚和世界人口的有效人口规模(Ne),假设25年为一代。分析表明,非洲群体(YRI)在500代前的Ne最大。在1000代之前欧洲的Ne也大于大多数东亚种群(除CDX和KHV外)的Ne。然而,东亚种群都表现出强劲的近期增长(在最近500代中每代增长
1%),因此大多数东亚群体在最近12.5Kya期间超过了YRI。在东亚,CDX和KHV的Ne最大,其次是CHB。 - 研究团队进一步基于FST和Ne估计了每个群体对的分歧时间(Tf),公式为Tf=2NeFST(1)。结果表明:如今的汉人和日本人最近的共同祖先可以追溯到3.0~3.6Kya(相当于中国历史上的商朝)。朝鲜族和北方汉族在古代交流频繁,两个民族之间的分歧时间估计为1.2Kya(对应于朝鲜三国晚期,或中国的唐朝)。日韩分离约1.4Kya,略早于汉韩分离(相当于日本飞鸟时期或朝鲜三国中期)。
东亚人群间的基因流动
为了探究精细规模下的种群结构和评估东亚群体的遗传构成,研究团队应用了一种基于模型的方法,STUCTURE,分析了全基因组数据和世界范围群体的数据:
- 东亚群体表现出明显的遗传成分,其结构与欧洲或非洲的完全不同。
- 在东亚的基因组中,非洲人的贡献不超过0.5%,而在蒙古族中,欧洲血统的贡献相当大(12.5%~16.9%)。
- 研究团队确定了一种成分,我们将其命名为东亚北部成分(NEAC,红色),广泛存在于东亚人口中。相反,东亚南部成分(SEAC)主要存在于典型的大陆群体(CDX、CHB、CHS和KHV)(绿色),琉球成分(RC)主要存在于岛屿和半岛群体(JPRK、JPT和KOR)(黄色)。QHM有一些藏族成分(TC)(
8.98%),而BMON的TC非常有限(0.5%)(紫色)。
使用F3检验来检测潜在的混合种群,显著负的F3值表明存在基因流和可能的混合模式:
- 在某种程度上,中国汉族人、日本人和韩国人都从另外两个群体那里获得了基因流。根据F3结果,中国汉族人可能与CDX和KHV具有共同的起源,并接受来自北方群体(NEAC)和岛屿群体(RC)的基因流动。日本人对朝鲜的贡献很大,可以被视为琉球和其他东亚人口的混合体。
- 进一步进行F4检验表明(A和B是两个参考种群,C是目标种群,O是外群):NEAC对CHB、CHS、JPT和KOR的贡献率分别为52.2%、44.0%、19.7%和37.5%;RC对CHB、CHS、JPT和KOR的贡献率分别为14.3%、12.4%、52.6%和33.8%;SEAC对CHB、CHS、JPT和KOR的贡献率分别为33.5%、43.6%、27.7%和28.7%。
- 最后,我们应用D检验比较汉族人和日本人/朝鲜人之间的基因流动时,发现有显著的负值,这表明中国汉族人和韩国人之间的基因流动大于中国汉族人和日本人之间的基因流动。进一步用D检验检测日本/朝鲜人和南/北汉族之间的基因流动,D值与0无显著差异,表明北方汉族与日本/朝鲜人之间的基因流动与南方汉族与日本/朝鲜人之间的基因流动基本相同。
总结
在这个项目中,研究团队基于全基因组高密度SNP数据对三个东亚人群进行了全基因组研究。结果表明,中国汉族人、日本人和韩国人这三个东亚群体虽然外表相似,但具有不同的遗传组成,在基因组水平上存在明显的分化。在这方面,研究团队建议在未来的研究中,特别是在群体结构重要的进化研究或医学研究中,应该将东亚三个民族作为独立的群体来对待,而不是作为一个整体。