中国科学家发布“唐尧”基因组,精准医疗迎来新突破
中国科学家发布“唐尧”基因组,精准医疗迎来新突破
近日,中国科学家发布了一项具有里程碑意义的研究成果——“唐尧”基因组。这是世界首个高质量完整汉族人基因组,由北京大学人民医院高占成团队与中国科学院北京基因组研究所康禹团队联合完成。这一突破不仅填补了汉族人基因组研究的空白,更为精准医疗和遗传疾病防治提供了新的参考标准。
研究背景:为什么需要“唐尧”基因组?
在人们的印象中,人类基因组图谱早已公布,普通人的基因组也可以轻易被测出。然而,现有的参考基因组主要来自非洲和欧洲人群,难以代表中国乃至亚裔族群的遗传特征。北京大学人民医院呼吸与危重症医学科主任高占成指出,目前所有的肿瘤、遗传病等测序诊断报告,均根据美国主导的GRCh37/38为人类参考基因组序列来判定正常或变异,而这一参考基因组主要来源于非洲和欧洲人,不仅不完整、错误多,而且难以代表中国乃至亚裔族群。
以遗传性肺囊性纤维化为例,这种病在欧美白人中表现为跨膜氯离子转录因子突变导致的功能缺失,但在中国患者中,该转录因子突变的发生率要小得多。此外,EGFR基因突变在不同种族中的表现也存在显著差异。中国和东亚种族不吸烟肺腺癌患者的突变率明显高于欧美白人患者。这些差异表明,不同人种基因组之间的差别可能远大于千分之一的传统认知。
技术创新:如何获得完整基因组?
为了构建中国人自己的参考基因图谱,研究团队选择了山西省临汾市的一名健康男青年作为样本来源。这个地区是明代洪洞移民的起点,600多年前的这场迁徙持续了近半个世纪,大量移民遍布中国各地,有些进入东南亚。研究团队认为,这名男青年的基因组有望成为现代汉族人群的代表。
研究团队运用先进的测序技术、分阶段组装、精细校对和祖先遗传性标记分析等技术,构建了一份高质量的二倍体汉族人基因组。具体来说,他们使用了HiSeq、ONT和高保真测序技术(HiFi)等多种测序平台进行文库构建和测序。组装策略结合亲本HiSeq数据和子代HiSeq、ONT和HiFi高深度测序数据对YAO基因组进行组装,并使用Verkko自动化管道完成二倍体草图。通过超长ONT读取和特异HiFi读取闭合大多数重复序列产生的空隙。通过一系列软件工具进行SNV样和SV样拼接错误识别纠正,并人工检查。最终确保了46条染色体端粒到端粒的序列完整性,得到完整高质量的T2T组装。
科学发现:揭示遗传多样性
“唐尧”基因组与现有的参考基因组CHM13相比,显示出显著的差异。研究发现,父/母本基因组各自有326.6/319.7Mb和CHM13基因组不同,序列差异高达11%,颠覆了传统的人类个体之间基因组差异<1‰的错误认知。此外,还有3000多个差异基因和数万个大小不等的结构差异,说明中国乃至亚裔种族与高加索族人种之间基因组存在有较大区别。YAO单倍体中发现了一些与CHM13不同的排他性蛋白质编码基因和非编码基因,尤其在着丝粒和染色体末端等高变异区域。
此外,YAO基因组中还鉴定出一些功能未知的新型蛋白质,这些可能代表了汉族人群基因组的独特遗传特征。对YAO和CHM13单倍体的比较揭示了两种单倍体之间存在一定数目的碱基变异(SNV)和结构变异(SV)。这些变异的分布显示了中国与欧洲人群之间的遗传差异。研究还揭示了重复序列的复杂性和同源性嵌合区域的变异,以及rDNA基因拷贝数在个体间的巨大变异性,这些都为理解人类基因组结构和功能多样性提供了重要信息。YAO-Y的全基因组组装显示,Y染色体有51Mb,其中Yq12区域由重复序列组成且长度比CHM13的相应区域短约10Mb,结构对比强调了Y染色体的复杂性和个体间的长度多态性。
未来展望:精准医疗的新时代
“唐尧”基因组的发布,预示着精准医疗新时代的到来。这一成果将为汉族中国人基因组研究提供更准确的定位基因和变异的坐标系,同时解决欧洲血源参考基因组不适于中国人基因组研究的技术障碍。这将为我国医学基因组研究,包括遗传病诊断、常见病风险预测、肿瘤基因组变异、药物基因组学等领域,建立技术体系和质量基准。
中国科学院院士陈润生表示,“唐尧”弥补了汉族高质量基因组的空白,完整的中国人基因组序列的发布,也将改变以往认为不同人种基因组之间只有千分之一区别的认知。中国工程院院士程京认为,“唐尧”基因组测序分析工作不仅具有非常重要的跨学科、跨领域的基础研究意义和应用价值,而且从DNA水平上回答了“何以中国人”这个重要的社会科学问题,将帮助我们回答中国人起源、迁徙、历史沿革和交流等问题。
国际合作:引领基因组研究新方向
在“人类基因组计划”(HGP)完成21年之后,由中国科学家发起,十多个国家科研人员联合在国际知名学术期刊《细胞研究》上发表题为《献给人类1%的礼物:人类基因组计划二期》的社论,倡议启动人类基因组计划二期(HGP2)。HGP2的任务是赋予全人类读取和使用自身基因组信息的权利,以过上更健康、更长寿的生活。HGP2设定了初步目标,涵盖数据生成、精准干预和临床转化三大方面,包括一系列量化目标。
“唐尧”基因组的研究成果,不仅是中国在基因组研究领域的重大突破,也为全球基因组研究提供了新的参考。随着HGP2的推进,中国科学家的这一成果有望在国际舞台上发挥更大的作用,为全人类的健康事业作出新的贡献。