Nature重大突破:Geneformer开启基因网络预测新时代
Nature重大突破:Geneformer开启基因网络预测新时代
Nature最新发表的研究提出了一种基于单细胞转录组的深度学习模型Geneformer,通过迁移学习实现基因网络的精准预测。该模型不仅能识别剂量敏感致病基因,预测染色质动态,还能解析网络层级关系,并在心肌病模型中成功筛选出改善心脏收缩的治疗靶点。
当前痛点与破局思路
当前基因网络研究面临两大挑战:一是数据饥渴,传统方法需要海量转录组数据来构建基因网络,这使得罕见病和难取样组织的研究受到限制;二是技术局限,现有模型无法跨任务复用知识,导致单任务训练效率低下。
迁移学习为这一难题提供了新的解决方案。借鉴自然语言处理(NLP)和计算机视觉(CV)领域的经验,通过大规模预训练模型(如BERT)提取通用特征,然后通过微调适配下游任务。此外,单细胞技术的发展揭示了细胞异质性,为网络推断提供了高精度的数据基础。
Geneformer方法概述
Geneformer是首个基于单细胞转录组的预训练迁移学习模型,采用Transformer架构,通过自监督学习从3000万单细胞数据中提取基因互作规律。其核心流程分为三步:
数据预处理:构建Genecorpus-30M数据库,整合30种组织的单细胞数据。独创基因排名编码,按细胞内表达量排序,消除技术偏差(如高表达管家基因自动降权)。
自监督预训练:设计随机遮蔽15%基因的任务,模型需要根据上下文预测缺失基因(类似“完形填空”)。模型输出生成基因和细胞的动态嵌入表示,编码网络层级信息。
下游任务微调:添加轻量任务层(如分类层),用少量数据适配疾病建模、染色质状态预测等场景。支持虚拟基因编辑,可以删除或激活目标基因,预测其对细胞状态的影响。
剂量敏感性预测
微调后的模型在区分剂量敏感和不敏感转录因子方面表现出色,AUC达到0.91。在22项研究中,成功预测了神经发育疾病相关基因的剂量敏感性,其中96%的高置信基因与临床数据吻合。
通过虚拟基因敲除实验发现,敲除心肌病相关基因(如GATA4、TBX5)会显著改变心肌细胞基因表达网络(余弦相似度下降15%,p<0.05)。直接靶基因受影响程度是间接靶点的2.3倍。
染色质状态预测突破
仅用56个保守区域的染色质标记数据进行微调,Geneformer就能在全基因组范围内预测双价染色质(H3K4me3/H3K27me3共标记)状态,AUC达到0.78。模型能够准确识别MEF2等长程调控因子。
网络层级自动解析
模型通过自注意力机制识别NOTCH1网络的核心节点,发现中央基因的注意力权重提升40%。同时,模型还发现了GATA4-TBX5的协同调控靶点,共敲除效应是单基因之和的1.8倍(p<0.01)。
疾病靶点实验验证
在扩张型心肌病模型中,虚拟筛选发现抑制GSN(凝溶胶蛋白)和PLN(受磷蛋白)可以逆转TTN突变心肌细胞的收缩缺陷。CRISPR实验证实,敲除这两个基因可以使收缩力提升42%(p<0.05)。
这项研究展示了迁移学习在基因网络预测中的巨大潜力,为罕见病和难取样组织的研究提供了新的解决方案。Geneformer模型的成功应用,不仅提高了预测精度,还降低了数据需求,为精准医疗和药物研发开辟了新的方向。
本文原文来自Nature,DOI:10.1038/s41586-023-06139-9