Nature Methods专刊评论:序列-功能模型探究基因调控机制
Nature Methods专刊评论:序列-功能模型探究基因调控机制
此图由DALLE3生成:一把金色的钥匙正在打开一把复杂的基因锁,锁链上环绕着代表 DNA 双螺旋结构的元素。背景中,可以隐约看到复杂的基因序列和数据流动的图形,象征着模型在解读基因调控中的作用。
2024年8月,Nature Methods发表主题特刊,探讨人工智能如何在生物学中广泛使用并为生物学家带来巨大帮助。今天的文章重点对其中的一篇评论文章“Unlocking gene regulation with sequence-to-function models”进行解读。
现代生物学的目标与挑战
现代生物学的一个基本目标是构建从基因型推断表型的模型。这类模型对于理解疾病异质性的机制并实施精准医疗至关重要。在当今复杂疾病的背景下,研发这种模型刻不容缓。尽管研究表明,复杂疾病是遗传和环境因素共同作用的结果,遗传成分甚至可能占比相对较小,但遗传分析提供了一个独特的视角,以本质方式对生命过程提供深层次理解。
基因型对表型的影响可以通过突变蛋白质结构本身或通过改变蛋白质的时空动态表达水平这两种方式实现。在这篇评论中,我们专注于调节蛋白质的时空动态表达水平。更具体地说,我们专注于mRNA丰度的调控——这是衡量蛋白质水平的一个重要的决定因素。
图1a:解读基因组需要对不同层次的基因调控及其中间过程(染色质组织、表观基因组修饰、转录调控、转录后调控等)如何受到遗传变异影响进行详细探究。
序列到功能模型的工作原理
要从基因调控角度对基因组进行建模并且揭示疾病机制,需要用到什么方法呢?从历史上看,这个问题已经通过统计遗传学关联(GWAS)方法解决。然而,一种完全不同的解决方案正出现在功能基因组学和深度学习的交叉领域,研发序列到功能的映射模型成为这个交叉领域的研究热点。
序列到功能模型使用深度卷积神经网络(CNN)来学习DNA序列和分子信息(如染色质可及性、组蛋白修饰、基因表达等)在一种或几种细胞状态下的对应关系。此类模型将基因型-表型问题表述为机器学习领域常见的预测问题,使计算模型能够在一个统一的框架中整合大量多模态分子信息(如表观信息,基因表达信息等等)并实现精准预测。
图1b:序列到功能模型以基因组DNA序列为输入,并学习预测其分子功能信息,如细胞类型特异的基因表达量。
在实践中,这类模型是在由诸如ENCODE(DNA元素百科全书)等大量功能基因组数据集上训练的。大多数最先进的模型使用相同的训练和评估策略。它们以基因组参考数据集中的亚特定长度序列(从数千个碱基对到数十万碱基变化,均为ATGC组成的字符串)为输入,预测分子功能信息,包括来自特定细胞类型的基因表达情况。在训练期间,模型会在基因组上随机屏蔽(mask)一些信息,并使用模型预测这一空白,通过对预测值和真实值进行对比,从而对模型泛化性进行评估。许多实验表明,这类模型在未见过的基因组DNA上也可以保持很好的泛化能力,这揭示了它们可以学习基因组序列中特有的“语法”,也即,蛋白质与DNA之间的相互作用规则,还有更高阶的基因调控规则。研究表明,对于各种序列-功能模型,学习到的序列语法和许多年来分子生物学家通过实验获得的生物学机制知识保持一致。例如,模型发现了转录因子结合基序(transcription factor binding motifs)、转录因子复合物、CTCF位点与染色体三维结构之间的关系。
模型的应用与局限性
重要的是,因为序列-功能模型在DNA层面上进行运算,它们可以实现预测任意遗传变异对输出信息(分子表达量)的影响。这个过程被称为计算机模拟突变,其最直接的应用是预测人群中等位基因的基因表达量(或其他调控过程)差异。在某些情况下,这些模型已经能够准确预测变异效应,准确率堪比实验手段。然而,将序列-功能模型用于解释全基因组范围内由于遗传变异造成的基因表达差异,并尝试将发现的结论与疾病机制相关联,现有模型效果不甚理想,需要提高它们的预测准确率,从而达到目标。
提高模型性能的策略
提高模型分辨率最简单的做法是增加训练数据,这牵涉到哪种训练数据质量最高的问题。以下几种策略值得研究:
首先,现有模型已经在一系列表观基因组和基因表达数据集上进行了训练,但仍然缺少结合所有调控过程阶段(特别是转录后调控)的模型,可适当地打通全过程,增加全过程数据,而非仅在一个阶段研究。例如,遗传变异可能影响异构体(isoform,同一基因的不同转录本版本,通常是由于可变剪接产生)的丰度或影响转录后过程(如聚腺苷酸化、翻译或mRNA稳定性),导致稳态基因表达的变化,但不会影响转录速率,在设计模型时建议考虑上述过程。
其次,更多的序列和基因表达的配对数据将增强模型效果。这可以通过几种方式实现:队列研究(对同一个人进行全基因组测序和基因表达测量)提供了大量的训练数据,因为每个人都贡献了他们所有的等位基因。然而,需要注意的是,模型应该更关注个体之间的细微差异,不应因为跨基因的数据变异信息较强而产生偏见。这需要对模型的架构进行增强和重构。另一种提高序列多样性的方法是通过纳入进化信息。例如,许多基因调控机制在进化树上是保守的,因此通过在来自多个物种的数据上联合训练序列-功能模型能够充分融入进化信息,使模型性能得到很好的提升。此外,非人类模式生物为研究人员提供了进行额外实验(如各种类型的干扰)的机会。
基因组语言模型的前景与挑战
受大型语言模型(如ChatGPT)启发,基因组语言模型(genomic language models,GLM)或许能够成为一种新兴的解决办法。模型使用自监督学习的方式,利用不同物种的大量未标记基因组DNA进行预训练,来自我学习DNA序列在基因组内部和不同基因组间的统计关系。随后,基因组语言模型可进行各种下游应用,包括预测功能元件、基因表达和序列设计。它们已经在各种功能性非编码元件的分类任务上进行了广泛的基准测试;然而,最近的研究表明,这种表示缺乏细胞类型特异性信息,预训练步骤并未使得预测细胞类型特异性功能元件的性能达到显著提高。
顺式调控元件进化迅速,而且它们在不同细胞类型中的功能各不相同。当前的基因组语言模型从几百到几千个基因组中学习它们的表示,而像ChatGPT这样的大型语言模型使用的数据语料库比上面提到的数据集大几个数量级。目前尚不清楚是否可以从现在已有公开测序的基因组数据中学习到这种复杂的细胞类型特异性表示。因此,需要进一步的研究来确定如何结合基因组语言模型与生物背景信息(如细胞类型信息)对模型性能进行改进。
展望
总结而言,随着序列-功能模型的成熟和持续改进,我们正在进入前所未有的时代,以可解释、强因果的方式理解细胞生物学机制。这类模型能够捕获不同调控层次之间的因果关系。然而,在这个领域还有很多改进要做,例如如何更多地考虑生物背景信息、如何加入进化关系、如何融入调控全过程,使得模型能够解密生命这个复杂系统,为临床和疾病研究做出贡献。
参考文献
- Ufelmann, E. et al. Nat. Rev. Methods Primers 1, 59 (2021).
- Li, Z. et al. Cell Rep. Methods 3, 100384 (2023).
- Luo, Y. et al. Nucleic Acids Res 48, D882–D889 (2020).
- Avsec, Ž. et al. Nat. Methods 18, 1196–1203 (2021).
- Avsec, Ž. et al. Nat. Genet. 53, 354–366 (2021).
- Zhou, J. et al. Nat. Genet. 50, 1171–1179 (2018).
- Zhou, J. Nat. Genet 54, 725–734 (2022).
- Sasse, A. et al. Nat. Genet. 55, 2060–2064 (2023).
- Huang, C. et al. Nat. Genet. 55, 2056–2059 (2023).
- Kelley, D. R. PLOS Comput. Biol. 16, e1008050 (2020).
- de Boer, C. G. & Taipale, J. Nature 625, 41–50 (2024).
- Dalla-Torre, H. et al. Preprint at bioRxiv https://doi.org/10.1101/2023.01.11.523679 (2023).
- Tang, Z. & Koo, P. K. Preprint at bioRxiv https://doi.org/10.1101/2024.02.29.582810 (2024).
本文原文来自Nature Methods