问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ESM-1v:突变对蛋白质功能影响的零样本预测

创作时间:
作者:
@小白创作中心

ESM-1v:突变对蛋白质功能影响的零样本预测

引用
CSDN
1.
https://blog.csdn.net/qq_40943760/article/details/145445482

蛋白质突变对功能的影响是生物信息学和药物研发领域的重要研究课题。最近,来自Meta AI的研究团队开发了一种名为ESM-1v的蛋白质语言模型,能够在无需额外训练的情况下,准确预测蛋白质突变对功能的影响。这项研究不仅展示了人工智能在生物医学领域的巨大潜力,也为理解蛋白质功能和设计新型药物提供了新的工具。

“effects of mutations on protein function” 指的是突变对蛋白质功能产生的各种影响。蛋白质的功能取决于其氨基酸序列和三维结构,而突变(即 DNA 序列的改变,进而导致蛋白质氨基酸序列的变化)会干扰蛋白质的正常功能。这些影响包括但不限于:增强或减弱蛋白质的活性,例如酶的催化活性;改变蛋白质与其他分子(如配体、底物、蛋白质伴侣等)的结合能力;影响蛋白质的稳定性,使其更容易或更难折叠成正确的三维结构,甚至导致蛋白质错误折叠;还可能影响蛋白质在细胞内的定位和运输等。

对序列变异对功能的影响进行建模,是理解和设计蛋白质的一个基本问题。由于进化将功能相关信息编码进蛋白质序列的模式中,因此可以从序列数据中学习变异效应的无监督模型。到目前为止,常见的方法是针对一组相关序列拟合一个模型。但传统的设定存在局限性,因为针对每个预测任务都必须训练一个新模型。ESM-1v表明,仅使用零样本推理,在无需实验数据的任何监督或额外训练的情况下,蛋白质语言模型就能捕捉到序列变异的功能效应,且性能达到最先进水平。

来自:Language models enable zero-shot prediction of the effects of mutations on protein function,NIPS2021

虽然 ESM-1v 是一个强大的蛋白质语言模型,但 AlphaMissense 发表在 Science 的原因主要体现在以下方面:

AlphaMissense 解决了更具体、更重要的生物学问题 🚀
🔬 ESM-1v 是一个通用的突变影响预测模型,而 AlphaMissense 针对 Missense 突变(错义突变)做了精准优化。错义突变(missense mutation) 是遗传病和癌症的重要驱动因素之一,因此专门研究这些突变的影响具有直接的医学应用价值。Science 更关注重大生物医学突破,而 AlphaMissense 直接服务于精准医学和罕见病研究,相比 ESM-1v 的泛化能力,它在实际临床基因组学上的影响更大。

✅ 例子

AlphaMissense 分类了海量人类错义突变,预测了哪些可能是致病的(pathogenic),哪些是良性的(benign)。这些预测可以直接用于遗传病研究和药物开发,与 Science 主题契合。

背景概述

蛋白质具有无数种多样的功能,这些功能构成了生命复杂性。蛋白质序列通过自发折叠形成三维结构,进而经由这种结构编码其功能。蛋白质序列中某些位点的改变是无法被容忍的,因为它们对蛋白质的功能至关重要。而其他位点则共同进化,因为蛋白质的结构和功能是由它们共同决定的。突变可以增强蛋白质的活性、减弱其活性,或者使其活性保持不变。

序列变异的功能效应可以通过深度突变扫描实验来测量。深度突变扫描包含对蛋白质功能进行的数千到数十万次测量,有助于深入了解蛋白质结构和功能的内在限制。由于开展这类实验成本高昂且难度较大,目前深度突变扫描数据的汇总中,最多只涵盖了几十种蛋白质的实验,而人类基因组编码了数万种蛋白质,整个生命之树中还有数百万种蛋白质有待我们去了解。

一个能够了解序列与功能之间关联情况的模型,无需进行实验就能深入解读蛋白质的功能。突变效应的无监督模型可以从序列中学习获得。在进化上相关的一族蛋白质序列中的统计模式蕴含着有关结构和功能的信息。这是因为蛋白质的特性在进化过程中对序列的选择起到了限制作用。

在NLP领域,人们对将模型零样本迁移到新任务上很感兴趣。大语言模型能够解决它们未曾直接接受过训练的任务。最近,蛋白质语言模型在各种结构预测任务中达到了最先进水平。到目前为止,相关工作主要集中在经典的表征学习框架下的迁移,即利用预训练特征,并在下游任务上进行有监督学习。

作者证明了在大型且多样的蛋白质序列数据库上训练的语言模型,无需进一步的监督就能预测蛋白质功能的实验测量结果。先前的研究主要聚焦于利用实验数据的监督来迁移模型的表征。作者发现,语言模型可以在无监督的情况下进行迁移,以预测功能测量结果。语言模型能够对具有广泛不同功能的多种蛋白质的突变效应进行零样本和少样本预测。作者使用最先进的蛋白质语言模型ESM-1b和MSA Transformer进行了实验。并提出了一种新的蛋白质语言模型ESM-1v,其零样本性能可与最先进的突变效应预测器相媲美。通过用蛋白质家族的序列对模型进行微调,性能还可以进一步提升。这些预测能够捕捉蛋白质的功能,与蛋白质核心和表面的氨基酸保守模式相关联,并识别出负责结合和发挥活性的氨基酸残基。


图1:突变效应预测任务示意图。其目标是对序列突变对蛋白质功能的影响进行评分。深度突变扫描实验为大量单突变或突变组合提供了蛋白质功能的真实实验测量数据(在此示例中为荧光活性-fluorescence activity)。对于每种蛋白质,预测任务是对每种可能的突变进行评分,并对其相对活性进行排序。单碱基替换的预测结果可以用评分矩阵来描述。列表示序列中的位置,行表示每个位置上可能的变异。(演示例子属于错义突变

零样本迁移

零样本学习传统上是指将分类器扩展到训练过程中未曾见过的一组新类别。在自然语言处理中,这一概念已被拓展,用于描述在无需进一步训练的情况下,将模型迁移到全新的任务上。拉罗谢尔等人提出的“零样本学习” 这一概念,这种关于迁移的观点已成为近期探究大语言模型泛化能力研究的核心。它与表征学习的区别在于,模型可直接应用于任务,无需针对该任务进行额外的监督学习。这意味着各种下游任务的学习完全依赖于预训练。

在这项工作中,作者对零样本迁移的看法与布朗等人在文献中描述的GPT-3类似。作者将零样本迁移定义为在不进行任何进一步针对特定任务的监督的情况下,将模型应用于新任务。作者还考虑了与之密切相关的少样本迁移概念。与布朗等人在文献中的定义一致,作者将少样本设置定义为在推理时向模型输入少量例子作为输入的情况。与零样本设置一样,在少样本设置中也不会进行梯度更新来让模型专门适应任务。和布朗等人在文献中的观点类似,这里的说法并非指分布外泛化。假设是,在预训练阶段,模型学习到了与之后要迁移到的任务相关的信息。对于蛋白质语言模型而言,预训练数据集包含了来自不同进化阶段的序列,这意味着模型可能会接触到在后续评估中会涉及的蛋白质家族的序列示例。与计算生物学的标准方法的本质区别在于,这里的模型是通用的,可以不经专门调整就应用于各种任务。

功能测量对于理解和设计蛋白质至关重要,它为研究蛋白质语言模型的泛化能力提供了实际基础。深度突变扫描实验可以测量成千上万种突变对单个蛋白质的影响,并且已经在具有不同功能的多种蛋白质上进行,采用了各种形式的实验测量方法。作者利用这些数据研究蛋白质语言模型在功能预测中的零样本和少样本迁移能力。

利用实验测量数据训练的有监督方法,以及仅在序列上训练的无监督方法,都已被开发用于预测突变效应。无监督突变效应预测器是针对单个蛋白质家族的序列训练的特定任务模型。从这个角度来看,每种蛋白质都是一个独立的预测任务,目标是评估突变对蛋白质功能的影响得分。虽然基于多序列比对(MSA)训练的突变效应预测器通常被视为无监督的,但它们也可以被看作是弱监督的。许等人指出,这类模型通过MSA对任务进行弱监督,MSA通过正例描述了蛋白质的适应度景观。

如果蛋白质语言模型能够从预训练中学习到解决任务所需的信息,那么它们就可以直接应用于新的任务实例,而无需专门调整。这意味着在实际应用中,一个通用模型只需训练一次,就可以应用于各种可能的任务。因此,零样本和少样本迁移代表了蛋白质语言模型为计算生物学工具包带来的全新无监督学习能力。


图2:突变效应预测方法所涉及的步骤。与EVMutation和DeepSequence相比,MSA Transformer和ESM-1v在推理时无需进行特定任务的模型训练。此外,ESM-1v无需生成多序列比对(MSA)。JackHMMer用于生成MSA。以EVMutation为例:根据给定query蛋白序列搜索得到MSA(可能是大于1000条才能提供足够的进化信号),学习重建MSA,预测query蛋白序列中每个位置的氨基酸概率,考虑所有位置上的所有氨基酸概率即作为突变效应的预测结果。

方法

以掩码语言建模为目标训练的蛋白质语言模型,会在自监督下输出在给定周围上下文的情况下,某一氨基酸出现在蛋白质特定位置的概率。利用这一能力对序列突变进行评分。对于给定的突变,可以将野生型蛋白质中的氨基酸视为参考状态,将赋予突变氨基酸(mt)的概率与赋予野生型氨基酸(wt)的概率进行比较。

作者使用突变位置的对数比来对突变进行评分。当同一序列中存在多个突变T TT时,假设采用加性模型,计算公式为:

其中,该求和是对突变位置进行的,并且输入到模型中的序列在每个突变位置都进行了掩码处理。

零样本和少样本迁移

在零样本设置中,直接对待评估序列进行推理。在少样本设置中,使用MSA Transformer架构,除了待评估序列外,还会提供来自同一蛋白质家族的其他序列。在零样本和少样本设置中,推理过程都仅对模型进行前向传递,不进行梯度更新。

使用MSA Transformer

依据公式 1 中的对数比和加性模型对突变进行评分。然而,由于MSA Transformer在推理时使用一组序列,作者将待评估序列作为第一个序列输入,并从多序列比对(MSA)中提供额外序列作为背景信息。仅对第一个序列进行掩码处理和评分。

结果

实验设置

预测模型方面,作者将其与最先进的无监督变异预测方法EVMutation和DeepSequence进行比较。作者还研究了文献中最近提出的多种蛋白质语言模型的性能。

位置特异性打分矩阵(PSSM)、EVmutation和DeepSequence方法均基于多序列比对(MSA)。PSSM将序列中的每个位置独立处理,将似然分解为每个序列位置的一项。EVmutation是一种Potts模型,它添加了成对项来模拟位置之间的相互作用。DeepSequence引入了一个潜在编码,允许位置之间存在潜在的高阶相互作用。

UniRep、TAPE、ProtBERT - BFD、ESM - 1b 以及本文新提出的 ESM - 1v,均为单序列语言模型,它们在大量未比对且不相关的蛋白质序列数据库(如 Pfam 或 UniRef)上进行训练。除了 UniRep 是使用下一个词预测进行训练外,其他所有模型均采用掩码语言建模方式进行训练。

最后,MSA Transformer结合了上述两种方法,它在一个大型多序列比对(MSA)数据库上通过掩码语言建模进行训练,并在推理过程中以多序列比对作为输入。

ESM - 1v

作者训练了ESM-1v,这是一个拥有6.5亿参数的Transformer语言模型,用于预测变异效应。训练数据来自9800万个涵盖不同进化阶段的蛋白质序列。该模型仅基于序列进行训练,未借助任何蛋白质功能实验测量数据的监督。作者使用2020年3月发布的Uniref90数据集,采用Rives等人提出的ESM-1b架构和掩码语言建模方法。该模型在一组留出的Uniref90序列上达到了7.29的困惑度。用不同随机种子训练了五个模型,以构建一个集成模型。

评估

模型的评估基于Riesselman等人收集的41组深度突变扫描数据,这些数据涵盖了评估多种蛋白质的各类任务。在不同任务中,实验所测试的功能和执行的测量方法各有不同。作者将每组深度突变扫描数据集视为一个独立的预测任务,使用模型对数据集中的每个变体进行评分。通过使用斯皮尔曼等级相关性将评分与实验测量结果进行比较,以此来评估模型性能。

突变效应的零样本和少样本预测

ESM-1v和MSA Transformer模型做出了最先进的预测。表1比较了各模型在41个突变扫描数据集上的整体性能。图3展示了ESM-1v和DeepSequence在每个任务上的对比情况。在41个数据集中的17个数据集上,ESM-1v的零样本推理与实验测量结果的相关性比DeepSequence更好。

表2对比了零样本设定下的蛋白质语言模型。ESM-1v的表现优于现有的蛋白质语言模型TAPE、UniRep、ProtBERT-BFD 以及ESM-1b。


图3:41个深度突变扫描数据集的对比。各点表示每个数据集上的斯皮尔曼相关系数ρ \rhoρ,误差线表示20个标准差。分割线左侧展示的是用于验证的蛋白质,右侧是用于测试的蛋白质。在41项任务中的17项里,ESM-1v零样本的斯皮尔曼相关系数ρ \rhoρ高于DeepSequence。

分析

蛋白质结构与功能

ESM-1v预测的概率反映了蛋白质内位点的功能特性。作者将模型对某一位置预测结果的熵,作为衡量其对该位置保守性估计的指标。熵值最低的预测结果集中在结合位点。

图5展示了DNA甲基转移酶M.HaeIII与DNA底物相互作用的晶体结构中,模型预测的熵值最低的10个残基的侧链。在晶体结构中,底物的一个胞嘧啶插入到了酶的活性位点。熵值低的残基聚集在活性位点并与胞嘧啶相互作用。


图5:A)DNA甲基化酶HaeIII(pdbid:1DCT)。预测熵最低的前10个位置的侧链以蓝色显示。低熵位置聚集在活性位点。
B)TIM桶状结构(pdbid:1IGS),残基按熵值着色。模型对表面残基的预测熵最高(红色),而核心区域的残基熵值较低(蓝色)。值得注意的是,α螺旋上的残基随着从面向表面转变为面向核心,呈现出从高熵到低熵的明显梯度。
C)蔗糖特异性孔蛋白(pdbid:1A0T),一种跨膜蛋白。该模型预测出蛋白质嵌入膜中的疏水区带。

图5B展示了一种TIM桶状蛋白结构上各位置的熵值,这些熵值由模型计算得出。在α螺旋上,模型为侧链朝外的残基赋予较高熵值,而为侧链朝内的残基赋予较低熵值。此外,模型显示,蛋白质核心区域倾向于疏水残基(hydrophobic),而表面则倾向于亲水残基(hydrophilic)。图5C展示了蔗糖特异性孔蛋白(一种跨膜蛋白)结构上疏水氨基酸的概率分布。该模型预测出在蛋白质嵌入膜的中心区域存在一个疏水区带(hydrophobic band)。*

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号