ESM3：开启生物大模型时代

创作时间:

作者:

@小白创作中心

ESM3：开启生物大模型时代

引用

CSDN

https://m.blog.csdn.net/weixin_47520540/article/details/141106752

ESM3（Evolutionary Scale Model 3）是一个多模态的生成型语言模型，它不仅处理语言信息，还整合了蛋白质的序列、结构和功能信息。该模型采用了类似BERT的encoder-only架构，并引入了几何注意等先进技术。ESM3的训练规模达到了惊人的10^24次方计算量，拥有98亿个参数。其发表标志着生物大模型时代的到来。

概述

ESM3是一个多模态的生成型语言模型，除了处理语言信息外，还整合了蛋白质的序列、结构和功能信息。该模型采用了类似BERT的encoder-only架构，并引入了几何注意等先进技术。ESM3的训练规模达到了惊人的10^24次方计算量，拥有98亿个参数。其发表标志着生物大模型时代的到来。

模型输入

ESM3的输入主要包括三大类信息：

序列（Sequence）：蛋白质的氨基酸序列。
结构（Structure）：包括二级结构（SS8）、溶剂可访问区域（SASA）以及蛋白质的绝对坐标。
功能（Function）：蛋白质的功能关键词及其在序列位置上的注释。

标记化（Tokenization）

ESM3对输入的多模态信息进行了专门的标记化处理：

序列编码：将蛋白质序列转换为标记序列，每个氨基酸对应一个标记。
结构编码：使用VQ-VAE（向量量化变分自编码器）将三维原子结构压缩为离散标记。ESM3还提出了一种不变几何注意机制来高效处理三维结构。
功能编码：将功能信息转化为离散标记，利用隐马尔可夫模型库对蛋白质序列进行注释。

ESM3的功能编码通过将每个序列位置的生物学功能注释转化为离散标记来实现。这些功能注释来自预测的功能关键词集合，利用隐马尔可夫模型库对蛋白质序列进行注释。

模型结构

ESM3采用双向Transformer架构：

ESM3采用双向Transformer架构。输入的序列、结构和功能轨道被嵌入并融合，然后通过一系列Transformer块进行处理。

在模型的第一个Transformer块中包含了几何注意层，用于条件化原子结构坐标。
提出了一种不变几何注意机制来高效处理三维结构。该机制在每个氨基酸的键合几何定义的局部参考框架中运行，并通过转换到全局框架实现局部框架的全局交互。
输出头（Output Heads）：模型输出端使用浅层MLP头将最终层的表示转换为每个轨道的标记概率。

模型训练

ESM3采用生成式掩码语言模型（Masked Language Model, MLM）进行训练：

在每种模态的离散标记上进行掩码处理，并监督模型预测被掩码标记的身份。
在训练过程中，掩码标记会以噪声调度的方式进行采样，确保ESM3能够在不同的掩码组合下进行训练。
ESM3在一个包含2.78亿个天然蛋白质的数据库上进行训练，这些数据来源于已知的序列和结构数据库，以及一些预测的结构。
为了增加训练数据，研究人员还使用逆折叠模型生成合成序列，并通过隐马尔可夫模型库预测功能注释。
ESM3模型在三个不同的参数规模下进行训练：1.4亿、7亿和98亿参数。模型的最终结构选择了相对较深的网络，其中98亿参数的模型包含216个Transformer块。

输出与验证

ESM3在生成过程中，标记以迭代的方式进行采样。从全掩码标记序列开始，标记可以一次或并行采样，直到所有标记完全解码。
模型的训练目标不仅有效地提升了生成能力，还提高了表示学习能力。噪声调度的选择使生成能力与表示学习达到平衡。
ESM3能够在接受提示（prompts）的情况下生成新的蛋白质，并在生成蛋白质序列和结构上展示了高度的创新性（大模型生成的蛋白仅结构合理，未验证其功能性）。
模型可以基于给定的序列、结构或功能提示生成具有不同于天然蛋白质的结构和序列的蛋白质。
ESM3生成的新型绿色荧光蛋白（esmGFP）经过实验验证，显示出与自然界中的GFP相似的荧光特性。esmGFP与最近的天然蛋白序列在序列上仅有36%的相似性，展示了该模型在探索自然界未发现的蛋白质设计空间中的能力。

热门推荐

中法建交60周年：拉沃卡教你如何处理虚构与现实