ESM3:开启生物大模型时代
创作时间:
作者:
@小白创作中心
ESM3:开启生物大模型时代
引用
CSDN
1.
https://m.blog.csdn.net/weixin_47520540/article/details/141106752
ESM3(Evolutionary Scale Model 3)是一个多模态的生成型语言模型,它不仅处理语言信息,还整合了蛋白质的序列、结构和功能信息。该模型采用了类似BERT的encoder-only架构,并引入了几何注意等先进技术。ESM3的训练规模达到了惊人的10^24次方计算量,拥有98亿个参数。其发表标志着生物大模型时代的到来。
概述
ESM3是一个多模态的生成型语言模型,除了处理语言信息外,还整合了蛋白质的序列、结构和功能信息。该模型采用了类似BERT的encoder-only架构,并引入了几何注意等先进技术。ESM3的训练规模达到了惊人的10^24次方计算量,拥有98亿个参数。其发表标志着生物大模型时代的到来。
模型输入
ESM3的输入主要包括三大类信息:
- 序列(Sequence):蛋白质的氨基酸序列。
- 结构(Structure):包括二级结构(SS8)、溶剂可访问区域(SASA)以及蛋白质的绝对坐标。
- 功能(Function):蛋白质的功能关键词及其在序列位置上的注释。
标记化(Tokenization)
ESM3对输入的多模态信息进行了专门的标记化处理:
- 序列编码:将蛋白质序列转换为标记序列,每个氨基酸对应一个标记。
- 结构编码:使用VQ-VAE(向量量化变分自编码器)将三维原子结构压缩为离散标记。ESM3还提出了一种不变几何注意机制来高效处理三维结构。
- 功能编码:将功能信息转化为离散标记,利用隐马尔可夫模型库对蛋白质序列进行注释。
ESM3的功能编码通过将每个序列位置的生物学功能注释转化为离散标记来实现。这些功能注释来自预测的功能关键词集合,利用隐马尔可夫模型库对蛋白质序列进行注释。
模型结构
ESM3采用双向Transformer架构:
ESM3采用双向Transformer架构。输入的序列、结构和功能轨道被嵌入并融合,然后通过一系列Transformer块进行处理。
- 在模型的第一个Transformer块中包含了几何注意层,用于条件化原子结构坐标。
- 提出了一种不变几何注意机制来高效处理三维结构。该机制在每个氨基酸的键合几何定义的局部参考框架中运行,并通过转换到全局框架实现局部框架的全局交互。
- 输出头(Output Heads):模型输出端使用浅层MLP头将最终层的表示转换为每个轨道的标记概率。
模型训练
ESM3采用生成式掩码语言模型(Masked Language Model, MLM)进行训练:
- 在每种模态的离散标记上进行掩码处理,并监督模型预测被掩码标记的身份。
- 在训练过程中,掩码标记会以噪声调度的方式进行采样,确保ESM3能够在不同的掩码组合下进行训练。
- ESM3在一个包含2.78亿个天然蛋白质的数据库上进行训练,这些数据来源于已知的序列和结构数据库,以及一些预测的结构。
- 为了增加训练数据,研究人员还使用逆折叠模型生成合成序列,并通过隐马尔可夫模型库预测功能注释。
- ESM3模型在三个不同的参数规模下进行训练:1.4亿、7亿和98亿参数。模型的最终结构选择了相对较深的网络,其中98亿参数的模型包含216个Transformer块。
输出与验证
- ESM3在生成过程中,标记以迭代的方式进行采样。从全掩码标记序列开始,标记可以一次或并行采样,直到所有标记完全解码。
- 模型的训练目标不仅有效地提升了生成能力,还提高了表示学习能力。噪声调度的选择使生成能力与表示学习达到平衡。
- ESM3能够在接受提示(prompts)的情况下生成新的蛋白质,并在生成蛋白质序列和结构上展示了高度的创新性(大模型生成的蛋白仅结构合理,未验证其功能性)。
- 模型可以基于给定的序列、结构或功能提示生成具有不同于天然蛋白质的结构和序列的蛋白质。
- ESM3生成的新型绿色荧光蛋白(esmGFP)经过实验验证,显示出与自然界中的GFP相似的荧光特性。esmGFP与最近的天然蛋白序列在序列上仅有36%的相似性,展示了该模型在探索自然界未发现的蛋白质设计空间中的能力。
热门推荐
中法建交60周年:拉沃卡教你如何处理虚构与现实
《抓娃娃》爆红:一个关于家庭教育的荒诞寓言
电影中的性别歧视:是再现还是批判?
打卡贵州苗族美食,解锁舌尖上的秘境
凯里酸汤鱼:一碗酸辣里的千年传承
空腹运动饮食指南:运动前后吃什么最科学
这是韦伯望远镜拍摄的深空场!看:那里有条光弧,一个古老的星系
极端的“蓝超巨星”是如何诞生的?天文学家也许终于知道了
研究发现B型蓝超巨星是由大质量双星系统合并而产生
探秘铜陵风光:一日游精彩之旅
2025火星冲日摄影全攻略:从设备选购到后期处理
火星冲日来袭!观测攻略出炉
火星冲日倒计时!“天问一号”带你探秘红色星球
从在线学习到项目实践:工程师持续提升指南
胡冰卿新剧《锦囊妙录》今晚开播,化身捕快破解明朝奇案
胡冰卿新作《风月锦囊》来袭,演技再升级
香蕉:健身人士的能量补给站,每天一根助健康
奈曼旗的苗族媳妇:一个文化融合的故事
专家破解百慕大三角:失踪事件源于自然因素
全球最大建筑落户成都:176万平米集酒店沙滩于一体
香蕉是运动员的补给佳品?专家解读其营养功效与食用注意事项
运动前该不该吃?儿童运动饮食注意事项
全球最大单体建筑成都落成,打造176万平米"海洋之城"
川西冬季旅游:冰雪温泉邂逅千年古羌文化
苏州医保发布春节返乡提醒:转移和异地就医这样办
从演绎到类比:法律推理的原理与实践
从理论到实践:法律推理的基本原理与应用
郑州东站1、5、8号线换乘攻略:同站台换乘详解
解读恒星漫长的一生,用悲壮的死亡造就了五彩缤纷的世界!
健身后不吃东西会减肌,这4个饮食原则助你科学减脂