EVOLVEpro:融合AI的蛋白质优化新方法,实现百倍性能提升
创作时间:
2025-01-22 01:00:09
作者:
@小白创作中心
EVOLVEpro:融合AI的蛋白质优化新方法,实现百倍性能提升
蛋白质工程是生物技术领域的重要分支,通过优化蛋白质序列来提升其功能或赋予新的特性。近年来,人工智能技术在这一领域的应用取得了显著进展。本文将介绍一种名为EVOLVEpro的创新方法,它结合了蛋白质语言模型(PLM)和回归模型,通过少样本主动学习实现蛋白质的快速优化。这一方法在抗体优化、CRISPR核酸酶改良、RNA聚合酶进化等任务中展现出卓越性能,为蛋白质工程领域开辟了新的可能性。
文章背景
蛋白质是生命活动的基石,其功能和序列之间的复杂关系长期以来吸引着科学家们的关注。尽管深度突变扫描等实验方法可以解析蛋白质突变的功能影响,但这些技术的应用范围局限于序列空间的一小部分。近年来,基于蛋白质语言模型(PLM)的计算方法如ESM2模型取得了一些突破。然而,这些模型在零样本预测中往往无法显著提高蛋白质活性。为了解决这一问题,研究者提出了EVOLVEpro,一个结合PLM和回归模型的少样本主动学习框架,用于蛋白质的快速优化。
实验方法
EVOLVEpro通过以下策略实现高效的蛋白质定向进化:
模型架构
EVOLVEpro的核心包括:
- 使用ESM2模型将蛋白质序列嵌入到高维潜在空间中。
- 构建一个随机森林回归器以学习嵌入向量与功能活性之间的关系。
- 在迭代回合中通过少量突变的实验数据优化模型。
主动学习流程
每轮优化:
- 模型根据预测的活性值对未测试突变排序。
- 选择高活性的突变进行实验验证。
- 将实验结果反馈至模型,进一步改进预测性能。
优化与验证
作者基于12个不同的深度突变扫描数据集优化EVOLVEpro的参数,并验证了其在抗体优化、CRISPR核酸酶改良、RNA聚合酶进化等多种任务中的性能。
结果与讨论
性能评估
- EVOLVEpro在低样本设置中取得了显著的优化效果,相较于传统方法提高了最多100倍的功能表现。
- 模型在抗体优化、基因组编辑工具和RNA生产酶的开发中展示了卓越的多目标优化能力。
抗体优化
- 对SARS-CoV-2刺突蛋白抗体进行多目标优化,包括结合亲和力和表达水平。
- 通过迭代优化,产生了结合力提高10倍的突变体,同时兼顾了可开发性。
CRISPR核酸酶优化
- 成功优化了体积更小但活性较低的Cas12f核酸酶,突变体的靶点编辑效率提高了44倍。
RNA聚合酶进化
- 优化后的T7 RNA聚合酶生成的RNA在免疫原性降低515倍的同时,其翻译效率提升57倍。
其他应用
- 包括Bxb1整合酶的活性提升以及Prime编辑器的长片段插入能力优化。
总结与展望
EVOLVEpro展示了人工智能在蛋白质工程中的巨大潜力,其模块化设计可适配多种蛋白质特性优化任务。未来的发展方向可能包括:
- 结合生成式PLM进行端到端的设计与优化。
- 将物理化学模型整合到现有框架中,以进一步提高预测精度。
- 扩展到更多复杂多目标任务,推动生物技术的前沿探索。
热门推荐
中山北外环长江大桥(蝴蝶桥)交通拥堵解决方案
“竹子开花,马上搬家”!竹子突然开花,对人类到底意味着什么?
中介合同的法律效力及违约赔偿解析
电子元件的秘密通道:揭秘电流的流动方向
小儿解表颗粒可以抗病毒吗?医生专业解答来了
肠道和大脑之间存在着复杂的相互关系和通讯机制
法律规定:哺乳假政策及女性权益保障
秘制酸坛水/可反复用,可腌酸豆角 酸菜 各类蔬菜
一碗“云米线”是怎样炼成的
防晒霜的主要成分是什么?
榛子竟藏大秘密:每日一包,坏胆固醇狂降8%?
腹腔镜胆囊切除出院后的健康指导
孩子可以跟谁姓?爸爸?妈妈?奶奶?姥姥?民法典有了明确说法
一口下肚,整个人中毒变“紫”了......
面对房贷压力,应该采取哪些措施?
如何掌握大病保险的申请方法?这种申请方法有哪些要点?
新能源电动汽车磁场辐射骚扰标准解析与验证
“少帅”张学良,主政39个月,他都在东北干了些什么?
办公软件中斜杠的多种输入方法
绿鼻涕是什么原因?一文详解病因与治疗方法
北京鼻科专家科普:不同颜色的鼻涕代表着什么问题?
阳康后多久能体检,增加哪些特殊检查?40多位专家给出一致建议
虚拟机如何引入游戏中文
数据库管理系统软件有哪些类型及特点
孩子贫血吃什么食物好一点
轴承型号你知道多少?
案件流程:从立案到执行的完整法律程序解析
如何在选择居住小区时做出合适的决策?这些决策如何考虑社区配套设施?
右胸上方的骨头疼怎么了
如何选择合适的公寓并了解水电费用?这些费用如何影响居住成本?