问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI大模型助力深度研究效率:从药物研发到材料科学的革新

创作时间:
作者:
@小白创作中心

AI大模型助力深度研究效率:从药物研发到材料科学的革新

引用
中国科学院
9
来源
1.
http://www.iie.cas.cn/xwdt2020/kydt2020/202502/t20250212_7526624.html
2.
https://blog.csdn.net/simoncool23/article/details/144851900
3.
https://www.sohu.com/a/848372225_473283
4.
https://www.163.com/dy/article/JO2GKBOR0553URHV.html
5.
https://casjob.com/index.php?menu=247&id=4835
6.
https://www.explinks.com/blog/using-llms-50-examples/
7.
https://www.frostchina.com/content/insight/detail/6777b11e09f5eb0e508be214
8.
https://www.yanyin.tech/cms/hqEarFjH.html
9.
https://developer.volcengine.com/articles/7468990498774974527

中国科学院人才交流开发中心主办的“人工智能大模型赋能科学研究效能提升与创新实战高级研修班”正在火热进行。该课程旨在通过系统化的培训,帮助教师掌握最先进的人工智能技术及其应用场景,特别是在科研和教学中的应用。通过案例分析和实战演练,学员能够将所学知识应用于日常工作中,推动教育体系向更加智能化、个性化的方向发展。此外,AI大模型在数据处理、科研绘图、编程及数据分析等方面的应用,显著提升了科研工作的效率和质量。快来加入这场科技革命,让AI为你的深度研究插上科技翅膀!

01

AI大模型在科学研究中的具体应用

02

药物研发:精确设计药物分子

牛津大学与瑞士联邦理工学院(EPFL)、剑桥大学、康奈尔大学的研究团队合作,开发了一种名为 DiffSBDD 的人工智能系统,用于精确设计和优化药物分子的三维结构。

DiffSBDD 的核心创新在于将 SE(3)- 等变扩散模型引入结构导向的药物设计中。该方法将药物设计视为一个三维条件生成问题,通过引入 SE(3)- 等变性来处理分子系统中的自然对称性,包括旋转和平移。这一方法使得 AI 系统能够像经验丰富的分子建筑师一样,精确设计和优化药物分子的三维结构。

在实际应用中,DiffSBDD 展现了多功能分子设计能力。例如,在激酶抑制剂优化的案例中,模型通过多轮优化,显著提升了分子对目标激酶的结合得分,同时降低了对非目标激酶的结合倾向。此外,DiffSBDD 还能同时调控多个药物属性,包括类药性、合成可行性和结合亲和力等关键物理化学性质。

这一研究成果表明,人工智能在药物研发中具有巨大的潜力。通过利用大语言模型(LLM)和扩散模型等先进技术,研究人员能够更准确地预测小分子与蛋白质靶标的结合亲和力,从而加速药物候选物的筛选过程。这不仅提高了新药发现的效率和精准度,也为个性化医疗和精准医学的发展提供了新的工具和方法。

03

材料科学:自主发现新材料

麻省理工学院(MIT)开发了一种名为LLMatDesign的框架,利用大型语言模型(LLM)来实现自主材料发现。

该框架能够分析大量材料数据,精准预测新材料的特性,从而彻底改变材料设计,加速先进材料的开发。

LLMatDesign通过LLM代理来理解人类指令,对材料进行修改,并使用提供的工具评估结果。通过对先前决策的自我反思,LLMatDesign能够在零样本条件下快速适应新任务和环境。在多项材料设计任务中的系统评估显示,LLMatDesign在小数据环境下有效地开发了具有用户定义目标特性的新材料。这一框架展示了在计算环境中以及未来自驱动实验室中,LLM引导的自主材料发现的巨大潜力。

此外,LLMatDesign的代码已在GitHub上开源,研究人员和开发者可以访问并使用这一框架进行材料设计和预测。

这一研究成果标志着人工智能在材料科学领域应用的又一重要进展,有望加速新材料的发现和应用,推动科技和工业的发展。

04

基因组学:预测病毒变异

由来自阿贡国家实验室、英伟达、芝加哥大学等机构的二十多位研究人员合作训练了一个大语言模型 (LLM) 来学习基因序列,从而追踪 SARS-CoV-2(新冠病毒)的基因突变并预测值得关注的变异株。这项工作获得了被誉为高性能计算领域诺贝尔奖的戈登贝尔特别奖。与之前大多数应用于生物学的 LLM 训练在小分子或蛋白质数据集上不同,该项目是首批在原始核苷酸序列(DNA 和 RNA 的最小单位)上训练的模型之一。该方法能够更好地理解基因组的演变,并有望应用于任何具有足够基因组数据的疾病预测。

研究团队将基因序列的四字母语言(DNA 中的 A、T、G、C 或 RNA 中的 A、U、G、C)与人类语言类比,解决了 LLM 在生物学领域应用的复杂性。由于基因组的庞大(人类基因组超过 30 亿个核苷酸,冠状病毒约 30,000 个核苷酸)以及核苷酸序列之间可能存在的远距离相互作用,难以将其分解成有意义的单元。英伟达的合作者设计了一种分层扩散方法,使 LLM 能够将大约 1,500 个核苷酸的长字符串视为“句子”进行处理,从而解决了长序列生成和变异分布学习的难题。

05

生物信息学:预测蛋白质相互作用

国内外有多个研究团队致力于利用图神经网络(GNN)分析蛋白质-蛋白质相互作用(PPI)网络,以预测蛋白质功能和药物靶标。其中一些具有代表性的团队及其研究成果:

  • 西湖大学李子青教授团队:该团队开发了PiFold蛋白质设计方法,采用多层图神经网络生成蛋白质序列。此外,他们还研究了KW-Design方法,通过融合预训练模型的信息提升蛋白质序列设计性能。

  • 中国科学院上海药物研究所郑明月课题组:该团队利用等变图神经网络整合蛋白质-配体相互作用的物理先验知识,构建了通用蛋白质-配体相互作用评分方法EquiScore,在新靶标的药物虚拟筛选中表现出良好的泛化性能。

  • 江南大学研究团队:该团队提出了一种集成深度学习和图学习的多视图集成学习网络(MINDG),结合图学习和深度学习提取药物和蛋白质的特征,用于预测药物-靶标相互作用。

  • 上海科技大学免疫化学研究所白芳课题组:该团队发布了蛋白质-蛋白质相互作用挖掘的新计算方法PPI-Miner,发现了PPI界面上存在一些高度保守的结构片段,有助于理解蛋白质相互作用的机制。

06

结构生物学:预测生物分子结构

2024年5月8日,谷歌DeepMind团队在《Nature》上发表了AlphaFold 3的研究成果,再次引爆了生物学界。 这项研究标志着蛋白质结构预测领域取得了重大突破,AlphaFold 3能够以惊人的准确度预测所有生物分子的结构,包括蛋白质、核酸、糖类等,甚至还能预测这些分子之间的相互作用。AlphaFold 3能够帮助科学家识别药物靶点、优化

07

AI大模型对科研效率的实际提升

一项针对226名医学相关研究者的调查显示,87.6%的研究者知道大模型,其中33.3%对大模型有一定程度的了解,30.8%有较深程度的了解。值得注意的是,相比不知道大模型的受访者,知道大模型的人发表的论文数更多。

在使用场景方面,研究者主要将大模型用于以下方面:

  • 纠正语法和格式错误(64.9%)
  • 写作(45.9%)
  • 修订和编辑(45.9%)

从整体影响来看,52%的受访者认为大模型将产生重大影响。具体到各个研究阶段:

  • 66.3%认为将在语法错误和格式方面产生重大影响
  • 57.2%认为将在修订和编辑方面产生重大影响
  • 57.2%认为将在写作方面产生重大影响
08

未来展望与挑战

尽管AI大模型在科研中展现出巨大潜力,但也面临一些挑战:

  • 道德担忧:包括潜在的歧视、隐私泄露和剽窃问题
  • 技术理解不足:14%的受访者表示对大模型存在不确定感或缺乏经验
  • 监管需求:78.3%的受访者认为需要制定相应规定

然而,大多数受访者(50.8%)仍认为AI大模型将带来积极影响,并且58.1%的受访者支持在监管条件下使用AI工具。

09

结语

AI大模型正在以前所未有的速度改变科学研究的面貌。从药物研发到材料科学,从基因组学到结构生物学,AI大模型的应用正在不断拓展和深化。虽然在使用过程中还面临一些挑战,但其带来的效率提升和创新机遇不容忽视。随着技术的不断发展和完善,AI大模型必将在未来的科学研究中发挥更加重要的作用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号