大规模语言模型在化学领域的应用潜力与挑战

创作时间:

作者:

@小白创作中心

大规模语言模型在化学领域的应用潜力与挑战

引用

来源

https://ai-scholar.tech/zh/articles/large-language-models/what-can-llm-do-in-chemistry

近年来，大规模语言模型（LLM）在各个领域展现出非凡能力，特别是在科学问题解答方面。然而，其在化学领域的应用潜力尚未得到充分探索。本文通过开发首个全面基准，评估了五种主流LLM在化学领域的表现，揭示了其在不同任务中的优势与局限性。

研究背景与意义

近年来，大规模语言模型因其在各个领域的非凡能力而备受瞩目。从自然语言处理开始，它们的影响已扩展到科学领域的各种应用。特别是在医学和科学问题解答等领域，人们正在对它们进行研究，但它们在化学领域的应用尚未得到充分探索。

对于人工智能研究人员和化学家来说，"大语言模型在化学中能做什么？"是一个亟待回答的问题。然而，大语言模型在化学领域对该领域的发展产生重大影响的潜力仍面临许多挑战。

在本文中，我们开发了第一个全面的基准，对各种实际化学任务进行评估，以确定大规模语言模型在化学领域的潜力，并促进其发展。这一举措源于人工智能研究人员与化学家之间的合作，旨在探索大规模语言模型在各种化学任务中的适用性。它包括八项实际任务，要求在理解化学任务、推理和使用特定领域知识方面具备不同的能力。这些任务涉及基本的化学问题，如名称预测、性质预测、产量预测和反应预测。

论文展示了如何将大规模语言模型应用于各种化学问题，让人工智能研究人员深入了解大规模语言模型的优势和局限性，让化学家了解当前的大规模语言模型适用于哪些任务。研究还通过开发实验框架，强调了可靠评估和标准化方法的重要性。希望这项研究能为大规模语言模型在化学领域的进一步应用铺平道路，并加快该领域的研发活动。

评估程序和设置

在本文中，圣母大学化学系的奥拉夫-维斯特教授（合著者之一）与美国国家科学基金会计算机辅助合成中心（C-CAS）的博士生合作，在奥拉夫-维斯特教授的指导下确定了八项具体任务。该过程包括选择要发送给大规模语言模型的提示语，以及生成、评估和选择适当提示语等步骤。化学家对收集到的回复进行定性评估，以确定其在实际情况中的实用性，并根据选定的标准进行定量分析。评估过程的工作流程如下图所示。

首先，化学任务评估考虑了八个实用的化学任务，侧重于三个基本能力--理解、推理和解释--以评估大规模语言模型的化学相关能力。下表按任务类型、评估所用数据集和评估指标对这些任务进行了概述。

在所有任务中，使用流行的大规模语言模型（即 GPT-4、GPT-3.5、Davinci-003、LLama 和 Galactica）对性能进行评估。在每个任务中，都使用一个标准化的零镜头提示模板来指示大规模语言模型扮演化学家。

此外，还为每个化学任务设计了特定任务的 ICL（上下文学习）提示模板，通过这些模板可以深入探索大规模语言模型的能力。这些提示指示大规模语言模型扮演化学家的角色，并指定具有特定输入和输出的化学任务。

我们采用了两种策略来探索 ICL 样本质量和数量对性能的影响。第一种是随机选择，第二种是基于特定标准的支架策略。这是用来找到选择最佳示例的最佳方法。

此外，还针对不同任务类型的 ICL 实例数量进行了网格搜索。使用初始验证集确定最佳 k 值和搜索策略，然后在随机选择的 100 个测试实例上测试这些策略。每个任务的评估重复五次，并报告结果的平均值和标准偏差。

这样，大规模语言模型解决化学任务的能力就得到了全面评估，其有效性也得到了定量和定性验证。

实验分析

本节将探讨通过全面基准分析获得的主要发现，深入了解大规模语言模型的局限性，并深入分析这些局限性对大规模语言模型在应对一系列化学挑战时的性能所产生的影响。

在化学任务方面，大规模语言模型能否超越现有模型？在化学任务方面，有许多基于机器学习的传统预测模型。例如，基于图神经网络的 MolR 是为预测分子性质的二元分类问题而开发的，UAGNN 在产量预测方面具有最先进的性能，而基于 T5 的 MolT5-Large 则专门用于分子-文本翻译。本文比较了 GPT 模型与这些现有基线的性能，并得出以下主要结论：

性能优势：GPT-4 在 8 项不同任务中的表现优于其他受测机型。
取决于任务的竞争力：对于需要准确解释分子 SMILES 表征的任务（如名称预测、反应预测、反合成分析），GPT 模型不具竞争力。
在与文本相关的任务中表现出很强的能力：在与文本相关的解释性任务（如生成分子标题）中，GPT 模型表现出卓越的定性和定量能力。
适用于分类和排序：对于可转换为分类和排序的化学问题，如性质预测和产量预测，GPT 模型能够显示出与使用经典机器学习模型的现有基线相比具有竞争力或更好的性能。

通过分析，我们对 GPT 模型与化学任务中现有模型的比较及其局限性和潜力获得了宝贵的见解。此外，还详细分析了 GPT 模型的性能，并将结果分为三类进行讨论（见下文：参考文献）。非竞争性表现（NC）、竞争性表现（C）和选择性竞争性表现（SC）。

非竞争性表现（NC）：与现有的拥有大量训练数据的机器学习模型相比，GPT 模型在某些任务（如反应预测和反合成分析）上表现不佳。这是由于在理解分子的 SMILES 字符串方面存在局限性。反应预测和逆合成分析任务使用 SMILES 字符串作为输入和输出，但由于难以深入理解反应物和生成物及其转化过程，似乎很难生成准确的答案。GPT 模型在名称预测任务中的表现也很差。这表明，很难在 SMILES、IUPAC 名称和分子式等复杂字符串之间进行准确转换。

竞争性能（C）：对于以分类和排序形式组织的化学任务，GPT 模型可以取得令人满意的结果。这是因为与生成或转化相比，在特定的备选方案中进行选择是一项更简单的任务。例如，在选择反应物、溶剂和配体时，准确率可达 40% 至 50%。不过，与特定基线模型相比，产量预测结果较差。尽管如此，据报告，在少量学习的情况下，性能有所提高，这表明 GPT 模型还有潜在的改进空间。

选择性竞争性能（SC）：GPT 模型在某些任务中表现出色。特别是在 HIV 和 ClinTox 数据集的特征预测任务中，F1 分数和准确率接近完美。这可能是因为所要求的回答是简单的 "是 "或 "否"。GPT 模型的语言生成能力在基于文本的分子设计和分子封装任务中也表现出色。不过，完全匹配的准确率较低仍然是一个挑战，但当生成的分子具有化学有效性时，这些结果是有益的。

总的来说，GPT 模型在化学的某些任务中显示出显著的潜力，但在某些领域仍有改进的余地。特别是在理解复杂化学反应和准确生成化学物质方面，还需要进一步研究和开发。

对大规模语言模型能力的比较也表明，GPT-4 模型在理解、推理和解释化学方面优于 Davinci-003、GPT-3.5、Llama 和 Galactica，如下表所示（转载于下）。这进一步验证了 GPT-4 模型在基本场景和现实场景中都优于其他模型。

本研究还探讨了综合传播战略的影响。因此，得出了以下主要结论：

在所有任务中，ICL 提示语的表现都优于零镜头提示语。
使用支架相似性检索的 ICL 案例在许多任务中的表现都优于随机抽样。
一般来说，使用更多的 ICL 示例往往比使用较少的示例更能提高性能。

这些结果表明，适当选择和增加 ICL 示例的数量对学习效果有重大影响，并强调今后需要开发更高质量的 ICL 示例。

我们还进行了进一步的实验，以检验是 SELFIES 还是 SMILES 更适合语言模型的分子表示。在分子性质预测、反应预测、分子设计和分子封装这四项任务中，SELFIES 表示法都不如 SMILES 表示法。这可能是因为语言模型更熟悉 SMILES 表示法。不过，SELFIES 的无效表达较少这一事实表明了其设计的优势。

这篇文章只报告了部分实验结果，而本文则报告了更全面、更详细的实验结果。