【Nature正刊2023】使用大型语言模型进行自主化学研究

发布于:2025-04-04 ⋅ 阅读:(34) ⋅ 点赞:(0)

Autonomous chemical research with large
language models

Nature

本文介绍了由 GPT-4 驱动的人工智能系统 Coscientist,它能通过整合网络搜索、代码执行、实验自动化等工具自主设计、规划和进行复杂实验,在化学合成规划、硬件控制、实验设计和优化等六个任务中展现出了强大能力,同时探讨了其潜在影响与风险。

Autonomous chemical research with large language models | Nature

收稿日期: 2023-04-20

录用日期: 2023-10-27

在线发布:2023 年 12 月 20 日

丹尼尔・A・布克 1,罗伯特・麦克奈特 1,本・克莱恩 2 & 加布・戈麦斯 1,3,4 ✉

笔记

论文Autonomous chemical research with large language models发表于Nature,介绍了人工智能系统 Coscientist,它由 GPT-4 驱动,结合多种工具自主设计、规划和执行复杂实验,展示了在化学研究等多任务中的能力,为加速科研提供了新途径,同时探讨了相关安全和伦理问题。

  1. 问题:探究大语言模型在科学研究过程中的能力、可实现的自主程度,以及如何理解自主智能体做出的决策。
  2. 挑战:实现实验室自动化技术与强大的大语言模型结合,开发能自主设计和执行科学实验的系统;让大语言模型有效利用技术文档,处理软件组件及其交互的复杂性;解决大语言模型在生成内容时可能出现的 “幻觉” 问题,确保信息准确。
  3. 创新点:构建基于多大语言模型的智能体 Coscientist,能自主完成复杂科学实验的设计、规划和执行;将大语言模型与网络搜索、代码执行、实验自动化等工具结合,拓展模型功能;提出新的实验评估方法,如在化学推理能力测试中,以最大化反应产率为目标设计游戏 。
  4. 贡献:展示了 Coscientist 在六个不同任务中的通用性和性能,包括化学合成规划、硬件文档搜索、云实验室命令执行等;证明了 Coscientist 的化学推理能力,能利用先前数据指导未来行动,在反应优化中表现出色;为人工智能系统在科学研究中的应用提供了实例,推动相关领域发展。
  5. 提出的方法:设计 Coscientist 系统,包含 “Planner”“Web searcher”“Code execution”“Docs searcher” 等多个模块。“Planner” 基于用户输入调用 “GOOGLE”“PYTHON”“DOCUMENTATION”“EXPERIMENT” 命令规划实验;“Web searcher” 模块用于网络搜索获取信息;“Code execution” 模块借助隔离的 Docker 容器执行代码;“Docs searcher” 模块检索和总结文档信息 。
  6. 指标:在化学合成规划任务中,用详细和化学准确性的评分标准衡量模型输出;在优化实验中,使用归一化优势(Normalized advantage)和归一化最大优势(NMA)评估 Coscientist 的性能 。
  7. 模型结构:Coscientist 主要模块 “Planner” 是 GPT-4 聊天完成实例,接收用户输入和命令输出作为消息,通过系统提示定义的四个命令收集知识。“GOOGLE” 命令用 “Web searcher” 模块搜索网络;“PYTHON” 命令通过 “Code execution” 模块执行计算;“DOCUMENTATION” 命令从文档获取 API 信息;“EXPERIMENT” 命令通过 API 实现实验自动化。
  8. 结论:证明了像 Coscientist 这样的人工智能系统在推进研究方面具有多功能性、有效性和可解释性;大语言模型结合相关研究工具能展现先进的推理和实验设计能力,有望加速新发现;开发新智能体系统和自动化实验方法时,需关注安全和两用性问题,确保伦理和负责任地使用 。
  9. 剩余挑战和未来工作:当前实验能力限制了可探索的化合物空间,需要进一步拓展实验能力;随着新智能体系统和自动化方法的发展,要持续关注安全和两用性问题,制定相应措施;改进系统性能,如通过扩展 Planner 的行动空间利用反应数据库,或采用先进提示策略分析系统先前陈述 。
  10. 数据集:在评估 Coscientist 化学推理能力时,使用了两个包含完全映射反应条件空间的数据集,一个是 Perera 等人收集的 Suzuki 反应数据集,另一个是 Doyle 的 Buchwald-Hartwig 反应数据集

正文

基于 Transformer 的大型语言模型在各个领域都取得了重大进展,例如自然语言处理 1-5、生物学 6,7、化学 8-10 和计算机编程 11,12。在这里,我们展示了 Coscientist 的开发和能力,Coscientist 是一个由 GPT-4 驱动的人工智能系统,它通过整合由互联网和文档搜索、代码执行和实验自动化等工具支持的大型语言模型来自主设计、规划和执行复杂的实验。Coscientist 展示了其在加速六项不同任务研究方面的潜力,包括钯催化交叉偶联的成功反应优化,同时展示了(半)自主实验设计和执行的先进能力。我们的研究结果表明,像 Coscientist 这样的人工智能系统在推进研究方面的多功能性、有效性和可解释性

【可解释性体现在哪?】

文章中 Coscientist 的可解释性主要体现在实验设计依据、试剂选择解释、错误修正过程、推理能力展示以及结果评估指标等方面,这些特性使得其决策和行为逻辑更易被理解和研究。

  1. 实验设计与执行依据明确:Coscientist 在进行实验设计和执行时,每个步骤都基于明确的指令和信息获取途径。在规划化学合成实验时,它会通过 “GOOGLE” 命令搜索互联网获取反应信息,包括反应的 stoichiometries(化学计量比)和条件等,这些信息为实验设计提供了坚实的基础,使得实验设计过程可追溯、可理解 。
  2. 试剂选择可解释:在执行复杂化学实验,如 Suzuki-Miyaura 和 Sonogashira 耦合反应时,Coscientist 对试剂的选择有合理的解释。它能根据化学反应的原理和规律,选择合适的耦合伙伴,并且可以针对具体的选择提供理由,体现出对反应活性和选择性等概念的理解和运用,这表明其决策并非随机,而是基于化学知识和逻辑 。
  3. 错误修正过程透明:当 Coscientist 在实验过程中出现错误,使用了不正确的加热器 - 振荡器模块方法名称时,它会利用 “Docs searcher” 模块查阅 OT-2 文档来修正错误。这一过程清晰展示了其自我纠错的机制,使得整个实验流程中的错误处理环节具有可解释性 。
  4. 推理能力可理解:通过设计化学推理能力测试,以最大化反应产率为目标的游戏,Coscientist 在游戏中的行动表现出它能够利用先前收集的数据来指导未来的行动。从其在不同数据集上的表现,如在 Suzuki 数据集和 Buchwald - Hartwig 数据集的优化实验中,随着迭代次数增加,归一化优势值上升,反映出它能有效复用信息,这种推理过程和能力可以通过实验数据和指标进行分析和理解 。
  5. 结果评估指标可解释:在评估 Coscientist 的性能时,使用了归一化优势和归一化最大优势等指标。这些指标的计算方法明确,能够直观地反映模型在每次迭代中的表现与随机策略以及最大可能收益之间的关系,帮助研究人员理解模型的性能提升过程和效果 

【介绍大模型】

大型语言模型 (LLM),尤其是基于 Transformer 的模型,近年来正在经历快速发展。这些模型已成功应用于各个领域,包括自然语言 1-5、生物学 6,7 和化学研究 8-10 以及代码生成 11,12。正如 OpenAI 所展示的那样,模型的极端扩展 13 导致了该领域的重大突破 1,14。此外,从人类反馈中进行强化学习 15 等技术可以大大提高生成文本的质量,以及模型在推理决策时执行各种任务的能力 16。

2023 年 3 月 14 日,OpenAI 发布了他们迄今为止功能最强大的 LLM GPT-414。尽管 GPT-4 的技术报告中有关模型训练、大小和数据的具体细节有限,但 OpenAI 研究人员已经提供了大量证据,证明该模型具有出色的问题解决能力。这些包括但不限于 SAT 和 BAR 考试的高百分位数、LeetCode 挑战和图像中的上下文解释,包括小众笑话 14。此外,该技术报告还提供了一个示例,说明如何使用该模型来解决与化学相关的问题。

【介绍化学研究】

同时,化学研究的自动化也取得了重大进展。示例包括自主发现 17,18 和有机反应优化 19,以及自动化流动系统 20,21 和移动平台 22 的开发。

【提出了好的问题】

实验室自动化技术与强大的 LLM 相结合,为开发自主设计和执行科学实验的广受欢迎的系统打开了大门。为了实现这一点,我们打算解决以下问题。LLM 在科学过程中有哪些能力?我们可以达到什么程度的自主性?我们如何理解自主代理做出的决策?

【方法简介及结果】

在这项工作中,我们提出了一个基于多 LLM 的智能代理(以下简称 Coscientist),能够自主设计、规划和执行复杂的科学实验。合作科学家

可以使用工具浏览 Internet 和相关文档,使用机器人实验应用程序编程接口 (API) 并利用其他 LLM 执行各种任务。这项工作是独立完成的,并且与自主代理的其他工作并行进行 23-25,ChemCrow26 是化学领域的另一个例子。在本文中,我们展示了 Coscientist 在六项任务中的多功能性和性能:(1) 使用公开可用的数据规划已知化合物的化学合成;(2) 有效地搜索和浏览广泛的硬件文档;(3) 使用文档在云实验室中执行高级命令;(4) 精确控制液体处理仪器,带有低级指令;(5) 处理需要同时使用多个硬件模块和集成不同数据源的复杂科学任务;(6) 解决需要分析先前收集的实验数据的优化问题。

【方法详细介绍】

Coscientist 系统架构

Coscientist 通过与多个模块交互(Web 和文档搜索、代码执行)和执行实验来获得解决复杂问题所需的知识。主模块 ('Planner') 的目标是根据用户输入通过调用下面定义的命令进行规划。Planner 是一个 GPT-4 聊天完成实例,充当助手的角色。初始用户输入以及命令输出被视为发送给 Planner 的用户消息。Planner 的系统提示(定义 LLM 目标的静态输入)以模块化方式设计 1,27,描述为定义作空间的四个命令:“GOOGLE”、“PYTHON”、“DOCUMENTATION” 和 “EXPERIMENT”。Planner 根据需要调用这些命令中的每一个来收集知识。GOOGLE 命令负责使用 “Web searcher” 模块搜索 Internet,该模块本身就是另一个 LLM。

{图 1 | 系统的体系结构。a,Coscientist 由多个交换消息的模块组成。蓝色背景的框表示 LLM 白色框表示不使用 LLM 的模块。b,为演示使用单个模块或其组合时的功能而执行的实验类型。c,使用液体处理器的实验装置图像。模块中,Planner 模块显示为绿色,输入提示显示为红色。UV-Vis,紫外线可见。}

PYTHON 命令允许 Planner 执行计算以使用 'Code execution' 模块准备实验。EXPERIMENT 命令通过 DOCUMENTATION 模块描述的 API 实现 “自动化”。与 GOOGLE 一样,DOCUMENTATION 命令从源向主模块提供信息,在本例中为有关所需 API 的文档。在本研究中,我们展示了与 Opentrons Python API 和 Emerald Cloud Lab (ECL) 符号实验室语言 (SLL) 的兼容性。这些模块共同构成了 Coscientist,它从用户那里接收一个简单的纯文本输入提示(例如,“执行多个 Suzuki 反应”)。这种架构如图 1 所示。

此外,某些命令可以使用子作。GOOGLE 命令能够将提示转换为适当的 Web 搜索查询,针对 Google Search API 运行它们,浏览网页并将答案传回 Planner。同样,DOCUMENTATION 命令执行必要文档(例如,机器人液体处理器或云实验室)的检索和汇总,以便 Planner 调用 EXPERIMENT 命令。

PYTHON 命令使用隔离的 Docker 容器执行代码执行(不依赖于任何语言模型),以保护用户的计算机免受 Planner 请求的任何意外作的影响。重要的是,Planner 背后的语言模型可以在出现软件错误时修复代码。这同样适用于 Automation 模块的 EXPERIMENT 命令,该命令在相应的硬件上执行生成的代码或提供用于手动实验的合成过程。

Web 搜索模块

【结构描述与分析】

为了演示 Web Searcher 模块的功能之一,我们设计了一个由七种化合物组成的测试集,如图 2a 所示。Web Searcher 模块版本表示为 “search-gpt-4” 和 “search-gpt-3.5-turbo”。我们的基线包括 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 1.328 和 Falcon-40B-Instruct29—— 根据 OpenLLM 排行榜 30,它被认为是本实验时最好的开源模型之一。

我们提示每个模型提供详细的化合物合成,并按以下比例对输出进行排序(图 2):

・5 表示非常详细且化学准确的程序描述

・4 表示详细且化学准确的描述,但不含试剂数量

・3 个用于正确的化学描述,不包括分步程序

・2 表示极其模糊或不可行的描述

・1 个错误回答或未遵循指示

・所有低于 3 的分数都表示任务失败。重要的是要注意,3 到 5 之间的所有答案在化学上都是正确的,但提供了不同程度的细节。尽管我们试图更好地将量表正式化,但标记本质上是主观的,因此,标记者之间可能会有所不同。

在非浏览模型中,GPT-4 模型的两个版本表现最佳,Claude v.1.3 表现出相似的性能。GPT-3 的表现明显更差,而 Falcon 40B 在大多数情况下都失败了。所有非浏览模型都错误地合成了布洛芬

图 2c)。硝基苯胺是另一个例子;尽管化学知识的一些概括可能会激发模型提出直接硝化,但这种方法在实验上并不适用,因为它会产生化合物与非常少量的产物的混合物(图 2b)。只有 GPT-4 模型偶尔会提供正确答案。

GPT-4 驱动的 Web Searcher 显着改进了综合规划。它在对乙酰氨基酚、阿司匹林、硝基苯胺和酚酞的所有试验中都达到了最高分(图 2b)。尽管它是唯一一种达到布洛芬最低可接受分数 3 分的模型,但它在乙酸乙酯和苯甲酸方面的表现低于其他一些模型,这可能是因为这些化合物的广泛性。这些结果表明了将 LLM 接地以避免 “幻觉” 的重要性 31。总体而言,支持 GPT-3.5 的 Web Searcher 的性能落后于 GPT-4 竞争对手,主要是因为它没有遵循有关输出格式的具体说明。

扩展 Planner 的作空间以利用反应数据库,例如 Reaxys32 或 SciFinder33,应该会显著提高系统的性能(尤其是对于多步合成)。或者,分析系统以前的语句是提高其准确性的另一种方法。这可以通过高级提示策略来实现,例如 ReAct34、Chain of Thought35 和 Tree of Thoughts36。

文档搜索模块

解决软件组件及其交互的复杂性对于将 LLM 与实验室自动化集成至关重要。一个关键挑战在于使 Coscientist 能够有效地利用技术文档。LLM 可以通过解释和学习相关技术文档来完善他们对常见 API(例如 Opentrons Python API37)的理解。此外,我们还展示了 GPT-4 如何学习如何在 ECL SLL 中编程。

我们的方法包括为 Coscientist 配备针对特定任务量身定制的基本文档(如图 3a 所示),使其能够提高使用 API 的准确性并提高其自动化实验的性能。

信息检索系统通常基于两种候选选择方法:倒排搜索索引和向量数据库 38-41。对于第一个单词,搜索索引中的每个唯一单词都映射到包含它的文档。在推理时,所有包含查询单词的文档都会根据各种手动定义的公式进行选择和排序 42。第二种方法首先用神经网络嵌入文档,或者作为术语频率 - 逆文档频率嵌入向量 43,然后构建向量数据库。从该数据库中检索相似向量发生在推理时,通常使用近似最近邻搜索算法之一 44。当 Transformer 等策略

模型,则有更多机会在本地考虑同义词,而无需像第一种方法那样进行基于同义词的查询扩展 45。

遵循第二种方法,OT-2 API 文档的所有部分都使用 OpenAI 的 ada 模型嵌入。为了确保正确使用 API,为 Planner 的查询生成了 ada 嵌入,并通过基于距离的向量搜索选择文档部分。事实证明,这种方法对于为 Coscientist 提供有关执行化学反应所需的加热器 - 振荡器硬件模块的信息至关重要(图 3b)。

将这种方法应用于更多样化的机器人生态系统(例如 ECL)时,会出现更大的挑战。尽管如此,我们可以探索提供有关 ECL SLL 的信息的有效性,目前 GPT-4 模型尚不清楚这些信息。我们对 SLL 进行了三项独立的调查:(1) 提示功能;(2) 提示到 SLL;(3) 提示采样。这些研究在补充信息部分 'ECL 实验 ' 中有详细说明。

对于调查 1,我们为 Docs 搜索器提供了 ECL 的文档指南,该指南与运行 experiments46 的所有可用函数有关。图 3c 总结了用户向系统提供简单提示的示例,其中 Planner 接收相关的 ECL 函数。在所有情况下,都会为任务正确标识函数。

图 3c、d 继续描述调查 2,即提示到 SLL 调查。为任务选择一个合适的函数,并通过单独的 GPT-4 模型传递文档以执行代码保留和摘要。处理完完整的文档后,Planner 会收到使用信息,以便在 SLL 中提供 EXPERIMENT 代码。例如,我们提供了一个需要 'ExperimentHPLC' 函数的简单示例。正确使用此功能需要熟悉 SLL 中定义的特定 'Models' 和 'Objects'。生成的代码在 ECL 成功执行;这在补充信息中可用。该样品是咖啡因标准样品。其他参数(色谱柱、流动相、梯度)由 ECL 的内部软件确定(高级描述见补充信息部分 “HPLC 实验参数估计”)。实验结果在 “补充信息” 部分 “云实验室的 HPLC 实验结果” 中提供。可以看到气泡

与分析物溶液一起进样。这证明了在云实验室中开发自动化质量控制技术的重要性。需要利用网络搜索来指定和 / 或优化其他实验参数(色谱柱填料、缓冲系统、梯度等)的后续实验,以优化实验结果。有关此调查的更多详细信息,请参阅补充信息部分 “ECL 文档搜索结果分析”。

通过提供可用样品目录进行单独的即时样品调查,即调查 3,从而能够识别 ECL 货架上的相关储备液。为了展示此功能,我们提供了 Docs 搜索器模块,其中包含目录中的所有 1,110 个 Model 样本。只需提供一个搜索词(例如,“Acetonitrile”),即可返回所有相关样品。这在 补充信息 中也可用。

控制实验室硬件

访问文档使我们能够为 Coscientist 提供足够的信息,以便在物理世界中进行实验。为了启动调查,我们选择了 Opentrons OT-2,这是一款开源液体处理器,具有有据可查的 Python API。其文档中的 “入门” 页面在系统提示符中提供给 Planner。其他页面使用上述方法进行矢量化。对于这项调查,我们没有授予对 Internet 的访问权限(图 4a)。

我们从简单的板布局特定实验开始。自然语言中的直接提示,例如 “用您选择的一种颜色为每隔一行着色”,从而产生准确的协议。当由机器人执行时,这些协议与请求的提示非常相似(图 4b-e)。

最终,我们旨在评估系统同时集成多个模块的能力。具体来说,我们提供了 “UVVIS” 命令,该命令可用于将微孔板传递到在紫外 - 可见光波长范围内工作的读板器。为了评估 Coscientist 使用多种硬件工具的能力,我们设计了一个玩具任务;在 96 孔板的 3 个孔中,有三种不同的颜色 —— 红色、黄色和蓝色。系统必须在没有任何事先信息的情况下确定颜色及其在印版上的位置。

合作科学家的第一个行动是制备原始溶液的小样本(扩展数据图 1)。然后要求合作科学家进行紫外 - 可见光测量(补充信息部分 “解决颜色问题” 和补充图 1)。完成后,Coscientist 获得了一个文件名,其中包含一个 NumPy 数组,其中包含微孔板每个孔的光谱。Coscientist 随后生成了 Python 代码来识别具有最大吸光度的波长,并使用这些数据正确解决了这个问题,尽管它需要一个指导提示,要求它思考不同颜色如何吸收光。

集成化学实验设计

我们评估了 Coscientist 通过使用来自互联网的数据、执行必要的计算并最终为液体处理器编写代码来规划催化交叉偶联实验的能力。为了增加复杂性,我们要求 Coscientist 使用 GPT-4 训练数据收集截止后发布的 OT-2 加热器 - 振荡器模块。提供给 Coscientist 的可用命令和作如图 5a 所示。虽然我们的设置尚未完全自动化(板是手动移动的),但不涉及人工决策。

Coscientist 复杂化学实验能力的测试挑战设计如下。(1) Coscientist 配备了一个液体处理器,配备了两个微孔板(源板和目标板)。(2) 源板包含多种试剂的储备溶液,包括苯基乙炔和苯硼酸、多种芳基卤化物偶联剂、两种催化剂、两种碱和溶解样品的溶剂(图 5b)。(3) 目标板安装在 OT-2 加热器 - 振荡器模块上(图 5c)。(4) 合作科学家的目标是在可用资源的情况下成功设计和执行 Suzuki-Miyaura 和 Sonogashira 偶联反应的方案。

首先,Coscientist 在互联网上搜索有关所请求反应、它们的化学计量和条件的信息(图 5d)。为相应的反应选择正确的偶联伴侣。设计和执行请求的实验,Coscientist 的策略在运行之间发生变化(图 5f)。重要的是,该系统不会犯化学错误(例如,它从不选择苯硼酸进行 Sonogashira 反应)。有趣的是,

碱 DBU (1,8 - 二氮杂双环 [5.4.0] undec-7-ene) 更常与 PEPPSI-IPr (PEPPSI,吡啶增强催化剂制备稳定和引发;IPr,1,3 - 双(2,6 - 二异丙基苯基)咪唑 - 2 - 亚基)配合物,在 Sonogashira 反应实验中具有该优先转换;同样,溴苯更常被用于 Suzuki 而不是 Sonogashira 联轴器。此外,该模型还可以为特定选择提供理由(图 5g),证明能够使用反应性和选择性等概念进行作(更多详细信息请参阅补充信息部分 “多次运行的行为分析”)。此功能突出了一个潜在的未来用例,用于分析通过多次执行实验来分析使用的 LLM 的推理。尽管 Web Searcher 访问了各种网站(图 5h),但总体而言,Coscientist 在大约一半的情况下检索了 Wikipedia 页面;值得注意的是,美国化学学会和英国皇家化学学会期刊位列前五。

然后,Coscientist 计算所有反应物的所需体积,并编写一个 Python 协议,用于在 OT-2 机器人上运行实验。但是,使用了不正确的加热器 - 振荡器模块方法名称。犯了这个错误后,Coscientist 使用 Docs 搜索器模块来查阅 OT-2 文档。接下来,Coscientist 将协议修改为更正后的版本,该版本成功运行(扩展数据图 2)。随后对反应混合物进行的气相色谱 - 质谱分析揭示了两种反应的目标产物的形成。对于 Suzuki 反应,色谱图中在 9.53 min 处有一个信号,其中质谱与联苯的质谱匹配(相应的分子离子质荷比和 76 Da 处的碎片离子)(图 5i)。对于 Sonogashira 反应,我们在 12.92 分钟处看到一个信号,具有匹配的分子离子质荷比;碎裂模式看起来也非常接近参比化合物的光谱图(图 5j)。详细信息在补充信息部分 “实验研究结果” 中。

虽然这个例子需要 Coscientist 来推断哪些试剂最合适,但我们当时的实验能力限制了可能探索的化合物空间。为了解决这个问题,我们进行了几次计算实验,以评估如何使用类似的方法从大型化合物库中检索化合物 47。图 5e 显示了 Coscientist 在五种常见有机转化中的表现,结果取决于

查询反应和 itsspecificrun (GitHubrepository 有更多详细信息),对于每个反应,Coscientist 的任务是从简化的分子输入行输入系统 (SMILES) 数据库中生成化合物的反应。为了完成这项任务,Coscientist 使用 RDKit 化学信息学包进行网络搜索和代码执行。

{图 5ICross-coupling Suzuki 和 Sonogashira 反应实验访问了 URLs.i,Coscientist 设计和执行的 Suzuki 反应的总离子电流 (TIC) 色谱图.a,Coscientist 的混合物概述(上图)和纯标准品,质谱 9.53min(中间配置.b,可用成分(DMF,二甲基甲酰胺:DiPP,面板代表 2,6 - 二丙基苯基的预期反应产物和质谱).c,液体处理器 setup.d,求解合成纯标准品(下图.j. Sonogashirareacion 问题的色谱图.e,大混合物的试剂选择性能比较(上图)和纯标准品,12.92 分钟的质谱(中间数据)f. 试剂选择比较.g.g. 概述面板,代表选择各种芳基卤化物时所做理由的预期反应产物和质谱。h,纯标准品的频率(下图)。Rel,相对的。}

化学推理能力

该系统展示了可观的推理能力,能够请求必要的信息,解决多步骤问题并生成用于实验设计的代码。一些研究人员

相信社区才刚刚开始了解 GPT-4 的所有能力(参考文献 48)。OpenAI 已经表明,GPT-4 可以在 Alignment Research Centerl4 进行的初始红队测试期间,依靠其中一些功能在物理世界中采取行动

评估智能代理的响应能力的可能策略之一是测试它是否可以使用以前收集的数据来指导未来的行动。在这里,我们专注于 Pd 催化转化的多变量设计和优化,展示了 Coscientist 处理涉及数千个示例的真实世界实验活动的能力。而不是将 LLM 连接到

优化算法,我们的目标是直接使用 Coscientist。

我们选择了两个包含完全映射的反应条件空间的数据集,其中产量可用于所有变量组合。Perera 等人收集的一个 isaSuzukireaction 数据集,其中这些反应是用不同的配体、试剂 / 碱基和溶剂流动进行的(图 6a)。另一个是 Doyle 的 Buchwald-Hartwig 反应

{图 6 | 优化实验的结果.a.a. 分析了流动合成数据集中的一般反应方案 incand d.b. 用于计算归一化优势值的数学表达式.c. 用于执行优化过程的三种方法的比较(有先验信息的 GPT-4、没有先验信息的 GPT-4 和没有先验信息的 GPT-3.5).d,NMA 和归一化优势的导数。}

评估的值 inc,left 和 center panels.e,在 fandg.f 中分析的 C-Ncrosscoupling 数据集的反应,使用化合物名称和 SMILES 字符串作为化合物表示的两种方法的比较。g.Coscientist 可以推断化合物的电子性质,即使这些化合物表示为 SMILES 字符串。DMSO,二甲基亚砜。数据集 “(图 6e),其中记录了配体、添加剂和碱基的变化。此时,Coscientist 提出的任何反应都将在这些数据集中,并作为查找表访问。

优化算法,我们的目标是直接使用 Coscientist。

我们选择了两个包含完全映射的反应条件空间的数据集,其中产量可用于所有变量组合。Perera 等人收集的一个 isaSuzukireaction 数据集,其中这些反应是用不同的配体、试剂 / 碱基和溶剂流动进行的(图 6a)。另一个是 Doyle 的 Buchwald-Hartwig 反应

我们将 Coscientist 的化学推理能力测试设计为一个游戏,目标是最大限度地提高反应产率。游戏的动作包括选择特定的反应条件,并给出合理的化学解释,同时列出玩家的观察结果

关于上一次迭代的结果。唯一的硬性规定是播放器提供以 JavaScript 对象表示法 (JSON) 格式编写的作。如果无法解析 JSON 文件,则系统会提醒播放器未能遵循指定的数据格式。玩家最多有 20 次迭代(分别占第一个和第二个数据集总空间的 5.2% 和 6.9%)来完成游戏。

我们使用标准化优势指标评估 Coscientist 的表现(图 6b)。Advantage 定义为给定迭代 yield 与平均 yield (优于随机策略) 之间的差异。标准化优势度量优势与最大优势之间的比率(即最大收益与平均收益之间的差值)。如果达到最大产量,则标准化优势指标的值为 1,如果系统表现出完全随机的行为,则为 0,如果此步骤的性能比随机差,则小于 0。每次迭代的归一化优势增加证明了 Coscientist 的化学推理能力。可以使用标准化最大优势 (NMA) 来评估给定迭代的最佳结果,NMA 是在当前步骤之前实现的最大优势的标准化值。由于 NMA 不会减少,因此有价值的观察结果以其增长速率和最终点的形式出现。最后,在第一步中,NMA 和标准化优势的值相等,描绘了模型的先验知识(或缺乏先验知识),而无需收集任何数据。

对于 Suzuki 数据集,我们比较了三种不同的方法:(1) GPT-4 与提示中包含的先验信息(由来自随机试剂组合的 10 个产量组成);(2) GPT-4 的;或 (3) 没有任何事先信息的 GPT-3.5(图 6c)。将 GPT-4 与包含和排除先验信息进行比较时,很明显,对前一种情况的初步猜测更好,考虑到所提供的有关系统反应性的信息,这与我们的预期一致。值得注意的是,当排除先验信息时,有一些较差的初始猜测,而当模型具有先验信息时,则没有。但是,在极限处,模型会收敛到相同的 NMA。GPT-3.5 模型图的数据点数量非常有限,主要是因为它无法按照提示中的请求以正确的 JSON 架构输出消息。目前尚不清楚 GPT-4 训练数据是否包含来自这些数据集的任何信息。如果是这样,人们会预期最初的模型猜测会比我们观察到的要好。

归一化优势值随着时间的推移而增加,这表明该模型可以有效地重用获得的信息,以提供更具体的反应性指导。评估导数图(图 6d)没有显示有和没有输入先验信息的实例之间有任何显着差异。

有许多已建立的化学反应优化算法。与标准贝叶斯优化相比 52,两种基于 GPT-4 的方法都显示出更高的 NMA 和归一化优势值(图 6c)。补充信息部分 “贝叶斯优化过程” 中提供了所用贝叶斯优化策略的详细概述。据观察,贝叶斯优化的归一化优势线保持在零附近,并且不会随着时间的推移而增加。这可能是由于这两种方法的探索 / 开发平衡不同造成的,并且可能不代表它们的性能。为此,应使用 NMA 图。更改初始样本的数量并不能改善贝叶斯优化轨迹(扩展数据图 3a)。最后,针对每个独特的衬底配对观察到这种性能趋势(扩展数据图 3b)。

对于 Buchwald-Hartwig 数据集(图 6e),我们比较了一个没有先验信息对化合物名称或化合物 SMILES 字符串进行作的 GPT-4 版本。很明显,这两个实例的性能水平非常相似(图 6f)。然而,在某些情况下,该模型仅通过提供这些化合物的 SMILES 字符串来证明其反应性的能力(图 6g)。

讨论

在本文中,我们提出了一个人工智能代理系统的概念验证,该系统能够(半)自主地设计、规划和多步骤执行科学实验。我们的系统展示了先进的推理和实验设计能力,解决了复杂的科学问题并生成了高质量的代码。当 LLM 获得相关研究工具(例如互联网和文档搜索、编码环境和机器人实验平台)时,这些功能就会出现。为 LLM 开发更集成的科学工具有可能大大加速新发现。

用于进行科学实验的新型智能代理系统和自动化方法的开发引发了对安全性和潜在军民两用后果的潜在担忧,特别是与非法活动扩散和安全威胁有关的担忧。通过确保合乎道德和负责任地使用这些强大的工具,我们将继续探索 LLM 在推进科学研究方面的巨大潜力,同时降低与滥用相关的风险。补充信息部分 “安全影响:双重用途研究” 中提供了 Coscientist 的简短军民两用研究。

技术使用披露

这份手稿的预印本版本的写作得到了 ChatGPT 的协助(具体来说,GPT-4 用于语法和错别字)。所有作者已阅读、更正和验证本手稿和补充信息中提供的所有信息。

在线内容

任何方法、其他参考文献、Nature Portfolio 报告摘要、源数据、扩展数据、补充信息、致谢、同行评审信息;作者贡献和利益争夺的详细信息;以及数据和代码可用性声明,请访问 Autonomous chemical research with large language models | Nature


网站公告

今日签到

点亮在社区的每一天
去签到