首页热点时事 GPT‑5.4+化学智能体:OpenAI让AI自主优化药物反应:同步上线生命科学基准LifeSciBench

GPT‑5.4+化学智能体:OpenAI让AI自主优化药物反应:同步上线生命科学基准LifeSciBench

2026-06-19 0

编辑丨&

GPT‑5.4+化学智能体，OpenAI让AI自主优化药物反应，同步上线生命科学基准LifeSciBench

智能系统正日益具备执行科学任务的能力。但它们要面对的生命科学里最难的，往往不是单点答案，而是多步判断、证据取舍、实验设计和不确定性处理。

生命科学中的 AI，最有说服力的时刻，往往不是在答题，而是在实验里拿出结果。2026 年 6 月 17 日，OpenAI 向科学界分享了 GPT-5.4 的一项惊人突破，他们将自主 AI 科学家的视野扩展到了药物化学领域。

在这项工作里，OpenAI 把 GPT-5.4 接到 Molecule.one 的 Maria 系统和高通量实验室上，让模型生成研究提案、设计实验、分析数据，并继续提出下一轮实验。人类化学家的角色仍然关键，但重心已经从手动试错转向操作模型提出可检验的假设，再由实验去筛。

图示：Maria 实验室。

AI 自主优化药物反应

该工作瞄准的是药物化学领域一个实用但棘手的反应问题，Chan–Lam coupling。OpenAI 解释说，这类反应对药物化学很重要，因为它能形成常见的碳—氮键，但历史上在某些底物上表现一直偏低，限制了可探索分子的范围。在 GPT-5.4 提出的多个方案里，最有价值的是 OAI-M1-03。

OAI-M1-03建议使用温和氧化剂如TEMPO来提升 Chan-Lam coupling 在 sulfonamide synthesis 中的性能。化学家们对这一建议既令人惊讶又有趣，相关的发现已被 OpenAI 发表于文章之中。

论文链接：https://cdn.openai.com/pdf/4934b0ed-3de2-4ac5-835c-97604d52dea7/tempo-improves-generality-and-decreases-oxidative-deboronation.pdf

关于此工作，人类最大的修正就是避免将二甲基硫酸二酯（DMSO）作为溶剂，因为化学家担心它可能与用于比较的更强氧化剂反应。整个过程历时三个月。

在两个周期中，Maria 共运行了 10,080 次反应——超过一个化学家每天做三个反应做十年的总量。接着实验结果回流给模型，再导向更聚焦的第二轮测试。最后，人类化学家再把最有希望的结果拿到更接近真实流程的 bench scale 上验证。

图示：TEMPO 对两种产物的产率提升。

团队发现 TEMPO 可被更便宜的 4 羟基 TEMPO 取代，性能损失较小。后续人类化学家在实验台尺度手工复现了代表性反应，观察到14 对底物中有 11 对产率有所提升；8 对的增长超过了两倍。

图示：TEMPO 改善实验台尺度的产品形成。

四位外部化学专家审阅了描述 OAI-M1-03 的预印本。他们一致认为 OpenAI 的研究结果值得与科学界分享。下一步团队的尝试路线将会在独立实验室中复刻该结果，并邀请化学家确认结果的泛用性。

衡量研究的尺度

如果模型已经能在具体化学任务里提出有价值的假设、组织实验并得到可复现结果，那么我们该怎样更系统地衡量它在更广泛生命科学工作中的能力？

当下的测试基准并没有能力覆盖这些内容。故而，OpenAI 在 2026 年 6 月 17 日设计并推出了 LifeSciBench，专为这种专业工作流服务。

它是由 173 位具备博士训练、并有生物技术或制药背景的专家共同参与构建的benchmark，包含 750 个任务、1,062 个任务材料和 19,020 条评分细则，覆盖七类工作流和七个生物学领域。官方还强调，79% 的任务需要多步推理，53% 的任务必须读取或综合至少一个外部材料。

图示：现实生活的科学任务、多步骤推理以及专家评审和评分。

LifeSciBench 的设计想法是让模型像一个真正的研究协作者那样工作，而不是只会在纸面上答题。任务会给出科学提示、上下文或附件，再要求自由回答；评分也不是只看最终结论，而是拆成若干项科学陈述、计算、判断、理由和格式要求。

OpenAI 在文章里把这种任务定位为现实生命科学工作的一部分，包括证据处理、分析、设计与优化、科学推理、验证与运营、转化，以及科学沟通。也正因为它更接近真实研究流程，模型的表现才会在不同任务类型之间拉开差距。

图示：LifeSciBench 的总体得分对比。

还未到彻底自动化的时代

在这两篇文章中，OpenAI 其实都在传达同一种方法论：先把研究能力的边界测清楚，再把模型送进真实工作流里，检验它是否真的能帮研究者往前推进。

LifeSciBench 只是起点，真正要看的是模型在实时研究工作流里的长期表现，也就是在真实研究环境里，面对多轮推理、反馈和实验跟进时，是否还能持续创造价值。AI chemist正好是这个方向上的一个早期实例。

但这不能证明 AI 能独立运行一个化学研究项目，从头到尾。人工判断依然至关重要。相关领域——化学、医学等——需要谨慎再谨慎地对待。下一步仍是测试更多材料，并完成成果上的复现。

原文链接：https://openai.com/index/ai-chemist-improves-reaction/

https://openai.com/index/introducing-life-sci-bench/

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

人形机器人不再走走停停：Current Robotics发布全身灵巧操作模型Curr-0

Anthropic CEO 阿莫迪：公司治理机构有权随时解雇我