2026年过半: 具身智能CEO们在聊什么?
2026-06-17
2026-06-19 0
编辑丨&

智能系统正日益具备执行科学任务的能力。但它们要面对的生命科学里最难的,往往不是单点答案,而是多步判断、证据取舍、实验设计和不确定性处理。
生命科学中的 AI,最有说服力的时刻,往往不是在答题,而是在实验里拿出结果。2026 年 6 月 17 日,OpenAI 向科学界分享了 GPT-5.4 的一项惊人突破,他们将自主 AI 科学家的视野扩展到了药物化学领域。
在这项工作里,OpenAI 把 GPT-5.4 接到 Molecule.one 的 Maria 系统和高通量实验室上,让模型生成研究提案、设计实验、分析数据,并继续提出下一轮实验。人类化学家的角色仍然关键,但重心已经从手动试错转向操作模型提出可检验的假设,再由实验去筛。
图示:Maria 实验室。
AI 自主优化药物反应
该工作瞄准的是药物化学领域一个实用但棘手的反应问题,Chan–Lam coupling。OpenAI 解释说,这类反应对药物化学很重要,因为它能形成常见的碳—氮键,但历史上在某些底物上表现一直偏低,限制了可探索分子的范围。在 GPT-5.4 提出的多个方案里,最有价值的是 OAI-M1-03。
OAI-M1-03建议使用温和氧化剂如TEMPO来提升 Chan-Lam coupling 在 sulfonamide synthesis 中的性能。化学家们对这一建议既令人惊讶又有趣,相关的发现已被 OpenAI 发表于文章之中。
论文链接:https://cdn.openai.com/pdf/4934b0ed-3de2-4ac5-835c-97604d52dea7/tempo-improves-generality-and-decreases-oxidative-deboronation.pdf
关于此工作,人类最大的修正就是避免将二甲基硫酸二酯(DMSO)作为溶剂,因为化学家担心它可能与用于比较的更强氧化剂反应。整个过程历时三个月。
在两个周期中,Maria 共运行了 10,080 次反应——超过一个化学家每天做三个反应做十年的总量。接着实验结果回流给模型,再导向更聚焦的第二轮测试。最后,人类化学家再把最有希望的结果拿到更接近真实流程的 bench scale 上验证。
图示:TEMPO 对两种产物的产率提升。
团队发现 TEMPO 可被更便宜的 4 羟基 TEMPO 取代,性能损失较小。后续人类化学家在实验台尺度手工复现了代表性反应,观察到14 对底物中有 11 对产率有所提升;8 对的增长超过了两倍。
图示:TEMPO 改善实验台尺度的产品形成。
四位外部化学专家审阅了描述 OAI-M1-03 的预印本。他们一致认为 OpenAI 的研究结果值得与科学界分享。下一步团队的尝试路线将会在独立实验室中复刻该结果,并邀请化学家确认结果的泛用性。
衡量研究的尺度
如果模型已经能在具体化学任务里提出有价值的假设、组织实验并得到可复现结果,那么我们该怎样更系统地衡量它在更广泛生命科学工作中的能力?
当下的测试基准并没有能力覆盖这些内容。故而,OpenAI 在 2026 年 6 月 17 日设计并推出了 LifeSciBench,专为这种专业工作流服务。
它是由 173 位具备博士训练、并有生物技术或制药背景的专家共同参与构建的benchmark,包含 750 个任务、1,062 个任务材料和 19,020 条评分细则,覆盖七类工作流和七个生物学领域。官方还强调,79% 的任务需要多步推理,53% 的任务必须读取或综合至少一个外部材料。
图示:现实生活的科学任务、多步骤推理以及专家评审和评分。
LifeSciBench 的设计想法是让模型像一个真正的研究协作者那样工作,而不是只会在纸面上答题。任务会给出科学提示、上下文或附件,再要求自由回答;评分也不是只看最终结论,而是拆成若干项科学陈述、计算、判断、理由和格式要求。
OpenAI 在文章里把这种任务定位为现实生命科学工作的一部分,包括证据处理、分析、设计与优化、科学推理、验证与运营、转化,以及科学沟通。也正因为它更接近真实研究流程,模型的表现才会在不同任务类型之间拉开差距。
图示:LifeSciBench 的总体得分对比。
还未到彻底自动化的时代
在这两篇文章中,OpenAI 其实都在传达同一种方法论:先把研究能力的边界测清楚,再把模型送进真实工作流里,检验它是否真的能帮研究者往前推进。
LifeSciBench 只是起点,真正要看的是模型在实时研究工作流里的长期表现,也就是在真实研究环境里,面对多轮推理、反馈和实验跟进时,是否还能持续创造价值。AI chemist正好是这个方向上的一个早期实例。
但这不能证明 AI 能独立运行一个化学研究项目,从头到尾。人工判断依然至关重要。相关领域——化学、医学等——需要谨慎再谨慎地对待。下一步仍是测试更多材料,并完成成果上的复现。
原文链接:https://openai.com/index/ai-chemist-improves-reaction/
https://openai.com/index/introducing-life-sci-bench/