OpenAI发布LifeSciBench基准:衡量AI在真实生命科学研究中的实用性

3 阅读4分钟前沿
OpenAI发布LifeSciBench基准:衡量AI在真实生命科学研究中的实用性

背景与意义

随着大模型在文本生成和代码辅助方面取得突破,业界开始探索其在专业科研领域的实际价值。传统的AI评测往往聚焦于单一事实回忆或结构化问答,难以反映生命科学研究的多步骤、证据不完整和不确定性特征。为填补这一空白,OpenAI 与多位拥有药企研发经验的博士级科学家合作,推出了 LifeSciBench——一套面向真实科研工作流的评估基准。

基准设计

  • 任务规模:750 项任务,涉及证据处理、分析、设计与优化、科学推理、验证与运营、转化以及科学沟通七大工作流。
  • 领域覆盖:七个生物学子域,包括基因编辑、药物化学、结构生物学等。
  • 专家参与:173 位行业科学家撰写任务,453 位独立审稿人进行双轮评审,任务通过率超过 90%。
  • 评估维度:每项任务配备约 25 条细粒度评分标准,累计 19,020 条 rubric 条目,涵盖答案的正确性、论证完整性、实验可行性及风险提示等。

任务特点

  1. 多步骤推理:79% 任务需完成多于两步的推理,平均四步。
  2. 文献与数据文件:1,062 份附件包括图表、PDF、序列文件、结构文件等,53% 任务要求模型解读至少一个附件。
  3. 不确定性处理:任务设定常见科研不确定因素,要求模型给出置信度或风险评估。

评测结果概览

OpenAI 将两代模型 GPT‑5.5 与新推出的 GPT‑Rosalind 在基准上进行对比:

  • 整体通过率:从 25.7% 提升至 36.1%。
  • 科学沟通:通过率从 56.3% 提升至 71.1%。
  • 转化(Bench‑to‑Bedside):从 36.8% 提升至 57.7%,显示模型在将前临床证据映射到临床意义上的进步。

然而,在 设计/优化分析 工作流的通过率仍低于 31%,尤其是涉及复杂图形或序列文件的任务,模型的表现仍显不足。

关键洞察

  • 文献解读仍是瓶颈:模型在从复杂图表、结构文件中提取关键信息的准确率仅在 28% 左右。
  • 精确输出难度大:涉及数值、序列或结构输出的任务通过率不足 25%,说明在需要高精度答案的科研场景仍需改进。
  • 专家评分体系有效:即使模型未完全通过,约 14% 任务仍获得超过 50% 的 rubric 分值,表明模型能够提供部分有价值的思路。

未来路线

LifeSciBench 旨在成为 AI 与生命科学交叉评测的标准平台,后续计划:

  1. 扩展任务覆盖:加入代谢组学、单细胞分析等新兴领域。
  2. 实时实验验证:将基准任务嵌入真实实验室工作流,测评模型对实验设计的实际影响。
  3. 开放社区贡献:通过 GitHub 与 Hugging Face 开放任务提交与评审通道,鼓励学术界与产业界共同完善基准。

结语

LifeSciBench 的发布标志着 AI 评测从“能否回答”迈向“能否在科研决策中提供可靠帮助”。它不仅为模型研发指明了短板,也为药企、科研机构提供了量化 AI 实际价值的工具。随着后续模型在证据解读和精细推理上的突破,AI 有望在药物发现、基因治疗等关键环节发挥更大作用。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。