OpenAI发布LifeSciBench基准:衡量AI在真实生命科学研究中的实用性
•3 阅读•4分钟•前沿
OpenAI生成式AIGPT‑RosalindLifeSciBench
•3 阅读•4分钟•前沿

背景与意义
随着大模型在文本生成和代码辅助方面取得突破,业界开始探索其在专业科研领域的实际价值。传统的AI评测往往聚焦于单一事实回忆或结构化问答,难以反映生命科学研究的多步骤、证据不完整和不确定性特征。为填补这一空白,OpenAI 与多位拥有药企研发经验的博士级科学家合作,推出了 LifeSciBench——一套面向真实科研工作流的评估基准。
基准设计
- 任务规模:750 项任务,涉及证据处理、分析、设计与优化、科学推理、验证与运营、转化以及科学沟通七大工作流。
- 领域覆盖:七个生物学子域,包括基因编辑、药物化学、结构生物学等。
- 专家参与:173 位行业科学家撰写任务,453 位独立审稿人进行双轮评审,任务通过率超过 90%。
- 评估维度:每项任务配备约 25 条细粒度评分标准,累计 19,020 条 rubric 条目,涵盖答案的正确性、论证完整性、实验可行性及风险提示等。
任务特点
- 多步骤推理:79% 任务需完成多于两步的推理,平均四步。
- 文献与数据文件:1,062 份附件包括图表、PDF、序列文件、结构文件等,53% 任务要求模型解读至少一个附件。
- 不确定性处理:任务设定常见科研不确定因素,要求模型给出置信度或风险评估。
评测结果概览
OpenAI 将两代模型 GPT‑5.5 与新推出的 GPT‑Rosalind 在基准上进行对比:
- 整体通过率:从 25.7% 提升至 36.1%。
- 科学沟通:通过率从 56.3% 提升至 71.1%。
- 转化(Bench‑to‑Bedside):从 36.8% 提升至 57.7%,显示模型在将前临床证据映射到临床意义上的进步。
然而,在 设计/优化 与 分析 工作流的通过率仍低于 31%,尤其是涉及复杂图形或序列文件的任务,模型的表现仍显不足。
关键洞察
- 文献解读仍是瓶颈:模型在从复杂图表、结构文件中提取关键信息的准确率仅在 28% 左右。
- 精确输出难度大:涉及数值、序列或结构输出的任务通过率不足 25%,说明在需要高精度答案的科研场景仍需改进。
- 专家评分体系有效:即使模型未完全通过,约 14% 任务仍获得超过 50% 的 rubric 分值,表明模型能够提供部分有价值的思路。
未来路线
LifeSciBench 旨在成为 AI 与生命科学交叉评测的标准平台,后续计划:
- 扩展任务覆盖:加入代谢组学、单细胞分析等新兴领域。
- 实时实验验证:将基准任务嵌入真实实验室工作流,测评模型对实验设计的实际影响。
- 开放社区贡献:通过 GitHub 与 Hugging Face 开放任务提交与评审通道,鼓励学术界与产业界共同完善基准。
结语
LifeSciBench 的发布标志着 AI 评测从“能否回答”迈向“能否在科研决策中提供可靠帮助”。它不仅为模型研发指明了短板,也为药企、科研机构提供了量化 AI 实际价值的工具。随着后续模型在证据解读和精细推理上的突破,AI 有望在药物发现、基因治疗等关键环节发挥更大作用。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。