OpenAI发布GeneBench‑Pro基准:检验AI在基因组学与科研推理的系统能力

0 阅读4分钟前沿
OpenAI发布GeneBench‑Pro基准:检验AI在基因组学与科研推理的系统能力

背景

OpenAI 在 2026 年推出的 GeneBench‑Pro 是继首版 GeneBench 之后的升级版,旨在填补现有 AI 评测只能测试记忆或单步推理的空白。科研数据往往噪声多、指令不明,研究者需要在模糊信息中做出关键判断——这正是当前大模型的薄弱环节。GeneBench‑Pro 通过 129 题、10 大域、21 个子域的真实‑合成混合数据,模拟学术实验室的全流程分析,首次提供系统化的“研究判断”测评标准。

基准设计要点

  • 研究味觉(research taste):每题给出杂乱数据、简短实验背景以及需决策的下游估计量,模型必须自行探索、选取分析方法、迭代实验并给出最终答案。
  • 合成数据可控:所有数据均由已知因果结构生成,确保不同主观分析路径仍能得到统一数值结果,避免因人为偏好导致的评测漏洞。
  • 多层次评估:从低层次的统计检验到高层次的因果推断、风险‑收益决策,分为四个推理等级,测量模型在不同深度上的表现。

数据集构成(摘选)

领域题目数量
统计遗传学17
人口遗传学21
定量遗传学17
调控组学17
功能基因组学9
蛋白质组学7
临床与药理基因组学26
癌症基因组学10
微生物基因组学3
法医学遗传学26

评估结果

  • GPT‑5.6 Sol(最高推理层):通过率 28.7%,开启 Pro 模式后提升至 31.5%。
  • GPT‑5(原始模型):通过率不足 5%。
  • 开源模型(GLM 5.2 等):在同层次上仅能匹配对应 GPT‑5 的表现,差距明显。
  • 计算成本:在最高层次,GPT‑5.6 Sol 使用约 2/3 的 token 即完成近 6 倍的题目,相比 GPT‑5.2 更高效。

“这些问题如果交给研究生完成,需要 20‑40 小时,成本数千美元。当前模型虽仍不可靠,但已能在数美元的推理成本内完成初步分析,具备显著的经济价值。” — OpenAI 研究团队

行业意义

  1. 科研自动化的可行性验证:GeneBench‑Pro 揭示了大模型在复杂科研决策链中的潜在瓶颈,也提供了量化改进路径。
  2. 推动基因组学 AI 应用落地:随着测序成本下降,数据分析成为制约因素,能够在模型层面辅助实验设计、风险评估,将显著加速药物靶点筛选与临床转化。
  3. 评测生态的标准化:公开 10 题代表案例至 Hugging Face,计划在 50 题子集上开放第三方评测,促进社区共建更严谨的科研基准。

展望

OpenAI 表示,GeneBench‑Pro 只是第一步,后续将扩展至更高维度的多组学、时空数据以及跨学科的系统生物学任务。同时,随着模型在推理层次的提升,AI 有望从“工具”转向“合作伙伴”,在假设生成、实验规划乃至论文撰写全流程中发挥关键作用。


本文依据 OpenAI 官方发布的研究报告撰写,旨在为业界提供客观、深入的基准解读。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。