OpenAI发布GeneBench‑Pro基准：检验AI在基因组学与科研推理的系统能力

背景

OpenAI 在 2026 年推出的 GeneBench‑Pro 是继首版 GeneBench 之后的升级版，旨在填补现有 AI 评测只能测试记忆或单步推理的空白。科研数据往往噪声多、指令不明，研究者需要在模糊信息中做出关键判断——这正是当前大模型的薄弱环节。GeneBench‑Pro 通过 129 题、10 大域、21 个子域的真实‑合成混合数据，模拟学术实验室的全流程分析，首次提供系统化的“研究判断”测评标准。

基准设计要点

研究味觉（research taste）：每题给出杂乱数据、简短实验背景以及需决策的下游估计量，模型必须自行探索、选取分析方法、迭代实验并给出最终答案。
合成数据可控：所有数据均由已知因果结构生成，确保不同主观分析路径仍能得到统一数值结果，避免因人为偏好导致的评测漏洞。
多层次评估：从低层次的统计检验到高层次的因果推断、风险‑收益决策，分为四个推理等级，测量模型在不同深度上的表现。

数据集构成（摘选）

领域	题目数量
统计遗传学	17
人口遗传学	21
定量遗传学	17
调控组学	17
功能基因组学	9
蛋白质组学	7
临床与药理基因组学	26
癌症基因组学	10
微生物基因组学	3
法医学遗传学	26

评估结果

GPT‑5.6 Sol（最高推理层）：通过率 28.7%，开启 Pro 模式后提升至 31.5%。
GPT‑5（原始模型）：通过率不足 5%。
开源模型（GLM 5.2 等）：在同层次上仅能匹配对应 GPT‑5 的表现，差距明显。
计算成本：在最高层次，GPT‑5.6 Sol 使用约 2/3 的 token 即完成近 6 倍的题目，相比 GPT‑5.2 更高效。

“这些问题如果交给研究生完成，需要 20‑40 小时，成本数千美元。当前模型虽仍不可靠，但已能在数美元的推理成本内完成初步分析，具备显著的经济价值。” — OpenAI 研究团队

行业意义

科研自动化的可行性验证：GeneBench‑Pro 揭示了大模型在复杂科研决策链中的潜在瓶颈，也提供了量化改进路径。
推动基因组学 AI 应用落地：随着测序成本下降，数据分析成为制约因素，能够在模型层面辅助实验设计、风险评估，将显著加速药物靶点筛选与临床转化。
评测生态的标准化：公开 10 题代表案例至 Hugging Face，计划在 50 题子集上开放第三方评测，促进社区共建更严谨的科研基准。

展望

OpenAI 表示，GeneBench‑Pro 只是第一步，后续将扩展至更高维度的多组学、时空数据以及跨学科的系统生物学任务。同时，随着模型在推理层次的提升，AI 有望从“工具”转向“合作伙伴”，在假设生成、实验规划乃至论文撰写全流程中发挥关键作用。

本文依据 OpenAI 官方发布的研究报告撰写，旨在为业界提供客观、深入的基准解读。

OpenAI发布GeneBench‑Pro基准：检验AI在基因组学与科研推理的系统能力

背景

基准设计要点

数据集构成（摘选）

评估结果

行业意义

展望

标签分类