OpenAI联手PNNL推出DraftNEPABench 助力联邦基础设施审批提速

背景

美国的基础设施项目——从能源输电到交通桥梁——在进入建设阶段前必须完成严格的环境影响评估（NEPA）。传统流程往往需要数年时间，导致项目成本飙升、创新受阻。为破解这一瓶颈，OpenAI 与能源部下属的 Pacific Northwest National Laboratory（PNNL） 共同发起 PermitAI 项目，探索大型语言模型在政府文书工作中的实际价值。

Benchmark 设计

DraftNEPABench 是本次合作的核心产出，旨在模拟真实的 NEPA 文档起草任务。其设计要点包括：

任务范围：覆盖 18 个联邦机构的 102 项子任务，涵盖环境描述、技术参数、法规引用等关键章节。
模型使用：采用具备文件系统访问能力的编码代理（基于 Codex CLI），并在 GPT‑5 推理层面进行实验。
评价维度：结构完整性、表达清晰度、事实准确性、参考文献引用四大维度，采用 1‑5 分制。

关键发现

时间效益明显：在多数子任务中，AI 代理比人工起草快 1‑5 小时，折算整体文档撰写时间可削减约 15%。
质量可控：平均得分在 3.2 左右，已达到“部分正确”水平；在结构与引用方面表现尤佳，显示模型对法规条款的捕捉能力较强。
交互潜力：基于命令行的编码代理能够动态生成网页报告和交互式可视化，提升审查人员的验证效率。

影响与前景

政府效率提升：若将该技术推广至全链路审批，预计审批周期可从数月压缩至数周，加速项目落地。
行业竞争力：更快的基础设施建设将增强美国在新能源、制造业等关键领域的国际竞争力。
技术迭代：本基准为后续模型（如 GPT‑6）提供了明确的评估标准，推动 AI 在法规解读、技术评审等高风险领域的可靠性提升。

局限与后续工作

任务边界：Benchmark 仅覆盖明确指令的起草场景，未涵盖真实审批中需判断的模糊情形。
数据完整性：模型表现受限于输入材料的完整性与时效性，缺失或过时的资料会导致错误引用。
人机协同：实际部署仍需专家反馈循环，以不断校准模型输出并防止系统性偏差。

OpenAI 表示，将继续资助 PNNL 深化 PermitAI 方案，探索更高阶的多模态交互与实时监管支持，力争在未来几年内实现“AI‑助力政府审批”从实验走向常态化。

OpenAI联手PNNL推出DraftNEPABench 助力联邦基础设施审批提速

背景

Benchmark 设计

关键发现

影响与前景

局限与后续工作

标签分类