OpenAI联手PNNL推出DraftNEPABench 助力联邦基础设施审批提速
•12 阅读•3分钟•应用
OpenAIGPT-5Pacific Northwest National LaboratoryDraftNEPABenchPermitAI
•12 阅读•3分钟•应用

背景
美国的基础设施项目——从能源输电到交通桥梁——在进入建设阶段前必须完成严格的环境影响评估(NEPA)。传统流程往往需要数年时间,导致项目成本飙升、创新受阻。为破解这一瓶颈,OpenAI 与能源部下属的 Pacific Northwest National Laboratory(PNNL) 共同发起 PermitAI 项目,探索大型语言模型在政府文书工作中的实际价值。
Benchmark 设计
DraftNEPABench 是本次合作的核心产出,旨在模拟真实的 NEPA 文档起草任务。其设计要点包括:
- 任务范围:覆盖 18 个联邦机构的 102 项子任务,涵盖环境描述、技术参数、法规引用等关键章节。
- 模型使用:采用具备文件系统访问能力的编码代理(基于 Codex CLI),并在 GPT‑5 推理层面进行实验。
- 评价维度:结构完整性、表达清晰度、事实准确性、参考文献引用四大维度,采用 1‑5 分制。
关键发现
- 时间效益明显:在多数子任务中,AI 代理比人工起草快 1‑5 小时,折算整体文档撰写时间可削减约 15%。
- 质量可控:平均得分在 3.2 左右,已达到“部分正确”水平;在结构与引用方面表现尤佳,显示模型对法规条款的捕捉能力较强。
- 交互潜力:基于命令行的编码代理能够动态生成网页报告和交互式可视化,提升审查人员的验证效率。
影响与前景
- 政府效率提升:若将该技术推广至全链路审批,预计审批周期可从数月压缩至数周,加速项目落地。
- 行业竞争力:更快的基础设施建设将增强美国在新能源、制造业等关键领域的国际竞争力。
- 技术迭代:本基准为后续模型(如 GPT‑6)提供了明确的评估标准,推动 AI 在法规解读、技术评审等高风险领域的可靠性提升。
局限与后续工作
- 任务边界:Benchmark 仅覆盖明确指令的起草场景,未涵盖真实审批中需判断的模糊情形。
- 数据完整性:模型表现受限于输入材料的完整性与时效性,缺失或过时的资料会导致错误引用。
- 人机协同:实际部署仍需专家反馈循环,以不断校准模型输出并防止系统性偏差。
OpenAI 表示,将继续资助 PNNL 深化 PermitAI 方案,探索更高阶的多模态交互与实时监管支持,力争在未来几年内实现“AI‑助力政府审批”从实验走向常态化。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。