Parameter Golf赛揭示AI编码代理加速机器学习研究新突破

赛事概览

2026 年 5 月，OpenAI 发起 Parameter Golf——一场围绕 16 MB 人工制品上限、10 分钟训练时限（8×H100）进行的机器学习挑战。参赛者需在固定的 FineWeb 数据集上最小化 hold‑out loss，提交的代码与模型权重必须共同不超过 16 MB。

在八周时间里，超过 1,000 名研究者提交了 2,000 余次方案，覆盖优化器调参、模型量化、全新注意力机制等多个方向。OpenAI 提供基准模型、数据与评估脚本，参赛者通过 GitHub fork‑&‑pull 的方式递交成绩。

训练优化：
- @notapplica 通过 Muon weight decay、谱嵌入初始化和 residual‑mix 调度，使更深模型在同等资源下实现显著提升。
量化突破：
- @signalrush 首次在排行榜中使用 GPTQ‑lite 完成后训练量化，显著降低评估误差。
- @dexhunter 基于全 Hessian GPTQ 实现更高压缩率。
评估与测试时训练：
- @samacqua 采用分段 LoRA 进行 score‑first 的 test‑time 训练，仅在已评分片段上微调，保持规则可审查性。
- @abaybektursun 生成自研校准文本，再构建 GPTQ Hessian，实现创新的自校准量化。
新模型与数据构想：
- @romeerp 引入 CaseOps tokenizer，实现无损大写符号编码。
- @unnir 提出 XSA（部分排他自注意力）并结合 GQA‑aware 分组视图。
- @aquariouseworkman 开创 SmearGate 与 BigramHash，融合前置 token 嵌入与相邻 token 哈希特征。
- @msisovic 首次在排行榜中成功部署 mini‑depth recurrence，使重复层在中期训练后才激活。

几乎所有提交者都明确表示使用 AI 编码代理（如 OpenAI Codex、GitHub Copilot）协助实验设计与代码实现。代理的介入带来了三大改变：

Parameter Golf 证明，AI 编码代理已经从辅助工具转变为科研加速器。OpenAI 正计划将此类受限挑战常态化，以观察代理在更开放、复杂任务中的表现。与此同时，如何在保持创新活力的同时防止“代理复制”导致的评估噪声，将成为组织者需要重点解决的问题。

随着算力成本下降、开源模型生态成熟，类似的微型赛制有望成为发现新人才、验证前沿技术的高效平台，也为业界提供了思考：在 AI 时代，科研的组织方式本身也将被智能体重塑。