DeepReinforce发布Ornith-1.0开源编码模型系列自主学习RL支架实现高效代码生成

背景概述

在代码生成与agentic编程的赛道上，传统做法是为大语言模型配备固定、人工设计的"支架"（harness），用于记忆管理、工具调用和错误处理。DeepReinforce此次发布的Ornith-1.0系列突破了这一思路，提出"自学习支架"（self‑scaffolding）概念，使模型在强化学习（RL）过程中同步优化支架本身，从而在保持安全性的前提下提升解题效率。

模型规格与开源细节

规模：9B Dense、31B Dense、35B MoE（激活约3B参数）以及旗舰 397B MoE。
底座模型：基于Google的Gemma 4 与阿里巴巴的Qwen 3.5 进行后训练，兼容FP8 与 GGUF 量化格式，便于本地部署。
授权：全部模型权重采用 MIT 许可证，已同步至 Hugging Face，社区可自由下载、二次改造。
部署：提供 vLLM、SGLang 与 Transformers 的一键部署脚本，支持 OpenAI‑compatible 接口，9B 版在单卡 80GB GPU 上即可运行，397B 版适合多卡服务器或云端加速。

自学习支架（Self‑Scaffolding）机制

Ornith‑1.0 的 RL 过程分为两步：

支架生成：模型读取任务描述和当前支架状态，输出改进后的支架代码（包括记忆结构、工具选择、错误恢复逻辑）。
任务求解：在新支架的约束下生成代码解答，得到奖励分数。奖励同时回传至支架生成与解答两个阶段，使模型学会自行编写高效的任务编排逻辑。为防止奖励黑客行为，DeepReinforce 设计了三层防护：

固定信任边界：环境、工具集合与测试文件保持不可修改。
确定性监控器：检测并零奖励任何读取保密路径或篡改验证脚本的行为。
冻结LLM 判官：在验证器之上额外加入一个冻结的大模型，作为最终的 veto，确保支架不被滥用。

基准评测与竞争格局

在公开的编码基准上，Ornith‑1.0‑397B 获得了以下成绩：

SWE‑Bench Verified：82.4，紧随 Claude Opus 4.8（87.6）之后，领先同尺寸开源模型。
Terminal‑Bench 2.1：77.5，超过 Claude Opus 4.7（70.3）但仍低于更大模型 GLM‑5.2‑744B（81.0）。
小规格表现：35B‑MoE 在 Terminal‑Bench 上取得 64.2，显著高于 Qwen 3.5‑397B（53.5）；9B‑Dense 在 SWE‑Bench Verified 达到 69.4。这些数据表明，Ornith‑1.0 在保持开源与可自部署的前提下，已接近商业闭源模型的水平。

部署与生态兼容

模型默认输出两段信息：reasoning_content（思考轨迹）和 content（最终答案），便于与 OpenHands、OpenClaw、OpenCode 等现有 agent 框架直接对接。示例代码展示了如何使用 vLLM 启动服务并通过 OpenAI 客户端调用，推荐采样参数为 temperature 0.6、top_p 0.95、top_k 20。FP8 与 GGUF 版本进一步降低了显存需求，适合边缘设备或本地开发者实验。

行业意义

Ornith‑1.0 的自学习支架设计为编码 agent 提供了新的安全与效率平衡路径：在不牺牲开放性与可审计性的情况下，让模型自行进化任务编排逻辑。随着代码生成需求从单文件转向多文件、跨仓库的复杂场景，这一思路有望成为下一代 AI 编程助手的核心技术。社区的 MIT 开源许可也将促进更多研究者在此基础上进行创新，推动整个生成式编码生态的快速迭代。

DeepReinforce发布Ornith-1.0开源编码模型系列 自主学习RL支架实现高效代码生成