DeepReinforce发布Ornith-1.0开源编码模型系列 自主学习RL支架实现高效代码生成
•1 阅读•4分钟•开源
开源强化学习代码生成DeepReinforceOrnith-1.0
•1 阅读•4分钟•开源
背景概述
在代码生成与agentic编程的赛道上,传统做法是为大语言模型配备固定、人工设计的"支架"(harness),用于记忆管理、工具调用和错误处理。DeepReinforce此次发布的Ornith-1.0系列突破了这一思路,提出"自学习支架"(self‑scaffolding)概念,使模型在强化学习(RL)过程中同步优化支架本身,从而在保持安全性的前提下提升解题效率。
模型规格与开源细节
- 规模:9B Dense、31B Dense、35B MoE(激活约3B参数)以及旗舰 397B MoE。
- 底座模型:基于Google的Gemma 4 与阿里巴巴的Qwen 3.5 进行后训练,兼容FP8 与 GGUF 量化格式,便于本地部署。
- 授权:全部模型权重采用 MIT 许可证,已同步至 Hugging Face,社区可自由下载、二次改造。
- 部署:提供 vLLM、SGLang 与 Transformers 的一键部署脚本,支持 OpenAI‑compatible 接口,9B 版在单卡 80GB GPU 上即可运行,397B 版适合多卡服务器或云端加速。
自学习支架(Self‑Scaffolding)机制
Ornith‑1.0 的 RL 过程分为两步:
- 支架生成:模型读取任务描述和当前支架状态,输出改进后的支架代码(包括记忆结构、工具选择、错误恢复逻辑)。
- 任务求解:在新支架的约束下生成代码解答,得到奖励分数。 奖励同时回传至支架生成与解答两个阶段,使模型学会自行编写高效的任务编排逻辑。为防止奖励黑客行为,DeepReinforce 设计了三层防护:
- 固定信任边界:环境、工具集合与测试文件保持不可修改。
- 确定性监控器:检测并零奖励任何读取保密路径或篡改验证脚本的行为。
- 冻结LLM 判官:在验证器之上额外加入一个冻结的大模型,作为最终的 veto,确保支架不被滥用。
基准评测与竞争格局
在公开的编码基准上,Ornith‑1.0‑397B 获得了以下成绩:
- SWE‑Bench Verified:82.4,紧随 Claude Opus 4.8(87.6)之后,领先同尺寸开源模型。
- Terminal‑Bench 2.1:77.5,超过 Claude Opus 4.7(70.3)但仍低于更大模型 GLM‑5.2‑744B(81.0)。
- 小规格表现:35B‑MoE 在 Terminal‑Bench 上取得 64.2,显著高于 Qwen 3.5‑397B(53.5);9B‑Dense 在 SWE‑Bench Verified 达到 69.4。 这些数据表明,Ornith‑1.0 在保持开源与可自部署的前提下,已接近商业闭源模型的水平。
部署与生态兼容
模型默认输出两段信息:reasoning_content(思考轨迹)和 content(最终答案),便于与 OpenHands、OpenClaw、OpenCode 等现有 agent 框架直接对接。示例代码展示了如何使用 vLLM 启动服务并通过 OpenAI 客户端调用,推荐采样参数为 temperature 0.6、top_p 0.95、top_k 20。FP8 与 GGUF 版本进一步降低了显存需求,适合边缘设备或本地开发者实验。
行业意义
Ornith‑1.0 的自学习支架设计为编码 agent 提供了新的安全与效率平衡路径:在不牺牲开放性与可审计性的情况下,让模型自行进化任务编排逻辑。随着代码生成需求从单文件转向多文件、跨仓库的复杂场景,这一思路有望成为下一代 AI 编程助手的核心技术。社区的 MIT 开源许可也将促进更多研究者在此基础上进行创新,推动整个生成式编码生态的快速迭代。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。