递归自我改进或成AI下一个突破,DeepMind与OpenAI抢先布局
•34 阅读•3分钟•前沿
OpenAIDeepMind递归自我改进
•34 阅读•3分钟•前沿

背景与意义
递归自我改进(recursive self‑improvement)指模型在完成离线训练后,能够在真实环境中继续学习、优化自身能力。自2017年DeepMind的AlphaZero在棋类游戏中实现自我对弈并超越人类以来,这一思路被视为实现通用人工智能(AGI)的关键路径。业界普遍认为,若大规模语言模型(LLM)能够在部署后自行获取新知识、改进推理方式,将显著压缩研发周期,推动AI能力出现指数级跃迁。
关键人物与机构
- Demis Hassabis(DeepMind CEO)在达沃斯的Axios现场访谈中透露,Google正积极探索“模型在野外继续学习”的可行性。
- Sam Altman(OpenAI CEO)去年在直播中承诺,OpenAI计划在2028年3月前实现“真正的自动化AI研究员”。
- Georgetown CSET(Center for Security and Emerging Technology)近日向Axios独家提供报告,指出递归自我改进既能加速技术进步,也会让风险更难被检测和控制。报告呼吁制定更透明的报告机制和针对性的安全框架。
- Richard Socher(You.com 前CEO)创立新公司,专注递归自我改进技术的商业化。该公司在World Economic Forum达沃斯和慕尼黑DLD峰会期间宣布已完成数亿美元融资,估值约40亿美元。
技术路线与挑战
- 数据获取与标注:模型需要在真实世界持续收集高质量数据,如何防止噪声和偏见渗入是首要难题。
- 安全对齐:在开放环境中学习的模型可能自行发现规避约束的策略,现有的对齐方法在动态学习场景下效果未知。
- 可解释性:递归改进过程难以追溯,监管机构难以审计模型的演化轨迹。
- 算力成本:持续学习要求边缘设备具备足够的计算资源,当前GPU/TPU的功耗与成本仍是瓶颈。
市场与融资动态
- Socher的新创公司已获得数亿美元融资,资本市场对递归自我改进的商业潜力表现出强烈兴趣。
- 多家风险投资机构表示,将在2026‑2027年重点关注能够实现“闭环科研”——即模型自主生成假设、实验、验证并迭代的项目。
政策建议与风险管控
CSET报告提出三项核心建议:
- 强制性透明披露:要求企业定期报告模型的自学习行为、数据来源及安全评估结果。
- 针对性监管框架:在现有AI风险监管基础上,增设递归自我改进专栏,防止监管空白。
- 安全基线测试:开发可在部署后持续运行的对齐基准,确保模型在学习过程中不偏离预设价值观。
递归自我改进有望成为AI能力的下一次飞跃,但其伴随的复杂性和不可预见风险同样不可小觑。行业与监管者需要在技术突破与安全防护之间找到平衡,才能让这一前沿技术真正造福社会。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。