DeepMind推出AlphaEvolve 用LLM进化多智能体算法,VAD‑CFR与SHOR‑PSRO实现突破
•15 阅读•4分钟•前沿
LLMDeepMindAlphaEvolveVAD-CFRSHOR-PSRO
•15 阅读•4分钟•前沿
背景
在多智能体强化学习(MARL)领域,传统算法如CFR和PSRO依赖研究者的直觉手工改进,优化空间庞大且收敛速度受限。DeepMind团队提出将算法源码视作基因组,借助大模型实现“语义进化”,旨在突破人类经验的瓶颈。
AlphaEvolve 框架
- 核心思想:把代码当作基因,使用LLM(Gemini 2.5 pro)充当智能突变算子,对逻辑、控制流及符号操作进行重写。
- 进化循环:
- 初始化:以标准CFR等基线实现构成初始种群。
- LLM‑驱动突变:选取适应度最高的父代,提示LLM修改代码以降低可利用性。
- 自动评估:在代理游戏(如Kuhn Poker)上运行,计算负可利用性得分。
- 选择与复制:保留表现优异且通过语法检查的变体,进入下一代。
VAD‑CFR:波动自适应折扣
VAD‑CFR在传统折扣CFR基础上加入三项非直观机制:
- 波动自适应折扣:利用即时 regret 的指数加权移动平均(EWMA)监测学习波动,高波动时加大折扣以快速遗忘不稳历史,低波动时保留细节。
- 正向即时提升:对正向即时 regret 乘以 1.1 的因子,实现即时利用有利偏差。
- 硬启动与加权:策略平均在第 500 步才开始,并根据即时 regret 大小加权,以过滤早期噪声。
实验表明,VAD‑CFR在 11 项不完全信息博弈中有 10 项超越最先进的 Discounted Predictive CFR+,仅在 4‑人 Kuhn Poker 中略逊。
SHOR‑PSRO:混合元策略求解器
SHOR‑PSRO 对 PSRO 的元策略求解器(Meta‑Strategy Solver)进行改进,核心为 Hybrid Blending Mechanism:
σ_hybrid = (1-λ)·σ_ORM + λ·σ_{Softmax}
```
- **σ_ORM**:乐观 regret 匹配,提供收敛稳定性。
- **σ_{Softmax}**:对纯策略进行 Boltzmann 加权,强化高价值模式。
**动态退火**:λ 从 0.3 线性退火至 0.05,实现从探索到稳健均衡的平滑过渡。
**训练‑评估非对称**:训练阶段使用退火 λ,评估阶段固定 λ=0.01,以获得更具反应性的可利用性估计。
## 实验结果与意义
- 在公开基准(Leduc Poker、Liar’s Dice、3‑人 Kuhn Poker 等)上,SHOR‑PSRO 的收敛速度提升约 15%~20%,且最终可利用性 consistently lower than prior PSRO variants.
- 两项新算法均展示了“语义进化”能够发现人类难以直觉构造的机制,为 MARL 算法研发打开了代码层面的自动化探索路径。
## 业界影响
AlphaEvolve 的成功证明,LLM 已不止于生成文本或代码补全,亦可在算法创新的高维搜索中充当“进化引擎”。未来,研究者可能将此框架扩展至更大规模的多智能体系统、自动化博弈设计以及跨领域的强化学习任务,为生成式 AI 与强化学习的深度融合提供新范式。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。