DeepMind推出AlphaEvolve 用LLM进化多智能体算法,VAD‑CFR与SHOR‑PSRO实现突破

15 阅读4分钟前沿

背景

在多智能体强化学习(MARL)领域,传统算法如CFR和PSRO依赖研究者的直觉手工改进,优化空间庞大且收敛速度受限。DeepMind团队提出将算法源码视作基因组,借助大模型实现“语义进化”,旨在突破人类经验的瓶颈。

AlphaEvolve 框架

  • 核心思想:把代码当作基因,使用LLM(Gemini 2.5 pro)充当智能突变算子,对逻辑、控制流及符号操作进行重写。
  • 进化循环
    1. 初始化:以标准CFR等基线实现构成初始种群。
    2. LLM‑驱动突变:选取适应度最高的父代,提示LLM修改代码以降低可利用性。
    3. 自动评估:在代理游戏(如Kuhn Poker)上运行,计算负可利用性得分。
    4. 选择与复制:保留表现优异且通过语法检查的变体,进入下一代。

VAD‑CFR:波动自适应折扣

VAD‑CFR在传统折扣CFR基础上加入三项非直观机制:

  • 波动自适应折扣:利用即时 regret 的指数加权移动平均(EWMA)监测学习波动,高波动时加大折扣以快速遗忘不稳历史,低波动时保留细节。
  • 正向即时提升:对正向即时 regret 乘以 1.1 的因子,实现即时利用有利偏差。
  • 硬启动与加权:策略平均在第 500 步才开始,并根据即时 regret 大小加权,以过滤早期噪声。

实验表明,VAD‑CFR在 11 项不完全信息博弈中有 10 项超越最先进的 Discounted Predictive CFR+,仅在 4‑人 Kuhn Poker 中略逊。

SHOR‑PSRO:混合元策略求解器

SHOR‑PSRO 对 PSRO 的元策略求解器(Meta‑Strategy Solver)进行改进,核心为 Hybrid Blending Mechanism

σ_hybrid = (1-λ)·σ_ORM + λ·σ_{Softmax}
```

- **σ_ORM**:乐观 regret 匹配,提供收敛稳定性。
- **σ_{Softmax}**:对纯策略进行 Boltzmann 加权,强化高价值模式。

**动态退火**:λ 从 0.3 线性退火至 0.05,实现从探索到稳健均衡的平滑过渡。
**训练‑评估非对称**:训练阶段使用退火 λ,评估阶段固定 λ=0.01,以获得更具反应性的可利用性估计。

## 实验结果与意义

- 在公开基准(Leduc Poker、Liar’s Dice、3‑人 Kuhn Poker 等)上,SHOR‑PSRO 的收敛速度提升约 15%~20%,且最终可利用性 consistently lower than prior PSRO variants.
- 两项新算法均展示了“语义进化”能够发现人类难以直觉构造的机制,为 MARL 算法研发打开了代码层面的自动化探索路径。

## 业界影响

AlphaEvolve 的成功证明,LLM 已不止于生成文本或代码补全,亦可在算法创新的高维搜索中充当“进化引擎”。未来,研究者可能将此框架扩展至更大规模的多智能体系统、自动化博弈设计以及跨领域的强化学习任务,为生成式 AI 与强化学习的深度融合提供新范式。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。