DeepMind推出AlphaEvolve 用LLM进化多智能体算法，VAD‑CFR与SHOR‑PSRO实现突破

背景

在多智能体强化学习（MARL）领域，传统算法如CFR和PSRO依赖研究者的直觉手工改进，优化空间庞大且收敛速度受限。DeepMind团队提出将算法源码视作基因组，借助大模型实现“语义进化”，旨在突破人类经验的瓶颈。

AlphaEvolve 框架

核心思想：把代码当作基因，使用LLM（Gemini 2.5 pro）充当智能突变算子，对逻辑、控制流及符号操作进行重写。
进化循环：
1. 初始化：以标准CFR等基线实现构成初始种群。
2. LLM‑驱动突变：选取适应度最高的父代，提示LLM修改代码以降低可利用性。
3. 自动评估：在代理游戏（如Kuhn Poker）上运行，计算负可利用性得分。
4. 选择与复制：保留表现优异且通过语法检查的变体，进入下一代。

VAD‑CFR：波动自适应折扣

VAD‑CFR在传统折扣CFR基础上加入三项非直观机制：

波动自适应折扣：利用即时 regret 的指数加权移动平均（EWMA）监测学习波动，高波动时加大折扣以快速遗忘不稳历史，低波动时保留细节。
正向即时提升：对正向即时 regret 乘以 1.1 的因子，实现即时利用有利偏差。
硬启动与加权：策略平均在第 500 步才开始，并根据即时 regret 大小加权，以过滤早期噪声。

实验表明，VAD‑CFR在 11 项不完全信息博弈中有 10 项超越最先进的 Discounted Predictive CFR+，仅在 4‑人 Kuhn Poker 中略逊。

SHOR‑PSRO：混合元策略求解器

SHOR‑PSRO 对 PSRO 的元策略求解器（Meta‑Strategy Solver）进行改进，核心为 Hybrid Blending Mechanism：

σ_hybrid = (1-λ)·σ_ORM + λ·σ_{Softmax}
```

- **σ_ORM**：乐观 regret 匹配，提供收敛稳定性。
- **σ_{Softmax}**：对纯策略进行 Boltzmann 加权，强化高价值模式。

**动态退火**：λ 从 0.3 线性退火至 0.05，实现从探索到稳健均衡的平滑过渡。
**训练‑评估非对称**：训练阶段使用退火 λ，评估阶段固定 λ=0.01，以获得更具反应性的可利用性估计。

## 实验结果与意义

- 在公开基准（Leduc Poker、Liar’s Dice、3‑人 Kuhn Poker 等）上，SHOR‑PSRO 的收敛速度提升约 15%~20%，且最终可利用性 consistently lower than prior PSRO variants.
- 两项新算法均展示了“语义进化”能够发现人类难以直觉构造的机制，为 MARL 算法研发打开了代码层面的自动化探索路径。

## 业界影响

AlphaEvolve 的成功证明，LLM 已不止于生成文本或代码补全，亦可在算法创新的高维搜索中充当“进化引擎”。未来，研究者可能将此框架扩展至更大规模的多智能体系统、自动化博弈设计以及跨领域的强化学习任务，为生成式 AI 与强化学习的深度融合提供新范式。

DeepMind推出AlphaEvolve 用LLM进化多智能体算法，VAD‑CFR与SHOR‑PSRO实现突破

背景

AlphaEvolve 框架

VAD‑CFR：波动自适应折扣

SHOR‑PSRO：混合元策略求解器

标签分类