DeepMind用LLM进化游戏理论算法超越专家基准

研究背景

在不完美信息博弈（如扑克）中，多智能体强化学习（MARL）算法的设计历来依赖研究者的直觉与手工调参。传统的 Counterfactual Regret Minimization（CFR）和 Policy Space Response Oracles（PSRO）体系需要人工设定折扣、加权以及元策略求解器等关键超参数。DeepMind 团队提出 AlphaEvolve，尝试用大语言模型（LLM）直接改写算法源码，实现全流程自动化搜索。

AlphaEvolve 框架

进化主体：以标准实现（CFR+ 或 Uniform）为种子，构建代码种群。
变异机制：每代挑选适应度最高的父代，将其 Python 源码提交给 Gemini 2.5 Pro，依据提示生成改动后代码。
适应度评估：在代理游戏（3‑玩家 Kuhn 扑克、2‑玩家 Leduc 扑克、4‑卡 Goofspiel、5‑面 Liars Dice）上测算负可利用率（exploitability），并随机抽取多目标指标指导父代采样。
分布式执行：搜索过程在多机集群上并行进行，支持数千代迭代。

关键发现：VAD‑CFR 与 SHOR‑PSRO

VAD‑CFR（Volatility‑Adaptive Discounted CFR）

波动自适应折扣：通过对即时 regret 幅度的指数加权移动平均（EWMA，衰减 0.1）监测学习波动，高波动时增大折扣系数，快速忘记不稳定历史。
正向瞬时放大：正 regret 乘以 1.1 后再累加，提高对当前有效动作的响应速度。
延迟策略平均：前 500 轮不进行策略平均，后续根据时间权重与即时 regret 加权合并。

SHOR‑PSRO（Smoothed Hybrid Optimistic Regret PSRO）

混合元策略求解器：
- (σ_{ORM}) 乐观 regret‑matching，提供稳定的 regret 最小化。
- (σ_{Softmax}) 软最大化纯策略分布，引导搜索向高收益纯策略收敛。
- 两者按比例 (λ) 线性融合，(λ) 从 0.3 退火至 0.05，实现从探索到利用的平滑过渡。
动态超参数：多样性奖励、温度等随训练轮次逐步衰减；内部求解迭代次数随种群规模线性增长。

实验与结果

AlphaEvolve 在 11 项测试博弈上进行评估（包括未在训练集出现的更大规模变体）。

VAD‑CFR 在 10/11 游戏中匹配或超越包括 DCFR、PCFR+、HS‑PCFR+ 在内的所有手工设计基准，唯一落后于最佳基准的是 4‑玩家 Kuhn 扑克。
SHOR‑PSRO 在 8/11 游戏中表现优于 Uniform、Nash、AlphaRank、PRD 与传统 Regret Matching，尤其在大规模 Liars Dice 上展现出显著的收敛加速。

启示与展望

代码层面的自动化设计：本研究首次展示 LLM 能直接修改算法实现，而非仅调参，开启了“机器写代码”在强化学习理论中的新路径。
非直观机制的发现：如第 500 轮硬性延迟平均、正向 1.1 放大等，人类研究者往往难以想到，却在实验中提升了稳健性。
跨任务泛化：算法在未见过的更复杂博弈上仍保持竞争力，表明搜索空间的表达能力足以捕获通用策略改进。
未来方向：可将 AlphaEvolve 与 Monte‑Carlo 近似结合，探索更大规模、噪声环境下的自动化算法发现；同时将搜索目标扩展至多目标（算力、内存）约束下的实用部署。

AlphaEvolve 的成功预示着，随着更强大 LLM 与高效进化框架的结合，AI 研究的“人‑机协同设计”模式将逐步取代传统的纯人工迭代，为游戏理论、经济模型乃至更广泛的多智能体系统提供全新创新路径。

DeepMind用LLM进化游戏理论算法 超越专家基准