DeepMind用LLM进化游戏理论算法 超越专家基准
•99 阅读•4分钟•前沿
LLMDeepMindAlphaEvolveMARLCFR
•99 阅读•4分钟•前沿
研究背景
在不完美信息博弈(如扑克)中,多智能体强化学习(MARL)算法的设计历来依赖研究者的直觉与手工调参。传统的 Counterfactual Regret Minimization(CFR)和 Policy Space Response Oracles(PSRO)体系需要人工设定折扣、加权以及元策略求解器等关键超参数。DeepMind 团队提出 AlphaEvolve,尝试用大语言模型(LLM)直接改写算法源码,实现全流程自动化搜索。
AlphaEvolve 框架
- 进化主体:以标准实现(CFR+ 或 Uniform)为种子,构建代码种群。
- 变异机制:每代挑选适应度最高的父代,将其 Python 源码提交给 Gemini 2.5 Pro,依据提示生成改动后代码。
- 适应度评估:在代理游戏(3‑玩家 Kuhn 扑克、2‑玩家 Leduc 扑克、4‑卡 Goofspiel、5‑面 Liars Dice)上测算负可利用率(exploitability),并随机抽取多目标指标指导父代采样。
- 分布式执行:搜索过程在多机集群上并行进行,支持数千代迭代。
关键发现:VAD‑CFR 与 SHOR‑PSRO
VAD‑CFR(Volatility‑Adaptive Discounted CFR)
- 波动自适应折扣:通过对即时 regret 幅度的指数加权移动平均(EWMA,衰减 0.1)监测学习波动,高波动时增大折扣系数,快速忘记不稳定历史。
- 正向瞬时放大:正 regret 乘以 1.1 后再累加,提高对当前有效动作的响应速度。
- 延迟策略平均:前 500 轮不进行策略平均,后续根据时间权重与即时 regret 加权合并。
SHOR‑PSRO(Smoothed Hybrid Optimistic Regret PSRO)
- 混合元策略求解器:
- (σ_{ORM}) 乐观 regret‑matching,提供稳定的 regret 最小化。
- (σ_{Softmax}) 软最大化纯策略分布,引导搜索向高收益纯策略收敛。
- 两者按比例 (λ) 线性融合,(λ) 从 0.3 退火至 0.05,实现从探索到利用的平滑过渡。
- 动态超参数:多样性奖励、温度等随训练轮次逐步衰减;内部求解迭代次数随种群规模线性增长。
实验与结果
AlphaEvolve 在 11 项测试博弈上进行评估(包括未在训练集出现的更大规模变体)。
- VAD‑CFR 在 10/11 游戏中匹配或超越包括 DCFR、PCFR+、HS‑PCFR+ 在内的所有手工设计基准,唯一落后于最佳基准的是 4‑玩家 Kuhn 扑克。
- SHOR‑PSRO 在 8/11 游戏中表现优于 Uniform、Nash、AlphaRank、PRD 与传统 Regret Matching,尤其在大规模 Liars Dice 上展现出显著的收敛加速。
启示与展望
- 代码层面的自动化设计:本研究首次展示 LLM 能直接修改算法实现,而非仅调参,开启了“机器写代码”在强化学习理论中的新路径。
- 非直观机制的发现:如第 500 轮硬性延迟平均、正向 1.1 放大等,人类研究者往往难以想到,却在实验中提升了稳健性。
- 跨任务泛化:算法在未见过的更复杂博弈上仍保持竞争力,表明搜索空间的表达能力足以捕获通用策略改进。
- 未来方向:可将 AlphaEvolve 与 Monte‑Carlo 近似结合,探索更大规模、噪声环境下的自动化算法发现;同时将搜索目标扩展至多目标(算力、内存)约束下的实用部署。
AlphaEvolve 的成功预示着,随着更强大 LLM 与高效进化框架的结合,AI 研究的“人‑机协同设计”模式将逐步取代传统的纯人工迭代,为游戏理论、经济模型乃至更广泛的多智能体系统提供全新创新路径。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。