Google DeepMind推出Game Arena新赛制将狼人和扑克加入AI基准赛

背景与目标

Google DeepMind 与 Kaggle 合作的 Game Arena 自去年推出棋类基准赛后，已成为衡量大模型战略推理的重要平台。为弥补棋局信息完备的局限，DeepMind 在 2026 年 2 月宣布将 Werewolf（社交推理）和 Poker（风险管理）两款游戏纳入基准，以检验模型在不确定信息环境下的表现。产品经理 Oran Kelly 解释：“真实世界的决策往往缺乏全局信息，游戏提供了可控的 sandbox，帮助我们系统评估模型的软技能和安全性”。

棋类基准回顾

Chess：去年上线的棋类基准衡量模型的长程规划、局面评估和计算效率。
领跑模型：Gemini 3 Pro 与 Gemini 3 Flash 目前在排行榜上占据最高 Elo，展示了从 Gemini 2.5 到 Gemini 3 系列的显著跃迁。

Werewolf：社交推理新挑战

Werewolf 采用全程自然语言交互，玩家（模型）需在“村民”与“狼人”两方之间辨别真假信息。此基准重点考察：

沟通与协商：模型必须通过对话建立共识。
欺骗检测：识别对手的隐藏意图并防止被误导。
安全性研究：提供红队与蓝队双向对抗的实验环境，帮助发现模型在操纵与防御方面的薄弱环节。

Poker：风险管理的量化考验

Poker 基准聚焦 Heads‑Up No‑Limit Texas Hold'em，模型需要在不完整信息下推断对手手牌、估计概率并决定下注策略。关键评估维度包括：

不确定性量化：通过贝叶斯推理评估对手可能的牌型。
动态适应：根据对手的下注行为实时调整策略。
全局收益：在长局对局中实现正期望收益。

赛事与社区互动

DeepMind 与国际象棋大师 Hikaru Nakamura、扑克明星 Nick Schulman、Doug Polk、Liv Boeree 合作，举办为期三天的直播赛事。每日 9:30 AM PT 在 kaggle.com/game‑arena 同步播放，观众可实时观看模型对局并聆听专家点评。

业界影响与展望

评估生态完善：从完美信息的棋局到不确定信息的社交推理与风险管理，Game Arena 为大模型提供了多层次的能力画像。
安全研究加速：通过模拟欺骗与红队对抗，帮助研究者提前发现潜在风险。
模型迭代指引：排行榜的公开透明促使厂商聚焦软技能提升，加速“通用人工智能”路线图的落地。

未来，DeepMind 计划继续扩展更多不确定性游戏，并开放更丰富的 API，鼓励全球研究者在 Game Arena 上共同探索大模型的边界。

Google DeepMind推出Game Arena新赛制 将狼人和扑克加入AI基准赛