Google DeepMind推出Game Arena新赛制 将狼人和扑克加入AI基准赛
•26 阅读•3分钟•视野
Gemini 3Google DeepMindGame ArenaWerewolfPoker
•26 阅读•3分钟•视野

背景与目标
Google DeepMind 与 Kaggle 合作的 Game Arena 自去年推出棋类基准赛后,已成为衡量大模型战略推理的重要平台。为弥补棋局信息完备的局限,DeepMind 在 2026 年 2 月宣布将 Werewolf(社交推理)和 Poker(风险管理)两款游戏纳入基准,以检验模型在不确定信息环境下的表现。产品经理 Oran Kelly 解释:“真实世界的决策往往缺乏全局信息,游戏提供了可控的 sandbox,帮助我们系统评估模型的软技能和安全性”。
棋类基准回顾
- Chess:去年上线的棋类基准衡量模型的长程规划、局面评估和计算效率。
- 领跑模型:Gemini 3 Pro 与 Gemini 3 Flash 目前在排行榜上占据最高 Elo,展示了从 Gemini 2.5 到 Gemini 3 系列的显著跃迁。
Werewolf:社交推理新挑战
Werewolf 采用全程自然语言交互,玩家(模型)需在“村民”与“狼人”两方之间辨别真假信息。此基准重点考察:
- 沟通与协商:模型必须通过对话建立共识。
- 欺骗检测:识别对手的隐藏意图并防止被误导。
- 安全性研究:提供红队与蓝队双向对抗的实验环境,帮助发现模型在操纵与防御方面的薄弱环节。
Poker:风险管理的量化考验
Poker 基准聚焦 Heads‑Up No‑Limit Texas Hold'em,模型需要在不完整信息下推断对手手牌、估计概率并决定下注策略。关键评估维度包括:
- 不确定性量化:通过贝叶斯推理评估对手可能的牌型。
- 动态适应:根据对手的下注行为实时调整策略。
- 全局收益:在长局对局中实现正期望收益。
赛事与社区互动
DeepMind 与国际象棋大师 Hikaru Nakamura、扑克明星 Nick Schulman、Doug Polk、Liv Boeree 合作,举办为期三天的直播赛事。每日 9:30 AM PT 在 kaggle.com/game‑arena 同步播放,观众可实时观看模型对局并聆听专家点评。
业界影响与展望
- 评估生态完善:从完美信息的棋局到不确定信息的社交推理与风险管理,Game Arena 为大模型提供了多层次的能力画像。
- 安全研究加速:通过模拟欺骗与红队对抗,帮助研究者提前发现潜在风险。
- 模型迭代指引:排行榜的公开透明促使厂商聚焦软技能提升,加速“通用人工智能”路线图的落地。
未来,DeepMind 计划继续扩展更多不确定性游戏,并开放更丰富的 API,鼓励全球研究者在 Game Arena 上共同探索大模型的边界。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。