xAI的Grok在《博德之门》问答中表现突出，展示游戏攻略新能力

背景概述

近期，Elon Musk 所创立的 AI 初创公司 xAI 再次引发业界关注。Business Insider 报道指出，去年因 Musk 对模型在经典 RPG 《博德之门》（Baldur’s Gate）问答的表现不满，xAI 将多名高级工程师从核心项目抽调出来，专注于提升 Grok 的游戏知识库和对话精准度。此举凸显了大型语言模型在垂直领域（尤其是游戏攻略）中的商业价值。

BaldurBench 评测设计

TechCrunch 记者 Russell Brandom 组织了一个非正式基准测试——BaldurBench，选取了五个涵盖剧情、角色配装、战斗机制的常见问题，分别对比了四大模型的回答质量：

Grok（xAI）
ChatGPT（OpenAI）
Claude（Anthropic）
Gemini（Google）

每个模型的回复均在公开的聊天记录中公开，评测重点关注信息完整性、专业术语使用以及对玩家实际操作的指导价值。

关键结果

信息密度：Grok 的回答最为密集，常使用表格和数值对比，直接给出属性加点、装备选择等细节。
专业术语：Grok 使用了大量玩家熟悉的行话，如 “save‑scumming” 与 “DPS”，显示出对社区内容的深度学习。
呈现风格：Claude 更倾向于避免剧透，常以 “玩得开心” 之类的宽慰语结束；Gemini 则偏好加粗关键词；ChatGPT 则以项目符号列表为主。

总体来看，四款模型的答案在内容来源上相差不大，均基于公开的游戏攻略网站和维基百科。但在表达方式和细节深度上，Grok 的表现略胜一筹。

行业意义

垂直场景的竞争加剧：xAI 将资源投入到游戏问答，表明大模型供应商正通过细分市场来争夺用户黏性。
用户体验的提升：当模型能够提供专业且可操作的攻略时，玩家使用 AI 辅助的门槛大幅降低，潜在的付费增值服务也随之出现。
研发资源分配的风险：从报道看，工程师被抽调导致原有项目延期，这提醒行业在追求热点功能时需平衡长期研发与短期需求。

“如果模型能在几秒内给出一套可直接使用的战斗阵容，那它就已经超越了传统搜索引擎的价值。”——TechCrunch 记者 Russell Brandom

展望

随着 xAI 继续优化 Grok 的专业领域能力，未来可能会出现针对不同游戏类型的专属 AI 助手，甚至在多人在线游戏中提供实时战术建议。与此同时，其他巨头也在加紧布局类似功能，竞争格局预计将在未来六个月内进一步明朗化。

总体而言，Grok 在《博德之门》问答中的突破不仅展示了模型对细分知识的掌握，更预示着生成式 AI 正在从通用聊天向专业助理转型，行业生态将迎来新的增长点。

xAI的Grok在《博德之门》问答中表现突出，展示游戏攻略新能力

背景概述

BaldurBench 评测设计

关键结果

行业意义

展望

标签分类