Technology Innovation Institute发布Alyah基准：首个阿联酋方言评测提升阿拉伯大模型本地化能力

背景

阿拉伯语是全球使用最广的语言之一，但现有评测大多聚焦于现代标准阿拉伯语（MSA），对地区方言的覆盖极少。阿联酋方言（Emirati）在口语、诗歌、习俗表达上具有独特文化内涵，缺乏系统评测导致模型在本地化交互时常出现误解。为填补这一空白，Technology Innovation Institute（TII）推出 Alyah（意为北极星）基准，首次提供大规模、人工标注的阿联酋方言评测集合。

基准概述

数据规模：1,173 条多选题，全部由本土母语者手工收集与校验。
题目形式：每题四个选项，仅有一个正确答案，选项由 LLM 生成后人工筛选，确保干扰项具备语义相似性。
难度划分：根据模型表现自动标注，分为 Easy（61 题）、Medium（242 题）和 Hard（870 题）。
覆盖场景：
- 日常问候与表达（61 题）
- 宗教与社交礼仪（78 题）
- 形象与隐喻（121 题）
- 礼仪与价值观（173 题）
- 诗歌与创意表达（32 题）
- 历史与遗产知识（89 题）
- 语言与方言本体（619 题）

模型评估设置

TII 选取 54 款模型进行评测，其中包括 23 种基座模型和 31 种指令微调模型，覆盖阿拉伯本土模型（如 Jais、Allam）、多语言模型（如 Qwen、LLaMA）以及区域适配模型（如 Fanar、AceGPT）。所有模型统一使用相同的 prompting 策略，答案以多选方式提交，评估指标采用准确率（Accuracy）。评估重点在于语义正确性与文化适配度，而非文字匹配，以容忍方言的多样表达。

评估结果与趋势

整体表现：指令微调模型平均准确率 71.2%，显著高于基座模型的 55.4%。
类别差异：在 礼仪与价值观、形象与隐喻 两类题目上，指令模型提升尤为明显；而 语言与方言、日常问候 类仍是模型的薄弱环节。
模型对比：
- Jais-2-70B（阿拉伯本土大模型）在所有类别中均居前列，整体准确率约 78%。
- Gemma-3-27B‑IT 达到 74.68% 的指令微调最高分。
- 多语言模型 Qwen 系列在硬件算力受限时表现下降，尤其在诗歌创作上表现不佳。
规模效应：模型规模对 形象隐喻 与 诗歌创意 有正向影响，但在 日常用语 上并未出现明显提升，说明方言知识难以通过单纯扩大参数获得。

结论与社区影响

Alyah 基准为阿拉伯语 LLM 的方言能力提供了首个统一量化标准，验证了指令微调在本地化理解上的优势，也揭示了当前模型在口语化、文化细节方面的显著短板。TII 呼吁研究者基于该基准进一步收集方言数据、完善训练流水线，并通过社区反馈持续迭代。未来，随着更多阿联酋本土企业与政府部门加入，方言评测有望成为阿拉伯语大模型生态的重要组成部分，为本地区用户提供更自然、可信的对话体验。

Technology Innovation Institute发布Alyah基准：首个阿联酋方言评测提升阿拉伯大模型本地化能力

背景

基准概述

模型评估设置

评估结果与趋势

结论与社区影响

标签分类