Technology Innovation Institute发布Alyah基准:首个阿联酋方言评测提升阿拉伯大模型本地化能力
•24 阅读•3分钟•前沿
LLMTechnology Innovation InstituteAlyah
•24 阅读•3分钟•前沿

背景
阿拉伯语是全球使用最广的语言之一,但现有评测大多聚焦于现代标准阿拉伯语(MSA),对地区方言的覆盖极少。阿联酋方言(Emirati)在口语、诗歌、习俗表达上具有独特文化内涵,缺乏系统评测导致模型在本地化交互时常出现误解。为填补这一空白,Technology Innovation Institute(TII)推出 Alyah(意为北极星)基准,首次提供大规模、人工标注的阿联酋方言评测集合。
基准概述
- 数据规模:1,173 条多选题,全部由本土母语者手工收集与校验。
- 题目形式:每题四个选项,仅有一个正确答案,选项由 LLM 生成后人工筛选,确保干扰项具备语义相似性。
- 难度划分:根据模型表现自动标注,分为 Easy(61 题)、Medium(242 题)和 Hard(870 题)。
- 覆盖场景:
- 日常问候与表达(61 题)
- 宗教与社交礼仪(78 题)
- 形象与隐喻(121 题)
- 礼仪与价值观(173 题)
- 诗歌与创意表达(32 题)
- 历史与遗产知识(89 题)
- 语言与方言本体(619 题)
模型评估设置
TII 选取 54 款模型进行评测,其中包括 23 种基座模型和 31 种指令微调模型,覆盖阿拉伯本土模型(如 Jais、Allam)、多语言模型(如 Qwen、LLaMA)以及区域适配模型(如 Fanar、AceGPT)。所有模型统一使用相同的 prompting 策略,答案以多选方式提交,评估指标采用准确率(Accuracy)。评估重点在于语义正确性与文化适配度,而非文字匹配,以容忍方言的多样表达。
评估结果与趋势
- 整体表现:指令微调模型平均准确率 71.2%,显著高于基座模型的 55.4%。
- 类别差异:在 礼仪与价值观、形象与隐喻 两类题目上,指令模型提升尤为明显;而 语言与方言、日常问候 类仍是模型的薄弱环节。
- 模型对比:
- Jais-2-70B(阿拉伯本土大模型)在所有类别中均居前列,整体准确率约 78%。
- Gemma-3-27B‑IT 达到 74.68% 的指令微调最高分。
- 多语言模型 Qwen 系列在硬件算力受限时表现下降,尤其在诗歌创作上表现不佳。
- 规模效应:模型规模对 形象隐喻 与 诗歌创意 有正向影响,但在 日常用语 上并未出现明显提升,说明方言知识难以通过单纯扩大参数获得。
结论与社区影响
Alyah 基准为阿拉伯语 LLM 的方言能力提供了首个统一量化标准,验证了指令微调在本地化理解上的优势,也揭示了当前模型在口语化、文化细节方面的显著短板。TII 呼吁研究者基于该基准进一步收集方言数据、完善训练流水线,并通过社区反馈持续迭代。未来,随着更多阿联酋本土企业与政府部门加入,方言评测有望成为阿拉伯语大模型生态的重要组成部分,为本地区用户提供更自然、可信的对话体验。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。