Cohere发布Tiny Aya 3.35 B多语言模型,可在手机本地运行
•38 阅读•3分钟•前沿
CohereTiny Aya多语言模型Edge AI
•38 阅读•3分钟•前沿

模型概览
Cohere AI Labs 在本周正式发布 Tiny Aya 系列,共包含 5 种变体:
- Tiny Aya Base:未经指令微调的预训练模型。
- Tiny Aya Global:在全球数据上进行平衡指令微调。
- Tiny Aya Earth、Fire、Water:分别针对非洲/西亚、南亚、亚太/欧洲地区进行专门调优。
该系列采用 3.35 B 参数的稠密解码器‑Only Transformer,层数 36,词表 26.2 万,支持 8192 Token 上下文。创新点在于交替使用滑动窗口与全局注意力(3:1)并加入 Grouped Query Attention,提升长文本处理效率。
创新训练方法
- Fusion‑of‑N (FUSION):构建教师模型团队(如 COMMAND‑A、GEMMA‑3‑27B‑IT、DEEPSEEK‑V3),生成合成数据;随后由判别模型 Fusor 选取并聚合最佳答案,确保低资源语言也能获得高质量训练信号。
- SimMerge:在区域微调后,将各地区模型与全局模型进行相似度驱动的合并,既保留地区语言优势,又防止安全性退化。
基准表现
| 任务 | 数据集 | Tiny Aya Global | 对标模型 |
|---|---|---|---|
| 翻译 | WMT24++(61 语言) | 在 46 语言上领先 | GEMMA‑3‑4B |
| 数学推理 | GlobalMGSM(非洲语言) | 39.2% 正确率 | GEMMA‑3‑4B(17.6%)、QWEN‑3‑4B(6.25%) |
| 安全性 | MultiJail | 平均安全响应率 91.1% | — |
| 语言完整性 | 语言准确率 | 94%(几乎不出现英语混入) | — |
本地部署能力
采用 4‑bit 量化方案 Q4_K_M,模型体积仅 2.14 GB,能够在移动端实现实时推理:
- iPhone 13:约 10 Token/s。
- iPhone 17 Pro:约 32 Token/s。
质量下降仅 1.4 分,证明在极低算力环境下仍能保持生成质量。此特性为隐私敏感、离线 AI 应用提供了可落地的技术路径。
行业意义
Tiny Aya 打破了“大模型=强多语言”的传统认知,表明 模型规模并非唯一决定因素。通过精细的数据策划、教师‑学生合成以及区域‑全局融合策略,Cohere 展示了在资源受限环境下实现高质量多语言生成的可行路径。其本地化部署能力也为移动端、物联网等边缘场景打开了新市场,预示着未来 AI 将更加贴近个人设备与本地数据安全需求。
“我们希望通过 Tiny Aya,让每个人都能在自己的设备上安全、快速地使用多语言 AI。”——Cohere 研发团队
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。