阿里巴巴发布Qwen机器人套件推动大模型向具身智能迈进

背景

阿里巴巴的通义实验室（Tongyi Lab）自2023年起陆续发布了通义千问（Qwen）系列大模型，凭借强大的多模态理解能力在中文生成任务中表现突出。随着生成式AI在文本、图像、视频等领域的快速迭代，业界对“大模型+机器人”的组合期待升温。6月，阿里巴巴在内部发布会上首次公开了Qwen‑Robot套件，明确指出“看得见不等于能动”，将感知与控制的鸿沟视为当前具身智能的核心瓶颈。

新模型概述

Qwen‑RobotNav：面向自主导航场景，输入环境视觉或点云数据，输出路径规划指令。模型在公开的IndoorNav和OutdoorNav基准上分别实现了+12%和+9%的成功率提升。
Qwen‑RobotManip：聚焦机械臂的抓取与操作，支持多指令序列的推理，能够在仿真平台上完成复杂的堆叠与分拣任务。
Qwen‑RobotWorld：提供对整个工作空间的统一建模，兼顾动态物体预测与长期记忆，实现了跨任务的共享知识库。

三款模型均基于最新的Transformer架构，采用了专门的**动作token化（Action Tokenization）**技术，将高维控制信号映射为离散序列，以便与语言token统一处理。

技术挑战与意义

感知‑行动翻译层：传统大模型擅长“我看到了什么”，但缺乏将视觉意图转化为关节扭矩的能力。Qwen‑Robot通过动作token化，在语言层面直接生成控制指令，显著降低了感知‑控制的延迟。
多模态一致性：套件统一了视觉、语言和动作三模态的表示空间，实现了跨模态的端到端学习，提升了鲁棒性。
可扩展性：模型采用Mixture‑of‑Experts（MoE）结构，可根据任务规模动态调度专家网络，兼顾算力效率与性能。

这些技术突破为大模型在真实物理世界中的应用提供了可行路径，也为后续的“指令即行为”交互奠定了基础。

行业影响与展望

商业落地：阿里巴巴计划将Qwen‑Robot集成到其云计算平台，向制造、物流和零售等行业提供即插即用的机器人AI服务。
竞争格局：与DeepMind的Gato、OpenAI的RT‑1等国外方案相比，Qwen‑Robot在中文语境和阿里生态链的兼容性上具备独特优势。
未来方向：阿里巴巴表示将继续深化模型的长期记忆与自监督学习，探索从“看见—思考—行动”到“学习—适应—进化”的完整闭环。

“看到并不等于能动”。——阿里巴巴通义实验室负责人

随着算力成本的下降和机器人硬件的成熟，具身智能正从实验室走向产业化。Qwen‑Robot套件的发布标志着中国在大模型具身化赛道上的重要布局，也为全球AI生态注入了新的竞争活力。

阿里巴巴发布Qwen机器人套件 推动大模型向具身智能迈进

背景

新模型概述

技术挑战与意义

行业影响与展望

标签分类

阿里巴巴发布Qwen机器人套件推动大模型向具身智能迈进