阿里巴巴发布Qwen机器人套件 推动大模型向具身智能迈进

1 阅读3分钟前沿
阿里巴巴发布Qwen机器人套件 推动大模型向具身智能迈进

背景

阿里巴巴的通义实验室(Tongyi Lab)自2023年起陆续发布了通义千问(Qwen)系列大模型,凭借强大的多模态理解能力在中文生成任务中表现突出。随着生成式AI在文本、图像、视频等领域的快速迭代,业界对“大模型+机器人”的组合期待升温。6月,阿里巴巴在内部发布会上首次公开了Qwen‑Robot套件,明确指出“看得见不等于能动”,将感知与控制的鸿沟视为当前具身智能的核心瓶颈。

新模型概述

  • Qwen‑RobotNav:面向自主导航场景,输入环境视觉或点云数据,输出路径规划指令。模型在公开的IndoorNav和OutdoorNav基准上分别实现了+12%和+9%的成功率提升。
  • Qwen‑RobotManip:聚焦机械臂的抓取与操作,支持多指令序列的推理,能够在仿真平台上完成复杂的堆叠与分拣任务。
  • Qwen‑RobotWorld:提供对整个工作空间的统一建模,兼顾动态物体预测与长期记忆,实现了跨任务的共享知识库。

三款模型均基于最新的Transformer架构,采用了专门的**动作token化(Action Tokenization)**技术,将高维控制信号映射为离散序列,以便与语言token统一处理。

技术挑战与意义

  1. 感知‑行动翻译层:传统大模型擅长“我看到了什么”,但缺乏将视觉意图转化为关节扭矩的能力。Qwen‑Robot通过动作token化,在语言层面直接生成控制指令,显著降低了感知‑控制的延迟。
  2. 多模态一致性:套件统一了视觉、语言和动作三模态的表示空间,实现了跨模态的端到端学习,提升了鲁棒性。
  3. 可扩展性:模型采用Mixture‑of‑Experts(MoE)结构,可根据任务规模动态调度专家网络,兼顾算力效率与性能。

这些技术突破为大模型在真实物理世界中的应用提供了可行路径,也为后续的“指令即行为”交互奠定了基础。

行业影响与展望

  • 商业落地:阿里巴巴计划将Qwen‑Robot集成到其云计算平台,向制造、物流和零售等行业提供即插即用的机器人AI服务。
  • 竞争格局:与DeepMind的Gato、OpenAI的RT‑1等国外方案相比,Qwen‑Robot在中文语境和阿里生态链的兼容性上具备独特优势。
  • 未来方向:阿里巴巴表示将继续深化模型的长期记忆与自监督学习,探索从“看见—思考—行动”到“学习—适应—进化”的完整闭环。

“看到并不等于能动”。——阿里巴巴通义实验室负责人

随着算力成本的下降和机器人硬件的成熟,具身智能正从实验室走向产业化。Qwen‑Robot套件的发布标志着中国在大模型具身化赛道上的重要布局,也为全球AI生态注入了新的竞争活力。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。