阿里发机器人认知套件:3个模型,已进厂实测

图释:Qwen-Robot套件包含三种不同的模型,每个模型针对不同的物理智能层。Unitree/YouTube


SCIENCE RAZOR

阿里通义实验室刚刚放出了Qwen-Robot,不是那种按脚本跳舞的展示品。这是一套直接给机器人塞“通用大脑”的模型家族,由三个专攻物理世界核心难题的模型组成:导航、操纵、以及理解世界怎么运转。现在,这套东西正通过阿里云在企业客户里实测。

和波士顿动力那种“身体逆天”的路线不同,Qwen-Robot 根本不做硬件,它专攻“脑子”——把大语言模型的通用知识和推理能力,直接接上机器人的物理行动。

三个模型,专治真实世界的难搞

让机器人在真实环境里活下来,比在棋盘上算胜负难几个级别。永远有突然滚到脚边的球、被挪走的椅子、模糊的指令。阿里用三个专门模型分头解决:

1. 导航模型:看懂空间,不是画线
它能实时建地图并理解语义。你说“去厨房看看灶台上那个冒烟的锅”,它得把“冒烟”“厨房”“灶台”“锅”全转化成空间坐标,同时躲开地上乱窜的猫、堆满快递盒的走廊。

2. 操纵模型:什么都敢抓,还不捏碎
抓鸡蛋不碎、拧奇形怪状的瓶盖,人类幼童都行,对机器人是地狱难度。这个模型的狠活是泛化能力——不管杯子长什么样,它都认识,并算出该用多大劲儿、什么角度。公开信息显示,它在复杂形状物体抓取任务里成功率显著跃升,这是大模型语义理解首次真正落到精细动作控制上。

3. 世界模型:给机器人装上“物理直觉”
你推水瓶,不需要算牛顿力学就知道它会倒、会滚。机器人没有这直觉。世界模型就用海量数据学习物理因果,预演动作后果。比如“把水倒进杯子”,它先在脑子里跑一遍水流抛物线、冲击力、溅射可能,再告诉操纵模型怎么调整倾角和高度。

三者配合:世界模型负责“预演未来”,导航和操纵模型负责“执行当下”,底层共享通义千问的语义理解。

中美已打到下半场:路径不同

美国这边,Figure AI 联手 OpenAI,让机器人听懂“把桌上唯一能吃的东西给我”这种抽象指令,直接执行。Physical Intelligence (π) 要做跨硬件的通用机器人软件大脑,融了几亿美金。谷歌 DeepMind 用海量数据硬训“机器人版 Transformer”,试图捅破“见过”到“理解”的窗户纸。美国打法:强强联合、资本猛推,一步到位冲通用基座。

阿里这次出牌,标志着中国在具身智能的“大脑”层挤进第一梯队。前几年国内多在追硬件精度和成本,Qwen-Robot 直接打在认知与决策智能这个最核心的点上。跟美国创业公司的激进叙事不同,阿里走典型中国路径:企业级、场景化渐进——先在物流仓储、制造产线、商业服务里跑通,拿数据飞轮,再螺旋上升。

差距主要不在硬件(Qwen-Robot 本就是脑不是手),而在大规模物理数据积累和实时交互验证的闭环速度。美国靠开源生态和产业联盟稍占先,但中国拥有全球最大最复杂的制造业场景,这是绝无仅有的数据地理优势。Qwen-Robot 通过阿里云直连企业,就是在抢这块最肥的试验田。

它要回答的真正大问题

这不止是教机器人搬箱子。它直指智能本质:认知能不能脱离肉体存在?下棋、语言生成后,具身智能要攻最顽固的堡垒——那种靠物理交互、本能反应和直觉判断得的“身体知识”。一个从没碰过锤子的模型,能真懂“沉重”“敲击”吗?Qwen-Robot 的世界模型就在尝试在数字世界里复现物理因果链条。如果走通,人类认知最后那块神秘领地——与世界物理互动产生的智慧——也能被算法化。

目前看不到直接上国防装备的影子,但一个能理解三维空间、预测物理变化、精密反应的认知引擎,比导弹制导更底层。它最可能先改变的是物流中“轻拿轻放”的机器人,能预判病人摔倒的护理机器人,地震废墟里自主判断坍塌风险并找到生还者的救援单元。

阿里这次扔的不是石头,是探针,直插物理世界与数字世界交界处那片最开阔的无人区。

— 感谢阅读 · 欢迎点赞关注 · 科学剃刀 —

展开阅读全文

更新时间:2026-06-18

标签:科技   阿里   套件   机器人   认知   模型   物理   世界   美国   语义   智能   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top