在一些电影片段中,我们常常看到机器人能轻松理解“帮我拿杯咖啡”或“把衣服晾到阳台”这样的指令,并精准完成任务。然而,在现实世界中,让机器人具备这种高级别的理解和执行能力,一直是科研人员面临的巨大挑战。
这背后,其实是机器人具身导航技术的现实困境。前主流的机器人导航方法,主要有两类,但都有明显的短板。
指令跟踪导航:机器人需要遵循极其详细的、一步步的指令,例如“左转,出门,直行三米”。但这种方式指令依赖度过高,要求人类提供超出自然交互习惯的细节化引导;
预定义物体导航:机器人被要求找到某个类别(如“椅子”)的任意一个实例。这忽略了具体情境,比如在“我想喝咖啡”这个任务中,找到一台“咖啡机”远比找到任意一把“椅子”更重要。
这两种方式都存在明显的“语义鸿沟”。机器人无法理解人类高级指令背后真正的意图,也无法处理“茶室左边桌子上的水果”这样包含复杂空间关系的任务。现实世界的人类指令是开放、抽象且充满上下文关联的,这使得现有的导航机器人在面对真实、复杂的家居或办公环境的长视域导航任务中成功率极低。
▍NavA³:给机器人装 “分层导航系统”
针对以上困境,清华大学联合北京智源人工智能研究院、中科院自动化所、北京大学等提出了分层框架NavA³。其核心思想非常巧妙,将一个复杂的长距离、开放式导航任务,分解为“全局规划”和“局部执行”两个层次,模拟了人类在陌生环境中寻找目标的思维方式。
全局策略:指令解析与目标区域推理
全局策略的核心功能是“从高级指令到目标区域的映射”,依托 “Reasoning-VLM” 与 “全局 3D 场景表示” 两大组件,解决“去哪里找” 的问题。
首先,机器人会通过3D 场景构建,把整个环境生成为一张立体地图。具体来说,它会用相机拍大量RGB 照片,再结合 LiDAR 传感器(类似 “激光眼”)生成密集的 3D 点云 (每个点代表场景中的 3D 坐标);接着用特征点匹配算法(如 SIFT、ORB)建立帧间对应关系,通过网格重建生成连贯的 3D 几何结构;最后标注出 “茶室”“会议室”“阳台” 这些区域的语义信息。
Reasoning-VLM 则是全局策略的 “决策核心”,它通过结构化提示模板引导指令解析与空间推理。例如面对“获取咖啡” 这类高级指令时,模型会先通过语义分解推断出核心目标物体(即 “咖啡机”);接着基于已构建的全局场景,计算目标物体在各个区域的条件概率,筛选出概率最高的目标区域;最后在目标区域的局部边界内随机采样初始航点,为后续的局部策略提供导航起点。通过这一系列操作,机器人的搜索范围从整个建筑缩小到特定功能区域,导航效率大幅提升。
这样一来,机器人搜索的范围就从整个建筑缩小到了一个特定的功能区域,极大地提高了效率。
局部策略:精确物体定位与导航执行
局部策略聚焦于在目标区域内实现物体精准定位,核心组件为“NaviAfford 模型”,解决“具体找哪里”的问题。NaviAfford 模型的核心优势在于 “空间感知可供性理解”,这种能力的构建依赖于大规模数据集的训练,具体体现在三个方面:
NaviAfford模型训练和部署流程
一是数据集构建,研究团队从LVIS、Where2Place 数据集中筛选出 5 万张室内场景图像,生成 100 万个 “图像-问答”样本对,同时将实例分割掩码转换为目标检测格式,并在每个边界框内采样 5-8 个代表点,以此提升空间粒度;
二是可供性标注,设计了两类标注维度。物体可供性(标注目标物体与参考物体的方向关系,如“沙发前的电视”)与空间可供性(标注满足任务约束的自由空间,如 “壁橱内可挂衣区域”);
三是模型架构,采用“视觉-语言”双分支结构,其中文本分支负责处理查询指令,视觉分支对 RGB 图像进行编码,再通过特征映射将视觉信息融入语言模型的嵌入空间,最终输出精准的目标点坐标,从而实现目标物体的定位。
▍NavA³ 的 “实战表现”:实验验证与性能分析
为了让NaviAfford 模型具备强大的空间感知能力,研究团队投入大量精力构建了一个包含 100 万份样本的 “空间感知物体可供性” 数据集 —— 该数据集不仅告知模型 “这是什么物体”,更关键的是传递了 “物体通常如何与其他物体在空间上关联” 的信息,为模型能力奠定基础。
在严格的实验评估中,NavA³ 展现出了压倒性优势。研究团队构建了包含会议室 A、会议室 B、茶室、工作站、阳台五个不同场景的基准测试集,每个场景设置 10 个导航任务,总计 50 个任务,且每种方法对每个任务均测试 10 次。
结果显示,NavA³ 的平均成功率达到 66.4%,而此前表现最佳的 MapNav方法仅为 25.2%。以工作站场景为例,NavA³ 的成功率高达 76%,MapNav 却只有 28%;导航误差方面,NavA³在会议室 A 的误差仅 1.23 米,而 MapNav 则达到 7.21 米,也就是说相对于MapNav方法,NavA³真正做到了“精准定位到目标旁边”。更有意思的是,GPT-4o、Claude-3.5 等通用视觉语言模型在这类复杂导航任务中成功率几乎为零,它们虽能看懂图片、听懂指令,却无法将“指令”与“空间导航”有效结合,而 NavA³ 的分层设计恰好填补了这一空白。
更实用的是,NavA³框架成功部署在了两种形态完全不同的机器人平台上:轮式移动机器人和四足机器人。这证明了该方法的通用性和强大的跨平台适应能力,为未来的大规模实际应用铺平了道路。
▍结语
NavA³ 通过分层架构突破了现有具身导航 “语义理解浅、空间感知弱” 的瓶颈,其核心创新在于:一是将高级指令推理与全局空间建模结合,解决 “目标区域定位” 问题;二是通过大规模空间可供性数据训练,实现开放词汇物体的精确定位。实验表明,该框架不仅在静态场景中实现 SOTA 性能,还具备跨机器人形态的适配能力,为通用具身导航系统的发展提供了可行技术路径。未来,随着动态环境感知与多模态融合技术的整合,NavA³ 有望推动具身智能从 “特定场景应用” 向 “通用化人机交互” 跨越。
更新时间:2025-10-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号