本文内容均是根据权威材料,结合个人观点撰写的原创内容,辛苦各位看官支持。
2025年的AI圈,空间智能成了新的"军备竞赛"现场。
李飞飞那帮学者前两年喊出"三维智能是下一代AI的入场券",这下好了,从硅谷到中关村,大小模型都在抢着秀空间推理的肌肉。
今天这个宣布在VSI-Bench上刷新SOTA,明天那个号称"实现厘米级空间定位",热闹得像过年赶集。

但圈里有个不敢明说的疑问,这些刷上去的分数,到底是模型真懂了三维空间,还是把测试题的答案背下来了?上个月中国科学院大学、微软亚洲研究院和苏黎世联邦理工联合发布的OSI-Bench基准,算是把这层窗户纸捅破了大模型的空间智能,可能比我们想的要"虚"得多。
要说空间智能火起来,也不是没道理。
前几年大模型在文本、图像上卷不动了,三维空间成了新赛道。
毕竟机器人要导航、AR要虚实融合、自动驾驶要认路,都得靠空间理解。

李飞飞团队搞的"视觉与语言空间智能"研究,算是给这波热潮定了调。
但赛道热了,"捷径"就来了。
现在主流的空间推理基准,比如VSI-Bench,用的训练数据和测试数据基本是"一家人"。
都是从ScanNet++、ARKitScenes这些室内数据集里扒拉出来的,场景雷同,问题类型也差不多。
模型练着练着就摸出规律了不用真懂"桌子在椅子左边"是什么意思,记住"左边"常和"距离近""角度小"这些词绑定就行。

这跟学生考试前背题库没啥区别。
考高分不代表真学会,换套没见过的题就露馅。
行业里管这叫"数据拟合",说得好听,其实就是"背答案"。
这种"虚假繁荣"到2024年底达到了顶峰。
那会儿几乎每周都有新模型宣布"空间推理突破",有的甚至把准确率刷到了90%以上。

但有个细节很少有人提,这些模型在实验室环境里表现亮眼,放到真实场景就拉胯。
比如让AI估算"房间层高",在标准数据集里误差能控制在10厘米,换个没见过的办公室,误差能飙到半米这哪是智能,分明是"考场学霸,实战学渣"。
中科院大学、微软亚洲研究院和苏黎世联邦理工的研究团队大概也看不过去了,今年初闷头搞出了OSI-Bench。
这玩意儿跟以前的基准不一样,不是从现成数据集里挑题,而是实打实去采集新数据。

他们带着双目相机、LiDAR跑了50多个不同场景,从普通民居到商场,再到工厂车间,连IMU惯性测量和GPS定位数据都用上了。
每个场景不仅拍照片、录视频,还记录了光照变化、动态物体移动就是为了让数据更"野生",更接近真实世界的复杂情况。
光有数据还不够,题目设计也花了心思。
OSI-Bench把空间智能分成三个层级,相对关系(比如"杯子在盘子前面还是后面")、静态尺度(比如"桌子长几米")、动态尺度(比如"人从门口走到窗户用了几秒")。

每个层级的问题都是通过Human-in-the-loop生成的,研究员先标注物理参数,再让标注员用自然语言提问,避免问题套路化。
这招挺狠的。
以前模型靠记"问题模板"就能混分,现在问题问法千变万化,比如同样问距离,一会儿说"两步远",一会儿说"够不够一个人躺下",想背答案都背不过来。
测试结果出来那天,估计不少AI团队心里一凉。
研究团队找了目前最火的几个多模态大模型,Gemini-2.5-Pro、Qwen-VL、InternVL都测了个遍。

结果呢?最好的Gemini-2.5-Pro总分也就刚过60分,刚及格,差的模型甚至不如随机猜。
尤其在绝对距离估算这种硬指标上,所有模型都栽了跟头问"冰箱到墙的距离",AI要么说"0.5米",要么说"5米",就没几个沾边的。
有意思的是,之前在VSI-Bench上表现不错的Qwen-VL和InternVL,到了OSI-Bench分数掉了一大截。
后来才发现,这俩模型在VSI-Bench上可能是"吃"了语言先验的红利比如问题里提到"大桌子",就默认往"长2米"上猜,根本没看图像。

为了验证这个猜测,研究团队做了个"盲测",把图像遮住,只给文字问题,结果模型准确率没降多少。
又搞了个"反常场景"实验,把冰箱挂在天花板上,问"冰箱离地面多高",AI直接懵了,还按"正常冰箱高度"回答这下实锤了,很多时候模型靠的是语言习惯,不是真看明白了空间。
OSI-Bench这一测,算是把空间智能的"底裤"扒了。
现在行业里那股"刷点狂潮"该冷静冷静了。
AI不是用来刷分的工具,空间智能的终极目标是让机器真正理解三维世界,而不是在实验室里背答案。

OSI-Bench团队还算敞亮,把基准和评测代码全开源了,就是想让大家别再走捷径。
他们下一步计划开放更多开放世界视频数据,从室内走到室外,从简单场景到复杂环境。
毕竟,真正的空间智能不该只待在实验室里,得能经得起阳光、风雨,还有那些突如其来的"意外情况"比如突然闯进镜头的小猫,或者被风吹动的窗帘。
OSI-Bench带来的不只是一个评测工具,更像是给整个行业提了个醒,智能的本质是"理解",不是"记忆"。

什么时候AI能像人类一样,走进一个陌生房间,扫一眼就知道"这桌子大概能坐4个人""从门口到沙发要走三步",那才算真的懂了空间。
在这之前,所有的"突破"都得打个问号。
不知道您对此有什么看法呢?欢迎在下方评论区留下你的想法,喜欢文章记得点赞关注我们下期再见。
更新时间:2026-01-12
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号