能推理、抓高帧!SALMONN 家族 2025 三大模型 + AVUT 来袭

最近 AI 圈里,SALMONN 家族算是搞了个大动作,2025 年 ICML 和 EMNLP 这两个顶会期间,它一下子甩出好几个新模型,还带了个新的评测基准,直接把开源音视频理解的水平又往上拉了拉。

之前,这家族就出过通用音频模型和全要素音视频模型,这次算是彻底 “扩容”,各种榜单都被它霸了,今天就聊聊这些新东西到底有多能打,又能解决哪些实际问题。

先说说最受关注的新旗舰 , video-SALMONN 2+

这模型专门盯着 “高质量视频描述” 做文章,简单说就是让 AI 把视频里的事儿说全、说对,别漏关键信息,也别瞎编,它用了两种办法,一种是 “原子事件级评估”,把视频拆成小事件一个个查,另一种是 “MrDPO 多轮强化学习”,反复优化避免胡说八道。

之前很多音视频模型都有个毛病,要么得靠人工字幕才能看懂,没字幕就抓瞎,要么有字幕和没字幕的表现差一大截,但这个 2 + 不一样,没字幕的真实场景和有字幕的理想场景比,性能差别特别小。

这对机器人来说太有用了 , 机器人总不能每次出门都带个 “人工字幕外挂” 吧?靠自己听和看就能理解环境,才是真本事。


它的训练思路也挺有意思

研究团队先拿 Qwen 2.5-VL 7B 当底座,训出一个基础版 2+,然后用这个基础版给大量音视频做高质量标注,再用这些标注去训更大的 3B 和 72B 版本。

结果挺出人意料,72B 版本直接超过了 GPT-4o、Gemini 1.5 Pro 这些闭源巨头,本来想,开源模型能追上闭源的就不错了,没想到还能反超,这说明 “用好模型生成好数据,再训更好模型” 的路子是走通了。

光能 “描述清楚” 还不够,AI 要是只会复述视频内容,那跟个高级复读机也差不太多,SALMONN 家族这次还出了个能 “动脑子” 的模型,就是 video-SALMONN-o1。

能 “一步步想” 的 AI,video-SALMONN-o1 破解音视频推理难题

这个 o1 最特别的地方,是它会 “逐步推理”,不是直接给答案,而是把思考过程说出来,跟咱们解数学题似的,比如有个问题问 “表演者为啥想当黑山公民”,它会先提取音频里的关键信息 , 表演者说 “黑山是满是白人的国家,名字和自己肤色匹配”,再顺着这个线索选出答案。

还有分析 “直男拍照观众为啥笑”,它会注意到表演者模仿了抬下巴的姿势,还加了夸张动作,最后判断笑点是 “想象这场景就好笑,还演出来了”。

本来想,这种推理能力应该跟文本推理差不多吧?但后来发现不是,之前很多模型在数学题、编程题上能推理,碰到脱口秀、学术演讲这种又有音又有画的场景就歇菜。

o1 专门针对音视频做了优化,还搞了个叫 “pDPO” 的核心算法

每步推理先试两个方向,看看哪个更对,只挑那些拿不准的关键步骤重点优化,这样还能省不少算力,这对需要分析复杂音视频的场景太有用了 ,比如看学术讲座,AI 不仅能告诉你讲了什么,还能帮你理清里面的逻辑关系。

解决了 “说清楚” 和 “想明白” 的问题,还有个老大难没搞定 , 高帧率视频,我们看体育比赛、电竞直播,都需要看清快速动作,比如篮球的投篮瞬间、电竞的技能释放。

但之前很多模型要么只采 1FPS 左右的画面,漏了好多关键信息,要么想采高帧率,结果算力直接 “烧空”,SALMONN 这次出的 F-16,就是专门治这个的。


抓得住“瞬间”的 F-16,高帧率视频终于有了靠谱 AI

F-16 的办法叫 “多帧联合对齐压缩”,把好多帧的特征一起送进一个 “对齐器”,一边把语义对齐,一边高效压缩,这样既保住了图像编码器原本的语义理解能力,又没让算力飙升。

实际表现也挺亮眼,通用视频理解上追平了同规模的开源 SOTA,在篮球、足球这些体育任务上,还超过了 GPT-4o 和 Gemini 1.5 Pro。

之前我一直觉得,AI 看高帧率视频的能力怎么也得再等两年,没想到 F-16 这次直接把坎迈过去了,这样看来,以后做体育赛事复盘、电竞高光分析,AI 说不定能比咱们先看清那些 “一闪而过” 的瞬。

比如足球比赛里的越位判断,AI 能靠高帧率画面更精准地捕捉球员位置,减少争议判罚的可能,模型再能打,没有靠谱的评测标准也不行。

不然怎么知道它是真厉害,还是靠 “刷分” 蒙混过关?之前音视频评测就有个大坑 ,“文本泄漏”,很多模型不看视频,光看题目和选项就能答对,这哪是理解音视频,分明是玩文字游戏。

这次 SALMONN 家族还带了个 AVUT 基准,专门治这个毛病,AVUT 覆盖了信息获取、事件定位、说话人日志这些常见任务,还特别依赖非语音的音频线索 , 比如环境音、动作声。

这样一来,模型想只靠文本蒙答案就难了

它还搞了个 “Cycled Accuracy”,把选项打乱重排,比如 ABCD 改成 BCDA,只有模型在所有排列里都选对才算数,这就避免了 “不确定就蒙 C” 的情况,评分水分少了很多。

AVUT 这么一搞,以后音视频 AI 想拿名次,就得真刀真枪拼理解能力,这对整个行业来说都是好事,能少走不少弯路,这次 SALMONN 家族一下子拿出三个模型加一个评测基准,算是把 “模型 - 评测” 的闭环搭起来了。

从之前的基础款,到现在能描述、会推理、抓高帧,还配套了公平的评测标准,不仅刷新了开源音视频理解的上限,还给学界和产业界提供了实在的工具。

要是想了解细节,他们把开源地址和论文都放出来了,感兴趣的可以去看看,以后不管是做无字幕视频分析,还是搞机器人交互,都有了更靠谱的选择。

SALMONN 家族这次的 “集群式” 进化,算是把音视频 AI 从 “能感知” 推向了 “看得懂、听得准、答得明” 的新阶段,后续值得期待。

展开阅读全文

更新时间:2025-10-07

标签:科技   模型   家族   字幕   视频   黑山   表演者   基准   场景   能力   关键

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top