NeurIPS 2025｜火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

在人工智能与多媒体技术深度融合的当下，视频时序定位（Video Temporal Grounding）成为视频理解领域的核心任务之一，其目标是根据自然语言查询，在长段视频流中精准定位出与之匹配的时序片段。这一能力是智能视频剪辑、内容检索、人机交互、事件分析等众多场景落地的关键基础。例如，快速定位球赛进球瞬间、影视剧名场面、游戏高光镜头、响应“回放主角微笑片段” 、异常事件查看等需求，均依赖于高效精准的时序定位技术。如今，火山引擎多媒体实验室联合南开大学研发的 TempSamp-R1 框架，通过对强化学习技术的突破性创新，为视频大模型的“时空感知力”带来质的飞跃—— 该成果已被人工智能领域顶会 NeurIPS 2025接收。

论文链接：
https://arxiv.org/pdf/2509.18056

直击行业痛点：传统方法深陷 “效率与精度” 双重困境

图1 视频时序定位任务示例

视频时序定位任务中，模型需在数分钟甚至数小时的视频流中，精准锁定与文本查询匹配的几秒到几十秒片段。现有主流方案长期面临两大核心难题：基于监督微调（SFT）的方法过度依赖确定性标注，缺乏动态时序推理能力，面对复杂视频场景易出现定位偏差；而基于强化学习的 GRPO 方法虽具备自适应学习能力，但受限于 on-policy 采样机制，在广泛的视频时序搜索空间中探索效率低下，且存在奖励信号稀疏、训练收敛不稳定等问题，导致训练时精度与速度难以兼顾。

三大核心创新：高效提升 MLLM 视频时序定位精度

图2 TempSamp-R1框架概述，该框架用于微调多模态策略模型。

TempSamp-R1 框架通过“混合策略采样+优势塑造+灵活推理范式”的三重创新，构建起高效稳定的视频时序定位学习体系，其技术突破点可概括为以下三方面：

1、混合策略采样：让真值标注成为“精准导航仪”

TempSamp-R1 框架将 on-policy 动态探索与 off-policy 监督指导相结合，提出“(G-1)+1”混合采样策略，即每个查询对应 G 个训练样本，其中 G-1 个来自当前策略的 on-policy 生成样本，1个为基于真值标注的 off-policy 样本。这种设计既保留了强化学习的探索能力，又通过标注数据样本为模型提供精准时序定位，有效解决了GRPO框架中 on-policy 采样的稀疏性问题。

图3 TempSamp-R1 将高质量的注释与基于策略的采样相结合示例

2、非线性优势塑造：给奖励信号 “装上稳压器”

混合采样虽结合两类样本优势，但 off-policy 标注数据样本的高奖励与 on-policy 探索样本的常规奖励存在分布偏移，直接融合易致训练主导失衡、梯度波动。

针对此问题，TempSamp-R1 提出三个可选择的优势塑造策略：

通过奖励缩放将 off-policy 奖励限制在最大值的80%，避免其过度主导训练；
采用优势锚定机制独立计算 off-policy 优势，增强监督信号的引导作用；
创新引入非线性奖励函数，对高奖励区域进行压缩、低奖励区域进行扩展，有效缓解奖励稀疏带来的梯度不稳定问题。

如图4所示，GRPO 基线奖励中位数低、箱线分散（方差大，训练波动剧烈），而 TempSamp-R1 奖励箱线更紧凑、中位数更高，直观印证优势塑造的“稳压”效果——既稳定捕捉高价值时序解，又降低奖励波动，缓解梯度震荡。

图4 对比GRPO和TempSamp-R1算法在Charades-STA和ActivityNet Captions数据集上top-1 IoU得分的分布情况。

3、混合 CoT 训练：兼容适配“复杂+高效”双重需求

考虑到不同视频任务的推理复杂度差异，框架设计了混合思维链（CoT）训练范式：

第一阶段聚焦基础定位能力，仅要求模型输出标签的时序结果，确保核心定位精度；
第二阶段引入格式奖励机制（输出符合推理过程+结果），引导模型学习显式推理逻辑，强化结构化输出能力；

在推理阶段则支持可选择 CoT 与非 CoT 模式：

面对事件定位等复杂任务时，CoT 模式通过显式推理提升边界精度；
处理高光检测等简单任务时，非 CoT 模式直接输出结果以提升效率。

这种“双模式”的设计，大幅提升了框架的场景适配性。

图5 TempSamp-R1进行时间定位的示例。

刷新 SOTA 纪录：三大数据集性能全面突破

基于 Qwen2.5-VL-7B-Instruct 基座模型，TempSamp-R1 在三大权威基准数据集上展现出压倒性性能优势，核心指标均超越现有最优方案：

CharadesSTA（事件时序定位）：R1@0.7 指标达到52.9%，较最优 GRPO 基线提升5.0个百分点，较 SFT 基线提升7.6个百分点；
ActivityNet Captions（长视频事件定位）：R1@0.5 指标达到56.0%，较此前 SOTA 提升5.3个百分点，在长时序推理场景中优势尤为显著；
QVHighlights（视频高光检测）：mAP 指标达到 30.0%，较最优基线提升3.0个百分点，且非 CoT 模式下推理速度提升25%。

图6 对比不同模型在 Charades-STA、ActivityNet Captions 和 QVHighlights 数据集上性能。

更值得关注的是，TempSamp-R1 展现出极强的泛化能力：

在跨数据集迁移测试中，从 CharadesSTA 训练的模型直接应用于 ActivityNet Captions，mIoU 指标达34.7%，较 GRPO 提升4.0个百分点；

图7 从 Charades-STA 到 ActivityNet 的跨域泛化性能。

在小样本的训练中，仅用50个训练样本时，mIoU 达44.7%，超 SFT 2.8%；500 样本时 mIoU 达55.1%，超 SFT 8.9%、GRPO 5.3%，且训练时间（218分钟）短于 GRPO（338分钟）

智能剪辑迎来突破：效率实现跨越式提升，重构内容生产流程

TempSamp-R1 在强化学习领域的核心突破，不仅是技术层面的创新升级，更关键的是，依托该技术已构建起“基于时序理解的高光检测→基于故事线理解的智能剪辑”这一行业领先的完整技术闭环解决方案，目前已在点播与直播场景深度应用，跨越式提升智能剪辑效率：

图9 视频高光智剪解决方案框架图

视频1 点播剧情视频高光智剪流程说明

直播场景：依托 TempSamp-R1 打造的“直播高光智剪”解决方案，以强大的内容理解能力为内容生产注入全新动能。

在体育赛事直播中，该方案支持多语种解说智能剪辑，即时捕捉精彩瞬间，自动生成集锦和吸睛标题，显著提升内容生产效率。
在电商直播场景中，该方案可精准识别商品讲解高光与核心卖点，一键生成引流视频，显著提升直播间成交转化，助力商家实现降本提效与业务增长。

视频2 赛事直播&电商直播高光智剪流程说明

「V-Orbit」音视频 AI 应用广场：是火山引擎视频云智能媒体产品线聚焦音视频处理工具+AI 应用的平台。平台全面覆盖视频直播、视频点播、企业直播及 ImageX 产品线的所有 AI 能力，您可以一站式使用所需的音视频图片处理工具，体验上文介绍的短剧高光智剪和直播高光智剪、视频处理智能体 Aideo Agent、智能播放器 Aideo player、AI 视频翻译、无痕字幕擦除、电商万创等热门应用，详情可访问：
https://www.volcengine.com/experience/vcloudlite/ai

「V-Orbit」音视频 AI 应用广场页面

火山引擎多媒体实验室的前沿探索

火山引擎多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

关于火山引擎

火山引擎是字节跳动旗下云和 AI 服务平台，将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业，通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力，推进企业 AI 转型，激发增长潜能。

简历投递或者项目合作可联系：

jiaoshaohui@bytedance.com

展开阅读全文

更新时间：2026-02-10

标签：科技南开大学时序火山框架实验室模型多媒体引擎视频样本能力优势智能精准

1 2 3 4 5

NeurIPS 2025｜火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

美国主动约谈背后：大豆滞销、芯片漏风，10月底成中美博弈生死线

速看！北辰又上央视啦！

百度优选亮相2025常熟电商服饰生态大会

SuperCLUE最新评测：文心X1.1精确指令遵循国内第一

掏空台积电后，美国芯片开始发力了，英伟达最强芯片采用美国制造

浙江声通科技有限公司成立

“AI伦理”争议升级，部分慈善机构使用AI生成“贫困儿童”图像

鸿蒙6星盾架构全新升级！AI防窥+加密分享双Buff，隐私防护再进阶

火箭已经完成总装！美国载人飞船即将发射：送4名宇航员去月球

净利润暴增727%，股价却暴跌40%，严重错杀的光芯片隐形冠军！

敲诈台积电2000亿，特朗普彻底摊牌？巧了，大陆也已做好万全准备

蓄满170米！丹江口水库要闯多少关？

与董明珠关系真相大白仅2年，王自如近况曝光，一点都不意外

以假乱真，国家终于出手了，李梓萌骗人真相大白，幕后黑手被揪

离设备“锁死”越来越近？中企已发起反击，美媒乐了：自认倒霉！

浙江声通科技有限公司成立

科技遇上邮政！顺义邮政亮相HICOOL消费节，解锁文化服务新

安防“黑科技”上线！广州智慧警务护航广交会

华院计算有色行业智能制造解决方案亮相2025郑州铝工业

美光科技和IBM分别宣布将在美国投资2000亿美元和1500

宇树科技决定更名

3个隐形能力，小学看似没用，却是初高中孩子稳居学霸的底

科瓦奇：我们有能力在中场休息时做出调整；乔布今天非常出

6大顶级模型交易比拼，DeepSeek暂列第一，怎么说？

2025青科会预告丨以思想为翼，在科技前沿共探未来青年