关闭广告

小米研究院推出AI视频理解:让机器像人一样"回看"思考视频内容

科技行者953人阅读


这项由小米人工智能实验室(MiLM Plus)的李佳泽领导,联合独立研究者以及中国人民大学团队合作完成的研究,发表于2025年11月的计算机视觉领域顶级会议论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2511.13026v1查询完整论文。

当你在看一部长电影时,如果朋友突然问你"刚才那个场景里谁救了谁",你可能会本能地回想刚才看到的画面,重新审视那些关键镜头。现在,研究团队让人工智能也学会了这种"回看思考"的能力。

目前的AI视频理解系统就像一个只能"一遍过"看视频的观众,看完就必须立即给出答案,不能重新检查可能遗漏的重要细节。特别是面对长视频时,这种限制变得更加明显。就好比你被要求看完一部两小时的电影后,不允许回想任何情节就要回答复杂问题一样困难。

研究团队发现了现有AI系统的一个重要缺陷:当这些系统需要理解长视频内容时,它们只会重新思考文字描述,却不会重新审视视频画面本身。这就像一个学生在考试时只反复读题目,却不重新观察图表和图像一样。相比之下,人类在遇到复杂视频理解任务时,会自然地回到关键画面进行再次观察和思考。

为了解决这个问题,研究团队开发了名为REVISOR的创新框架。这个名字本身就很有意思——它结合了"反思"(Reflective)、"视觉"(Visual)、"片段"(Segment)和"推理"(Reasoning)四个关键概念。可以把REVISOR比作一个配备了"倒带功能"的智能视频观察者。

REVISOR的工作方式非常巧妙,分为两个阶段进行。第一个阶段类似于快速浏览,AI系统会先粗略地看一遍整个视频,形成初步印象,同时标记出那些看起来最重要或最让它困惑的时间段。就像你快速翻阅一本书时会用便签纸标记重要章节一样。

在第二个阶段,AI系统会启动"视觉工具箱",重新仔细观察那些被标记的关键片段。这时,它会用更高的精度重新采样这些片段的画面,获得比第一遍观看时更详细的视觉信息。然后,AI系统会结合初步观察的结果和新获得的详细画面信息,进行深入的反思和重新推理,最终得出更准确的答案。

这个过程就像一个侦探在调查案件时的工作方式。侦探会先听取案件的大致情况,形成初步判断,然后重返现场仔细检查那些最可疑的区域,寻找之前可能遗漏的关键证据,最后综合所有信息得出结论。

为了确保AI系统能够准确地找到真正重要的视频片段,研究团队还设计了一个精巧的训练机制,叫做"双重归因解耦奖励机制"(DADR)。这个机制的工作原理有点像训练一个学生同时掌握两种技能:既要能给出正确答案,又要能准确指出支持这个答案的关键证据。

传统的AI训练方法只关注最终答案是否正确,就像只看考试分数而不关心学生的解题过程。而DADR机制除了要求AI给出正确答案外,还要求它能够准确识别出那些对得出正确答案至关重要的视频片段。只有当AI既能给出正确答案,又能准确定位关键证据时,它才会获得最高的奖励分数。

这种训练方式确保了AI不仅仅是"碰运气"答对题目,而是真正理解了视频内容的逻辑关系。就像训练一个学生不仅要会做题,还要能够清楚地解释自己的解题思路一样。

研究团队在多个权威数据集上测试了REVISOR的效果,结果令人印象深刻。在VideoMME这个具有挑战性的长视频理解基准测试中,REVISOR相比基础模型提升了1.4%的准确率,在专门针对长视频的子集上更是提升了2.8%。在MLVU数据集(包含长达120分钟的视频)上,准确率提升了2.5%。这些数字虽然看起来不大,但在AI领域,即使是1%的提升也往往需要大量的技术突破才能实现。

更有趣的是,研究团队还发现REVISOR在视频片段定位任务上表现出色。在Charades-STA数据集上,它达到了51.4%的精确定位率,比之前的最佳方法提升了4.1%。这说明REVISOR不仅能够理解视频内容,还能够准确地找到支持其结论的关键证据。

为了深入了解REVISOR为什么有效,研究团队进行了详细的分析实验。他们发现了一个非常有趣的现象:在训练过程中,AI系统生成的文字推理内容越来越短,而选择重新观看的视频片段则先增长后缩短。这个变化模式揭示了AI学习过程中的一个重要洞察。

文字推理变短说明AI逐渐认识到,对于长视频理解任务,纯粹的文字思考作用有限,关键在于视觉信息的重新审视。而视频片段长度的变化则表明,AI首先学会了扩大搜索范围以确保不遗漏重要信息,然后又学会了精确定位,去除冗余内容。这个学习过程很像人类专家技能的发展轨迹:从广泛探索到精确聚焦。

研究团队还进行了一个对照实验,强制让AI进行更长的文字推理。结果发现,这样做反而导致了性能下降。这进一步证实了他们的核心观点:对于长视频理解,视觉重新审视比文字反思更为重要。

这项研究的意义远远超出了技术本身。在当今视频内容爆炸的时代,从短视频平台到在线教育,从安防监控到医疗诊断,长视频理解技术有着广泛的应用前景。REVISOR提出的"视觉反思"理念为AI系统处理复杂视觉信息提供了新的思路。

比如在教育领域,这种技术可以帮助AI系统更好地理解课堂录像,准确识别学生的学习状态和关键知识点。在安防监控中,AI可以更准确地识别异常事件,并定位到具体的关键时刻。在内容创作领域,AI可以帮助编辑快速找到视频中的精彩片段。

研究团队特别强调,REVISOR框架不需要额外的监督学习训练或外部模型支持,这意味着它可以很容易地集成到现有的AI系统中。这种设计的实用性为技术的广泛应用奠定了基础。

更重要的是,这项研究提供了一个全新的视角来思考AI的学习和推理过程。传统上,我们倾向于让AI系统"一次性"处理信息,就像填鸭式教育一样。而REVISOR证明了"回看思考"的价值,这更接近人类的自然学习方式。

这种视觉反思机制也为未来的多模态AI发展指明了方向。随着AI需要处理的信息越来越复杂,单纯依靠"直觉式"的一次性处理可能无法满足需求。REVISOR展示了一种更加深思熟虑的AI推理模式,这可能成为下一代智能系统的重要特征。

当然,这项研究也还有进一步改进的空间。目前的系统主要针对视频内容,未来可能会扩展到其他类型的多模态内容。另外,如何在保持准确性的同时进一步提高效率,也是一个值得探索的方向。

说到底,REVISOR的核心贡献在于它让我们重新思考了AI系统应该如何处理复杂信息。它证明了有时候"慢下来,仔细看"比"快速处理"更有价值。这不仅是技术上的进步,也是AI系统向人类认知方式靠近的重要一步。归根结底,这项研究为我们展示了一个更加"深思熟虑"的AI未来,在这个未来里,AI不仅能够快速处理信息,还能够像人类一样进行反思和重新审视。这种能力的重要性,在我们面临越来越复杂的信息世界时显得尤为珍贵。

Q&A

Q1:REVISOR框架是如何工作的?

A:REVISOR采用两阶段工作模式。首先快速浏览整个视频形成初步印象并标记关键片段,然后用视觉工具箱重新仔细观察这些片段,结合初步结果和详细视觉信息进行深入反思,最终得出准确答案。就像侦探先了解案件概况再深入调查可疑区域一样。

Q2:双重归因解耦奖励机制DADR有什么作用?

A:DADR机制确保AI系统既能给出正确答案又能准确定位关键证据。它不像传统训练只看最终答案对错,而是要求AI准确识别支持答案的重要视频片段。只有答案正确且证据定位准确时才给予最高奖励,避免AI"碰运气"答题。

Q3:REVISOR在长视频理解上效果如何?

A:在多个权威测试中表现出色。VideoMME数据集上准确率提升1.4%,长视频子集提升2.8%;120分钟视频的MLVU数据集提升2.5%;视频片段定位任务达到51.4%精确率,比之前最佳方法提升4.1%。这些提升在AI领域意义重大。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

商品交易巨头火上浇油:Mercuria被爆曾计划从LME仓库提取超4万吨铜

华尔街见闻官方 浏览 1423

华语乐坛,困在怀旧里

虎嗅APP 浏览 1323

又到每年假装自己是汤唯的时候了

时尚COSMO 浏览 1984

能换电池还能焊模块的手机来了

IT之家 浏览 865

区情|玩转杨数浦,京东自提服务打造数商融合消费新体验!

上观新闻 浏览 1136

地区战争风险加剧 哥伦比亚总统重批美国“侵略拉美”

环球网资讯 浏览 1996

武契奇预测:48小时内伊朗遇袭

极目新闻 浏览 2911

小高领,现在穿刚刚好

Yuki女人故事 浏览 888

库尼亚:我们知道这场比赛的重要性,在丢球后进球非常重要

懂球帝 浏览 1027

果园8.8元"偷橘子":一晚卖几百斤 抓人的狗都累瘫了

红星新闻 浏览 5551

广州策马向前,跑好第一程!

无冕财经 浏览 1077

日媒炒作"台湾有事美军放弃撤离冲绳" 渲染美对日支持

环球网资讯 浏览 4238

马克龙透露约20国将组建"威慑部队" 以保障乌克兰安全

看看新闻Knews 浏览 5682

记者:切尔西坚持年轻化战略,马雷斯卡本赛季进前四就行

懂球帝 浏览 1266

美方在北约外长会上"炮轰"欧盟 被指系又一次强硬姿态

澎湃新闻 浏览 5350

轴距进行加长 奥迪A7L旅行版国内谍照曝光

车质网 浏览 952

同济发布全球首部《工程智能白皮书》,发起“国际工程智能联盟”全球倡议

上观新闻 浏览 1762

距伊朗161公里 巴基斯坦想邀美国在敏感地点建港口

上观新闻 浏览 8717

巴基斯坦和阿富汗同意继续停火 将于11月继续会谈

环球网资讯 浏览 1639

一瓶丝瓜水在拼多多卖出270万件!国货护肤品用十九年,写下不涨价的承诺

华商网 浏览 1623

TikTok上掀起"当中国人很酷"潮流 有人感到很荣幸

上游新闻 浏览 3602
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1