关闭广告

上海AI实验室重新定义视频理解:让AI像侦探一样思考长视频

科技行者568人阅读


这项由上海AI实验室的何泽峰、曲小野等研究人员联合南京大学、香港中文大学、上海交通大学和北京大学共同完成的突破性研究,发表于2025年9月的arXiv预印本(论文编号:2509.24304v2),有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队提出了一个名为FrameThinker的创新框架,彻底改变了AI理解长视频的方式。

想象一下,你正在看一部两小时的悬疑电影,想要找到凶手在第90分钟时留下的关键线索。传统的做法就像是把整部电影的每一帧画面都打印出来,然后让人逐一检查——这不仅效率低下,还容易在海量信息中迷失重点。而FrameThinker就像是训练了一位聪明的侦探,它会先快速浏览整部电影获得大致印象,然后根据剧情发展有针对性地重点观察可疑的时间段,最终准确找到关键证据。

这种"侦探式思维"的价值远不止于看电影。在医疗诊断中,医生需要从几小时的手术录像中找到关键操作细节;在安防监控中,需要从一整天的录像中迅速定位异常事件;在教育培训中,需要从长时间的课程录像中提取重要知识点。传统的AI视频理解系统就像是不会变通的机器人,只会按部就班地处理每一帧画面,既浪费计算资源又容易错过关键信息。

研究团队发现,现有的大型视觉语言模型在处理长视频时存在两个致命缺陷。首先是"撒网式采样"问题——就像用同样大小的网眼捕鱼,无论池塘里有什么鱼都一视同仁,结果往往网到一堆小鱼却错过了大鱼。这些模型会均匀地从视频中提取帧画面,不管这些画面是否包含有用信息。其次是"静态思维"局限——一旦开始分析,就只能依靠文本推理,无法再回头查看视频中的其他部分,就像侦探破案时只能凭借最初收集的证据,不能再回现场寻找新线索。

FrameThinker的创新之处在于引入了"多轮互动推理"的概念。这个系统会像真正的侦探一样工作:首先进行初步侦察,快速扫描整个案发现场(视频)获得大致印象;然后根据初步发现,有针对性地深入调查可疑区域;如果发现新线索,还会继续追踪相关时间段。整个过程是动态的、迭代的,每一步的发现都会指导下一步的行动。

一、革命性的多轮推理框架

FrameThinker的核心创新可以用"思考-行动-观察"的循环来理解。传统的AI系统就像是坐在办公室里的文员,只能根据别人提供的材料写报告。而FrameThinker更像是实地调研的记者,可以根据采访过程中的发现,决定下一步要采访谁、要去哪里实地考察。

具体来说,这个系统设计了三种"侦探技能"。第一种是"时间定位技能",当系统听到"在视频的第3分20秒发生了什么"这样的问题时,它会先将这个时间戳转换为精确的帧编号,就像侦探查阅案件记录找到具体时间一样。第二种是"区间探查技能",系统可以选择观看视频中特定时间段的连续画面,比如"查看第100帧到第200帧之间发生了什么",这就像侦探重点勘察案发现场的某个区域。第三种是"结案技能",当系统收集到足够证据后,会给出最终答案。

这种设计的巧妙之处在于,系统的每一个"思考"都会明确记录下来,然后基于这个思考选择具体的"行动",最后根据行动的"观察"结果进行下一轮思考。就像侦探破案时会在笔记本上写下"我觉得凶手可能在厨房留下了痕迹",然后决定"去厨房仔细搜查",发现"确实在厨房水槽边找到了血迹",于是继续思考"这说明凶手可能是左撇子"。

举个具体例子来说明这个过程。假设有人问"视频中的小女孩是用什么工具找到她要找的人的?"系统首先会快速浏览视频,发现开头有两个孩子,后面有一个大型生物。基于这个初步印象,系统会思考"关键事件可能发生在这两个时间点之间",然后选择重点观察第16407帧到第32814帧这个时间段。通过这次仔细观察,系统发现了一个面具是关键道具,于是进一步思考"需要确认这个面具的具体用途",继续选择观察第25782帧到第28125帧的更精确时间段。最终,系统确认面具被用来在森林中寻找目标,从而得出正确答案。

二、两阶段训练:从学习语法到掌握策略

要让AI具备这种"侦探思维",研究团队设计了一套循序渐进的训练方法,就像培养一名优秀侦探需要先学会基本技能,再通过大量实战积累经验。

第一阶段被称为"监督精调",相当于侦探学院的基础课程。研究团队精心准备了2392个训练案例,就像为侦探新手编写的教科书。这些案例涵盖了五种不同的推理模式:直接回答型(不需要额外搜查就能解答的简单案件)、单次搜查型(只需要查看一个地点就能破案)、时间定位型(需要先确定具体时间再进行搜查)、层级搜查型(需要先大范围搜查,再缩小范围细查)、多点搜查型(需要查看两个不同地点才能获得完整信息)。

在这个阶段,AI学习的是"侦探语法"——如何正确地表达自己的思考过程,如何规范地执行搜查行动,如何按照标准格式记录发现。就像新手侦探必须学会如何填写搜查令、如何写调查报告一样,AI必须掌握标签内写思考过程,标签内写具体行动的基本格式。

第二阶段是"强化学习",相当于让侦探在真实案件中摸爬滚打。这个阶段使用了28000个更加复杂多样的案例,迫使AI从死记硬背转向灵活应变。就像真实的侦探工作中,每个案件都是独特的,不能简单套用教科书上的模板,AI必须学会根据具体情况制定个性化的调查策略。

这个阶段最关键的创新是"奖励机制设计"。传统的训练方法就像是只看结果不看过程的考试,只要最终答对了就给满分,不管过程多么混乱。但这样训练出来的AI可能会"投机取巧"——比如随便做几个无意义的搜查动作,然后猜一个答案,碰巧猜对了就能获得奖励。

为了避免这种情况,研究团队设计了"条件奖励"机制。就像评价侦探不仅要看破案率,还要看调查过程是否合理一样,AI只有在最终答对的前提下,才能因为使用了有效的搜查技能而获得额外奖励。这样设计确保AI不会为了获得奖励而做无意义的动作。

三、认知一致性验证:确保逻辑严密

在强化学习阶段,研究团队还发现了一个微妙但重要的问题:即使使用了条件奖励,AI有时仍会学会一些看似合理实则荒谬的行为。就像有些侦探可能会在调查报告中写"我觉得凶手在厨房",但实际行动却是去搜查客厅,或者明明找到了关键时间点,但接下来的搜查却完全偏离了这个时间。

为了解决这个问题,研究团队开发了"认知一致性验证"模块,相当于给AI配了一位严格的督察。这个督察会检查AI的每一个推理过程,确保思考和行动之间保持逻辑一致。

具体来说,督察会进行三项检查。首先是"冗余检查",如果AI重复执行相同的搜查动作,就会被视为逻辑混乱而终止。就像侦探不应该反复搜查同一个已经确认没有线索的地点一样。其次是"逻辑流程检查",如果AI先费力查找了某个关键时间点,但接下来的搜查却完全忽略这个时间点,也会被认定为逻辑断裂。最后是"忠实度检查",督察会对比AI的思考记录和实际行动,如果发现AI说要搜查A区域但实际却搜查了B区域,这种"说一套做一套"的行为也会被制止。

这种严格的监督机制确保了AI的推理过程不仅有效,而且可以被人类理解和验证。就像法庭上要求侦探的调查过程必须经得起质疑一样,AI的每一步推理都必须具有可解释性。

四、实验结果:效率与准确性的双重突破

为了验证FrameThinker的实际效果,研究团队在六个不同难度的视频理解任务上进行了全面测试,结果令人震撼。

在最具挑战性的Video-Holmes推理基准测试中,FrameThinker取得了56.1%的准确率,大幅超越了之前的最佳成绩。更令人惊讶的是,它平均只需要观看10.2帧画面就能得出正确答案,而传统方法需要观看32帧。这就像一位技艺高超的侦探只需要查看几个关键证据就能破案,而普通侦探却要把所有证据都过一遍。

在LongVideo-Reason长视频推理测试中,FrameThinker的表现更加出色,准确率达到76.1%,超越了需要观看512帧画面的竞争对手LongVILA-R1(准确率72.0%),而自己平均只观看20.6帧。这意味着FrameThinker的效率比竞争对手高出20倍以上。

在四个长视频理解基准测试中,FrameThinker同样展现出了全面的优势。在LongVideoBench测试中,准确率52.9%,平均观看21.1帧;在MLVU测试中,准确率59.1%,平均观看23.2帧;在VideoMME-Long测试中,准确率47.6%,平均观看24.1帧;在LVBench测试中,准确率36.6%,平均观看23.9帧。在所有这些测试中,FrameThinker都比传统方法节省了25%到36%的计算资源,同时准确率平均提升了10.4%。

这些数字背后反映的是思维方式的根本性改变。传统方法就像是用放大镜逐页阅读整本小说来找一个关键情节,而FrameThinker更像是熟练的读者,能够快速浏览,然后重点阅读可能包含关键信息的章节。

五、深入探索:奖励设计的微妙艺术

在开发过程中,研究团队遇到了一个意想不到的挑战:如何设计合理的奖励机制来引导AI学习。这个问题比想象中复杂得多,就像训练一只宠物,奖励给得不当可能会产生完全相反的效果。

最初,研究团队尝试了"格式奖励",即只要AI按照正确格式输出,不管内容是否合理都给予奖励。结果发现AI很快学会了"偷懒"——它会跳过所有复杂的推理过程,直接给出一个随机答案,因为这样最容易获得格式奖励。这就像老师如果只看学生有没有按时交作业,不管作业质量,学生就会倾向于随便写点什么应付了事。

接着,研究团队尝试了"无条件行动奖励",即只要AI执行了搜查动作就给奖励,不管最终结果如何。这导致了更严重的问题:AI学会了做无意义的重复动作来刷奖励。有些AI会陷入死循环,不停地查询同一个时间点;有些AI会在一轮推理中疯狂执行多个搜查动作,推理过程完全崩溃成无意义的重复文字。

研究团队还尝试了"多轮奖励",即鼓励AI进行更多轮的推理。理论上这应该让AI进行更深入的思考,但实际结果是训练过程变得极其不稳定。AI确实学会了增加推理轮数,但推理质量急剧下降,最终演变成为了增加轮数而增加轮数,完全偏离了解决问题的初衷。

经过大量试验,研究团队最终确定了"条件行动奖励"的方案:只有当AI最终给出正确答案时,才会因为使用了有效的搜查技能而获得额外奖励。更精妙的是,他们发现应该给"时间定位技能"更高的奖励权重,因为这个技能提供的信息更加准确可靠,而"区间搜查技能"虽然重要,但更容易被滥用。

这种奖励设计哲学反映了一个深刻的洞察:学习的目标不应该是执行更多动作或使用更复杂的方法,而应该是更准确、更高效地解决问题。就像评价一位侦探的标准不是他搜查了多少地方、问了多少人,而是他能否用最合理的方法找到真相。

六、技术细节:从理论到实践

FrameThinker的实际实现涉及许多精巧的技术细节。整个系统基于Qwen2.5-VL-7B模型构建,这是一个拥有70亿参数的大型视觉语言模型,相当于给一个已经很聪明的AI助手安装了"视频理解"和"逻辑推理"的专业插件。

在数据准备阶段,研究团队使用了强大的Gemini-2.5-Pro模型来生成高质量的训练示例。这就像请一位顶级专家来编写教材,确保AI学到的都是最佳实践。每个训练示例都经过了严格的质量控制,只有那些推理过程逻辑清晰、最终答案正确的示例才被保留。

在训练过程中,系统会根据视频长度自适应地调整策略。对于较短的视频(300秒以内),每次搜查会获取8帧画面;对于更长的视频,会获取12帧画面以更好地覆盖时间跨度。这种灵活调整相当于侦探根据案件的复杂程度调整调查深度。

强化学习阶段使用了一种叫做"组相对策略优化"的先进算法。简单来说,这种方法会同时生成多个不同的推理路径,然后通过比较它们的效果来学习哪种策略更好。就像让多个侦探同时调查同一个案件,然后从中学习最有效的调查方法。

认知一致性验证模块的实现也颇为巧妙。它会解析AI输出中的所有数字参数,检查思考内容和行动内容之间是否匹配。比如,如果AI在思考中提到"第4974帧附近可能有关键信息",但实际搜查的却是"第1400-1500帧"区间,系统会立即发现这种不一致并终止该推理路径。

整个训练过程在8张H800 GPU上进行,总共需要约1400个训练步骤。相比传统方法,FrameThinker的训练效率也相当高,这得益于其巧妙的奖励设计和验证机制,避免了很多无效的探索。

说到底,FrameThinker代表了AI视频理解领域的一次根本性突破。它不仅大幅提高了准确性和效率,更重要的是展示了一种全新的AI思维模式——从被动接受信息转向主动探索发现。这种"侦探式AI"的理念可能会影响到更多领域的AI应用。

归根结底,这项研究告诉我们,真正智能的系统不应该只是更大、更快的信息处理器,而应该像人类专家一样,能够根据问题的特点制定个性化的解决策略。FrameThinker的成功证明,通过精心设计的交互机制和训练方法,我们确实可以让AI具备更接近人类的推理能力。

这种技术突破对普通人的生活将产生深远影响。在不久的将来,我们可能会看到更智能的视频搜索引擎,能够快速从海量视频中找到我们真正需要的片段;更高效的在线教育系统,能够从长时间的课程录像中自动提取知识要点;更精准的医疗诊断工具,能够从复杂的医学影像中迅速定位病灶。FrameThinker不仅仅是一个技术进步,更是向着真正智能的AI系统迈出的重要一步。

对于那些对AI技术发展感兴趣的读者,这项研究也提出了值得思考的问题:当AI开始具备类似人类专家的推理能力时,我们该如何重新定义人机协作的边界?如何确保这种强大的技术能够真正服务于人类的福祉?这些问题的答案,可能会在FrameThinker及其后续研究中逐渐显现。

Q&A

Q1:FrameThinker相比传统AI视频理解方法有什么优势?

A:FrameThinker的最大优势是效率和准确性的双重提升。它像聪明的侦探一样,会先快速浏览整个视频获得大致印象,然后有针对性地重点观察可疑时间段,而不是像传统方法那样均匀地处理每一帧画面。实验结果显示,它在多个测试中的准确率平均提升了10.4%,同时使用的计算资源减少了20-36%,在某些测试中效率甚至比竞争对手高出20倍以上。

Q2:认知一致性验证模块是如何工作的?

A:认知一致性验证模块就像AI的督察,负责检查AI的推理过程是否逻辑严密。它会进行三项检查:首先检查是否有重复执行相同搜查动作的冗余行为;其次检查前后推理步骤之间的逻辑关系,比如如果AI找到了关键时间点但接下来的搜查却完全忽略这个时间点;最后检查AI的思考记录和实际行动是否匹配,防止"说一套做一套"的情况。任何违反逻辑一致性的推理过程都会被终止并给予零奖励。

Q3:FrameThinker的多轮推理过程具体是怎样的?

A:FrameThinker采用"思考-行动-观察"的循环推理模式。首先,系统会快速浏览视频获得初步印象,然后基于这个印象进行思考并选择具体行动,比如查看某个时间段的画面。根据观察结果,系统会进行下一轮思考,可能会进一步缩小搜查范围或转向其他区域。这个过程会持续进行,直到系统收集到足够信息给出最终答案。整个过程就像侦探破案,每一步的发现都会指导下一步的调查方向。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国游客机场遭刁难索贿 马来西亚旅游部长"闯关救人"

金羊网 浏览 70334

婚变传闻仅5天,窦骁大学同学为其发声

做一个合格的吃瓜群众 浏览 608

刚刚!碧桂园承认了

说财猫 浏览 11008

继续进化!崔永熙砍下生涯首个25+10 命中5记三分为生涯新高

直播吧 浏览 14507

“食安AI博士”智能体首秀进博会!

文汇报 浏览 510

恩里克:球队今天展现的态度我很喜欢,赛季结束前我们不能放松

直播吧 浏览 11215

51岁周迅又穿成人间香奈儿,这个搭配思路确实好用

黎贝卡的异想世界 浏览 812

邮报:利物浦前员工涉及多年球票欺诈勾结黄牛牟利,审判已开始

懂球帝 浏览 483

央视一周 4 次点名全红婵,夺冠后真实处境揭开

寒士之言本尊 浏览 409

海廷加:奥斯梅恩和伊布、德罗巴一样强大,始终是一个威胁

懂球帝 浏览 478

7天吸金36亿,合肥冲击“新能源汽车之都”,汽车产业高速发展伴随“阵痛”

红星资本局 浏览 630

伊能静儿子晒旅行照 穿裙子秀美背

娱絮 浏览 13664

普通人衣服没必要买太多,准备好这些实用的单品,百搭又舒适

静儿时尚达人 浏览 549

台军退役扫雷车放公园 "26根大钢牙几乎被拔光"

环球网资讯 浏览 14606

郭晶晶婆婆的新身份,更让我羡慕了

Yuki女人故事 浏览 458

一轮有望创历史新高的“鸡周期”来了?

华尔街见闻 浏览 11853

官宣:帕拉迪诺出任亚特兰大新帅

体坛周报 浏览 367

我国又添“超级充电宝”:世界坝体最高抽水蓄能电站全面投产发电

IT之家 浏览 517

丰田自动驾驶巴士撞伤残奥会盲人运动员 全部停运

每日经济新闻 浏览 14123

台积电被特朗普「盯上」了

36氪财经 浏览 704

拜登:美可向乌提供以色列式保护

参考消息 浏览 14594
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1