单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG
- 2025-02-13 15:43:00
- 刘大牛 转自文章
- 286
AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文标题:VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos
论文链接:https://arxiv.org/abs/2502.01549
代码开源地址:https://github.com/HKUDS/VideoRAG
实验室主页:https://github.com/HKUDS
高效理解数百小时的超长视频内容
将视频内容浓缩为结构化的知识图谱
采用多模态检索以精准响应查询
建立了全新的长视频基准数据集


基于图的文本知识对齐
视觉 - 文本对齐:将视频均匀划分为多个短片段,并从每个片段中均匀采样不超过 10 帧,以高效提取关键视觉元素。随后通过视觉语言模型(VLM)生成自然语言描述,捕捉对象、动作和场景动态; 音频 - 文本对齐:通过自动语音识别(ASR)技术转录视频中的对话和叙述,并与视觉描述融合,生成统一的语义表示; 跨视频知识图谱:基于大语言模型(LLMs)识别实体与关系,构建全局知识图谱,并支持增量式跨视频语义整合(如实体合并、动态演化),确保跨视频内容的一致性与关联性。 多模态上下文编码
使用多模态编码器将视觉信息与文本查询映射到同一特征空间,实现高效的语义检索,同时保留难以通过文本描述的视觉细节,如光照变化和复杂对象特征。
文本语义匹配:通过知识图谱中的实体匹配找到相关文本块,包括查询重构、实体匹配、文本块选择和视频片段检索等步骤;
视觉内容匹配:将查询重写为描述性语句,与多模态编码器编码的视频片段嵌入进行跨模态检索;
LLM 过滤机制:利用 LLMs 进一步评估视频片段的相关性,生成关键词以综合相关信息,确保生成的回答既符合语义连贯性,又与查询高度相关。

胜率评估:使用基于 LLM 的判断,通过 GPT-4o-mini 对不同模型生成的回答进行排名,并提供解释性反馈;
定量评估:在胜率比较的基础上,加入分数评定,为每个查询设定标准答案,并采用 5 分制(1 为最差,5 为最好)进行评估。
全面性(Comprehensiveness):评估回答覆盖的广度;
赋能性(Empowerment):评估回答如何帮助读者更好地理解和做出判断;
可信度(Trustworthiness):评估回答的可信度,包括细节信息的充分性和与常识的一致性;
深度(Depth):评估回答是否具备深入分析;
信息密度(Density):评估回答中相关信息的浓缩程度,避免冗余。

与 RAG 方法对比(使用胜率评估):
VideoRAG 的卓越性能:VideoRAG 在 所有维度指标和所有视频类型 上均显著优于 NaiveRAG、GraphRAG 和 LightRAG 等基线。说明基于知识图与多模态上下文编码的索引能够有效捕捉和组织视频中的视觉动态和语义信息,此外混合多模态检索范式通过将文本语义匹配与基于视觉内容嵌入的检索相结合,有效提升了跨视频检索精度;
进一步基线模型对比分析:相较于 NaiveRAG,VideoRAG 在全面性和赋能性维度具有更为显著的优势,源于我们通过高效的知识索引框架整合跨视频信息,实现更全面的检索与生成。相较于 GraphRAG 和 LightRAG,VideoRAG 依托多模态上下文融合和查询感知检索,在视觉 - 文本信息对齐和精准内容选择上更具优势,使回答更具语境连贯性和理解深度,在知识驱动的视频问答任务中显著领先。

与支持超长视频输入的 LVMs 模型对比(使用定量评估,以 NaiveRAG 为基线):VideoRAG 在 所有维度指标和所有视频类型 上均显著优于 LLaMA-VID、NotebookLM 和 VideoAgent 等基线,改进主要归因于:
增强的长上下文建模:通过图增强的多模态索引与检索机制,VideoRAG 有效处理跨视频知识连接和依赖关系,超越了 LLaMA-VID 等模型在处理长视频时的计算限制;
卓越的多模态融合:VideoRAG 擅长融合视觉、音频和文本信息,提供更精细的跨模态对齐与全面理解,明显优于专注于单一模态的模型,如 VideoAgent(视觉)和 NotebookLM(语音转录)。

去除图形模块(-Graph):性能显著下降,验证了基于图的索引 - 检索机制在捕捉复杂的跨视频关系和建立跨视频知识依赖方面的关键作用;
去除视觉模块(-Vision):性能显著下降,证明了视觉信息处理和多模态上下文融合对视频理解至关重要性。



精确构建知识图谱,捕捉复杂关系;
高精度的多模态信息检索;
有效处理和综合多个超长视频中的信息。
精确的视频知识结构构建:有效组织跨视频信息,捕捉复杂关系;
高效的多模态信息检索:融合视觉、音频和文本信息,提供更准确、细致的检索结果;
强大的长视频处理能力:突破上下文长度和计算限制,处理多个超长视频的跨视频信息。
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |