编辑
2023-05-27
论文阅读
0
请注意,本文编写于 581 天前,最后修改于 580 天前,其中某些信息可能已经过时。

目录

SeViLA模型 - 论文阅读
1. 主要处理的问题和思路
2 模型
2.1 Localization和Answering模块链
2.2 使用Self-Chaning训练视频问答和定位
参考文献

SeViLA模型 - 论文阅读

该论文是基于BLIP2模型,对video-language model领域中的Video Localization and Question Answering任务提出的SeViLA模型。

Title: Self-Chained Image-Language Model for Video Localization and Question Answering Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal

Publish Date: 2023-5-11

Paper: http://arxiv.org/abs/2305.06988

Code: https://github.com/Yui010206/SeViLA

1. 主要处理的问题和思路

现今为止,对于Video-Language model相关的方法基本都是从视频样本中均匀的抽取视频帧序列,然后直接作为视觉输入数据给相关模型,并不考虑视频样本的中的语言意识(language-aware)时序(temporal),这可能会导致丢失很多重要的视觉暗示(visual cues)。虽然对于视觉问答中 视频时刻定位(Video Moment Localization) 的可以训练一个具有查询意识的视频时刻定位器(query-aware video moment localizer),通常需要昂贵的视频标注和高昂的计算成本。

所以该论文提出了SeViLA模型,其两个模块组成:LocalizerAnswerer。这两个模块都是基于BLIP2做参数微调得到的。然后基于这两个模块,提出两种链接方法:级联推理(cascaded inference)自我完善(self-refinement)

首先,在前向链中,Localizer在视频中找到多个和文本相关的视频关键帧,然后Answerer使用这些关键帧来预测答案。其次,在反向链中,Answerer生成关键帧伪标签来优化Localizer,从而减少了对昂贵的视频时刻定位标注的需求。

两个过程

2 模型

2.1 Localization和Answering模块链

模型架构

该模型中,基于BLIP2构建LocalizerAnswerer模块,其中仍旧保持BLIP2中的设定:ViTFlan-T5模型参数保持不变,只是使用不同Q-Former模块。

两个模块:

  • Localizer
    1. 目的:对视频抽取关键帧,并且通过查询变量q获取关键帧特征v,然后通过使用该关键帧获取每个帧相关的分数,通过TopK设置,选择出最高的k个关键帧,以便Answerer模块使用。

    2. 具体流程: a. 设定topKtopK和抽取的视频帧数nn,其中topK<=ntopK <= n b. 从视频中选择nn个视频关键帧,随机初始化一个可学习的变量qq c. nn个视频关键帧通过图片编码器ViT获取关键帧特征向量,然后关键帧特征向量和可学习的变量qq一起通过Q-Former模块,得到文本相关的关键帧特征向量vv d. 每一个文本相关的关键帧特征向量vv都和[Question][Options][Loc Prompt]进行拼接,然后一起送入语言模型FlanT5得到关键帧分数

      si=LLM(concat(vi,L));其中i<ns_i= LLM(concat(v_i, L)); 其中i < n 其中LL是上面三个选项拼接后得到的向量

      e. 选择其中最高的topKtopK个关键帧,获取其序号

  • Answerer
    1. 目的:使用Localizer得出最高的TopK个关键帧(ViT处理后的帧特征表示),同时使用新的查询变量q传送给Q-Former模块,获取文本相关的特征向量,然后再通过语言模型获得最终的答案。
    2. 具体流程: a. 通过Localizer可以知道最相关的topKtopK个关键帧,随机初始化一个可学习的变量qq b. 通过关键键帧特征向量和可学习的变量qq一起通过Q-Former模块,得到文本相关的关键帧特征向量vv,把得到的vv所有向量进行拼接(拉平),再和[Question][Options][AQ Prompt]拼接之后送入FlanT5获取答案。

      video-level answer a=LLM(concat(v1k,...,vKk,L))a = LLM(concat(v_1^k, ..., v_K^k, L)) 其中LL是上面三个选项拼接后得到的向量

2.2 使用Self-Chaning训练视频问答和定位

训练过程

训练部分分成了两部分:前向链反向链

前向链:在前向链中,Localizer利用对BLIP-2模型的原始的image-language理解,并通过每个视频关键帧进行定位提示“Does the information within the frame provide the necessary details to accurately answer the aiven question?”来选择重要的语言感知(language-aware)视频关键帧。然后Answerer所选关键词的串联作为视觉输入,以预测视频级别的答案。

反向链:在后向链中,我们生成关键帧伪标签来优化Localizer。如果Answerer可以使用该帧输出正确的答案,我们就可以表示这个视频帧是关键帧。

参考文献

  1. Shoubin Yu等, 《Self-Chained Image-Language Model for Video Localization and Question Answering》 (arXiv, 2023年5月11日), http://arxiv.org/abs/2305.06988.

本文作者:HuanQing

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!