SeViLA模型 - 论文阅读

该论文是基于BLIP2模型，对video-language model领域中的Video Localization and Question Answering任务提出的SeViLA模型。

Title: Self-Chained Image-Language Model for Video Localization and Question Answering Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal

Publish Date: 2023-5-11

Paper: http://arxiv.org/abs/2305.06988

Code: https://github.com/Yui010206/SeViLA

1. 主要处理的问题和思路

现今为止，对于Video-Language model相关的方法基本都是从视频样本中均匀的抽取视频帧序列，然后直接作为视觉输入数据给相关模型，并不考虑视频样本的中的语言意识（language-aware）、时序（temporal），这可能会导致丢失很多重要的视觉暗示（visual cues）。虽然对于视觉问答中 视频时刻定位（Video Moment Localization） 的可以训练一个具有查询意识的视频时刻定位器（query-aware video moment localizer），通常需要昂贵的视频标注和高昂的计算成本。

所以该论文提出了SeViLA模型，其两个模块组成：Localizer和Answerer。这两个模块都是基于BLIP2做参数微调得到的。然后基于这两个模块，提出两种链接方法：级联推理（cascaded inference）、自我完善（self-refinement）。

首先，在前向链中，Localizer在视频中找到多个和文本相关的视频关键帧，然后Answerer使用这些关键帧来预测答案。其次，在反向链中，Answerer生成关键帧伪标签来优化Localizer，从而减少了对昂贵的视频时刻定位标注的需求。

两个过程

2 模型

2.1 Localization和Answering模块链

模型架构

该模型中，基于BLIP2构建Localizer和Answerer模块，其中仍旧保持BLIP2中的设定：ViT和Flan-T5模型参数保持不变，只是使用不同Q-Former模块。

两个模块：

Localizer
1. 目的：对视频抽取关键帧，并且通过查询变量q获取关键帧特征v，然后通过使用该关键帧获取每个帧相关的分数，通过TopK设置，选择出最高的k个关键帧，以便Answerer模块使用。
2. 具体流程： a. 设定 $topK$ 和抽取的视频帧数 $n$ ，其中 $topK <= n$ b. 从视频中选择 $n$ 个视频关键帧，随机初始化一个可学习的变量 $q$ c. $n$ 个视频关键帧通过图片编码器ViT获取关键帧特征向量，然后关键帧特征向量和可学习的变量 $q$ 一起通过Q-Former模块，得到文本相关的关键帧特征向量 $v$ d. 每一个文本相关的关键帧特征向量 $v$ 都和[Question][Options][Loc Prompt]进行拼接，然后一起送入语言模型FlanT5得到关键帧分数
  
  $s_i= LLM(concat(v_i, L)); 其中i < n$ 其中 $L$ 是上面三个选项拼接后得到的向量
  
  e. 选择其中最高的 $topK$ 个关键帧，获取其序号
Answerer：
1. 目的：使用Localizer得出最高的TopK个关键帧（ViT处理后的帧特征表示），同时使用新的查询变量q传送给Q-Former模块，获取文本相关的特征向量，然后再通过语言模型获得最终的答案。
2. 具体流程： a. 通过Localizer可以知道最相关的 $topK$ 个关键帧，随机初始化一个可学习的变量 $q$ b. 通过关键键帧特征向量和可学习的变量 $q$ 一起通过Q-Former模块，得到文本相关的关键帧特征向量 $v$ ，把得到的 $v$ 所有向量进行拼接（拉平），再和[Question][Options][AQ Prompt]拼接之后送入FlanT5获取答案。
  
  video-level answer $a = LLM(concat(v_1^k, ..., v_K^k, L))$ 其中 $L$ 是上面三个选项拼接后得到的向量

2.2 使用Self-Chaning训练视频问答和定位

训练过程

训练部分分成了两部分：前向链和反向链。

前向链：在前向链中，Localizer利用对BLIP-2模型的原始的image-language理解，并通过每个视频关键帧进行定位提示“Does the information within the frame provide the necessary details to accurately answer the aiven question?”来选择重要的语言感知(language-aware)视频关键帧。然后Answerer将所选关键词的串联作为视觉输入，以预测视频级别的答案。

反向链：在后向链中，我们生成关键帧伪标签来优化Localizer。如果Answerer可以使用该帧输出正确的答案，我们就可以表示这个视频帧是关键帧。

参考文献