该论文是基于BLIP2
模型,对video-language model
领域中的Video Localization and Question Answering
任务提出的SeViLA
模型。
Title: Self-Chained Image-Language Model for Video Localization and Question Answering Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal
Publish Date: 2023-5-11
现今为止,对于Video-Language model
相关的方法基本都是从视频样本中均匀的抽取视频帧序列,然后直接作为视觉输入数据给相关模型,并不考虑视频样本的中的语言意识(language-aware)、时序(temporal),这可能会导致丢失很多重要的视觉暗示(visual cues)。虽然对于视觉问答中 视频时刻定位(Video Moment Localization) 的可以训练一个具有查询意识的视频时刻定位器(query-aware video moment localizer),通常需要昂贵的视频标注和高昂的计算成本。
所以该论文提出了SeViLA
模型,其两个模块组成:Localizer
和Answerer
。这两个模块都是基于BLIP2
做参数微调得到的。然后基于这两个模块,提出两种链接方法:级联推理(cascaded inference)、自我完善(self-refinement)。
首先,在前向链中,Localizer
在视频中找到多个和文本相关的视频关键帧,然后Answerer
使用这些关键帧来预测答案。其次,在反向链中,Answerer
生成关键帧伪标签来优化Localizer
,从而减少了对昂贵的视频时刻定位标注的需求。
该模型中,基于BLIP2
构建Localizer
和Answerer
模块,其中仍旧保持BLIP2
中的设定:ViT
和Flan-T5
模型参数保持不变,只是使用不同Q-Former
模块。
两个模块:
Localizer
目的:对视频抽取关键帧,并且通过查询变量q
获取关键帧特征v
,然后通过使用该关键帧获取每个帧相关的分数,通过TopK
设置,选择出最高的k
个关键帧,以便Answerer
模块使用。
具体流程:
a. 设定和抽取的视频帧数,其中
b. 从视频中选择个视频关键帧,随机初始化一个可学习的变量
c. 个视频关键帧通过图片编码器ViT
获取关键帧特征向量,然后关键帧特征向量和可学习的变量一起通过Q-Former
模块,得到文本相关的关键帧特征向量
d. 每一个文本相关的关键帧特征向量都和[Question][Options][Loc Prompt]
进行拼接,然后一起送入语言模型FlanT5
得到关键帧分数
其中是上面三个选项拼接后得到的向量
e. 选择其中最高的个关键帧,获取其序号
Answerer
:
Localizer
得出最高的TopK
个关键帧(ViT
处理后的帧特征表示),同时使用新的查询变量q
传送给Q-Former
模块,获取文本相关的特征向量,然后再通过语言模型获得最终的答案。Localizer
可以知道最相关的个关键帧,随机初始化一个可学习的变量
b. 通过关键键帧特征向量和可学习的变量一起通过Q-Former
模块,得到文本相关的关键帧特征向量,把得到的所有向量进行拼接(拉平),再和[Question][Options][AQ Prompt]
拼接之后送入FlanT5
获取答案。
video-level answer 其中是上面三个选项拼接后得到的向量
训练部分分成了两部分:前向链和反向链。
前向链:在前向链中,Localizer
利用对BLIP-2
模型的原始的image-language
理解,并通过每个视频关键帧进行定位提示“Does the information within the frame provide the necessary details to accurately answer the aiven question?”来选择重要的语言感知(language-aware)视频关键帧。然后Answerer
将所选关键词的串联作为视觉输入,以预测视频级别的答案。
反向链:在后向链中,我们生成关键帧伪标签来优化Localizer
。如果Answerer
可以使用该帧输出正确的答案,我们就可以表示这个视频帧是关键帧。
本文作者:HuanQing
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!