BLIP、BLIP2模型以及InstructBLIP应用 - 论文阅读

前两个都是VLP(Vision-Language Pre-training)领域的架构，而后一个都是在之前一定基础上做的应用。BLIP和BLIP2名字相似，但是思路并不一样。BLIP是从训练数据角度出发，通过对训练数据的提纯、增强，来达到提高训练效果；BLIP2是提出一种新的架构，通过利用现有的视觉大模型和语言大模型，提出Q-Former模块来解决两种模态间的隔阂，而InstructBLIP是在BLIP2的基础上，对输入的数据进行结构化，形成一种指令输入序列，其对26个数据集进行转换操作，从而达到不修改BLIP2的架构的情况下，实现VLP下各种任务的统一。

BLIP

1. 主要解决的问题和思路

该论文任务现在的VLP模型都是在大量web data(image-text pair) with noisy下训练出来的大模型，这是不是最优的训练数据。又由于人工标注数据是非常昂贵的，所以提出了BLIP模型。BLIP模型通过两个步骤完成图片相关的文本标注操作：captioner和filter。前者针对图像信息生成合成的标题（字幕），再通过后者从原始的text和合成的text中选择其中噪音多的一个去除掉，以此达到数据的优化，从而训练得到更好的模型。

2. 模型

2.1 模型结构

BLIP模型架构

这个模型有两部分组成：

Image Encoder: 使用的ViT作为图片编码器，目的是把图片信息转化成embedding。采用这个方法的原因：更便于计算，并且大部分其他架构都使用。

需要注意的一点是，[CLS]作为一个全局图像特征的表征的开始，其被添加到图像patch的前面。代码中体现如下：
Multimodal mixture of encoder-decoder(MED) 组成
- Unimodal Encoder: 和BERT相同的文本编码器
  
  以[CLS]作为文本输入的开始token。
- Image-grounded Text Encoder: 接受文本和图像信息，其中文本信息被SA处理，图像信息和处理后的文本信息被CA处理。
  
  [Encode] token被添加到文本token的前面，[Encode]的embedding作为图像文本对的多模态表征。
- Image-grounded Text Decoder: 使用Causal Self-Attention代替Bi Self-Attention。
  
  [Decode]被添加到文本序列的开始，表示一个序列的开始信号。

注意：文本编码器和文本解码器除了SA模块，其他模块都共享所有参数。换句话说就是，除了SA不同，其他的都是相同的，根据不同任务，可以通过即插即用的方式处理SA从而实现特定任务。

2.2 模型模型训练目标

ITC(image-text contracstive learning): 用来对齐文本和视觉特征空间。
ITM(image-text matching): 用来学习文本图像对的多模态表示，其可以捕捉文本和图像之间的细粒度对齐。

这是个二分类任务（binnary classsification task），输出文本和图像是否匹配论文中使用the hard negative mining strategy：具有较高对抗相似度的负数据集对更有可能被选择来计算损失。
LM(image conditioned language modeling): 这个主要是用来生成符合给定图像的文本描述。

使用交叉熵损失(cross entropy loss)。计算该损失时使用了标签平滑(0.1)的方法这是使用LM,而不是用MLM的原因是为了提高模型的泛化能力

2.3 CapFilt模块

CapFilt模块

这个模块的作用就是处理数据，使数据更纯净，没有噪音。基本思路就是通过少量的人工标注数据训练模型生成标签(标题/字幕)。

两部分组成：

captioner: 给定一个web图像，生成对应的caption。
filter: 去除原始web文本 $T_w$ 和合成文本 $T_s$ 中的噪声文本，其中，如果ITM head预测文本与图像不匹配，则认为文本是噪声的。

3. 对于不同任务使用不同的模型形式

tasks

4. 模型优点

可以达到更好的结果
对下游任务应用范围更广

论文中说的....

BLIP2

1. 主要处理的问题和思路

该论文的出发点是任务现在VLP模型都是建立在大数据集上的，训练起来非常昂贵，所以提出一种利用现有的模型，固定其原本的参数（防止微调/训练的时候灾难性遗忘），通过小参数的模型整合，从而达到低资源大提升的目的。

提出一种轻量级的Querying Transformer(Q-Former)，通过Q-Former来连接两种模态的预训练模型。主要做法是通过两阶段来训练：第一阶段接受文本图像表征来训练得到一个表示向量query；第二阶段通过Q-Former的输出来引导一个语言与训练模型达到图像文本生成学习。整体思路如下： BLIP2整体思路

整体思路一句话说就是：使用一个可以学习的query向量从图像编码器中抽取有用的视觉特征，然后再把这个query喂给LLM，是其输出渴望的文本。

2 模型

2.1 模型架构

BLIP2模型架构-第一阶段

其中只有Q-Former是可训练的模块。

Q-Former模块组成：

一个图像Transfomer子模块：与固定的图像编码器交互，用于视觉特征提取的图像Transformer
一个文本Transfomer子模块：一种既可以作为文本编码器又可以作为文本解码器的文本Transformer

这两个子模块的SA是共享的。使用不同的SA mask控制query-text交互使用32个查询，其中每个查询的维度为768

初始化：

对于Q-Former，使用与训练好的 $BERT_{base}$ 权重
对于CA层使用随机初始化参数

固定参数的预训练模型：

图像编码器：ViT-L/14、ViT-G/14
文本编码器：OPT(decoder-based LLMs)、FlanT5(encoder-decoder-based LLMs)

全连接层的作用：用于将输出query embedding线性投影到与LLM的文本嵌入相同的维度中。