这片论文讲述了对于问答任务和生成描述任务,传统的模型完成是非常困难的,而自2017年Transformer
出现之后,Transformer
模型已经表现出了比先前的模型更好的性能和多功能性。Vision Language Transformer
也有希望在自然语言和视觉之间产生好的发展前景,类似于Transformer
在自然语言中一样:在大数据集中预训练好,然后对具体任务进行微调的范式。
该论文主要讲述了:
Vision Language Transformer
模型的优点和缺点Title: Diffusion-LM Improves Controllable Text Generation
Date: 2022/5/27
这篇论文针对的问题是在不重新训练模型的的情况下,可以多语言模型(Language Model)的行为控制,即可控的文本生成(Controllable Text Generation)。
什么是扩散模型?扩散模型是根据非平衡热力学(nonequilibrium thermodynamics) 所构思的一种思路。基本原理是通过给一张图片一步步(timesteps) 的添加高斯噪音(Gaussian noise),最后得到一张符合高斯噪音分布的纯噪音图片,这是前向过程(forward process),这一步可以通过直接计算得到。之后再对这张噪音图像进行一步步的降噪(denoising),最后得到原来的图像,这是反向过程(reverse process)。主要训练的目标就是通过一个神经网络在降噪过程中学习噪音分布。
前两个都是VLP(Vision-Language Pre-training)
领域的架构,而后一个都是在之前一定基础上做的应用。BLIP
和BLIP2
名字相似,但是思路并不一样。BLIP
是从训练数据角度出发,通过对训练数据的提纯、增强,来达到提高训练效果;BLIP2
是提出一种新的架构,通过利用现有的视觉大模型和语言大模型,提出Q-Former
模块来解决两种模态间的隔阂,而InstructBLIP
是在BLIP2
的基础上,对输入的数据进行结构化,形成一种指令输入序列,其对26个数据集进行转换操作,从而达到不修改BLIP2
的架构的情况下,实现VLP
下各种任务的统一。
该论文是基于BLIP2
模型,对video-language model
领域中的Video Localization and Question Answering
任务提出的SeViLA
模型。
Title: Self-Chained Image-Language Model for Video Localization and Question Answering Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal
Publish Date: 2023-5-11