编辑
2023-07-15
论文阅读
0

Vision Language Transformers: A Survey

0. 概述

这片论文讲述了对于问答任务和生成描述任务,传统的模型完成是非常困难的,而自2017年Transformer出现之后,Transformer模型已经表现出了比先前的模型更好的性能和多功能性。Vision Language Transformer也有希望在自然语言和视觉之间产生好的发展前景,类似于Transformer在自然语言中一样:在大数据集中预训练好,然后对具体任务进行微调的范式。

该论文主要讲述了:

  1. 各种Vision Language Transformer模型的优点和缺点
  2. 仍然存在的开放问题
编辑
2023-06-05
论文阅读
0

Diffusion-LM模型 - 论文阅读

Title: Diffusion-LM Improves Controllable Text Generation

Date: 2022/5/27

Paper: http://arxiv.org/abs/2205.14217

Code: https://github.com/XiangLi1999/Diffusion-LM

这篇论文针对的问题是在不重新训练模型的的情况下,可以多语言模型(Language Model)的行为控制,即可控的文本生成(Controllable Text Generation)

arch

编辑
2023-05-27
论文阅读
0

DDPM

DDPM - 论文阅读

什么是扩散模型?扩散模型是根据非平衡热力学(nonequilibrium thermodynamics) 所构思的一种思路。基本原理是通过给一张图片一步步(timesteps) 的添加高斯噪音(Gaussian noise),最后得到一张符合高斯噪音分布的纯噪音图片,这是前向过程(forward process),这一步可以通过直接计算得到。之后再对这张噪音图像进行一步步的降噪(denoising),最后得到原来的图像,这是反向过程(reverse process)。主要训练的目标就是通过一个神经网络在降噪过程中学习噪音分布。

扩散过程

编辑
2023-05-27
论文阅读
0

BLIP、BLIP2模型以及InstructBLIP应用 - 论文阅读

前两个都是VLP(Vision-Language Pre-training)领域的架构,而后一个都是在之前一定基础上做的应用。BLIPBLIP2名字相似,但是思路并不一样。BLIP是从训练数据角度出发,通过对训练数据的提纯、增强,来达到提高训练效果;BLIP2是提出一种新的架构,通过利用现有的视觉大模型和语言大模型,提出Q-Former模块来解决两种模态间的隔阂,而InstructBLIP是在BLIP2的基础上,对输入的数据进行结构化,形成一种指令输入序列,其对26个数据集进行转换操作,从而达到不修改BLIP2的架构的情况下,实现VLP下各种任务的统一。

编辑
2023-05-27
论文阅读
0

SeViLA模型 - 论文阅读

该论文是基于BLIP2模型,对video-language model领域中的Video Localization and Question Answering任务提出的SeViLA模型。

Title: Self-Chained Image-Language Model for Video Localization and Question Answering Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal

Publish Date: 2023-5-11

Paper: http://arxiv.org/abs/2305.06988

Code: https://github.com/Yui010206/SeViLA