ECLIPSE——A Resource-Efficient Text-to-Image Prior for Image Generations

ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations

image-20240104202314415

1、背景

目前 unCLIP 类型的文生图模型,如 DALLE2,kandinsky2.2, Karlo,先验模型参数太大,对计算资源和训练数据的要求比较高。论文利用对比学习的方法,来训练先验模型,仅使用 3.3%参数和2.8%的数据进行训练就能超过baseline的先验模型,且可以和预训练的扩散图像解码器搭配使用。

现有 diffusion prior model 的问题

论文通过实验说明 prior model steps的增加并不能提高最终生成图片的质量。因此扩散的训练方式存在很多不必要的计算。

image-20240105191501550

image-20240105191509560

图a是

2、方法

image-20240105115308506

论文采用非扩散的训练方式,目标函数有两个,第一个目标函数如下:

image-20240105193153414

将文本embedding投影到视觉embedding上,通过以上近似扩散先验模型的目标函数来实现。这里没有 CFG。但这种相当于直接学习一个函数将文本embedding映射成视觉embedding,泛化性可能比较差。

第二个目标函数如下:

image-20240105194510830

利用对比损失来对齐图像和文本。

最终的损失函数为:image-20240105194826376$\lambda$ 设置为 0.2

3、实验

image-20240105195206469

可以看到 eclipse的方式大大减少了使用的数据量和模型的参数。

image-20240105195231282

image-20240105195311653

对比损失对于图像和文本之间的对齐是有帮助的。

4、总结

unclip的模型结构,decoder的训练直接通过一个image encoder来编码图像得到image embedding,先验模型的任务理论上就是学习一个模型来对齐文本和图像之间的embedding,对齐的越好,那么对于decoder生成越有帮助。并非只能通过扩散的方式来学习先验模型。