ECLIPSE——A Resource-Efficient Text-to-Image Prior for Image Generations

Posted on 2024-01-02 In 扩散模型

ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations

1、背景

目前 unCLIP 类型的文生图模型，如 DALLE2，kandinsky2.2， Karlo，先验模型参数太大，对计算资源和训练数据的要求比较高。论文利用对比学习的方法，来训练先验模型，仅使用 3.3%参数和2.8%的数据进行训练就能超过baseline的先验模型，且可以和预训练的扩散图像解码器搭配使用。

现有 diffusion prior model 的问题

论文通过实验说明 prior model steps的增加并不能提高最终生成图片的质量。因此扩散的训练方式存在很多不必要的计算。

图a是

2、方法

论文采用非扩散的训练方式，目标函数有两个，第一个目标函数如下：

将文本embedding投影到视觉embedding上，通过以上近似扩散先验模型的目标函数来实现。这里没有 CFG。但这种相当于直接学习一个函数将文本embedding映射成视觉embedding，泛化性可能比较差。

第二个目标函数如下：

利用对比损失来对齐图像和文本。

最终的损失函数为：$\lambda$ 设置为 0.2

3、实验

可以看到 eclipse的方式大大减少了使用的数据量和模型的参数。

对比损失对于图像和文本之间的对齐是有帮助的。

4、总结

unclip的模型结构，decoder的训练直接通过一个image encoder来编码图像得到image embedding，先验模型的任务理论上就是学习一个模型来对齐文本和图像之间的embedding，对齐的越好，那么对于decoder生成越有帮助。并非只能通过扩散的方式来学习先验模型。

0%