ECLIPSE——A Resource-Efficient Text-to-Image Prior for Image Generations
ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations
1、背景
目前 unCLIP 类型的文生图模型,如 DALLE2,kandinsky2.2, Karlo,先验模型参数太大,对计算资源和训练数据的要求比较高。论文利用对比学习的方法,来训练先验模型,仅使用 3.3%参数和2.8%的数据进行训练就能超过baseline的先验模型,且可以和预训练的扩散图像解码器搭配使用。
现有 diffusion prior model 的问题
论文通过实验说明 prior model steps的增加并不能提高最终生成图片的质量。因此扩散的训练方式存在很多不必要的计算。
图a是
2、方法
论文采用非扩散的训练方式,目标函数有两个,第一个目标函数如下:
将文本embedding投影到视觉embedding上,通过以上近似扩散先验模型的目标函数来实现。这里没有 CFG。但这种相当于直接学习一个函数将文本embedding映射成视觉embedding,泛化性可能比较差。
第二个目标函数如下:
利用对比损失来对齐图像和文本。
最终的损失函数为:$\lambda$ 设置为 0.2
3、实验
可以看到 eclipse的方式大大减少了使用的数据量和模型的参数。
对比损失对于图像和文本之间的对齐是有帮助的。
4、总结
unclip的模型结构,decoder的训练直接通过一个image encoder来编码图像得到image embedding,先验模型的任务理论上就是学习一个模型来对齐文本和图像之间的embedding,对齐的越好,那么对于decoder生成越有帮助。并非只能通过扩散的方式来学习先验模型。