Lates Personnalization Overview
Latest Personnalization Overview
Dreambooth
dreambooth是一种个性化文生图模型:给定几张参考图作为输入,通过微调预训练的文生图模型(整体微调 or lora),将一个独特的标识符该输入图片的物体绑定。这样就可以通过含有该标识符的prompt在不同场景下,生成包含该物体的新颖图片。
原理
作者为微调模型设计了一种prompt格式:a [identifier] [class noun]
,即将所有输入图片的promt都设置成这种形式,其中identifier
是一个与输入图片中物体相关联的特殊标记符,class noun
是对物体的类别描述。这里之所以在prompt中加入类别,是因为作者想利用预训练模型中关于该类别物品的先验知识,并将先验知识与特殊标记符相关信息进行融合,这样就可以在不同场景下生成不同姿势的目标物体。
问题
- 特殊标识符选择什么比较好?
选择的罕见词作为特殊标识符,避免预训练模型对于特殊标识符有很强的先验知识。
- 为什么要加入Class-specific Prior Preservation Loss?
如果只是普通的微调,会出现两个问题:
(1) 过拟合
(2) language drift: 在大量数据下训练的模型,在特定任务微调的时候,它会逐渐忘记通用的知识,而仅仅适配特定的任务。
做法:将预训练模型通过基于要训练的物体所属的类作为prompt,生成的图片加入到训练数据中一起微调。
ZipLoRA
time: 2023.11
source: google
title: ZipLoRA: any subject in any style by Effectively merging loras
ziplora主要基于一些事实的观察:
- 通过sd1.x, sdxl能够仅通过一张图片就能学习到图片的风格;
- lora 权重是稀疏的,大多数值都很小,对生成质量和逼真度影响很小;
- 两个独立训练的 LoRA 的权重矩阵的列彼此之间可能具有不同程度的“对齐”,例如通过余弦相似度来测量。 我们发现直接对具有高余弦相似度的列求和会降低合并模型的性能;
ziplora通过优化以下的损失:
前两项是,最小化合并后的lora与内容lora、风格lora之间的差异,来保留合并后的lora生成参考风格和内容能力;
最后一项是,最小化内容和风格lora之间的余弦相似度;
训练的时候,只优化 合并系数 , 文章只需要100次参数更新就能达到很好的效果。
AnyText
time: 2023.12
source: alibaba
title:ANYTEXT: MULTILINGUAL VISUAL TEXT GENERATION AND EDITING
概述
作者介绍了一下现有开源文生图模型生成特定文字效果比较差及其原因,主要由以下三点:
- 模型的训练数据集,如 LAION-5B 缺乏文本内容的手动注释或者OCR结果。
- 开源的模型使用的文本编码器采用基于词汇的分词器,无法直接访问字符。
- 大多数扩散模型的loss中缺乏对文本区域的专门监督。
作者提出的 AnyText 框架,在 text-control diffusion pipeline的基础上,增加了两个组件:辅助潜在模块将文本字形、位置和遮罩图像等辅助信息编码到潜在空间中以辅助文本生成和编辑;文本嵌入模块采用 OCR 模型将笔画信息编码为嵌入,然后与来自分词器的图像caption embedding 融合,以呈现与背景无缝混合的文本;最后,引入图像空间中的文本感知损失以进一步提高书写准确性。
方法
模型的loss包含两个部分:
第一部分损失如下:
第二部分损失是 text perceptual loss,利用 文字的位置条件 $lp$,准确定位到生成文本的区域,利用 PP-OCRv3 模型通过裁剪、仿射变换、填充和归一化等操作对位置 $l_p$ 处的原始图像$x_0$ 和 去噪重建后图像 $x^\prime_0$ 进行处理, 利用全连接层之前的特征图 $\hat{m}_p$ 和 $\hat{m}_{p}^\prime$分别表示原始图像和预测图像中位置 p 处的文本书写信息。文本感知损失表示为
Auxiliary latent module 利用三种类型的辅助条件来产生 latent feature amp $z_a$ 分别是,字形 $l_g$,位置 $l_p$,masked image $l_m$。
$f$ 是一个卷积的fusion layer。$z_a$ 的 channels 数量和 $z_t$ 一致。
Text embedding module 将字形线渲染到图像中,利用预先训练的视觉模型,PP-OCRv3 的识别模型对字形信息进行编码,并从caption标记中替换它们的嵌入,然后一起送到 基于 Transformer 的文本编码器中。
实验
论文开源了一个数据集用于文本生成 AnyWord-3M
可以看到 OCR 的信息对于效果提升是最大的。