EVA02解析

EVA-02: A Visual Representation for Neon Genesis

EVA02的目标是作为下一代的基于Transformer的视觉表示模型。

文章主要包含两个部分:1、对普通Vit的架构改进,2、MIM的预训练策略

总结

EVA02主要有两个改进,一是,通过实验的方法来观察采用哪些NLP方向关于Vit的改进;二是,增加视觉特征编码的容量以及增加训练的轮数和图像的size;

1 Architecture

image-20230629182751431

ViT主要由 MHSA(用于全局空间信息聚合)和 pointwise的FFNs(特征变换)交错组成。但是NLP方面很多针对ViT的修改没有在视觉上应用。作者做了一个实验来探索不同的修改带来的影响:

image-20230703191529244

Gelu: $GELU(x)=x * \phi(x),x \sim N(0,1)$

img

截图20230914183157

img

2 pre-trainning strategy

image-20230703195140612

MIM teacher model变大,训练的epoch也需要变多;

image-20230703195449659

分辨率的增加以及在imgnet数据上的有监督ft也会增加性能

预训练目标类似于 EVA [44],即仅以可见图像块为条件回归屏蔽图像文本对齐的视觉特征。我们使用 [MASK] 标记破坏输入补丁,并按照 [5, 44] 使用掩码率为 40% 的分块掩码。

MIM 预训练的目标表示来自可公开访问的 EVA-CLIP [44] 视觉塔,具有 10 亿个参数。 EV A-02 的输出特征首先被归一化 [4],然后通过线性层投影到与 EVA-CLIP 的视觉特征相同的维度。我们使用负余弦相似度作为损失函数。