NIMA——Neural Image Assessment

NIMA:Neural Image Assessment

1、introduction

  1. 基于CNN的方法相比较早期基于手工制作的特征的做法,性能有显著的提升;

  2. AVA 数据集,图片审美视觉分析的标准数据集;

  3. 深度CNN非常适合审美评估任务【1】【2】;他们的双列 CNN 由四个卷积层和两个全连接层组成,其输入是调整大小的图像和大小为 224 × 224 的裁剪窗口;

  4. 之前大多是通过分类或者回归的方法预测人类评估的分数;

  5. kong【3】训练了一个基于 AlexNet 的 CNN 来学习两个输入图像的审美分数差异,从而间接优化排名相关性。

  6. NIMA的目标是预测与人类评分的相关性,而不是将图片分类或者回归到平均分。提出了EMD loss,它显示了有序类分类的性能提升。实验也表明,这种方法也更准确地预测了平均分。

2、proposed method

模型建立在图片分类模型的结构基础上。

image-20231026114849878

在训练阶段,输入图像被重新缩放为256256,然后随机提取 224\224的裁剪,这减少潜在的过度拟合问题。

3、实验

基线CNN权重通过在ImageNet上训练来初始化,最后一个全连接层是随机初始化。权重和偏置动量设置为0.9,基线CNN最后一层dropout应用0.75。基线CNN层和最后一个全连接层的学习率分别设置为310e-7,3\10e-6。在基线CNN层上设置较低的学习率会导致使用sgd时更容易和更快优化。

参考文献

【1】Deep multi-patch aggregation network for image style, aesthetics, and quality estimation

【2】Rating image aesthetics using deep learning

【3】S. Kong, X. Shen, Z. Lin, R. Mech, and C. Fowlkes, “Photo aesthetics ranking network with attributes and content adaptation,” in European Conference on Computer Vision. Springer, 2016, pp. 662–679. 1, 2, 6, 7