没有合适的资源?快使用搜索试试~ 我知道了~
14114自适应分数扩张卷积网络图像美学评价陈秋雨1,张伟2,周宁3,彭蕾3,徐毅2,于正4,范建平11计算机科学系,夏洛特2复旦大学计算机学院上海市智能信息处理重点实验室3亚马逊实验室1264西安电子科技大学{qchen12,jfan}@ uncc.edu,{weizh,yxu17}@ fudan.edu.cn{ningzho,leipeng}@ amazon.com,yuzheng. gmail.com摘要为了利用深度学习进行图像美学评估,一个关键但未解决的问题是如何无缝地结合图像宽高比的信息来学习更鲁棒的模型。在本文中,自适应分数扩张卷积(AFDC),这是纵横比嵌入,成分保持和参数自由,本机在卷积核级别解决这个问题。具体而言,根据图像的长宽比自适应地构造分数阶膨胀核,并利用最近的两个整数阶膨胀核的插值来解决分数阶采样的失调问题.此外,我们提供了一个简洁的小批量训练公式,并利用分组策略来减少计算开销。因此,它可以很容易地由常见的深度学习库实现,并以计算高效的方式插入流行的CNN架构中我们的实验结果表明,我们提出的方法在AVA数据集上实现了最先进的图像美学评估性能[18]。1. 介绍本文讨论图像美学评估的目标是预测给定的图像的美学分数。黄金图像美学评价在相册照片推荐、辅助照片编辑、多镜头照片选择等方面有着广泛的应用该任务是复杂的,因为它需要计算两个全局线索(例如,场景、曝光控制、颜色组合等)和局部化信息(构图、摄影角度等)。早期的方法根据摄影规则(照明,对比度)和全局图像组成(对称性,三分法)提取美学特征,这需要前仍然得分=5.01?图1:图像扭曲和裁剪广泛用于数据增强,但它们会改变对象的长宽比和组成,从而导致不同的美学感知。将原始图像的地面实况美学分数转换为改变的图像可能会引入标签噪声并使辨别能力恶化张手工设计[3,5,13,19,25,28]。然而,这种美学特征的手动设计并不是一件小事-即使对于有经验的摄影师来说也是一项艰巨的任务。最近的工作采用深度卷积神经网络,通过以端到端的方式学习模型来进行图像美学评估。 这些模型主要使用三种类型的公式:二进制分类标签[12,15,16,29,20,33,23],[17][18][19]在上述方法中,骨干网络通常采用图像分类网络。数据扩充方法,即。图像裁剪和变形被广泛用于防止图像识别任务中的过拟合。然而,一个缺点是,组成和对象的纵横比被改变,这可能会引入标签噪音和损害美学评估的任务(图。1)。在MNA-CNN [16]中提出的一个简洁的解决方案2)。该方法的一个主要限制是,仍然得分=5.01?评分=5.01裁剪原始图像包装数据增强14115具有不同纵横比的年龄不能被连接成批,因为每个图像的纵横比应该被保留。因此,它减缓了训练和推理。在本文中,我们的目标是开发一种新的自适应分数膨胀卷积,是小批量兼容。如图中的顶行所示。2.根据图像的长宽比,自适应地将卷积核扩展到保持成分的变形图像,使得每个扩展卷积核的有效接收域与常规卷积核相同。具体而言,如图所示。3.分数阶扩张卷积核由最近的两个具有相同核参数的整数阶扩张核自适应插值。因此,没有引入额外的学习参数。我们的方法的好处可以总结如下:(a)通过嵌入图像的宽高比信息自适应地构造卷积层,可以将图像的美感与图像的宽高比明确地联系起来同时保持组合物;(b)它没有参数,因此可以很容易地插入流行的网络结构;(c)通过推导,我们表明我们提出的方法可以兼容小批量,并且很容易通过常见的深度学习库(例如,Py- Torch,Tensorflow);(d)引入分组策略以减少有效训练/推理的计算开销;(e)我们在AVA数据集上实现了最先进的图像美学评估性能[18]。2. 相关工作在本节中,我们简要回顾了一些最相关的工作:(a)图像美学评估;(b) 保持图像的纵横比和组成;(c)扩张卷积;(d)动态内核。图像美学评估。现有的图像美学评价方法主要分为三种:(1)二元(或平均)美学标签:Kao et al. [12]提出了一种多任务CNN,A C CNN,它共同学习类别分类和审美感知。Mai等人[16]解决了图像美学评估中的合成问题,并聚合了具有不同大小的自适应池层的多个子网络Ma等人[15]将从原始图像的显着性图中采样的补丁馈送到具有聚合层的VGG 16[24]中,其中考虑路径定位的层感知子网被用来获得最终预测。Sheng等[23]根据训练过程中的预测误差,自适应地为有意义的训练裁剪块分配较大的权重,并在测试过程中聚合多块Hosu等人[8]建议以计算有效的方式从中间块中(2)排名得分:代替分类或回归公式,提出了欧几里得和排名的联合损失[14],三重排序损失[22]被开发。(3)分数分布:为了解决有序分数分布,Hossein Talebi和Peyman Milanfar [27]引入了Earth Mover的距离作为损失函数来训练10尺度分数分布。由于图像美学是一种主观属性,可能会出现离群值,Naila Murray和Albert Gordo [17]引入HuberLoss来训练10级评分差异。除了使用多个评分者的平均评分外,Renet al. [20]提出一个子网络来学习个人评级偏移以及通用美学网络,并输出个性化得分预测。保持图像的纵横比和构图。原始图像上的多块采样用于保持纵横比,并证明是有效的[15,23,8]。一个主要的问题是,从原始图像中采样块可能会相比之下,我们提出的方法自适应地恢复原始的感受野的组成保持翘曲图像在一个端到端的方式。MNA-CNN [16]的方法与我们的方法最相关,因为他们提出通过将原始图像一次一个地馈送到网络中来保留该方法的一个主要限制是,具有不同纵横比的图像不能被连接成批次,因为每个图像的纵横比应该被保留。因此,它往往会减慢训练和推理过程。另一方面,我们提出的方法是小批量兼容的,可以很容易地由常见的深度学习库实现。扩张卷积我们的自适应分数扩张卷积是由语义分割中的扩张卷积[31]和atrous卷积[1]激发的,但它在几个方面与它们不同:(1)我们的自适应分数扩张卷积是为了将扭曲图像的感受野恢复到与原始图像的常规卷积相同,而扩张卷积是为了重新训练大的感受野而不进行下采样。(2)在我们的方法中,膨胀率可以是分数。(3)分数阶膨胀核的构造是动态的,与纵横比有关。动态内核。变形卷积[2]提出通过在卷积层中学习更好的采样来动态和自适应地构建感受野我们提出的方法与可变形卷积有两个不同之处:(a)提出可变形卷积以在卷积层中学习更好的采样,而我们的方法将感受野适应于原始的纵横比。因此,我们提出的方法是无参数的,而可变形卷积需要参数化层来预测采样索引。(b)我们的方法为小批量训练提供了一个简洁的公式,它可以很容易地通过常见的深度学习实现14116)WAFDC(1,r)(1,r)其(1,r)图2:自适应分数扩张CNN概述(上图)以及与vanilla CNN的比较(下图):在包装输入上操作的每个分数扩张Conv(上图)自适应地扩张与在原始图像上操作的vanilla Conv(下图)相同的感受野。因此,它有助于解决以下问题:(a)通过成分保持变形而不是馈送原始大小的图像来变得小批量兼容(b)通过自适应内核膨胀来保持与纵横比相关的美学特征。框架。另一方面,可变形卷积需要重写CUDA中的卷积操作,并且由于索引操作而趋于缓慢。原始图像H保成分整经翘曲图像3. 自适应分数扩张卷积在本节中,我们首先介绍了自适应内核插值,以解决由于分数采样在所提出的方法中的错位然后在小批量条件下导出了它的一个简明公式,并讨论了它们的W内核提供参数Dilated Kernels扩张率:(1,1)HHWW线性插值HH扩张率:(1,计算开销。最后,我们描述了损失函数和一个额外的成分感知结构,原始内核扩张率:(1,2)WW自适应分数扩张核保成分整经批料。3.1. 自适应核插值如第1节所述,裁剪修改了原始图像的组成,并导致一些关键美学信息的丢失。因此,图像裁剪在训练阶段会引入一定程度的标签噪声.为了保持构图,我们首先将图像扭曲成固定大小。对于网络训练,这种简单的图像扭曲方法由于缺乏数据增强而遭受过拟合的问题。受SPP [6]的启发,我们在训练阶段采用随机大小的翘曲,图3:内核插值的说明:线性输入-使用共享相同核参数的最近的两个整数膨胀核的插值来解决来自分数膨胀率的采样不对准图二、由于纵横比可以是分数,因此扩张率也可以是分数为了解决特征采样的错位问题,我们使用两个最近的整数膨胀率的线性插值来构造分数膨胀核。假设w和h分别表示原始图像的宽度和高度。如果h > w且h不是整数,如图所示3、AFDC(自适应分数通过全局池将小批量数据输入网络扩张卷积)核在第n层中,或SPP模块,它们可以自然地处理任意大小的批处理输入。总的来说,随机大小的扭曲提供了有效的数据增强训练规模不变的网络,同时保留图像成分。构造为:nAFDC =(r−r)kn+(r− <$r<$)kn(一)为了克服翘曲引起的失真,卷积核的接收域必须一致其中r=h。 对于任何非整数r,它都在区间r⌊r⌋and ⌈r⌉ are two和k用卷积核的接收场,最接近r的整数Knn(1,r)有两个扩张的在图像上以原始的长宽比绘制我们的亲-如图所示,通过自适应地将内核扩展到原始纵横比,具有最接近的整数膨胀率的核对于第n层,分别。更具体地,如图1所示。3,r∈[1,2],<$r<$=1,<$r<$=2. 我们注意到自适应分数扩张Conv香草Conv翘曲图像SPP:1×1SPP:全连接层H全连接层预测SPP:3×3全连接层Groundtruth分布平均值=6.56H自适应地将感受野扩大到原始长宽比的感受野组合感知模块原始图像SPP:1×1全连接层评分KSPP:2×2全连接层HSPP:3×3预测全连接层W组合感知模块HHKK百分比K14117AFDCH(《古兰经》,1)(《古兰经》,1)˜˜˜11KK(费率+1)−r,如果速率(ratei,ratej)n(ratei,ratej)n(ratei,ratej)n其中fn表示第n层的特征图,表示卷积。在小批量训练和推理中,我们可以构造具有不同膨胀率(速率i,速率j)的多个内核。K K从相同的内核参数,然后使用零填充- 插值权重向量w,以针对每个图像自适应地计算操作,如下:fn+1=kn=wbriefn.ijknijfnK=wfn(ratek,ratek)(ratek,ratek)(四)也就是两个向量w=[wij,.,wi(五)图4:小批量兼容性图示:卷积运算的分布性质(c.f.当量(3))使分数阶扩张卷积容易地不收敛。和(1级,1级)n(速率K,速率K)nfn=[k(ratei,ratej)k(ratei,ratej)n](6)利用零填充的权重向量/矩阵(c.f.当量(五))其中扩张核的数量是K。所示kn和kn继承相同的学习参数图4、插值权重wij为每个in-(1、1)(1、2)(ratek,ratek)原来的Kernel同样地,如果w > h且w立场是w(ratei,1)或w(1,ratej),定义如下:不是整数,那么我们kk选择:nAFDCW=(r−r)kn+(r− <$r<$)kn(二)w(ratei,1)=r−(ratei−1),ifratei−r∈[0,1)(ratei+1)−r,ifratei−r∈(−1,0)1000,else如果r=h是一个整数,我们就可以使用r−(ratej−1),如果ratej−r∈[0,1)如图3所示,针对每个图像构造关于w和h的此外,所有整数伸缩内核共享相同的内核参数,因此没有额外的学习参数。1000,else(七)特介绍。3.2. 小批量计算及其实现在mini-batch中,假设批大小为B,则第n+1个特征图Fn+1可以公式化为:为了在Eq.(一)和等式(2)直接重写内核级代码1n+1个B111BB B因为小批量生产的玉米粒多种多样。然而,通过下面的推导,我们表明,所提出的方法,上述[fn,...,fn]可以在小批量中有效地完成,如下:可以很容易地通过普通的深度学习实现,克兰克F,kn2006年,. . .,knF例如,PyTorch和TensorFlow。利用卷积运算的分布特性(1)可以配制为:1122KK我们注意到,为了简明起见,在公式中省略了激活函数和批归一化。等式中的公式。(8)可以被解释为一个点生产,其次是一个总和减少之间的插值,w(4,1)w(3,w(2,1)w(1,1)+w(1,2)w(1,w(1,4)共享相同的核参数,但具有不同的膨胀率膨胀率(DilationRate)分数扩张卷积K实现并兼容小批量计算整数扩张核因此,分数扩张核是自适应控制的。w(1,ratej)=JJ-r ∈(−1,0)(九)14118JNI(w−w)kn+(w−<$w<$)knfn+1nAFDCΣ=briefn.W权值矩阵W和Eq.(9)能使人有成就感。由常见的深度学习框架实现Wbriefn.(三)(Pytorch、Tensorflow等)。每个整数扩张Conv,H H(1,h)nh h(1,h)nknF由方程式(9),计算为正常的di-=(w−w)kw<$fn+(w−<$w<$)kwfnkkH H(1,h)h h(1,h)使用共享的学习参数对Conv层进行优化。=k14119i=12Nk=1Σ通过扩张核的数量来加宽输出通道尺寸。 换句话说,C〇 n v群{knij<$Fn}可以通过以下来优化图5:减少计算开销的策略:整数扩张的Conv可以根据长宽比由适当分组的图像共享。网络#参数多添加数量速度(列车)速度(测试)VGG16138M15.3G8.14它/秒12.91它/秒2-扩张138M30.7G2.70 it/s3.85 it/s7-扩张138M109.1G0.73它/秒0.93它/秒ResNet5025.6M3.5G12.49它/秒22.80 it/s2-扩张25.6M5.6G8.32它/秒14.81它/秒2-扩张 *25.6M6.5G6.20 it/s9.88它/秒7-扩张25.6M10.6G3.22它/秒5.28它/秒7-扩张 *25.6M18.8G2.08它/秒3.12它/秒表1:计算比较:训练批次大小设置为16,测试批次大小设置为32。速度是在单个GTX 1080 Ti上测试100次迭代的平均结果 分数膨胀的Conv被嵌入到ResNet50中的所有BottleNets中,而 * 表示第一个7 × 7 Conv层的额外嵌入膨胀。计算开销计算开销由整数扩张核的数量和核大小不为1×1的卷积层的数量决定。如表1所示,ResNet50中的BottleNet [7]包含两个1×1内核和一个3×3内核。以来只有3×3内核引入了计算开销,2个整数膨胀的计算成本大约为1。原始模型的5倍,而VVG 16 [24]由大多数3×3内核组成,因此计算成本约为2倍。一些额外的计算开销是由不同的插值操作引起的。函数膨胀核使用分组策略减少开销在实践中,大多数图像的宽高比w会下降(ratek,ratek)并行计算 [32]《易经》云:“君子之道,焉可诬也?”调整Conv层的宽度更适合GPU计算的性质,有助于更有效地平衡计算。然而,从表1中可以看出,实际的训练和测试速度与# Muti-Adds近似线性相关,这可能归因于框架(TensorFlow)的当前实现,并且可以通过进一步的并行优化来改进。我们注意到,许多基础网络主要是以1×1和3×3核的排列堆叠的,它们可以适用于嵌入AFDC的训练和推理速度,即。ResNet流中的[7,11,10,32,30]此外,adapta-因为我们的方法是无参数的,所以很容易。总的来说,随机尺寸扭曲保留了原始图像的组成,并提供了数据增强以训练具有尺度不变性的网络。AFDC可以根据空间失真信息以计算高效的方式自适应地构造分数膨胀核。3.3. 组成感知结构和损失用于图像分类任务的常用网络结构通常在全连接层之前包含全局池化[30,7,11,26,10]。全局池化算法消除了空间方差,通过训练具有空间不变性的网络,有助于图像识别,但在图像美学评价中会丢失局部信息受空间金字塔池化[6],MNA-CNN- Scene [16]的启发,做出了一些努力来学习信息,空间图像合成。首先,我们使用多个自适应池化模块[6]来输出gigi网格,并将它们馈送到全连接层(参见图10)。图2)。图像美学评价的局部化因素较高,与图像对称性和整体图像结构相关。然后,我们通过连接将全连接层之后的输出聚合。为了限制模型参数的数量并防止过拟合,每个自适应池化层的1h输出num个特征表示“变更”之义转化为[2,2],例如,97.8%的训练和测试图像[18]在《易经》中,培训效率可操作-nels。网格数通过对批次进行分组来进行最小化,例如,对于大多数批次,使用三个扩张内核进行训练,DilationRates={(2,1),(1,1),(1,2)},用于宽高比下降的图像到[1,2]中。对于宽高比更多样化的数据集在[27]中的工作之后,我们训练我们的网络,以预-dict 10-scale score distribution,在网络顶部使用softmax函数。为了得到平均得分预测和二元分类预测,我们计算了2可以应用更细粒度的分组策略。作为示于图5、宽高比范围内的图像[4,3](上)和[1,1](下)共享有效的扩张最后,得分分布的加权和为10i·pi。我们使用有序分布距离,地球移动器距离-[27]作为我们的损失函数:在分组的批处理中转换。EMD(p,p)=(1N|r)1 / r(10)|r)1/r(10)其中CDFp(k)是累积分布函数,w1!w4+w5+w2多个整数14120Σ2网络cls acc.MSEEMDSRCCLCC[27]第二十七话NIMA(Inception-v2)[27] NIMA(ResNet 50,我们的实现)0.80600.81510.8164--0.31690.0520.0500.04920.5920.6120.61660.6100.6360.6388Vanilla Conv(ResNet50)0.81720.31010.04810.60020.6234AFDC(随机大小裁剪预训练)0.81450.32120.05200.61340.6354保持纵横比的预训练0.82950.27430.04450.64100.6653AFDC + SPP0.83240.27060.04470.64890.6711表2:AVA的测试结果比较[18]:评价指标如下[27]。报告的准确度值(cls.Acc.)基于二值图像分类。MSE(均方误差),LCC(线性相关系数)和SRCC(斯皮尔曼等级相关系数)之间的预测和地面真实的平均得分计算。EMD测量预测的和真实评级分布的接近度,其中在等式中r = 1。(十)、AFDC(random-size cropping)传输ImageNet中广泛使用的数据增强方法训练的模型,而AFDC(aspect-ratio-preserving pretrain)传输使用aspect-ratio-preserving数据增强训练的模型ki=1 皮岛如第1节和[27]中的结果所述,将初始学习率设置为0。001,衰减率为0。95口述分数分布可以提供更多的信息与平均分数或二元分类标签相比,关于图像美学。4. 实验结果在[27,17,15,16,12]之后,我们在AVA数据集上评估了我们提出的方法[18]。AVA包含大约250,000张图像,每张图像包含大约200人评分的10级分数分布。 为了公平比较,我们使用[27,22,17,15,16,18]中相同的随机分割策略来生成235,528张用于训练的图像和20,000张用于测试的图像。4.1. 实现细节我们使用ResNet-50 [7]作为骨干网络,因为它在计算和图形内存方面的效率在第3.2节中讨论。我们将每个BottleNet中的所有3×3Conv层替换为我们提出的自适应分数膨胀Conv层。很容易将AFDC插入常见的CNN因为它不引入任何额外的模型参数。 我们在等式中使用相同的EMD损失。(10)其中r=2以获得更好的反向传播。为了加速训练,我们使用了3.2节中讨论的分组策略。对于前12个epoch,我们在分组图像上使用三个膨胀内核(1×2,1×1,2×1)训练模型,因为97.8%的训练和验证图像的长宽比落在[1,2]之间。然后我们用7个膨胀核训练模型,1×4,1×3,1×2,1×1,2×1,3×1,4×1,对于剩余的6个时期,并选择最佳根据验证数据集中的结果创建模型我们注意到训练和测试速度可以通过更细粒度的分组策略进一步加快。我们在完全连接层之前传输网络参数(在ImageNet上预先训练),并将初始学习率设置为0。01的前6个时期。然后我们将学习率降低到0。001对于其余的训练时期。我们发现在每10个时期之后可以产生可比较的结果,收敛得更慢。权重和偏动量设置为0。9 .第九条。4.2. 消融研究在本节中,我们将介绍最终模型的构建步骤,并逐步分析每个模块的效果:(1)用保成分随机整经代替随机裁剪;(2)在ImageNet上的保留长宽比的预训练模型中,用AFDC替换vanilla Conv;(3)添加SPP模块来学习图像合成。随机扭曲。对于数据增强,NIMA [27]中的输入图像被重新缩放为256×256,然后随机提取大小为224×224的作物。他们还报告说,训练随机作物没有重新调整,由于图像组成中不可避免的变化而产生不引人注目的结果。为了保持完整的构图,我们在每次迭代期间通过将每个批次随机扭曲成[224,320]中的正方形尺寸来用随机尺寸扭曲代替随机裁剪。在不使用随机扭曲的情况下,网络会遭受过拟合。我们注意到,非平方大小的扭曲可能会进一步帮助泛化,并可能更稳健地训练AFDC。从 表 2 中 , 我 们 生 成 的 结 果 ( Vanilla Conv( ResNet50 ) ) 略 我 们 使 用 与 NIMA 相 同 的 损 失( EMD 损 失 ) 和 网 络 ( ResNet50 , 我 们 的 实 现 )[27]。比较结果表明,随机变形是一种有效的数据增强替代方案,它保留了图像的组成。保留保留预训练的平均比率。我们在ResNet50中用AFDC替换了普通卷积层。在我们的实验中,我们发现,微调分数扩张卷 积 网 络 导 致 与 原 始 网 络 相 比 类 似 的 验 证 精 度(c.f.AFDC(表2中的随机大小裁剪预训练)。兼容性验证重新-14121图6:使用全局池(左)和SPP(右)训练的模型的裁剪结果。通过使用具有最低分数(绿色)和最高分数(红色)的滑动窗口来获得两个裁剪样本首先将图像的大小调整为256。应用具有大小224和步幅100.840.820.800.780.76当每个裁剪框中的全局线索具有相似的分布(颜色、照明等)时,定位/组成辨别对于找到良好的裁剪结果是重要的利用SPP模块建立的模型可以根据图像的组成推断裁剪,例如:眼睛和脸的相对位置我们还尝试了numgrids=5,发现由于额外模型参数的过拟合,结果并不令人信服三种不同的尺度与一般的审美规律(整体信息、纵横对称构图、三度法则)相一致4.3. AFDC的有效性学习表征和概括从图中的实验。7,我们认为保留长宽比信息对于学习照片美学是必不可少的,因为我们的方法不仅提高了验证结果,而且提高了训练结果。在没有额外学习参数的情况下,AFDC提高了学习表示和泛化能力。如第1节中所讨论的,对图像美学信息的处理完全省略了由随机扭曲引起的标签噪声,从而有助于1234567891011121314151617 18时代图7:学习曲线的比较:这里的骨干网络都是ResNet-50 [7]。结果可以归因于具有失真不变能力的预训练模型ImageNet上广泛使用的网络训练数据增强[26]包含窗口上的随机裁剪,其大小均匀分布在原始图像区域的8%至100%之间,纵横比限制为[3,4]。该模型是用学习过程。新的美学特征重新-与纵横比相关的参数允许模型更鲁棒和更有区别。为了进一步探索嵌入纵横比的影响,我们比较了不同的方法来合并膨胀卷积,结果报告在表3中。当使用vanilla Conv(表3中的顶行)训练时,AFDC在测试期间优于其他扩张Conv方法它意味着最近的两个整数扩张核之间的潜在最优经过AFDC的培训(表3中的底行),进一步验证了有效性4 3失真不变性,这与我们的兴趣相反。方法,试图保持原始的长宽比。为了更好地迁移学习,我们在ImageNet [4]上预训练ResNet50 [7],而没有失真增强。具体来说,我们使用正方形窗口对图像区域的8%到100%裁剪大小进行采样,与[26]中的数据增强方法相比,这是略有修改的。如表2所示,从纵横比保持预训练中转移模型,我们将整体测试结果(AFDC(纵横比保持预训练))从vanilla Conv对应部分中提高了一个幅度。组成感知结构。为了更好地学习组合的表征,我们对SPP使用了三种不同的尺度,{1×1,2×2,3×3}。具有全局池化层的网络相当于只使用一个尺度,即1×1。根据表2,具有SPP模块(AFDC+SPP)的网络与具有全局池化层(AFDC)的网络相比,生成更好的结果。实验结果表明,结合定位信息可以有益于图像合成的学习。在图6中,自动裁剪示例表明,”这是一个有帮助的监督指导下,作为AFDC,期望比率我们注意到,这样的实验是可访问的,因为我们的方法是无参数的。总的来说,我们提出的AFDC可以学习更多的歧视性和准确的表示相关的审美感知,从而更好地泛化,通过利用额外的监督,从图像的长宽比的信息为了进一步研究对宽高比的响应,我们将同一图像调整为不同的宽高比,并在不同的训练模型上测试结果。如图8、AFDC(蓝线)表示纵横比的变化。香草转化率(绿线)的小波动归因于从蒸馏过程的取样变化。Imagenet上具有随机大小裁剪预训练的模型(橙色线)由于其失真不变的预训练,在捕获与纵横比相关的美学感知方面不太具有区分性此外,该方法产生多模态分数分布,这反映了它学习纵横比和美学感知之间的复杂关系。这与设计更好的长宽比或找到AFDC(train)AFDC(val)Vanilla Conv(train)VanillaConv(val)cls acc.14122火车测试cls.acc.MSEEMD香草0.81720.31010.0481常数膨胀率=[2,1]0.80720.51630.0610香草次邻近整数扩张最近两个整数扩张0.80910.81170.53680.45580.06200.0576最近整数伸缩0.81140.43220.0562自适应分数膨胀0.81320.41330.0553香草0.80850.32100.0581常数膨胀率=[2,1]0.81320.31820.0576AFDC次邻近整数扩张最近两个整数扩张0.81560.82740.30030.27710.04760.0457最近整数伸缩0.82770.27570.0457自适应分数膨胀0.82950.27430.0445表3:不同卷积的测试结果比较:结果是通过vanilla Conv(上图)和AFDC(下图)训练参数获得的。测试过程是通过不同的计算方法进行的 插 值 权 重 , w 在 方 程 。 ( 五 ) 、 VanillaConv,常数膨胀,最近整数膨胀和第二最近整数膨胀可以被解释为将one-hot插值权重向量馈送到网络中图8:辨别力与纵横比变化的比较。美观的摄影角度是不平凡的。由于训练数据集的限制,我们承认与长宽比相关的学习感知并不令人满意,即使模型从不同的长宽比学习。作为一个因素,当在更具体的目标数据集上进行训练时,我们提出的方法具有学习能力它不仅可以用于彩色空间变换,而且可以用于空间变换的自动/辅助照片增强。配置文件编辑,多镜头选择和自动缩放。4.4. 与最新技术水平结果的比较我们将自适应分数扩张CNN与表4中的最先进方法进行了比较。这些方法的结果直接从相应的文献中得到。如表4所示,我们提出的AFDC在cls.acc和MSE方面优于其他方法,这是最广泛的目标指标。与使用相同EMD损失的NIMA(Inception-v2)[27]相比,我们的实验结果表明,完全保留图像美学信息可以更好地进行图像美学评估。我们遵循与MNA-CMM-Scene相同的动机[16],而我们的表4:与SOTA方法的比较:四个补丁的翘曲尺寸为{224,256,288,320}。单个补丁的翘曲尺寸为从最佳结果中选择的320。所提出的方法适用于包含具有不同纵横比的图像的小批量训练实验结果表明,核层次的自适应嵌入是一种有效的方法来学习更准确的审美感知。与基于多块的方法[15,8,23]相比,我们的统一模型以端到端的方式直接从完整图像中学习图像美学特征,可以更好地保留原始美学信息并减轻聚合采样预测的工作,例如。复杂的路径采样策略和人工设计的聚集结构[15]。此外,我们的方法是更有效的,而无需饲料的复种斑块从原始图像采样,可以更适用于应用程序。然而,由于其无参数的方式,它非常简洁,可以很容易地适应流行的CNN架构。5. 结论本文提出了一种自适应扩张卷积网络来显式地对图像的宽高比进行建模。我们提出的方法不引入额外的模型参数,可以插入到流行的CNN架构中。此外,分组策略已被引入,以减少计算开销。我们的实验结果证明了我们所提出的方法的有效性。即使我们的自适应扩张卷积网络被提出来支持图像美学评估,它也可以应用于图像裁剪或扭曲可能引入标签噪声的其他场景此外,自适应无参数核构造方法提供了一种直观的核级动态嵌入设计方法,其目的在于更好地学习表示和泛化能力。确认我们要感谢匿名评论者的有用意见。这项工作得到了 国 家 自 然 科 学 基 金 的 部 分 资 助 。 61906143 和No.61473091)。方法cls acc.MSESRCC[16]第十六话76.5%--Kong等人[14个]百分之七十七点三-0.558AMP [17]80.3%0.2790.709Zeng等人(resnet101)[33]百分之八十点八0.2750.719[27]第二十七话百分之八十一点五-0.612MP-Net [15](50个种植补丁)81.7%--Hosu等人[8](20个种植斑块)81.7%-0.75614123引用[1] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[2] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision,第764-773页[3] Ritendra Datta,Dhiraj Joshi,Jia Li,and James Ze Wang.使用计算方法研究摄影图像中的美学。在计算机视觉-ECCV 2006,第9届欧洲计算机视觉会议,奥地利格拉茨,2006年5月7-13日,会议记录,第III部分,第288-301页[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR2009。IEEE会议,第248-255页。Ieee,2009年。[5] Sagnik Dhar、Vicente Ordonez和Tamara L.伯格。用于预测美学和趣味性的高级可描述属性。在The 24 th IEEEConference on Computer Vision and Pattern Recognition,CVPR 2011,Col orado Springs,CO,USA,2011年6月20-25日,第1657- 1664页[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在欧洲计算机视觉会议上,第346-361页。Springer,2014.[7] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[8] Vlad Hosu,Bastian Goldlucke和Dietmar Saupe。有效的美学预测与多层次的空间汇集的特点。在IEEE计算机视觉和模式识别会议论文集,第9375-9383页[9] Andrew G. Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络CoRR,abs/1704.04861,2017。[10] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页[11] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。CVPR,第1卷,第3页,2017。[12] 高月英,黄凯琪,史蒂夫·梅班克。使用深度卷积神经网络的层次美学质量评估信号处理:图像通信,47:500 -510,2016。[13] 颜可,唐晓鸥,冯婧。用于照片质量评估的高级特征设计。在2006年IEEE计算机协会计算机视觉会议上,2006年6月17日至22日,纽约,NY,USA,第419-426页[14] 孔 舒 , 沈 晓 辉 , 李 哲 。 Lin , Radom 'ır Mech , andCharless C.福克斯照片美学排名网络与属性和内容的适应。在计算机可视化-ECCV 2016-第14届欧洲会议,阿姆斯特丹,荷兰,2016年10月11日至14日,会议记录,第一,第662-679页[15] 马爽,刘静,陈昌文。A-lamp:用于照片美学评估的自适应布局感知多补丁深度卷积神经在2017年IEEE计算机视觉和模式识别会议上,CVPR 2017,美国夏威夷檀香山,2017年7月21日至26日,第722[16] 龙迈、金海林、凤琉。构图保留深层照片美学评估。在2016年IEEE计算机视觉和模式识别会议上,CVPR2016,拉斯维加斯,NV,美国,2016年6月27-30日,第497- 506页[17] 奈拉·默里和阿尔伯特·戈多统一美学预测的深层架构CoRR,abs/1708.04890,2017年。[18] Naila Murray Luca Marchesotti和Florent Perronnin Ava:用于美学视觉分析的大型数据库。 在计算机视觉和模式识别(CVPR),2012年IEEE会议上,第2408-2415页。IEEE,2012。[19] Masashi Nishiyama,Takahiro Okabe,Imari Sato,andYoichi Sato.基于色彩协调的照片美学质量分类。在The24 th IEEE Conference on Computer Vision and PatternRecognition , CVPR 2011 , Colorado Springs , CO ,USA,2011年6月20-25日,第3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功