学习调整图像大小的重要性及效果

26 浏览量更新于2023-10-13 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

497×↓↑学习为计算机视觉任务调整图像大小Hossein Talebi和Peyman MilanfarGoogle Research摘要尽管近年来卷积神经网络已经彻底改变了计算机视觉，但一个重要的方面却很少受到关注：图像大小对训练任务准确性的影响。典型地，为了高效，输入图像被调整大小为相对小的空间分辨率（例如，分辨率为100%）。224224），并且训练和推理都以该分辨率执行。这种重新缩放的实际机制是事后的想法：即，诸如双线性和双三次的现成图像大小调整器通常用于大多数机器学习软件框架中。但是，这些调整器是否限制了训练网络的任务性能？答案是肯定的。事实上，我们表明，典型的线性大小调整器可以取代学习大小调整器，可以大大提高性能。重要的是，虽然经典的重新调整大小器通常导致缩小图像的更好的感知质量，但我们提出的学习的调整大小器不一定给出更好的视觉质量，而是提高任务性能。我们学习的图像大小调整器与基线视觉模型联合训练这种学习的基于CNN的大小调整器创建机器友好的视觉操纵，其导致最终任务度量相对于基线模型的持续改进具体来说，在这里我们专注于ImageNet数据集的分类任务[26]，并使用四种不同的模型进行实验，以学习适应每个模型的大小调整器。此外，我们表明，建议的大小调整器也可以用于微调其他视觉任务的分类基线。为此，我们使用三种不同的基线进行实验，以在AVA数据集上开发图像质量评估（IQA）模型[24]。1. 介绍深度神经网络以及大规模图像数据集的出现这样的数据集中的图像通常从网络获得，并且因此已经经历了各种捕获流水线和后处理步骤。除了这些通常未知的处理操作之外，ef-图1.我们提出的框架，联合学习的图像大小和识别模型。Top-1错误任务模型双线性调整器建议的调整器[34] 26.7% 24.0%DenseNet-121 [9] 33.1% 29.8%ResNet-50 [8] 24.7% 23.0%[28]第28话：我的世界PLCC双三次测量器申报测量器启动-v2 [34] 0.662 0.686DenseNet-121 [9] 0.662 0.683有效净b0 [38] 0.642 0.671表1.我们在ImageNet [26]上的图像分类结果和在AVA数据集[24]上的图像质量评估（IQA）结果的总结。视觉识别CNN的有效训练需要额外的图像增强，例如空间尺寸调整。图像降尺度是分类模型中最常用的预处理模块。调整空间大小的主要原因是：（1）通过梯度下降的小批量学习需要一批中所有图像的相同空间分辨率，（2）在高分辨率下训练CNN时的内存限制，以及（3）大图像尺寸导致较慢的训练和推理。给定固定的内存预算，在空间分辨率占用的内存和批大小之间存在折衷。这种权衡可能对识别CNN的准确性产生重大影响[27，39，10，12]。目前，最基本的尺寸调整方法，如最近邻，双线性，双三次是在顶部采用的图像尺寸视觉识别系统。这些尺寸调整器尺寸调整器型号识别模型IQA分类498快速，并且可以灵活地集成到训练和测试框架中。然而，这些方法是在深度学习成为视觉识别任务的主流解决方案之前几十年开发的，因此对于机器感知来说不是优化的或足够的。最近对识别感知图像处理的研究已经显示出在提高分类模型的准确性和同时保持感知质量方面有希望的结果[20，29]。这类方法保持分类模型固定，并且仅训练增强模块。与此同时，在预处理器和识别模型的联合学习方面已经做出了一些努力[2，44，19，30，18，16，45]。这些算法建立了具有混合损失的训练框架，其允许同时学习更好的增强和识别。然而，在实践中，诸如调整大小的识别预处理操作不应被优化以获得更好的感知质量，因为最终目标是识别网络产生准确的结果，而不是中间图像对人类观察者“看起来很在本文中，我们提出了一种新的图像大小调整器，该图像大小调整器与分类模型联合训练（见图1），并且专门设计用于提高分类性能（见表1）。总结我们的贡献：我们将我们的大小调整器与各种分类模型相结合，并表明它有效地适应每个模型，并在基线图像分类器上不断改进。所提出的大小调整器不受任何像素或感知损失的限制，因此我们的结果呈现了不同于常规图像处理和超分辨率结果的机器自适应视觉效果。所提出的大小调整器模型允许以任意缩放因子缩小图像，因此我们可以方便地搜索底层任务的最佳分辨率我们扩大了应用程序的建议大小的图像质量评估（IQA），并表明它成功地适应这项任务。我们声称所提出的方法是专门为视觉任务开发的第一个预处理模型，并且旨在取代现成的大小调整器。因此，远程机器学习推断可以被提及为所提出的尺寸调整器的区别应用。在远程推理中，将全分辨率的百万像素图像从客户端传输到服务器会给系统带来很大的虽然在客户端侧通过现成的调整器进行缩小可以减少延迟问题，但它也可能对识别性能产生负面影响。的原件（480×640）学习调整器（192×256）图2.在ImageNet数据集上训练用于图像分类的建议大小调整器的示例[26]。基线分类模型是Inception-v2 [34]，并且它与图1所示的尺寸调整器模型联合训练。3.第三章。经调整大小的图像比现有的预处理大小调整器（诸如双线性和双三次）更好地适合分类任务。因此，所提出的尺寸调整器可以是现成尺寸调整器的替代，以有效地减少识别性能的预期下降。接下来，我们简要回顾了与本文相关的研究工作。然后，在第3节中，详细讨论了所提出的尺寸调整器模型。在第4节中给出了我们的结果，最后在第5节中得出结论。2. 相关工作考虑到过去的文献，有充分的理由相信，优化的预处理模块可以提高计算机视觉系统的性能。例如，对象识别和增强任务的并发优化可以追溯到Zeiler等人。[43]，他们使用去卷积网络来学习图像合成和分析的鲁棒特征。Namboodiri等人[25]表明诸如超分辨率的增强算法应该通过分类驱动的度量来评估。最近，使用对象检测损失训练的超分辨率算法[7]与传统的超分辨率算法相比显示出更好的结果。Gondal等人[40]研究了超分辨率对识别任务的影响，通过超分辨率下采样的ImageNet [26]图像，并比较各种放大方法的分类准确性。他们得出结论，重新调整尺寸方法的选择对性能有重大影响。最近，Singh et al.[31]介绍了一种放大非常小的图像以提高人脸和数字识别的方法压缩对识别的影响也在[21，33，35]中进行了研究。Luo等人。[21]表明，JPEG量化系数可以优化以获得较低的比特率，同时保持感知质量和识别性能。最近，已经引入了几种用于更有效压缩而不牺牲分类准确性的预编辑方法[33，36]。通常这些方法依赖于某种····499×××Res块Conv2d（k3n16s1）BatchNorm泄漏ReLuConv2d（k3n16s1）批次标准总和调整网络大小图3.我们提出的用于调整图像大小的CNN模型双线性特征大小调整器允许任意的放大/缩小因子。率失真精度优化。Sharma等人。[30]训练通用增强模型通过与分类网络的联合学习。该增强模型不改变空间分辨率，并且通过在增强图像上添加交叉熵分类损失的L2去噪是另一种增强操作，已成功用于提高感知质量和识别准确性[5，42]。Diamond等人的方法[5]关注低光成像场景，并表明计算机视觉任务的最佳图像处理算法与为产生视觉上令人愉悦的照片而开发的现有方法不同。此外，Li et al.[15]表明，去雾可以提高自然模糊图像上的对象检测和识别性能。最近Liu et al.[20]提出了一种通过优化图像处理网络上的识别损失来提高图像的机器可解释性的方法他们研究了超分辨率、去噪和JPEG去块效应作为预处理操作，并表明在不同的架构和任务上进行评估时，识别性能增益可以转移。我们的方法与[20]不同之处在于(1)我们专门关注于改进识别性能，而不管感知质量如何，以及（2）我们的预处理尺寸调整器与识别模型一起被训练，并且因此更好地这意味着所提出的模型不限于学习特定的增强（例如：去噪或去模糊），而是它自由地学习一些独特的机器友好的效果，这导致识别增益（参见图2）。这个特性适合我们的模型的应用程序，视觉上令人愉快的图像是不是最终目标。3. 拟议框架在本节中，我们将介绍我们的尺寸调整器模型，并讨论如何部署它来训练和测试图像分类和IQA模型。我们的resizer模型被设计为易于训练，因此它可以插入各种学习框架和任务。此外，它还可以处理任意缩放因子，包括放大和缩小。这使我们能够探索分辨率与批量大小的权衡，并因此找到手头任务的最佳分辨率在执行方面-n=16 11.8716.4821.0825.69n=32 38.0856.5174.94九十三点三七表2.所提出的尺寸调整器模型中的参数数量以千为单位给出。图3中的残差块的数量和卷积滤波器的数量在该表中变化。然而，理想地，通过这种自适应调整大小获得的净增益这些约束使得几乎不可能使用现有的超分辨率模型[17，14，41，46，4，23，3]。另一方面，诸如双线性和双三次的图像重新缩放方法本身是不可训练的，并且因此不适合于该任务。为此，我们设计了一个模型，满足这些标准。3.1. 尺寸调整器型号我们提出的大小调整器架构如图3所示。也许这个模型最重要的特征是(1)双线性特征调整大小，以及（2）跳过连接，其适应于组合双线性调整大小的图像和CNN特征。前一个因子允许将以原始分辨率计算的特征并入模型中。此外，跳过连接适应更容易的学习过程，因为调整大小器模型可以直接将双线性调整大小的图像传递到基线任务中。注意，图3中所示的双线性特征尺寸调整器充当前馈瓶颈（缩小），但原则上它也可以充当逆瓶颈（放大）。值得注意的是，与典型的编码器-解码器架构[22]不同，所提出的架构允许将图像大小调整为任何目标大小和纵横比。同样重要的是要强调，学习的大小调整器的性能几乎不依赖于双线性大小调整器的选择，这意味着它可以安全地被其他现成的方法（如双三次或Lanczos）取代。在我们的模型中使用的残差块受到[6，14]的启发在我们的模型中有r个相同的残差块，在我们的实验中，我们设置r=1或2。所有中间卷积层具有n=16个大小为3 × 3的核。第一层和最后一层由7个7粒。越大第一层中的核大小允许原始图像分辨率上的7 ×7的感受域我们也使用批处理规范化层[11]和LeakyReLu激活调整大小原始分辨率r块Conv2d（k7n16s1）泄块滤波器r=1r=2r=3r=4Conv2d（k1n16s1）泄漏ReLu双线性调整器双线性调整器Res块Res块Res块Conv2d（k3n16s1）总和Conv2d（k7n3s1）总和500×Σ×Σ−a 0。2负斜率系数。所提出的尺寸调整器模型是相对轻量的并且不向基线任务添加大量的可训练参数。CNN的各种配置的可训练参数的数量如表2所示。这些CNN明显小于基线模型，如ResNet-50 [8]，它有大约2300万个参数。这些配置的性能在4.4节中进行了比较，其中我们表明，即使是n=16，r=1的最轻配置也是非常有效的。3.2. 学习损失大小调整器与基线模型损失联合训练。由于我们的目标是学习用于基线视觉任务的最佳大小调整器，因此我们不对调整大小的图像应用任何损失或正则化约束。本文中探索的任务的总结如表3所示。3.2.1图像分类分类模型的训练与交叉熵损失。更具体地，损失是在具有S形层的最终logits上计算的。ImageNet [26]分类挑战由1000个对象类组成，因此，最终的logits层表示1000个预测类。我们还使用Szegedy等人提出的标签平滑正则化。[34]。确认损失可以表示为K其中CDF（. ）是累积分布函数。在我们的实现中，我们发现d=2是最有效的。此外，请注意，对于AVA数据集，K等于10[24]。EMD损失适应学习人类评级的分布。事实证明，这比回归平均评级更有效。4. 实验表3示出了我们的实验的细节的总结。首先，我们在每个数据集上训练基线模型，而不使用建议的大小调整器。对于这些情况，我们使用双线性和双三次方法。这些模型被用作基准来测量所学习的大小调整器的性能。我们还使用这些基线来初始化分类和IQACNN。对于每个基线模型和任务，单独的大小调整器CNN与基线模型联合训练。大小调整器权重随机初始化。为了展示所提出的大小调整器的影响，我们在使用和不使用大小调整器的情况下以各种图像分辨率训练基线模型（如表4和表5所示）。更具体地说，由于基线模型可以在任何分辨率下训练，因此我们将输入大小从默认的224 224大小为更大的448448分辨率。我们使用迷你批学习，因此输入图像尺寸必须是每批都一样。为了实现这一点，并允许提出的调整器以更高的分辨率进行训练，ImageNet和AVA中的图像首先通过双线性或双三次方法调整到固定分辨率。大小调整器Lrecog=−log（pk）qk′k=1（一）分辨率始终保持大于或等于其输出分辨率。此外，我们在训练和测试时应用相同的调整大小配置。其中p和q’是预测和平滑标签，K表示类的总数具有真实值标签y的图像的平滑标签被计算为qk′=（1ε）δk，y+ε/K，其中当k = y时δk，y为1，否则为0。我们将固定为0。1.一、标签正则化防止最大的logit支配其他logit，导致较不置信的模型和较少的过度拟合。4.1.1图像质量评估（IQA）我们的质量评估模型通过回归损失进行训练。AVA数据集[24]中的每个图像都有一个人类评级的直方图，评分范围从1到10。根据[37]中的最新工作，我们使用地球移动器距离（EMD）作为我们的更具体地，基线模型的最后一层被修改为具有10个对数，具有Softmax层。EMD损失可以表示为将更高分辨率的图像馈送到CNN导致更高的计算资源使用率。原则上，这种额外的计算应该通过相应的性能提升来证明。这适用于我们所有的实验模型，无论是否有学习调整器。为了从计算的角度提供公平的比较，在我们的实验中，还报告了每秒浮点运算（FLOPS）（如表4和表5所示）。我们使用Tensorflow[1]通过4个NVIDIA V100 GPU使用随机梯度下降来训练我们的网络。在整个实验中，我们使用了衰减为0的动量优化器[32]。9 .第九条。我们使用的学习率是0的情况。05时从头开始训练，和0. 005进行微调。学习速率使用指数速率0每两个时期衰减一次。94接下来，我们讨论我们的结果。4.2. 分类我们选择四个基线模型与图像大小调整器联合训练。我们展示了ImageNet的结果L质量=1Kk=1|CDF(pk)−CDF(qk)|Σ1/d（二）表4中的数据集。我们用不同的分辨率进行实验，并调整批处理大小，以避免超过我们的内存限制。报告的top-k错误是.KD501×××调整器基线任务基准数据初始化初始化基线模型训练损失分类ImageNet [26]随机预训练的Inception-v2 [34]，DenseNet-121 [9]，交叉熵ResNet-50 [8]，MobileNet-v2 [28]IQAAVA [24]随机Pre-trainedEfficientNet-b0 [38]，Inception-v2 [34]，EMDDenseNet-121 [9]表3.总结本文所完成的任务图3所示的学习大小调整器与每个基线模型联合训练分类ResizerResizer调整器批总FLOPS建议256× 256 224× 224建议320× 320 224× 224 64 24.2% 7.3% 5.35建议368× 368 224× 224 48 24.5% 7.4% 5.52建议448× 448 224× 224 32 25.3% 7.9% 5.86双线性原件224× 224 128 26.7% 8.7% 3.88双线性原始256× 256 96 27.3% 9.1% 5.07双线性原件320× 320 64 27.3% 9.1% 7.92双线性原件368× 368 48 29.6% 10.4% 10.6双线性原件448× 448 32 30.6% 11.2% 15.52建议224× 224 224× 224 128 31.1% 11.6% 6.86建议256× 256 224× 224 96 31.0% 11.4% 6.95建议320× 320 224× 224 64 30.7% 11.1% 7.14建议368× 368 224× 224 48 30.2% 10.9% 7.31建议448× 448 224× 224 32 29.8% 10.8% 7.65双线性原件224× 224 128 33.1% 12.8% 5.67双线性原始256× 256 96 30.9% 11.7% 7.41双线性原件320× 320 64 29.9% 10.8% 11.57双线性原件368× 368 48 29.7% 10.7% 15.26双线性原件448× 448 32 31.5% 12.0% 22.68建议224× 224 224× 224 128 23.7% 7.0% 8.16建议256× 256 224× 224 96 23.8% 7.0% 8.24建议320× 320 224× 224 64 23.4% 6.8% 8.43建议368× 368 224× 224 48 23.0% 6.7% 8.61建议448× 448 224× 224 32 23.7% 6.9% 8.95双线性原始224× 224 128 24.7% 7.5% 6.97双线性原始256× 256 96 23.5% 6.9% 9.10双线性原件320× 320 64 22.5% 6.3% 14.21双线性原件368× 368 48 22.1% 6.0% 19.17双线性原件448× 448 32 21.9% 5.8% 27.85建议224× 224 224× 224 128 29.1% 10.1% 1.79建议256× 256 224× 224 96 29.0% 10.1% 1.87建议320× 320 224× 224 64 28.7% 9.9% 2.07建议368× 368 224× 224 48 28.4% 9.8% 2.24建议448× 448 224× 224 32 28.5% 9.8% 2.58双线性原件224× 224 128 29.5% 10.4% 0.60双线性原始256× 256 96 28.7% 9.6% 0.78双线性原件320× 320 64 27.2% 9.0% 1.23双线性原件368× 368 48 26.6% 8.6% 1.66双线性原件448× 448 32 26.1% 8.3% 2.40表4.使用各种模型对ImageNet [26]验证集的分类错误每一行表示用不同的调整大小配置训练的模型突出显示的结果代表了224224输入分辨率的所有模型中的最佳性能请注意，随着输入分辨率的增加，批处理大小会减小，以避免内存消耗问题。此外，在将图像馈送到建议的大小调整器（显示在大小调整器的输入分辨率下）之前，图像会调整大小以固定分类器没有返回前k个最高概率得分中的正确类的时间。我们称使用双线性大小调整器训练的模型和输出大小调整分辨率224 224默认基线。突出显示的结果代表了224 224分辨率模型中的最佳性能。可以看出，用亲-摆姿势的大小调整器显示了对默认基线的整体改进与默认基线相比，DenseNet-121和MobileNet-v2基线分别显示出最大和最小的增益。此外，值得一提的是，对于Inception-v2、DenseNet-121和ResNet-50模型，所提出的大小调整器的性能优于具有可比FLOPS的双线性然而，训练移动网络--v2模型在更高分辨率下使用双线性大小调整器比使用具有类似FLOPS的学习大小调整器更有效表4还显示，无论有没有建议的大小调整器，增加输入分辨率都有利于性能。DenseNet-121 、 ResNet-50 和 MobileNet-v2 的管理。Inception-v2模型是一个例外，因为它从更大批量的训练中获得了最大的值得注意的是，训练具有相等输入和输出分辨率的大小调整器也导致了对故障基线的改进。然而，在大多数情况下，当大小调整器的输入大于其输出时，可以获得最佳性能我们还提供了一些示例来直观地比较[28]第二十八话DenseNet-121 [9]ResNet-50 [8]inception-V2模型决议决议大小Top-1错误↓Top-5错误↓（十亿）[34个]建议224× 224224× 2241289624.1%24.0%百分之七点五百分之七点四5.075.15502原创（427×640）双线性（192×256）双三次（192×256）Inception-v2（192×256）DenseNet-121（192×256）ResNet-50（192×256）MobileNet-v2（192×256）原始双线性双三inception-V2DenseNet-121ResNet-50MobileNet-v2（640×539）（256×192）（256×192）（256×192）（256×192）（256×192）（256×192）图4.所提出的学习调整器的示例与ImageNet上的各种分类模型一起训练[26]。大小调整器导致改进的识别性能。图5.在ImageNet [26]上使用各种分类模型训练的所提出的学习调整器的示例。大小调整器导致改进的识别性能。图4和图5中的经过训练的大小调整器。也许这些结果的共同特点是高频细节的提升。有趣的是，这些影响往往使分类模型更有效。除了MobileNet-v2的结果，其他模型往往会创建过于尖锐的结果。这可以直观地解释MobileNet-v2获得的低总的来说，这些效果不符合人类视觉的感知标准，但它们确实改善了机器视觉任务。4.3. 质量评估我们使用3种不同的基线模型来训练AVA数据集[24]。基线模型从ImageNet [26]上的预训练权重初始化，并在AVA数据集上进行微调。请注意，大小调整器权重是随机初始化的。在这组实验中，我们使用双三次重新定径器作为我们的基线方法。我们的结果呈现在表5中。我们通过报告平均地面实况得分和平均预测得分之间的相关性来衡量性能。为此，我们使用皮尔逊线性相关系数（PLCC）和斯皮尔曼等级相关系数（SRCC）。可以看出，在基线模型上存在一致的改进此外，值得注意的是，对于Inception-v2和DenseNet-121模型，提议的大小调整器比具有可比FLOPS的双三次大小调整器表现更好。在更高的 FLOPS 下，EfficientNet似乎是学习调整器的更具挑战性的基线。图6中示出了经训练的大小调整器的示例。残差图像示出了双立方和学习的大小调整器之间的差异。可以看出，Inception和DenseNet模型的残余另一方面，EfficientNet大小调整器显示出强烈的颜色偏移和适度的细节处理。4.4. 泛化在本节中，讨论了大小调整器模型的一般化。为此，我们首先用不同于调整大小器的默认基线的目标基线联合地微调学习的调整大小器。然后，我们测量目标基线在底层任务上的性能。我们观察到，对训练数据的大约4个时期进行微调足以使大小调整器适应目标模型。该验证是经训练的大小调整器如何很好地通用于各种架构的合理指示。我们的分类和IQA结果见表6和表7。每一列显示大小调整器模型的初始化检查点，并且每一行指示目标基线。这些结果示出了针对一个基线训练的尺寸调整器可以有效地用于以最小的微调开发针对另一基线的尺寸调整器。在某些情况下，例如DenseNet和MobileNet模型，微调的大小调整器实际上超过了通过随机初始化获得的分类性能（见表6）。同样的观察结果也适用于IQA应用程序中的Efficient-Net模型（见表7）。这些改进可能是因为迁移学习效应-503(a)原件（435×640）(c)Inception-v2（192×256）(e)DenseNet-121（192×256）(g)高效Net-b 0（192×256）(b)双三次（192×256）(d) |c-b|（192 ×256）(f) |e-B|（192 ×256）(h) |G-B|（192 ×256）×基线模型ResizerResizer批量总FLOPS（10亿）建议224× 224 224× 224 128 0.673 0.653 5.07建议256× 256 224× 224 96 0.674 0.655 5.15建议320× 320 224× 224 640.686 0.6635.35建议368× 368 224× 224 48 0.677 0.652 5.52建议448× 448 224× 224 32 0.677 0.651 5.86双三次原始224× 224 128 0.662 0.643 3.88双三次原始256× 256 96 0.672 0.652 5.07双三次原始320× 320 64 0.688 0.664 7.92双三次原始368× 368 48 0.693 0.668 10.6双三次原始448× 448 32 0.700 0.672 15.52建议224× 224 224× 224 128 0.672 0.644 6.86建议256× 256 224× 224 96 0.672 0.645 6.95建议320× 320 224× 224 640.683 0.6557.14建议368× 368 224× 224 48 0.675 0.644 7.31建议448× 448 224× 224 32 0.673 0.642 7.65双三次原始224× 224 128 0.662 0.636 5.67双三次原始256× 256 96 0.672 0.644 7.41双三次原始320× 320 64 0.694 0.666 11.57双三次原始368× 368 48 0.695 0.663 15.26双三次原始448× 448 32 0.692 0.658 22.68建议224× 224 224× 224 128 0.646 0.626 1.93建议256× 256 224× 224 96 0.650 0.629 2.01建议320× 320 224× 224 640.671 0.6512.20建议368× 368 224× 224 48 0.654 0.632 2.38建议448× 448 224× 224 32 0.644 0.616 2.72双三次原始224× 224 128 0.642 0.620 0.74双三次原始256× 256 96 0.659 0.637 0.97双三次原始320× 320 64 0.674 0.652 1.51双三次原始368× 368 48 0.678 0.655 2.05双三次原始448× 448 32 0.673 0.648 2.96表5.使用各种模型对AVA数据集[24]进行IQA。每一行表示用不同的调整大小配置训练的模型。每个模型的性能通过预测和地面真实平均值得分的Pearson和Spearman相关性来量化。突出显示的结果代表了224 224输入分辨率的所有模型中的最佳性能。请注意，随着输入分辨率的增加，批处理大小会减小，以避免内存消耗问题。此外，在将图像馈送到建议的大小调整器（显示在大小调整器的输入分辨率下）之前，图像会调整大小以固定分辨率，图6.在AVA数据集上使用各种IQA模型训练的所提出的学习大小调整器的示例[24]。(c)、（e）和（f）是来自具有相应基本模型的经训练的大小调整器的结果。(d)、（f）和（h）表示双三次和学习的大小调整器之间的差异。完美我们还尝试了上述跨模型验证，但没有进行微调，但是性能大部分下降。这可能是因为（1）所提出的尺寸调整器专门针对一个基线模型进行训练，以及（2）在训练期间不使用中间像素损失对于交叉数据集验证，我们在图像上训练大小调整器。geNet，并使用在CIFAR-10基准上训练的分类器对其进行测试[13]。在CIFAR-10的分类任务中添加学习的大小调整器后，ResNet-50基线的前1个错误（6.9%）下降了0.4%。我们在其他基线模型中观察到类似的有利趋势。我们还将我们的性能与表9中的[20]进行了比较。我们遵循作者在[20]中的说明来生成DenseNet-121 [9][第38话][34]第三十四话ResizerPLCC↑SRCC↑504×初始ResNet-50Top-1错误↓Top-5错误↓初始目标启动-v2DenseNet-121ResNet-50MobileNet-v2inception-V2DenseNet-121ResNet-50MobileNet-v2初始-v2 24.5%百分之二十四点六百分之二十四点五百分之二十四点六百分之七点四百分之七点五百分之七点五百分之七点四DenseNet-121 29.7%百分之三十点二百分之二十九点七百分之三十点一百分之十点七百分之十点九百分之十点六百分之十点九ResNet-50 22.9%23.0%23.0%百分之二十三点一百分之六点五百分之六点四6.7%6.7%MobileNet-v2 28.0%百分之二十八点二28.0%百分之二十八点四百分之九点六百分之九点六百分之九点六九点八厘表6.用于图像分类的尺寸调整器模型的泛化[26]。学习的大小调整器用初始基线训练，然后与目标基线模型联合微调。该缩放器的输入分辨率为368 × 368，输出分辨率为224 × 224。PLCC↑SRCC↑目标Inception-v2 DenseNet-121 EfficientNet-b 0 Inception-v2 DenseNet-121EfficientNet-b 0 Inception-v2 [34]0.677 0.672 0.670 0.652 0.649 0.649DenseNet-121 [9] 0.672 0.675 0.671 0.645 0.644 0.642Copyright ©2018 - 2019 www.cn-zj.com All Rights Reserved.粤ICP备 15036666号-1表7. IQA的尺寸调整器模型的推广[24]。学习的大小调整器用初始基线训练，然后与目标基线模型联合微调。其输入分辨率为368 × 368，输出分辨率为224 × 224。Top-1错误↓Top-5错误↓任务模型r=1n=16R=2n=16r=1n=32R=2n=32r=1n=16R=2n=16r=1n=32R=2n=32Inception-v2 [34] 24.5% 25.5% 25.6% 26.1% 7.4% 8.0% 7.9% 8.3%DenseNet-121 [9] 30.2% 29.8% 29.9% 29.8% 10.9% 10.8% 10.8% 10.8%ResNet-50 [8] 23.0% 23.4% 23.4% 23.3% 6.7% 6.6% 6.7% 6.8%MobileNet-v2 [28] 28.4% 28.5% 28.4% 28.3% 9.8% 9.7% 9.7% 9.7%PLCC↑SRCC↑Inception-v2 [34] 0.677 0.677 0.675 0.676 0.652 0.654 0.643 0.643DenseNet-121 [9] 0.675 0.677 0.670 0.671 0.644 0.645 0.629 0.630Copyright ©2018 - 2019 www.cn-zj.com All Rights Reserved.粤ICP备 15044888号-1表8.尺寸调整器模型参数对分类[26]和图像质量评估（IQA）[24]的影响。参数r和n分别表示残差块和卷积滤波器的数量这些参数如图3所示。该缩放器模型预处理缩小（4×）噪声JPEG[20]31.8%29.1% 34.9%我们的31.1% 28.6% 34.5%表9.前1个分类错误在失真然后增强的ImageNet图像上。[20]中的结果是其性能最好的模型。具有高斯噪声（标准偏差0.1）、空间缩小（4）和质量因子为10的JPEG压缩的失真图像。我们训练调整大小器以将缩小的输入的分辨率提高4倍，并保持其他失真的分辨率不变。从表9中可以看出，建议的大小调整器优于[20]始终如一。此外，值得指出的是，我们的预处理器模型获得了缩小图像的最大改进幅度4.5. 消融在本节中，我们的设计选择的影响，在调整大小的模型进行了讨论。我们改变残差块的数量r和滤波器的数量n（参见图3），并报告联合训练的基线模型的性能。请注意，到目前为止，在实验结果中，我们使用了具有默认配置的 CNN 大小调整器，其中 r=1 且n=16。表8中给出了我们在各种配置下的分类和IQA任务的结果。在分类-阳离子任务，随着调整器模型变大，DenseNet和MobileNet基线显示出相对于默认配置的适度改进。但是，Inception和ResNet不会从调整大小器中的大量参数中受益。在IQA任务中可以观察到类似的趋势较大尺寸调整器型号的性能不增长的原因之一可能是批量减小。注意，给定有限的内存，较大的调整大小器必须用较小的批量大小来训练。这一因素可能会影响-明显地限制了观察到的性能增益。5. 结论我们提出了一个学习预处理效果的框架，可以提高图像识别模型的性能。我们专注于图像大小调整，并且没有在重新调整的图像上应用我们的实验表明，任务优化的深度视觉模型可以受益于用学习的大小调整器取代传统的图像大小调整器。我们认为，机器视觉任务的定制预处理算法尚未得到广泛研究，鉴于本文所示的影响，在这一领域有很大的研究空间。作为未来工作的一部分，我们将把我们的模型扩展到其他视觉任务。IQA分类505--引用[1] Mart´ın Abadi，Paul Barham，Jianmin Chen，ZhifengChen，Andy Davis，Jeffrey Dean，Matthieu Devin，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在第12届USENIX操作系统设计和实现研讨会（{OSDI} 16）中，第265-283页，2016年。4[2] Yancheng Bai ， Yongqiang Zhang ， Mingli Ding ， andBernard Ghanem.用生成式对抗网络在野外寻找微小的面孔。在IEEE计算机视觉和模式识别会议论文集，第212[3] David Berthelot，Peyman Milanfar，and Ian Goodfellow.使用潜在对抗生成器创建高分辨率图像。arXiv预印本arXiv：2003.02365，2020。3[4] Jianrui Cai，Hui Zeng，Hongwei Yong，Zisheng Cao，and Lei Zhang.迈向真实世界的单幅图像超分辨率：新标杆、新模式。在IEEE计算机视觉国际会议论文集，第3086-3095页，2019年。3[5] Steven Diamond ， Vincent Sitzmann ， Stephen Boyd ，Gordon Wetzstein，and Felix Heide.脏像素：优化原始传感器数据的图像分类架构。 arXiv 预印本 arXiv ：1701.06487，2017。3[6] 山姆·格罗斯和迈克尔·威尔伯训练和调查残余网。Facebook AI Research，2016年6月。3[7] MuhammadHarisGregShakhnarovich 和 NorimichiUkita。任务驱动的超分辨率：低分辨率图像中的目标检测arXiv预印本arXiv：1803.11316，2018。2[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference

下载后可阅读完整内容，剩余1页未读，立即下载