学习不同长宽比要求的图像裁剪方法

201 浏览量更新于2023-10-23 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12685学习学习不同长宽比要求李德邦1，2，张俊歌1，2，黄凯琪1，2，31中国科学院自动化研究所CRISE2中国科学院大学人工智能学院，中国3中国科学院脑科学与智能技术卓越中心，中国北京{debang.li，jgzhang，kaiqi.huang}@ nlpr.ia.ac.cn摘要图像裁剪的目的是通过去除图像的外部无关区域来改善图像的取景效果，它广泛应用于摄影和印刷行业。在某些情况下，裁剪结果的纵横比取决于某些条件来指定。本文提出了一种基于元学习（learning tolearn）的图像纵横比裁剪方法Mars，该方法可以生成不同期望纵横比的裁剪结果。在所提出的方法中，一个基本模型和两个元学习者在训练阶段获得。给定测试阶段的纵横比，可以从基础模型生成具有新参数的新模型。具体来说，两个元学习器根据给定的长宽比预测基本模型的参数该方法的学习过程是学习如何学习不同长宽比要求的裁剪模型，这是一个典型的元学习过程。在实验中，该方法在三个数据集上进行了评估，在准确性和速度方面优于此外，中间和最终结果都表明，该模型可以预测不同的裁剪窗口的图像取决于不同的长宽比的要求。1. 介绍图像裁剪通常用于图像编辑，试图找到一个比输入图像更好的构图的好视图。图像自动裁剪技术在摄影、印刷等相关领域有着广泛的应用。根据应用，可以指定裁剪图像的宽高比，并且该宽高比随不同条件而变化。因此，指定宽高比的图像裁剪算法应该能够覆盖宽高比的范围，图1中示出了其图示早期的研究大多是针对一般的图像裁剪图1. 插图的宽高比指定的图像裁剪平. 左边的图像是原始图像，右边的三个图像是具有不同所需宽高比的裁剪图像。关注两阶段方法[31，32，13，6，7，19]。许多候选人在第一阶段产生，并在第二阶段排名。这些两阶段的方法可以直接转移到宽高比指定的设置，通过调整的候选人。由于图像中有许多候选者，这些方法的速度不可避免地很慢。为了加快速度，几种方法[40，25，41，26]直接获得裁剪窗口，而不使用滑动窗口。然而，这些方法很少考虑纵横比。在[12]中，提出了一种基于对象检测的方法，通过添加更多的预测头来进行宽高比指定的图像裁剪。在本文中，我们把生成指定长宽比的裁剪图像作为一个孤立的任务，并采用一个单一的模型来完成多个这样的子任务。模型应该能够适应具有不同长宽比要求的许多环境。因此，我们提出了一种基于元学习（学习学习）的宽高比指定的图像裁剪方法（称为火星）来实现这一目标。在所提出的方法中，我们在训练过程中训练一个基本模型和两个元学习器。在推理阶段，具有新参数的新模型从给定新纵横比的基础模型生成。具体地，元学习器根据所需的纵横比来预测基础模型的一些参数。由于所需的纵横比是一个连续值，因此具有不同参数的模型的数量是无限的。该方法的学习过程可以看作是学习如何学习不同长宽比的裁剪模型。在基本模型中，取决于所需纵横比的参数是纵横比指定的特征变换。12686信息矩阵（ARS-FTM）和纵横比指定的逐像素预测器（ARS-PWP）。当ARS-FTM和ARS-PWP都由元学习器确定时，新生成的模型可以从图像中预测指定宽高比的裁剪窗口。实验结果表明，基于元学习的裁剪窗口生成方法能够有效地生成满足要求的裁剪窗口。这项工作的主要贡献是：• 我们提出了一种基于元学习的方法，可以使用单个模型预测任意长宽比的裁剪结果。• 提出了一种宽高比嵌入方法和两个宽高比指定模块（即，ARS-FTM和ARS-PWP）来对纵横比信息进行建模，将纵横比映射到模型的参数。• 我们表明，该算法实现了国家的最先进的性能上的定量评估，操作和用户学习，并可以实时运行（超过100FPS）。2. 相关工作图像裁剪。早期的图像裁剪研究主要集中在基于滑动窗口的两阶段裁剪。根据对滑动窗口产生的候选项的排序标准，这些方法可以分为基于注意力的方法和基于美学的方法。基于注意力的方法[30，32，37，13，4]通常根据显着性检测[30]获得的注意力得分对候选人进行排名。因此，裁剪窗口可以保留主要主题并吸引更多人的注意力然而，由于缺乏对图像组成的考虑，它们可能无法生成视觉上令人愉悦的结果那些基于美学的方法[19]试图从输入图像中找到最视觉上令人愉悦的裁剪一些方法[31，8，42，13]设计了一组手工制作的功能来评估美学，而其他方法[17，6，7，41]则从数据中训练美学判别器来对裁剪候选者进行排名。开发了几种方法[36，9，35，4，25，26]来更有效地搜索Fast-AT [12]通过将不同宽高比间隔的几个预测头插入到对象检测模型[10]中，设计用于宽高比指定的图像裁剪。在所提出的基于元学习的方法中，我们不必针对不同的长宽比分别训练不同的滤波器，而是使用单个模型来适应不同的长宽比要求，其中长宽比指定的参数由元学习器预测。图像重-瞄准方法[1，27]调整图像以适应目标宽高比，同时保持进口的内容，这是有关我们的任务。然而，图像裁剪的目标是在图像上找到满足要求的最佳窗口，而图像重定向的目标是内容感知的图像裁剪，这两个任务之间的实验设置是不同的。元学习。元学习也被称为学习，这意味着机器学习算法可以学习如何学习知识。换句话说，模型需要意识到并控制它的学习[24]。通过元学习的这些属性，模型可以更容易地适应不同的环境和任务，而不是单独考虑每一个。由于这些原因，元学习已被广泛应用于超参数优化[29]，神经网络优化[5]，少量学习[14]，快速强化学习[38]和视觉跟踪[2，24]。在本文中，我们的目标是解决裁剪问题，不同的长宽比的要求与一个单一的模型。考虑到为指定的纵横比生成裁剪结果是一个孤立的任务，上述目标可以通过元学习自然地解决。权重预测是元学习策略之一[23]，它可以通过动态预测模型的权重来使模型适应不同的环境所提出的方法也属于这一类，它根据长宽比信息预测模型的权重。Kishore等人[21]根据标量输入值（纵横比），使用自适应卷积[18]进行最终分类和回归相比之下，我们的方法提出使用嵌入插值的纵横比表示，并生成一个ARS-FTM模块的全局特征变换在中间阶段，它可以编码的纵横比信息的全局特征表示。此外，我们的模型可以运行得更快（超过100FPS）。3. 该算法3.1. 问题公式化在这一节中，我们制定了纵横比指定的图像裁剪问题和提出的基于元学习的方法（火星）。对于一般的图像裁剪问题，该模型将图像xi作为输入，并输出视觉上令人愉悦的裁剪窗口yi，yi=F（xi;W），（1）其中W表示模型F的参数。与常规设置不同，指定图像的宽高比裁剪有一个额外的纵横比要求，y（τi）=F（x，τ;W），（2）我我我12687我我我我iARS−FTMARS-FTM公司简介纵横比全球平均值合并液重复测定时间图2. 建议模型概述。每个要素图上方的数字表示要素图的形状（高度×宽度×通道）。其中τi是所需的纵横比，y（τi）是裁剪。纵横比信息。功能转换的细节-ping结果的纵横比为τi。在本文中，我们提出了一种基于元学习的方法，可以连续地生成不同τi的模型参数。具体地，使用子网络（元学习器）将τi映射到模型参数，′W=τ i（τi;W），（3）其中W′是元学习器的参数。由于τ i是一个连续值，因此元学习器生成的具有不同参数的模型的数量可以是无限的。所提出的方法最终可以表述为y（τi）=F（x;τ;W′），（4）其中模型参数结合了纵横比信息并且将相应地改变。3.2. 体系结构概述有了前面的公式，我们开始介绍所提出的元学习框架，它包含一个基本模型和两个元学习器。所提出的框架的架构和细节如图2所示。框架有两个输入，图像和所需的宽高比（τi）。首先，通过卷积块（骨干网络）和全局平均池化（GAP）操作从输入图像中提取与纵横比无关的特征向量fara，它是不考虑所需纵横比的输入图像的特征表示。之后，通过纵横比将fara变换为纵横比指定的特征向量farsmation过程如图3所示。新的特征图被送入几个级联的反卷积层（上采样模块），以将其空间分辨率提高到Hout×Wout。每个反卷积层的分辨率加倍，并保持相同的通道尺寸（C出）。然后，使用由元学习器预测的1×1卷积层的纵横比指定的像素预测器（ARS-PWP）来预测裁剪区域。最后，通过sigmoid函数对预测进行归一化，并将所需方面的裁剪窗口比率是通过后处理过程生成的（见第3.4节）。通常，机器学习模型的参数在测试阶段是固定的。然而，ARS-FTM和ARS-PWP的参数根据测试期间所需的纵横比而变化，这可以解释为新纵横比的新模型。通过元学习，我们可以为任意长宽比要求生成模型甚至这些宽高比在训练阶段也不会出现。3.3. 宽高比指定模块在本节中，我们将介绍将纵横比映射到基本模型参数的元学习器。如图2所示，有两个模块的参数由τi确定，即ARS-FTM和ARS-PWP。根据等式3，这两个模块的映射函数可以写为：WARS−FTM =ARS−FTM（τ;W′）（5）和比率指定特征变换矩阵（ARS-FTM），WARS−PWP=WARS−PWP（τ;W′）的情况。（六）其是完全连接的层，其参数由元学习器根据τ i来预测。通过这种方式，图像特征和宽高比信息都被远距离嵌入。然后将fars添加到GAP层之前的最后一个特征图的每个位置，以生成新的特征图。新的特征图保留了原始的空间信息，并结合了全局特征，iARS−PWPPCAARS −FTM的输出是一个矩阵，可以将纵横比不可知的特征转换为纵横比指定的特征空间，PCAARS−PWP的输出是一个预测裁剪区域的1 × 1卷积层。在本文中，我们使用一个全连接的网络，有两个输出来实现上述两个地图功能。以来12688我我2 log2我我间隙复制倍E lement-wisesummatiVectors.comVectors.com地图ARS-FTM地图图3. 特征转换过程的图示。所获得的特征图保留了原始空间信息，并且还结合了全局信息（GAP）和纵横比信息（ARS-FTM）。上述符号如图2所示纵横比τi是一个标量，直接将τi映射到高维空间可能效果不好，这在下面的实验部分也得到了验证（见4.2节相反，我们使用嵌入向量和线性插值来表示连续τ i。首先，我们选择N个长宽比，每个长宽比都有一个对应的嵌入向量。所选择的纵横比的集合被表示为Sτ，并且对应的嵌入vec的集合被表示为S τ我是Semb。为了生成一个arbi的嵌入向量-traryτi，我们使用来自Semb的两个嵌入向量的线性插值，其对应的宽高比最接近τi。在[12]之后，纵横比的范围是从0.5到2，即τ i∈ [0. 5、2]。当在Sτ中选择N个纵横比时，我们希望使[0.5，1）和（1，2）中所选纵横比的数量相等，因为形状这两个间隔中的图像的比例是对称的（旋转90度），例如3：4和4：3。为此，我们使用对数变换将τi映射到logτi，并选择logτi2 log 2（纵横比）图4. 指定长宽比的模块的图示。我们使用等式7将纵横比τi（1-d）转换为嵌入向量（512-d）。然后，子网络将嵌入向量映射到基础模型的参数通道尺寸图2中的fara是c。由于上采样模块输出的特征图的通道维数为Cout，因此ARS- PWP被整形为Cout×1，这意味着输入通道数为Cout，输出通道数为1。在[−log 2（log 0. 5），log 2]均匀地，步长为其中N是奇数。N−1，将网络重塑为目标形状并插入由于纵横比在对数中是等距mic空间中，也在对数空间中执行线性插值以生成任意τi的嵌入向量E（τi），其为基础模型以形成具有新参数的新模型。3.4. 训练和推理在训练过程中，像素的目标值E（ τi）=logτ（上）−logτi2 log 2N−1×E（τ（下限））（七）裁剪区域中的值为1，其余的值为0。二元交叉熵（BCE）损失用于计算损失函数，logτi− logτ（下）（上）+i×E（τi），N−1L（p，g）=−N1像素[gilogpi+（1−gi）log（1−pi）]，（8）我其中τ（上）和τ（下）是τi在Sτ中的两个相邻纵横比，满足τ（上）> τ i> τ（下）。以来其中，p和g分别是预测值和地面真值，Npixel是像素的数量，i是我我τi是一个连续值，嵌入向量的个数由线性插值产生的tors是无限的。来自Semb的嵌入向量在训练阶段都是可训练的，并且可以在测试阶段生成用于新纵横比的新嵌入向量嵌入向量的维数为512。在获得所需长宽比的嵌入向量后，我们使用一个具有两个输出的全连接网络来实现两个元学习器的架构如图4所示。当给定新要求的纵横比时，子系统的输出将被改变。像素位置的指示符元学习者不具有其他监督，并且整个模型以端到端的方式使用BCE损失进行训练在推理阶段，在获得网络的预测后，我们使用一个后处理过程来得到裁剪结果。首先，使用阈值θ对预测进行二值化。然后，通过计算值为1的所有位置的坐标的中值来获得裁剪结果的中心。我们对每列（或行）的值求和，并选择这些非零结果的中值作为高度（或宽度）。之后，高度或宽度减小以满足纵横比要求，而重塑512公司简介）FCS重塑嵌入向量ARS-FTM12689另一个保持不变。最后，裁剪窗口由中心、宽度和高度确定。4. 实验结果4.1. 实验设置数据和数据。在实验中，我们采用FAT [12]提供的训练集来训练所提出的框架，该框架包含24，154幅图像，63，043个注释。每个图像最多有3个注释，纵横比为[0.5，2]。我们在三个图像裁剪数据集上评估了所提出的方法，包括HCDB [13]，FCDB [6]和FAT。HCDB包含500张图像，每张图像由10位不同的专家注释。FCDB包含343个测试图像，每个图像都有一个注释。FAT的测试集包含3，910个图像和7，005个注释。为了显示所提出的模型的泛化能力，我们在上述三个数据集上评估了用FAT训练集训练的模型，而没有额外的训练。遵循现有方法[41]，我们使用平均交并比（IoU）和平均边界位移误差（BDE）作为FCDB和HCDB的性能评估指标，并使用平均IoU和平均中心偏移来评估FAT的不同方法实施详情。骨干网络在 ImageNet 上进行预训练[11]。输入图像的最长边用于训练的小批量大小为32。亚当算法[20]用于优化模型，而学习率设置为1e-4。基本模型的权重衰减为1e−4，元学习者的权重衰减为1e−3。模型在训练集上训练50个epoch，在此期间，前5个epoch采用预热[15]，余弦学习率衰减[28]用于以下45个时期。在Sτ（N）中选择的纵横比的数量被设置为101。第3.4节中的二值化的阈值θ被设置为0.4在训练集4.2. 消融研究在本节中，我们进行了一系列实验，以确定骨干网络，长宽比指定模块和上采样模块。在消融研究期间，我们从训练集中选择1000张具有2357个注释的训练图像作为验证集，并使用其他训练图像来训练模型。4.2.1骨干网首先，我们进行实验，以确定所提出的模型的骨干网络。运行速度对于图像裁剪至关重要，因为它通常在移动设备或笔记本电脑上运行。在选择主干时，我们同时考虑模型的准确性和复杂性表1. 验证集上骨干网络的消融研究。层列中的cx y表示模型在第y个卷积层之后被截断，其输出分辨率（图2中的h ×w）为Hin/2x× Win/2x。模型的参数大小（param），速度和裁剪精度（IoU和偏移）评估不同的骨干网络。骨干层Param速度↑IoU↑偏移量↓C3 31.0M127FPS0.65265.1MobileV2C4 3C4 62.7M5.6M115FPS108FPS0.6880.70653.849.8c5 114.3M96FPS0.70550.9C3 3142.6M110FPS0.67264.7VGG16c4 1C4 3145.0M149.7M107FPS103FPS0.6930.70252.651.1pool5149.7M102FPS0.69851.5C3 4136.4M115FPS0.66858.8ResNet50C4 3C4 6140.7M144.0M96FPS86FPS0.6990.70251.350.6c5 1150.6M81FPS0.70550.1网络我们选择了三个在不同层截断的网络（MobileNetV2 [33]，VGG16 [34]和ResNet50 [15]）作为候选网络，并保持其他实验设置相同。图4中的FC由具有512个神经元的1层全连接网络实现。出去-模型的输出（Hout×Cout）被上采样为Hin/4×Win/4，所有反卷积层的通道维数（Cout）为96（见图2）。验证结果集合在表1中示出。从表1中，我们得到以下观察结果：1）对于每个模型，在浅层处截断可能导致不满意的性能（例如，c 3y）。对于更深的网络和更多的参数，性能也会增加，但当复杂度太高时（例如，c5 y）。2)令人惊讶的是，上述三种模型的最佳性能是相似的。尽管ResNet50在ImageNet分类中可以显著超越MobileNetV2 [11]，但它未能提高所提出方法的性能。这可能是因为训练样本的数量和分布限制了图像裁剪的进一步性能增益。综合考虑性能和运行速度，我们选择MobileNetV2（c4 6层后作为以下实验中的骨干网。因此，图2中的h×w×c等于Hin/16×Win/16×96。4.2.2纵横比指定（ARS）模块在本节中，我们进行实验，以确定ARS模块的模型大小，并分析每个组件的必要性。如图4所示，目标纵横比的嵌入通过几个全连接层（FC），然后转换为基础模型的参数。首先，我们评估验证集上不同大小的FC，并保持其他模块与骨干网络的消融研究相同的12690表2. 对确认集上长宽比指定模块的模型尺寸进行消融研究。FC512×n表示有n个全连接（FC）层，其中512个神经元用于特征表示（图4中的FC），FC512×0表示嵌入直接映射到参数，而没有中间FC层。模型大小Param速度↑IoU↑偏移量↓FC512×05.3M110FPS0.70150.3FC512×15.6M108FPS0.70649.8FC512×25.9M108FPS0.70450.1FC512×36.1M107FPS0.70450.3FC512×46.4M105FPS0.70450.1表3.确认集上长宽比指定模块的每个组件的消融研究。模型IoU↑偏移量↓Ours w/o ARS-FTM ARS-PWP0.66553.6Ours w/o ARS-FTM0.69452.6Ours w/o ARS-PWP0.69652.2我们0.70649.8表4. 验证集上纵横比嵌入法的烧蚀研究。纵横比IoU↑偏移量↓w/o纵横比嵌入向量无嵌入插值0.6890.70452.550.6提出0.70649.8结果如表2所示，其中我们增加了FC层的数量，并将每层中的神经元数量保持在512。表2显示，浅网络（1层）可以获得令人满意的结果，而更深的架构不会提高性能。因此，我们使用1层FC（具有512个神经元）在以下部分中实现图4的FC其次，我们研究了ARS模块中各个组件的影响，ARS-FTM和ARS-PWP（见第3.3节）。消融研究结果如表3所示。当从模型中删除ARS-FTM时（我们的无ARS-FTM），fars与图2中的fara 当移除-使用ARS-PWP（Ours w/o ARS-PWP），我们将其替换为标准的1×1卷积层，其参数在训练后固定。当元学习方法被放弃时（我们的不含ARS-FTM ARS-PWP），性能急剧下降。在插入ARS-FTM或将ARS-PWP应用到模型中，性能得到了显著提高。没有ARS-PWP的模型优于没有ARS-FTM的模型，表明ARS-FTM在所提出的模型中起着比ARS-PWP更关键的作用。总体而言，插入两个模块的模型实现了最佳性能。第三，我们研究了所提出的纵横比嵌入方法的影响（见3.3节）。在表4中，我们采用更简单的方法来表示纵横比信息。对于对于表5. 验证集上纵横比嵌入向量的数量和维度的消融研究。Number尺寸IoU↑偏移量↓115120.70251.51015120.70649.82015120.70749.85015120.70949.51011280.69951.61012560.70050.71015120.70649.810110240.70849.4表6. 对不同输出分辨率（Hout×Wout）和输出通道尺寸（ Cout ）的上采样模块进行了烧蚀研究。第一列（ Hr×Wr ）是输出分辨率与输入分辨率之比（Hr=Hout/Hin，Wr =Wout/Win）。Hr× WrC位出道Param速度↑IoU↑偏移量↓1/ 16× 1/16965.5M113FPS0.69552.11/ 8× 1/ 8965.6M110FPS0.70252.01/ 4× 1/ 4965.6M108FPS0.70649.81/ 2× 1/ 2965.6M105FPS0.70550.31 ×1965.7M101FPS0.70849.51/ 4× 1/ 4325.5M108FPS0.70350.41/ 4× 1/ 4645.5M108FPS0.70450.21/ 4× 1/ 4965.6M108FPS0.70649.81/ 4× 1/ 41285.7M107FPS0.70350.11/ 4× 1/ 42566.2M105FPS0.70350.0Sτ中最接近所需值的比值。之后，使用后处理来调整裁剪的窗口大小为目标表4显示，使用所提出的嵌入方法的模型原因可以解释为，所提出的嵌入方法可以包含更多有用的信息，使模型找到更好的裁剪结果，满足纵横比的要求。我们还研究了表5中嵌入向量的数量和维度，发现增加嵌入向量的数量和维度都有助于提高性能，但当它们太大时，增益是微不足道的。因此，我们将嵌入向量的数量和维度分别设置为101和5124.2.3上采样模块确定了骨架网络和纵横比规定的模型现在我们进行实验来确定上采样模块。如图2所示，在特征变换（从fara到fars）之后，fea-将真图上采样为H_out×W_out×C_out ，并进行多个反褶积层。在实施过程中，每个decon-卷积层使分辨率加倍，并保持相同的通道尺寸（Cout）。在本节中，我们研究了不同输出分辨率（Hout×Wout）和不同通道尺寸（Cout）的影响。消融研究结果如表6所示对分辨率进行上采样的输出特征图确实有助于提高性能，12691表7. 在三个数据集上与最先进的方法进行比较。对于HCDB和FCDB，修改后的纵横比指定结果（括号前）和原始论文的结果（括号中）均显示在每列中。除了VFN和A2 RL基于Alexnet [22]，Fast-AT基于ResNet 101之外，其他方法都是基于VGG 16的，所以我们也展示了使用VGG 16（c4 3层后截断）作为骨架（图2中的h × w × c等于Hin/16 × Hin/16 × 512）的建议模型的结果。方法骨干速度↓HCDB [13]FCDB [6][第12话]IoU↑BDE↓IoU↑BDE↓IoU↑偏移量↓速度1 FPS速度>1FPS

下载后可阅读完整内容，剩余1页未读，立即下载