没有合适的资源?快使用搜索试试~ 我知道了~
++42180TransView: 裁剪视图边界内部、外部和跨越0潘志宇1 曹志国1 王科伟1 陆昊1,* 钟伟才201 图像处理与智能控制教育部重点实验室,华中科技大学人工智能与自动化学院 2华为CBG消费者云服务搜索产品与大数据平台部门0{ zhiyupan, hlu } @hust.edu.cn0摘要0我们展示了视觉元素之间的关系建模在裁剪视图推荐中的重要性。裁剪视图推荐解决了在组合质量和视图(裁剪子区域)的排名条件下进行图像重组的问题。这个任务具有挑战性,因为当保留或移除一个视觉元素时,视觉差异是微妙的。现有的方法通过提取基于区域的卷积特征来表示视觉元素,这些特征位于裁剪视图边界内部和外部,但没有探索一个基本问题:为什么一些视觉元素是感兴趣的还是舍弃的?在这项工作中,我们观察到不同视觉元素之间的关系显著影响它们相对于所需裁剪视图的位置,这种关系可以通过裁剪视图边界内部/外部的吸引和边界之间的排斥来描述。通过实例化一个基于Transformer的解决方案,将视觉元素表示为视觉单词,并建模视觉单词之间的依赖关系,我们不仅在公共基准测试中取得了最先进的性能,还得到了有趣的可视化结果,描绘了视觉元素之间的吸引和排斥关系,这可能有助于有效的裁剪视图推荐。01. 引言0图像组合是专业摄影中的关键因素之一。术语“组合”可以被视为“艺术元素的组织”[49]。可惜的是,组织视觉元素的技巧和窍门是阻止普通人拍摄专业照片的主要障碍。尽管如此,许多业余爱好者仍然渴望像摄影师一样进行照片组合,即使没有专业知识和培训。因此,自动组合的需求引起了计算机视觉界的关注。0*通讯作者0(a) 基于区域划分的排名0内部区域 外部区域0候选视图0候选视图0(b) 基于吸引和排斥依赖关系的排名0吸引之间的0内部视觉单词0内部之间的排斥0和外部单词0图1. 先前的方法与我们的方法之间的概念差异。 (a)前辈们使用感兴趣区域(RoI)和舍弃区域(RoD)特征[51]来重新组合图像,这些特征描述的是视觉组件的存在而不是组织。 (b)我们的见解是使用吸引和排斥依赖关系来建模视觉元素(图像块)的组织。0并且已经付出了很多努力来解决图像重组问题[8, 18, 27, 38,48,51]。图像裁剪是一种现成的低端技术,用于图像重组[20]。它旨在在图像中找到最具美感的视图(由裁剪框定义的子区域)。图像裁剪的典型范式是对候选视图进行评分和排序,并检索合适的视图。这个任务也被称为裁剪视图推荐。一个直观的想法是通过人工设计的评估标准对候选视图进行评分和排序。然而,这样的标准不能涵盖艺术原则,并且与用户的实际偏好不符。最近,另一种有前途的方法是直接从数据中学习[31, 48,51]。特别是,卷积模型被开发为解决上述困境的可能解决方案。这些数据驱动的方法预测基于区域感知特征的分数,这些特征描绘了视觉元素的存在(图1(a))。通过这种方式,这些方法可以被视为发现视觉元素存在与否之间的联系。42190视觉元素和良好的构图。然而,根据构图的定义,我们认为好的构图之所以好并不是因为视觉元素的存在,而是因为它们之间的组织和谐。由于组织通常被解释为元素之间的关系[12],构图模式应该在视觉元素之间的依赖关系中找到。然而,卷积网络在建模依赖关系方面存在弱点。首先,只有当感受野足够大时,才能编码长程依赖关系。其次,优化的困难[17,36]导致多跳依赖建模[46],使得信息在远距离位置之间难以传递。这也是经验感受野受限的原因[29]。在自然语言处理领域[1, 39,42],这个问题已经得到了深入研究,并且通过Transformer架构[42]得到了很好的解决。Transformer[42]可以以并行方式精确地建模所有成对的依赖关系。由于建模并行关系在裁剪视图推荐中很重要,我们认为Transformer可以成为挖掘关系感知构图模式的有效工具。在这项工作中,我们提出了明确地编码裁剪视图边界内部、外部和跨越边界的视觉元素之间的依赖关系(图1(b))。特别地,我们借鉴了[11]中的“视觉单词”概念来表示视觉元素,并通过重复的注意力操作符[1,22]对视觉单词之间的成对依赖关系进行建模。我们打算表征两种依赖关系:吸引依赖和排斥依赖。吸引依赖旨在为预期的前景视觉单词(例如图1(b)中的两个人)或美学上必要的背景视觉单词(例如周围的冰和冰川)之间的全局和谐做出贡献;排斥依赖用于描述与期望的视觉单词相矛盾的语义/空间关系,例如削弱了两个人角色的多余的冰地。我们认为这两种依赖关系可以作为判断候选视图的标准:一个理想的裁剪框不仅应该保留通过吸引聚集的主要元素,还应该丢弃对主题具有排斥作用的元素。为了实现这个标准,我们提出了TransView模型,它编码了裁剪边界内部、边界外部和边界之间的三种依赖关系:吸引内部、吸引外部和排斥。公共基准测试结果表明,TransView优于最先进的基于区域特征的方法。我们还展示了TransView在没有监督的情况下通过可解释的激活图来建模吸引和排斥。进一步的特征可视化表明,明确编码吸引和排斥会导致相似视图的可区分特征。02. 相关工作0我们回顾了基于裁剪的图像重组和基于注意力的关系编码。0基于裁剪的图像重组。如何通过裁剪自动重组图像是由两个主要思想驱动的:基于人工标准的裁剪和基于数据驱动的图像裁剪。针对图像缩略图[4, 30, 38]和美学切割[8,15],基于标准的裁剪方法通过检测(例如显著性检测[43]、人脸检测[37]和文本检测[5])、眼动数据[35]或预定义的构图规则[8, 13, 32, 50,53](如三分之一规则)提取特征,通过将手工特征整合到能量函数中,可以通过函数分数评估视图。然而,这些方法只能生成具有主导主题的裁剪框。最近,出现了基于数据驱动的裁剪模型。这些模型通常遵循两阶段的流程。首先,根据美学先验知识[52]生成候选视图。然后,根据学习到的专家知识对候选视图进行排序,这通常是通过自我监督[7]、显著性预测[21, 40]后跟美学评估[44,45]、知识蒸馏[48]、RoI和RoD特征融合[51,52]和相互关系挖掘[27]进行建模的。一些其他方法通过强化学习[24,25]和元学习[26]直接生成裁剪框。上述方法的一个共同不足之处是它们只考虑区域的内容,而不回答为什么某些视觉元素具有兴趣或被丢弃的问题。相比之下,我们的工作通过建模视觉元素之间的关系来重新组合图像。0通过注意力进行关系编码。在自然语言处理领域,已经广泛研究了序列中元素之间的关系编码[1, 39,42]。循环神经网络[9,36]沿着信号的输入方向因子化依赖关系,这排除了某些序列元素的并行性[42]。基于注意力的Transformer[42]可以并行地建模全局依赖关系。Transformer的优越性使其适用于长序列,并在计算机视觉中得到了应用。ViT[11]是一种经典的Transformer编码器,它将图像补丁序列化,并在图像分类上报告了最先进的性能。DETR[2]及其变体[54]将目标检测转化为集合预测问题,并利用补丁特征和对象查询之间的关系。Hand transformer[19]解决了3D手势姿态估计中建模结构依赖性的困难。此外,许多密集预测问题[28],如语义分割[47]、图像恢复[3]和图像生成[33],也受益于Transformer架构。受到图像序列转换的启发,我们提出了基于Transformer架构的TransView模型,用于处理由吸引和排斥视觉单词指导的视觉元素。………………………………42200带有输入图像0候选框0Conv0得分0RoIAlign0RoDAlign0展平0展平0内部0视觉单词0外部0视觉单词0位置嵌入0位置嵌入0加0加0内部吸0学习器...0吸引力感知内部0视觉单词0吸引力感知外部0视觉单词0排斥0学习器0重塑0连接0回归0头部0TransView模型0外部吸引力0学习器0排斥感知视觉单词0重塑0图2.TransView模型的技术流程。TransView由卷积骨干网络、两个吸引力学习器和一个排斥学习器组成。给定一个候选裁剪框,使用带有RoIAlign [16]和RoDAlign[51]的骨干网络生成内部视觉单词和外部视觉单词,以表示候选框内部和外部的视觉元素。吸引力学习器用于编码相同区域内视觉单词之间的依赖关系,排斥学习器旨在编码跨框视觉单词之间的关系。最终得分是在三个连接表示的条件下预测的。03. 吸引力-排斥感知重组03.1. 概述0根据第1节中对构图的定义,构图艺术是关于视觉元素组织的和谐。另一种解释是,一个图像的构图质量可以通过视觉元素的组织来评估。受此启发,我们提出了TransView,一种基于Transformer架构的吸引力-排斥感知模型,用于显式地建模视觉元素的组织以评估构图质量。TransView包括三个主要组件:卷积骨干网络、两个吸引力学习器和一个排斥学习器。技术流程如图2所示。0卷积骨干网络生成视觉单词。根据现有的做法[51,52],不仅考虑感兴趣区域(RoI),还考虑了舍弃区域(RoD)[51],将视觉单词分为两种类型:内部单词和外部单词。如前所述,对于一个理想的裁剪框,同一区域内的视觉单词应该具有吸引力,而不同区域的单词应该具有排斥性。输入单个序列的Transformer编码器适合编码内部/外部单词之间的吸引力;而需要两个序列输入的Transformer解码器适合编码内部和外部单词之间的排斥性。因此,Transformer编码器和解码器分别被采用作为吸引力学习器和排斥学习器。通过将吸引力-排斥感知特征与区域感知特征连接起来,可以得到一个视图的最终评估。03.2. 通过视觉单词表示图像0数字图像由像素表示。尽管像素可以被序列化,但维度的诅咒和序列长度的不确定性使得处理它们变得困难。根据[2],我们使用基于MobileNetv2的主干网络[34]和RoIAlign[16]、RoDAlign[51]运算符来表示视觉单词。通过对特征图进行下采样,特征图的每个局部区域对应一个图像块。我们遵循[51]在RoIAlign和RoDAlign之前提取多尺度特征F。在RoIAlign和RoDAlign之后,可以提取和对齐RoI和RoD特征,分别为FROI∈RD×H×W和FROD∈RD×H×W。通过将FROI和FROD展平成序列,我们可以得到固定长度的内部单词CI∈RD×N和外部单词CE∈RD×N,其中N=H×W。然而,仅仅通过视觉单词来表示图像是不够的。我们还遵循[14,42],将位置嵌入添加到视觉单词中以补充空间信息。具体而言,使用可学习的内部位置嵌入PI∈RD×N和外部位置嵌入PE∈RD×N来学习内部和外部视觉单词的不同空间结构。这样,我们通过XI=Ci+PI和XE=CE+PE获得了内容和位置感知的内部视觉单词XI∈RD×N和外部视觉单词XE∈RD×N。03.3. 吸引建模0大多数艺术原则将良好的构图描述为视觉元素之间的依赖关系的模式[12]。根据这个定义,我们将依赖关系分解为内部/外部视觉单词之间的吸引模式和内部与外部单词之间的排斥模式。对于吸引依赖关系,我们使用Transformer编码器作为吸引学习器。输入是由内部视觉单词形成的序列XIO,定义为……… … ……… … …………������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������ or �������������������������M Ii = ϕi(XIi−1, XIi−1, XIi−1) + XIi−1XIi = γ(ζ(M Ii )) + M Ii,(2),(6)42210图像块0视觉单词0加权0加权0��个头0线性投影连接0�个头的特征连接0依赖感知0视觉单词0注意力0注意力0多头注意力0线性投影0��� ��0图3. 多头注意力。视觉单词XI或XE0通过不同的投影矩阵,线性投影Vh、Kh和QhH次,其中h=1,...,H。通过H个并行的注意力操作,将Vw0、Vw1、...、VwH的结果连接成矩阵V∈RHD×N,并最终投影到输出O∈RD×N。0编码器被用作吸引学习器。输入是由内部视觉单词组成的序列XII0,定义为0XIO={xI(0),xI(1),...,xI(N)}, (1)0其中N是内部视觉单词的数量,xI(j)∈0其中,RD,j=1,...,N表示XI的第j列,XIO的下标表示编码阶段。给定XIO,我们使用Transformer编码过程对吸引依赖关系进行建模,其形式为0其中,γ(∙)表示两个前馈层,ζ(∙)表示线性投影,i=1,...,L表示第i个编码阶段,ϕi(∙)表示第i个层的多头注意力模块,如图3所示。在ϕi(∙)中,输入的视觉单词通过独立投影到值矩阵Vh、键矩阵Kh和查询矩阵Qh,其中h=1,...,H,并且在并行处理中由H个注意力头处理。对于第h个头,可以通过计算得到注意力加权矩阵Vwh∈RD×N。0V w h = α(Q T h √0d) V h, (3)0d 是一个缩放因子[42]。所有的 V w h 被连接成 V ∈ R HD× N,0最终将 V 投影到多头注意力的输出 O ∈ R D × N。在等式2 中的 L个编码阶段之后,我们获得了具有吸引力的内部视觉单词0˙ X I = X I L = {˙ x I (0), ˙ x I (1), ..., ˙ x I (N)}, (4)0其中 ˙ x I (j) ∈ R D,j = 1,..., N,是第 j个具有吸引力的内部视觉单词。对于外部视觉单词 X E ∈ RD ×N,我们还对它们之间的吸引关系进行建模。因此,我们应用另一个吸引学习器来计算具有吸引力的外部视觉单词 ˙ X E= {˙ x E (0), ˙ x E (1), ..., ˙ x E (N)}。03.4. 排斥建模0吸引建模只能解释为什么一些视觉单词同时出现,但不能说明为什么一些单词被丢弃。因此,排斥建模也很重要。为此,我们对排斥依赖关系进行建模,以了解为什么会丢弃一些视觉单词。如前所述,我们认为排斥依赖关系是与主体不相容的语义/空间关系。在将主体表示为内部视觉单词的上下文中,内部视觉单词与外部视觉单词之间的排斥依赖关系可以促进组成质量的评估。接收两个序列作为输入的 Transformer解码器正好适用于排斥建模。给定具有吸引力的内部视觉单词 ˙ X I 和第 0阶段的外部视觉单词 ˙ X E 00� 0�0˙ X I = {˙ x I (0), ˙ x I (1), ..., ˙ x I (N)} ˙ X E 0 ={˙ x E (0), ˙ x E (1), ..., ˙ x E (N)}, (5)0可以通过以下公式表示 Transformer 解码器:0� 0� 0M E k = ϕ ′ k (˙ X E k − 1, ˙ X E k − 1, ˙ X E k − 1) + ˙ X E k − 1M R k = ϕ ′′ k (˙ X I, ˙ X I, M E k) + M E k ˙ X E k = γ(ζ(M R k))+ M R k0其中 k = 1,..., M,表示第 k 个解码阶段。ϕ ′ k (∙) 和 ϕ ′′ k(∙) 也是多头注意力模块。经过 M个解码阶段后,排斥感知的视觉单词总数为0¨ X R = ˙ X E L = { ¨ x R (0), ¨ x R (1), ..., ¨ x R(N) }, (7)0其中 ¨ x R (j) ∈ R D,j = 1,..., N,是第 j个排斥感知的视觉单词。T�t=1emax(0,gt−g)δLs1(st − gt) ,(8)Ls1(x) =�0.5x2if x < 1|x| − 0.5if x >= 1 .(9)422203.5. 组成质量评分0TransView的两个主要目标是:i)收集具有吸引关系的视觉单词;ii)丢弃与吸引关系相斥的视觉单词。因此,期望的裁剪框应在吸引和排斥之间进行权衡。在特征融合中,我们只考虑 ˙ X I和 ¨ X R,而不考虑 ˙ XE,以减少外部单词的贡献。事实上,我们观察到 ˙ X E对最终性能的影响很小。为了恢复空间分辨率,˙ X I 和 ¨ XR 被重塑为 ˙ X I ∈ R D × H × W 和 ¨ X R ∈ R D × H ×W,分别。最后,˙ X I 和 ¨ X R 与原始的 RoI 区域特征 FRoI连接在一起,作为最终的吸引-排斥感知组成表示。最终的特征通过一个全连接层传递,预测得分s,用于评估候选视图的组成质量。在训练过程中,我们试图使网络专注于具有良好组成质量的视图,而不是平等对待所有候选视图。因此,给定真实得分 g,预测得分 s受加权平滑 ℓ 1 损失[27]的监督,定义如下:0L = 10其中T是候选视图的数量,g是批次中视图的平均分数,δ是正则化参数,L s 1是由以下公式定义的平滑ℓ1损失:04. 结果与讨论0在这里我们报告并讨论我们的实验结果。我们首先介绍使用的数据集和评估指标。04.1. 数据集和评估指标0实验在GAIC数据集[52]和FCDB数据集[6]上进行。GAIC数据集包含3336个图像,分为2636个训练样本、200个验证样本和500个测试样本。评估采用了[52]中提出的指标,包括平均皮尔逊相关系数(PCC)、平均斯皮尔曼等级相关系数(SRCC)和“返回前k个准确性”ACCk/n。PCC和SRCC评估预测结果与真实结果之间的排名一致性。ACCk/n衡量算法是否能够召回最佳视图。有关指标的详细信息可以在[52]中找到。FCDB数据集包含1743个图像,其中有单个真实裁剪框,其中1395个图像用于训练,348个图像用于测试。尽管Intersection-over-Union0尽管FCDB中使用的交并比(IoU)度量不可靠[51],我们仍然报告了在FCDB的测试集上的实验结果,以与其他方法进行比较。04.2. 实现细节0从MobileNetV2(在ImageNet[10]上预训练)生成的原始特征被减少到32个通道。RoIAlign和RoDAlign的对齐大小设置为12×12,这意味着内部和外部视觉单词的长度为144。变换器的编码和解码阶段的数量等于L = M = 6,多头注意力模块中的头数设置为H = 4,缩放因子设置为d =8。在训练阶段,从一张图像中随机选择64个视图作为输入,并将加权平滑ℓ1损失中的正则化参数设置为δ =2。训练样本被调整大小,以确保短边为256像素,并且数据增强策略遵循[52]中的相同策略。网络使用Adam [23]进行优化,学习率为5×10−5。0进行100个时期的训练。04.3. 性能比较0将TransView的性能与其他最先进的图像裁剪和视图推荐方法进行比较。对于定性比较,我们突出显示了前1个裁剪视图推荐[7, 51,52]。请注意,一些图像裁剪方法[24]只会为每个图像生成一个裁剪框。0在GAIC数据集上的定量比较结果如表1所示。请注意,A2RL [24]和VPN [48]只能报告Acc 1/5和Acc1/10的指标,因为VPN是基于预定义锚点生成候选视图,而不是即时评分;而A2RL只为每个图像生成一个裁剪框。CGS[27]的性能是基于GAIC数据集的部分结果[51],因为缺少代码。按照[51]的做法,将A2RL和VPN的输出框近似为我们方法的最近候选视图。我们观察到,在GAIC数据集上,我们的TransView在Acc 1/5、Acc 2/5和Acc�/10等指标上明显优于其他竞争对手,这表明我们的模型可以更准确地召回最佳视图,并具有更窄的误差范围。在FCDB数据集上,与在GAIC数据集上训练的模型相比,我们的模型也表现出更好的性能。当我们的模型和[51,52]的模型没有在FCDB上进行训练时,我们的模型表现出更好的泛化能力。0定性比较。定性比较如图4所示。我们观察到一些方法有明显的局限性:i)A2RL不能有效地裁剪冗余区域;ii)当VEN和VPN无法去除冗余时,42230输入 A2RL VEN VFN VPN GAIC 我们的方法0图4. 返回的top-1视图的定性比较。与其他方法相比,我们的方法不仅能更准确地去除冗余和保留主要内容,还能更美观地组织裁剪框中的视觉元素。0模型准确率1/5 准确率2/5 准确率3/5 准确率4/5 准确率5 准确率1/10 准确率2/10 准确率3/10 准确率4/10 准确率10 SRCC PCC0A2RL [24] 23.2 - - - - 39.5 - - - - - - VPN [48] 36.0 - - - - 48.5 - - - - - - VFN [7] 26.6 26.5 26.7 25.7 26.4 40.6 40.2 40.3 39.340.1 0.485 0.503 VEN [48] 37.5 35.0 35.3 34.2 35.5 50.5 49.2 48.4 46.4 48.6 0.616 0.662 GAIC � [51] 65.8 61.4 57.6 54.4 62.582.4 80.0 78.1 75.6 79.0 0.832 0.857 GAIC [52] 68.2 65.5 63.0 58.4 63.9 83.0 81.5 78.2 76.0 79.7 0.849 0.874 CGS [27] 63.062.3 58.8 54.9 59.7 81.5 79.5 77.0 73.3 77.8 0.795 - TransView 69.0 66.9 61.9 57.8 63.9 85.4 84.1 81.3 78.6 82.4 0.8570.8800表1. 与GAIC数据集[52]上其他最先进方法的定量比较。最佳性能以粗体显示。GAIC �表示GAIC的会议版本。0方法 IoU ↑ Disp ↓0w.o. GAIC0A2RL [24] 0.663 0.089 A3RL [25]0.696 0.077 VPN [48] 0.711 0.073VEN [48] 0.735 0.072 ASM [40]0.749 0.0680w. GAIC GAIC � [51] 0.672 0.084 GAIC [52] 0.673 -TransView 0.682 0.0800表2.与FCDB数据集[6]上其他方法的定量比较。如果模型是在GAIC数据集上训练的,则将其分组。0dancy,他们更喜欢最大化视觉元素的显著性,而不考虑美学;iii)VFN倾向于关注无关的图像内容;iv)作为我们工作的基线,GAIC[52]生成了可接受的结果,但视觉元素没有按照美学规则进行组织;v)相反,TransView可以在去除冗余和保留主要元素后,完全按照艺术原则组织视觉元素。我们的论点在GAIC和我们的结果在图5中的定性比较中变得明显,基线结果中的主要视觉元素从根据三分之一规则的期望位置偏离。此外,基线包括了不必要的视觉元素,打破了视觉平衡。然而,我们的模型可以精确地根据三分之一规则放置主要元素,并以和谐的方式组织视觉元素,这证明了吸引力和排斥力的显式建模的有效性。0不必要的视觉元素,这破坏了视觉平衡。然而,我们的模型可以精确地根据三分之一规则放置主要元素,并以和谐的方式组织视觉元素,这证明了吸引力和排斥力的显式建模的有效性。04.4. 可视化和分析0为了评估所提出模型的不同组成部分的贡献,我们在小型GAIC数据集[51]上进行了消融研究,以减少训练周期。此外,还进行了一系列可视化来揭示为什么我们的模型能够胜过其他方法。0吸引力和排斥力的影响。本文的主要论点是视觉元素之间的依赖关系很重要。与基于内容感知区域特征预测候选视图平均意见分数的基准相比,我们在这项工作中进一步建模了吸引力和排斥力。为了探索吸引力和排斥力的影响,评估了吸引力、排斥力和内容感知区域特征的不同组合。结果列在表3中。我们可以得出以下观察结果:42240输入 GAIC 我们的方法 注释的Top10图5.与基准GAIC的定性比较。绿色虚线表示根据三分之一规则的最佳位置。红色矩形框在区域外违反了视觉平衡。很明显,我们的方法产生的裁剪视图接近于top-1注释,并遵守真实的美学构图规则。0No. Att. Rep. Cont. Acc 1 / 5 Acc 1 / 10 SRCC01 � 60.5 77.5 0.766 2 � � 64.0 80.5 0.790 3 � � � 68.5 83.0 0.8034 � � 66.0 83.0 0.79105 � � 64.5 82.9 0.788 6 � 62.0 78.5 0.7860表3.吸引力和排斥力的消融研究。Att.:吸引力建模;Rep.:排斥力建模;Cont.:区域感知RoI特征。最佳性能以粗体显示,次佳性能以下划线显示。0•吸引力和排斥力都是有帮助的。引入吸引力依赖或排斥力依赖都可以提高性能。(4号与6号、5号与6号对比)0•吸引力和排斥力是互补的。当吸引力和排斥力融合时,性能进一步提高,这表明吸引力和排斥力互相有益。(3号与4号、3号与5号对比)0•内容信息是不可或缺的。当丢弃了区域感知的区域特征时,性能下降。这表明内容信息是吸引力和排斥力的基础。(1号与4号、2号与3号对比)0位置嵌入的影响。类似于分子之间的吸引力和排斥力与它们的相对位置有关,这里我们证明了位置嵌入的作用。基准模型是没有位置嵌入的模型。我们还比较了基于三角函数的位置编码方法。表4中的结果说明了0图像视图特征0基准分布0视图特征0我们的分布0图6. 视图特征分布的比较。使用t-SNE[41]可视化候选视图的特征分布。颜色越深,视图的排名越高。基准模型的视图特征显示出明显的聚类,而我们模型的特征更具可分性,这表明在我们的模型中,具有相似内容的视图可以更清晰地区分。0位置嵌入 可学习 68.5 83.0 0.803 三角函数 [42]46.0 61.5 0.722 无 45.5 58.0 0.7210表4. 位置嵌入的消融研究。0i)模拟视觉元素的位置对于吸引力和排斥力的编码非常重要,ii)这种位置信息不能简单地通过预设函数来描述,这意味着视觉元素之间的吸引力和排斥力与位置有关,但这些位置对人类来说并不直接可解释,应该以参数化的方式进行学习。0吸引力和排斥力建模的特征分布。进一步的实验研究了为什么建模吸引力和排斥力可以提升裁剪的性能。裁剪的一个挑战性问题是如何区分候选视图之间几乎具有相同图像内容的情况。为了区分不同的候选视图,理想的分布是每个用于预测美学分数的特征与其他特征之间保持足够的间隔。如图6所示,最终的特征通过t-SNE[41]可视化。对于基准模型,相似视图的特征倾向于聚集在一起。这是不可取的,因为很难区分构图的差异。换句话说,清晰的聚类意味着模糊的美学。0.7510.6670.5160.5460.6350.6570.6640.6800.51410.6780.0190.1200.0130.0580.0050.0630.0590.0130.05442250(a) (b)0图7.参考词的注意力图。红色和蓝色点表示内部和外部视觉词。所有的注意力图只显示裁剪框内的内容。(a)显示了排名第一的裁剪视图,(b)是排名第40的视图,出现了截断现象。0吸引力示例 排斥力示例0图8.视觉单词之间的吸引和排斥权重。内部和外部视觉单词分别用粉色和蓝色框标记。红色和黄色分别表示吸引和排斥权重。0合成分数。对于所提出的模型,特征分布是可分离的,特征之间的边界清晰。这表明吸引和排斥依赖关系放大了候选视图之间的差异。0吸引和排斥注意力图的可视化。我们进一步探索了吸引和排斥如何在所提出的模型中编码。可视化了内部吸引学习器和排斥学习器的最后一个注意力层的注意力图。在图7中比较了预测的前1个和前40个裁剪视图的可视化注意力图,我们可以观察到:i)内部视觉单词可以在没有监督的情况下聚焦于图像的主要视觉元素,即使裁剪框的构图质量较差。这也解释了位置嵌入的重要性。当内部视觉单词聚焦于主要元素时,聚焦元素相对于裁剪框的位置对于构图质量的评估是一个强有力的指标;ii)应该丢弃的外部视觉单词对裁剪框内的内容不做积极反应。0盒子,以及被错误分类为外部词的单词仍然对盒子内的内容做出积极反应。这样,我们的模型可以检测到是否发生错误,例如截断问题。0为了展示视觉单词之间的成对关系,将内部吸引学习器和排斥学习器的注意力权重分组并归一化到0到1的范围,以便更容易解释。图8中示例了两个例子。可以观察到,内部单词之间的吸引权重通常大于0.5,而内部和外部单词之间的排斥权重更有可能接近0,这表明变压器确实适当地建模了吸引和排斥,即使没有明确的监督。05. 结论0在这项工作中,我们重新思考了现有的仅通过提取基于区域的卷积特征来表示视觉元素的自动图像裁剪方法的有效性。我们认为仅有视觉元素的存在并不足以进行图像裁剪或视图推荐,元素之间的关系很重要,并且对于有效的裁剪视图推荐至关重要。通过将关系分解为吸引和排斥,我们分别通过变压器编码器和解码器对这两种关系进行建模。广泛的实验结果证明了整合关系信息的有效性,额外的分析揭示了视觉元素之间吸引和排斥的特征和合理性。0致谢。这项工作由华为-华中科技大学DigiX联合创新中心资助。42260参考文献0[1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译.在国际学习表示会议上的论文集中,2015年。 20[2] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.使用变压器进行端到端目标检测.在欧洲计算机视觉会议上,页码213-229,2020年。 2 , 30[3] Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yip-ing Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu, andWen Gao. 预训练图像处理变压器.在IEEE计算机视觉和模式识别会议上的论文集中,页码12299-12310,2021年。 20[4] Li-Qun Chen, Xing Xie, Xin Fan, Wei-Ying Ma, Hong-Jiang Zhang, and He-Qin Zhou.用于适应小型显示器上图像的视觉注意模型. Multimedia Syst.,9(4):353-364,2003年。 20[5] Xiangrong Chen和HongJiang Zhang.从视频帧中检测文本区域. 在太平洋地区多媒体会议上,页码222-228, 2001. 20[6] Yi-Ling Chen, Tzu-Wei Huang, Kai-Han Chang, Yu-ChenTsai, Hwann-Tzong Chen和Bing-Yu Chen.自动图像裁剪算法的定量分析: 数据集和比较研究.在IEEE冬季应用计算机视觉会议上, 页码226-234, 2017. 5, 60[7] Yi-Ling Chen, Jan Klopp, Min Sun, Shao-YiChien和Kwan-Liu Ma. 在网络上学习与专业照片合成.在ACM多媒体国际会议上, 页码37-45, 2017. 2, 5, 60[8] Bin Cheng, Bingbing Ni, Shuicheng Yan和Qi Tian.学习摄影. 在ACM多媒体国际会议上, 页码291-300, 2010. 1, 20[9] Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre,Dzmitry Bahdanau, Fethi Bougares, HolgerSchwenk和Yoshua Bengio.使用RNN编码器-解码器学习短语表示用于统计机器翻译.arXiv预印本arXiv:1406.1078, 2014. 20[10] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li和LiFei-Fei. ImageNet: 一个大规模的分层图像数据库.在IEEE计算机视觉和模式识别会议上, 页码248-255, 2009. 50[11] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly等. 一幅图像相当于16x16个单词:用于大规模图像识别的Transformer. 在学习表示国际会议上, 2020.20[12] Bernard Dunstan. 组合你的绘画. Watson-Guptill出版社,1971. 2, 30[13] Chen Fang, Zhe Lin, Radomir Mech和Xiaohui Shen.使用视觉组合、边界简单性和内容保护模型的自动图像裁剪.在ACM多媒体国际会议上, 页码1105-1108, 2014. 20[14] Jonas Gehring, Michael Auli, David Grangier, DenisYarats和Yann N Dauphin. 卷积序列到序列学习.在机器学习国际会议上, 页码1243-1252, 2017. 30[15] Luca Greco和Marco La Cascia.基于显著性的数字图像美学裁剪. 在国际图像分析处理会议上,页码151-160, 2013. 20[16] Kaiming He, Georgia Gkioxari, Piotr Doll´ar和RossGirshick. Mask R-CNN. 在国际计算机视觉会议上,页码2961-2969, 2017. 30[17] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别. 在IEEE计算机视觉和模式识别会议上,页码770-778, 2016. 20[18] Chaoyi Hong, Shuaiyuan Du, Ke Xian, Hao Lu, ZhiguoCao和Weicai Zhong. 像摄影师一样合成照片.在IEEE计算机视觉和模式识别会议上, 页码7057-7066, 2021. 10[19] Lin Huang, Jianchao Tan, Ji Liu和Junsong Yuan.Hand-transformer: 用于3D手部姿态估计的非自回归结构建模.在欧洲计算机视觉会议上, 页码17-33, 2020. 20[20] Md Baharul Islam, Wong Lai-Kuan和Wong Chee-Onn.美学驱动的图像重组调查. Mutltime- dia工具应用,76(7):9517-9542, 2017. 10[21] Ming Jiang, Shengsheng Huang, Juanyong Duan和QiZhao. Salicon: 上下文中的显著性.在IEEE计算机视觉和模式识别会议上, 页码1072-1080, 2015. 20[22] Yoon Kim, Carl Denton, Luong Hoang和Alexander
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功