基于图形的关系挖掘方法自适应地融合视图之间的关系特征和区域特征

128 浏览量更新于2023-10-24 收藏 3.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4213利用相互关系李德邦1，2，张俊革1，2，黄凯琪1，2，3，杨明轩4，51中国科学院自动化研究所CRISE2中国科学院大学人工智能学院，中国3中国科学院脑科学与智能技术卓越中心，中国北京4加州大学默塞德分校5谷歌研究{debang.li，jgzhang，kaiqi.huang}@ nlpr.ia.ac.cn，mhyang@ucmerced.edu摘要从输入图像中寻找具有良好构图的视图是一个常见但具有挑战性的问题。一幅图像中通常至少有几十个候选（区域），如何评价这些候选是主观的大多数现有的方法只使用与每个候选项对应的特征来评价质量。然而，由于这个问题的比较性质，图像中候选对象之间的相互出于这一动机，我们提出了一个基于图的模块与门控功能更新不同的候选人之间的关系建模。候选区域特征在一个图上传播，该图对不同区域之间的相互关系进行建模，以挖掘有用信息，从而自适应地融合关系特征和区域特征。我们设计了一个多任务损失来训练模型，特别是，一个正则化项被用来将先验知识的关系到图。通过混合来自不同图的节点，提出了一种数据扩充方法来提高模型的实验结果表明，该模型表现良好，对国家的最先进的方法，和全面的消融研究表明，每个模块和基于图形的推理所提出的方法的贡献1. 介绍图像合成在生成视觉上吸引人的镜头中起着关键作用，涉及从图像中查找视图。此外，找到视图是许多任务的关键，例如，图像裁剪[40，48]。自动查找好的视图可以帮助用户、摄影师和设计师节省大量时间和精力，特别是在处理大量图像时。在过去的几十年里，许多方法[1，4，5，9，10，18，输入图像良好视图构造图特征传播候选视图之间的特征相似性图1. 说明所提出的关系挖掘过程中发现好的意见。对于来自输入图像的一组视图，我们构造一个图来模拟它们之间的关系，并在图上传播这些视图的特征。因此，好的（良好组成的）视图和坏的视图之间的相似性变得小得多，从而便于找到好的视图的任务19，23，33，34，40，41，44，45，48，24]已经被开发用于自动图像裁剪或良好视图推荐。现有方法主要在第一阶段生成候选区域，然后基于显著性检测的结果对这些生成的候选区域进行评分[1，10，2，37，31] 或美学评估[45，53，33，7，26，52，51]。再-目前，许多数据驱动的方法[4，5，40，41，44]直接使用注释数据[4，44]训练CNN模型。上述方法在对候选者打分时主要考虑候选者的区域特征，忽略了图像的不同区域（视图）之间的相互关系。相比之下，我们表明，挖掘不同区域之间的关系可以显着帮助从图像中找到在这项工作中，我们提出了一个基于图的模型与门控功能更新，以模拟这些关系，并更新区域功能与挖掘的关系功能，以找到好的意见（见图1）。不同区域的特征在通过图卷积对相互关系进行建模的图上传播[21]。在特征传播期间，候选者4214通过考虑图中相邻节点的影响来挖掘区域，这有助于收集更多的比较信息以预测区域的得分通过一个控制不同特征影响的门，将挖掘出的关系特征与区域特征融合为了使图具有更强、更鲁棒的推理能力，本文提出了一种数据扩充方法，该方法从不同的图中随机选取节点，并利用选取的节点构造一个新的图进行预测。实验表明，该模型通过混合不同的图，可以我们设计了一个多任务损失来训练模型，其中使用加权回归损失来预测每个区域的得分，特别关注那些注释得分高的区域，因为这个问题的本质是返回最好的区域。此外，应用排名损失来明确地对不同候选人之间的分数差距进行建模。为了将更多的先验知识融入到图中，我们提出了一个正则化项来增强构造的图和注释之间的相关性。我们在这项工作中作出以下四项贡献• 我们提出了一个基于图的模型与门控特征更新，以找到良好的意见，从图像。据我们所知，这项工作是第一个，明确地对不同的候选区域之间的关系进行建模，以找到好的视图。• 本文提出了一种新的混合图的数据扩充方法，以增强混合图的泛化能力提出的模型。• 我们设计了一个多任务损失来训练模型，它强制执行预测分数和排序顺序以接近注释并同时将先验知识并入图中。• We demonstrate that the proposed algorithm performsfavorably against state-of-the-art methods through ex-深入的实验和全面的消融研究来分析所提出的模型的每个组件的贡献，并演示为什么基于图形的模块有助于找到好的视图。2. 相关工作2.1. 构成良好的视图在过去的几十年里，从图像中找到良好的合成视图引起了人们的广泛关注[5，44，7，26，34，10]，其中发现了各种应用，如图像裁剪[1，4，19，23，33，40，41，45，48，51，52，53]。这个问题的典型根据评分标准，现有的方法可以被广泛地分类为基于注意力的、基于美学的或数据驱动的。基于注意力的方法[1，10，2，37，31]假设最好的视图应该引起人们更多的注意。因此，这些方法通常使用显著性检测方法的结果[38，50]来评估候选视图。通常，选择具有最高平均显著性分数的视图作为最佳结果。与仅考虑显着性的基于注意力的方法不同，基于美学的算法[45，53，33，7，26，52，51]更关注不同区域的整体美学质量。一些方法[53，33，7，26]基于摄影规则或图像美学特征设计手工特征以评估候选人，而其他方法[4，19，40，41]采用在美学评估数据集[32，28]上训练的分类或排名模型来预测区域分数。近年来，开发了数据驱动模型[4，5，40，41，44，48]，以基于最近的图像裁剪数据集[45，10，4，48]找到良好的视图。不同于现有的方法，只使用区域的功能来评分的意见，我们提出了不同的区域之间的关系模型的预测。从经验上讲，我们表明，利用相互关系可以显着帮助找到好的意见。2.2. 使用图建模关系学习图像像素或区域之间的关系是计算机视觉中的一项重要任务，而图结构可以很自然地用来描述这些属性。近年来，在图卷积网络（GCN）的帮助下，已经开发了基于图的关系学习和推理方法[21]。用图对不同类之间的关系进行建模不同属性之间的关系也被挖掘与基于图的属性识别推理[25]。Wang和Gupta [42]使用GCN来学习检测到的视频分类对象之间的关系。其他任务也受益于基于图的关系推理，对象识别[3]、视频理解[29]、场景图生成[47，14]、RGBD语义分割[35]、动作识别[46]、多标签图像识别[6]和对象跟踪[11]。最近，Wanget al. [39]通过门控GNN进行帧或图像之间的地址关系挖掘，用于视频分割和图像共分割。3. 该算法3.1. 概述在本文中，我们提出了一个基于图的模型，捕捉不同区域之间的关系，以找到良好的意见，从图像。给定输入图像，从主干网络（例如，VGG 16 [36]）。的42152n我关系特征映射构建图形输入图像特征图RoIAlignRoDAlign区域特征本地要素搜索1-GG门控融合特色介绍图2. 建议模型概述。所提出的模型使用卷积块来获得输入图像的特征图，并采用RoIAlign [15]和RoDAlign [48]方案来提取区域特征X∈RN×Din，其中N是区域的数量，Din是区域特征的通道维数。然后根据不同特征区域，并且使用图卷积运算在图上执行信息传播[21]。通过信息传播捕获关系特征Fr∈ RN×Dout，然后使用门连接将其与变换后的局部特征Fl∈ RN×Dout融合用于预测，其中Dout是输出特征的通道维数。从特征图中提取每个预定义区域的特征向量。然后，我们根据不同区域之间的相似性构造一个图。在火车上-图的邻接矩阵。元素am，n∈A表示区域xm和区域xn之间的相似性（亲和度），计算公式如下：在这个过程中，我们使用一个正则化项来强制图的邻接矩阵与.e−<$Wmxm−Wnxn<$2/2σ2a=m n，（一）尽可能强的注释得分相似性矩阵，以便在构造的图中结合先验人类知识模型将区域要素传播到m，n其中Wm1m=n，∈RDin× Dout和W∈RDin× Dout是两个图使用图卷积运算[21]来获得关系特征，由于该问题的比较性质，这些特征为最终预测提供了更多线索。我们通过一个门连接自适应地更新区域特征与关系最后，基于融合后的特征预测每个区域的得分。所提出的模型如图2所示。3.2. 基于图的关系挖掘给定输入图像的特征图，我们以类似于[48]的方式提取首先，我们使用1×1卷积层将特征映射的通道维度减少到8。”[15]《礼记·礼记》：RoDAlign [48]方案用于提取RoI（区域用于变换区域特征的可训练矩阵表示欧几里德范数，并且根据经验将σ设置为1由方程式1，A的对角元素都被设置为1，这意味着图中的每个节点都有一个自环。在构建图之后，使用图卷积[21]在图上传播不同区域的特征给定邻接矩阵A和区域特征X，跨不同节点的信息传播可以公式化为：Fr=AXWr，（2）其中Wr∈RDin×Dout是将特征维度从Din转换为Dout的可训练权重，Fr=[1998年12月25日，- 是的- 是的，f r，. - 是的- 是的，f r] ∈ RN× Dout表示关系fea-1i N的 RoD （ region of discover ）特征和 RoD （ region ofdiscover）特征。每个区域使用9×9的池大小。 RoI和RoD特征作为区域特征接触并穿过全连接层。我们将从图像中提取的区域特征表示为X=[x1，. . .，xi，. . .，xN] ∈在N个区域。第i个区域的捕获关系特征聚集了从图的其他节点传播的信息，这对于最终的预测至关重要。第由于对这些区域进行评分是模型的一个隐式排序过程，因此可以捕获不同区域之间的相对关系，RN×Din，其中x 是第i个区域的特征，N是一个地区可以帮助其他地区的影响区域的数量，并且Din是区域的通道尺寸每个地区的特点。3.2.1推理相互关系利用区域特征，我们首先构造一个图来描述它们之间的相互关系.我们将每个区域视为一个节点（即，图中的N个节点）。设A∈RN×N表示在预测一个区域的得分时考虑。3.2.2先验知识的图化由于关系特征Fr是通过在图上传播区域特征而获得的，因此图如何反映不同区域之间的关系是该模型的关键由方程式1，我们使用两个区域（xm）的特征，图卷积Conv特征变换我4216m，n1iN和xn）来计算邻接矩阵A的对应元素（mn），使得在训练过程期间利用从最终损失函数反向传播的梯度来学习A的元素，该训练过程是隐式学习过程。除了上述的内隐学习过程，我们还将先验知识融入到构建的图中。为此，我们提出了一个正则化项，使得A的元素与不同区域的注释分数之间的相似性具有高度相关性。特别地，如果两个区域之间的注释分数的差异很小，则它们在A中的对应权重（亲和度）应该很大，反之亦然。为了实现正则化项，我们还构建了一个矩阵来评估不同的注释分数之间的相似性。随机选择图3. 拟议数据扩充方法的说明。我们从不同的图像中随机选择节点来构建一个新的数据增强图。过程计算如下：地区设As∈RN×N表示矩阵，rg rgl lg lg一个S∈As由下式计算：G=s（F W+b+F W+b），（六）m，ns−（sm-sn）2/2σ2F=（1−G）<$Fr+G<$Fl，出来am，n=e、（3）其中G∈RN×D是控制影响的门，其中sm和sn分别是第m和第n个区域的注释分数，并且σ也被设置为1，如在等式2中。1.一、这里，As反映了不同区域的人工注释分数之间的相似性，并且我们希望通过使邻接矩阵A和As具有强相关性来将这种先验知识并入图中。我们计算余弦相似度作为A和As之间的相关性：其中，s（ ·）是S形作用函数，Wrg∈RDout× Dout和Wig∈RDout× Dout 是可训练权值， brg∈RDout 和blg∈RDout是可训练偏差，f（·）表示Hadamard积，F=[f，. - 是的- 是的、f、. - 是的- 是的，f] ∈ RN×Dout是融合后的特征。因为sigmoid函数倾向于将输出推到近似0或1，F的某些通道中的信息来自Fr，而其他通道中的信息来自Fl，这有助于模型自适应地选择使用。Σ（am，n -a）（as-as）充分的信息，而不是混合所有的预测，Corr（A，As）=m，nΣ信息在一起。第4.4ǁm，n（am，n−a）2m，nsm，n-as）2磅1/2（四）证明了直接将Fr和Fl结合会导致比所提出的选通特征融合的结果更差。在获得F之后，我们计算N个re的得分其中a和as是矩阵A的平均值，A，分别。我们使用Eq。4作为损失函数中的正则化项，这迫使构造的图与注释的先验知识具有强相关性。3.2.3门控区域功能更新在通过图上的信息传播获得关系特征Fr之后，我们使用Fr来更新用于预测的区域特征与LSTM [17]和GRU [8]模型类似，我们采用一个门来控制特征融合过程，而不是直接将它们添加到一起在特征融合之前，我们首先将区域特征X的维度变换为适合Fr的维度：F1=XW1，（5）其中，Wl∈RDin×Dout是将X的特征维度从Din变换为Dout的可训练权重，并且变换后的区域（局部）特征表示为Fl=[f l，. - 是的- 是的，f l，. - 是的- 是的，f l]∈ RN× Dout. 门控特征融合gionsP =[p1，. - 是的- 是的，pi，. - 是的- 是的，pN]∈ RN×1，P=FWp+bp，（7）其中Wp∈RDout×1和bp∈R是最后一个FC层的权重和偏差。3.2.4混合图形以增强数据数据增强在深度学习模型的成功中起着至关重要的作用。在本文中，我们提出了一种数据扩充方法来混合图，以提高所提出的模型的泛化能力。类似于图像数据增强方法[49]，该方法将用于训练的图像生成为其他训练图像的线性组合，我们建议随机混合不同的图以构建用于训练的新图。特别是，给定两个图，我们从不同的图中随机选择节点，并使用Eq。1构造一个新的图用于训练，而每个节点的标签保持不变。拟议的（a）4217数据扩充方法的说明如图3所示。1i N421811N4K=1K/N包含不同图的节点的混合图为图推理提供了更为复杂的关系。在这样复杂的环境中训练模型，可以使其在不同条件下获得更强大、更鲁棒的推理能力，从而提高模型的泛化能力。在实践中，该过程以40%的概率随机应用于数据4.4节中的实验结果表明，本文提出的图数据增强方法可以大大提高性能。3.3. 损失函数整个模型是端到端可训练的，使用多任务损失函数，这是三个损失的总和。给定包含N个区域的图像，第i个区域的注释和预测得分分别表示为gi和pi。首先，我们使用加权平滑L1损失进行评分回归，其中α和β是权衡权重，我们设置α=在所有实验中，凭经验β=14. 实验结果4.1. 数据集和评估指标我们在最新提出的GAICD数据集[48]上进行实验，该数据集包含1036张图像，其中89，519个注释区域（作物）用于训练，200张图像用于测试。我们还使用GAICD数据集[48]中采用的指标来评估不同的方法，包括平均斯皮尔曼SRCC用于评估来自每个图像的区域的预测分数和注释分数之间的等级相关性AccK/N（“返回前N个精度的K”的缩写）用于计算模型预测的前K个结果中有多少属于前N个我们将N设置为5或10，1ΣNL=max（0，gi−g）eσ′Ls（p- （g）、（8）原始设置[48]，并评估K=1，2，3，4，N=5和N=10，导致8个度量（Acc1/5，Acc2/5，regNi=11我我ACC3/5，访问4/5，访问1/10，访问2/10个，访问3/10，访问4/10）. 的其中，g是训练集中所有区域的平均得分，σ'设置为1，Ls是平滑L1损失[13]对于每个N，K上的平均AccK/N也被计算为度量：Acc=1×4Acc。SRCC聚焦计算出Ls（x）=.0的情况。5x2如果x1，<|-0。| − 0. 5否则（九）所有候选人的排名是否准确，而AccK/N主要考虑返回的top-K结果是否可接受。有关上述指标的更多详细信息，请参阅[48]。光滑L1损失因其对异常值的鲁棒性而被广泛用于回归问题。由于该问题的本质是找到最佳区域，因此具有高注释分数的区域比具有低分数的区域更重要。因此，我们根据等式中的地面真值得分gi向损失函数添加权重。8.虽然回归损失在方程。第8章隐式的除了不同区域的排序顺序外，我们还使用排名损失来明确地模拟不同区域之间的得分差距。在消融研究中确认了这种等级损失的重要性（见第4.4节）。排名损失计算如下：4.2. 实现细节由于大多数先前的模型[40，44，48]都基于VGG16模型[36]，因此我们还使用VGG16模型的卷积块（在Conv4处截断）作为骨干网络进行公平比较。在所提出的关系推理模块之前和之后的区域特征的尺寸（在3.2节中的Din和Dout我们采用GAICD [48]数据集中定义的锚点作为候选来搜索好视图，因为找到好视图的属性（即，本地冗余、内容保留和方面Σmax（0，−max（g-g）（（p-p）−（g -g））比率限制），图像中的候选者的数量是L秩=i，ji j i j i j，N（N−1）/2少于90。在训练模型时，我们随机应用（十）其中，f（·）是符号函数。Lrank强制两个区域之间的预测得分差距的绝对值不小于要建模明确的排序关系。除了Lreg和Lrank之外，还有一个正则化项Corr（A，As）（在第3.2.2节中），它迫使构造的图与人类注释的先验知识具有很强的相关性。因此，整个损失函数计算如下：损失=Lreg+αLrank−βCorr（A，As），（11）所提出的数据增强方法具有40%的概率，能力当应用该方法时，输入是两个图像。否则，输入是单个图像。与[48]类似，我们在训练阶段使用从输入图像中随机选择的64个区域来构建图（3.2节中的N=64），N等于测试阶段图像中所有候选区域的数量图像的短边被重新调整为256，宽高比保持不变。网络以端到端的方式使用Adam优化器[20]优化50个epoch，权重衰减为1e−4。在前5个epoch中使用预热[16]将学习率从0增加到1e-4，然后是余弦学习4219表1. 与GAICD [48]数据集上的最新方法进行比较。其他方法的结果来自[48]。模型骨干加1/5Acc2/5Acc3/5Acc4/5附件5Acc1/ 10Acc2/ 10Acc3/ 10Acc4/ 10Acc10SRCC运行时参数A2RL [23]Alexnet [22]23.0----38.5-----274毫秒24.11MVPN [44]VGG 16[36]40.0----49.5-----11 ms65.31MVFN [5]Alexnet [22]27.028.0.027.224.626.739.039.339.037.338.70.4501092毫秒11.55MVEN [44]VGG 16[36]40.536.536.736.837.654.051.050.448.450.90.621623毫秒40.93MGAIC [48]VGG 16[36]53.551.549.346.550.271.570.067.065.568.50.7358 ms13.54M我们VGG 16[36]63.062.358.854.959.781.579.577.073.377.80.79510 ms13.68M表2. 与HCDB [10]数据集上的最新方法进行比较。模型IoU↑BDE↓Fang等人[10个国家]0.740-Chen等人[1]第一章0.6400.075Wang等人[第四十届]0.8100.057A2RL [23]0.820-VPN [44]0.8350.044VEN [44]0.8370.041GAIC [48]0.8340.041我们0.8360.039表3. 与ICDB [45]数据集上最先进的方法进行比较。模型Yan等人[45个]0.7490.7290.732VFN [5]0.7640.7530.733Wang等人[第四十届]0.8130.8060.816A2RL [23]0.8020.7960.790VPN [44]0.8020.7910.778VEN [44]0.7810.7700.753GAIC [48]0.7990.7810.779我们0.8170.805 0.795在下面的45个时期中使用速率衰减[27]。除了所提出的数据增强方法，我们还随机翻转图像，并改变亮度，对比度和饱和度的图像的数据增强。4.3. 与最新技术表4. 用户研究结果。我们报告了在用户研究中选择的不同方法产生的结果的百分比。比较的方法包括GAIC [48]，VEN[44]，VPN [44]，VFN [5]和A2RL [23]模型。模型Ours GAIC VEN VPN VFN A2RL百分比25.9%20.7% 16.1% 17.8% 10.2% 9.3%在表2和表3中的这两个数据集上，与最先进的方法相比，所提出的模型实现了类似的IoU得分。和模型复杂性。我们还在表1中比较了不同模型的运行速度和模型复杂度所有型号都可以在同一台PC上运行，并使用单个GPU。所提出的模型运行速度比大多数最先进的方法，除了GAIC [48]方法。请注意，VEN[44]方法的运行速度比他们原始论文中报告的速度快得多，因为GAICD数据集中的图像候选者要少得多[48]。定性比较。为了进一步证明所提出的模型的能力，我们还在图4中对所提出的方法和最先进的方法[23，5，44，48]进行了定性比较。与其他方法相比，该模型能更好地去除例如，在图4的第二行中，大多数比较的方法不能完全删除右侧的树然而，所提出的方法可以消除它没有任何痕迹。更多定性定量比较。首先，我们在表1中比较了GACID数据集[48]上提出的模型与最先进方法的结果表明，所提出的模型表现良好，对国家的最先进的方法。特别是，所提出的方法使用与最具竞争力的方法GAIC [48]相同的骨干网络和区域特征提取方法（RoI+RoD），证明了本文提出的模块的能力。第4.4节分析了每个模块的贡献。GACID数据集[48]是这项任务的最新数据集，它表明以前数据集[10，45]中使用的基于IoU（Intersection-over-Union）的指标无法可靠地评估模型的性能。尽管ICDB [45]和HCDB [10]数据集中使用了不可靠的指标，但我们仍然显示了所提出模型的结果结果见补充材料。用户研究。从图像中评价视图的质量是主观的。尽管我们的方法在密集标记的GAICD [48]数据集上取得了良好的结果，但我们仍然通过用户研究将所提出的方法与其他方法进行了比较。我们以67：67：66的比例从 GAICD[48]、 HCDB [10]和 ICDB [45]数据集中然后，我们邀请五位专家从这些生成的结果中为每张图像选择最佳视图表4表明，我们的方法在用户研究中也取得了最好的结果4.4. 消融研究为了更好地理解提出的模型，特别是每个提出的模IoU↑第一组第二组第三4220块的贡献，我们使用GAICD [48]数据集进行了一系列消融研究。4221C55.4 73.7 0.780（C）56.455.9 73.3 0.777Source image A2RL VFN VPN VENGAIC Ours图4. 返回的top-1视图的定性比较。与现有方法（A2RL [23]，VFN [5]，VPN [44]，VEN [44]，GAIC [48]）相比，所提出的方法可以更鲁棒地去除不愉快的外部区域（红色虚线框）表5.模型结构的烧蚀研究。门控融合FrF lAcc5Acc10SRCCCCC59.777.80.795CC57.975.80.783C57.475.20.779C55.973.10.778表6. 对损失函数的消融研究。Corr是Corr（A，As）的缩写。表7.数据扩充的混合图概率消融研究。混合图Acc5Acc10SRCC的概率0%（w/o增量）57.575.50.780百分之二十60.276.00.789百分之四十59.777.80.795百分之六十58.876.60.788百分之八十58.876.60.784百分百58.975.80.783Corr LrankLregLs1Acc5Acc10SRCC模型来学习如何构建图形，明确地指导CCC59.777.80.795具有注释信息的图构造可以CC57.475.40.781有助于提高图的关系建模能力模型架构。首先，我们分析了模型架构中各个模块的贡献。由于用于预测的特征是来自图的关系特征Fr和来自FC层的局部特征Fl的门控融合（参见等式10）。6），我们分别从模型中消除门控融合，Fr和Fl，然后在GAICD [48]数据集上训练和评估模型。当去除门控融合时，我们将两个特征相加用于预测，其为F=Fr+Fl。结果示于表5中。仅使用Fr进行预测比仅使用Fl得到更好的结果，因为Fr包含从图中的其他节点传播的更多信息。将Fr和Fl直接相加仅获得边际提升。然而，这两个特征的门控融合得到了显著的性能改善，证明了门控特征融合的重要性。损失函数其次，我们研究了多任务损失函数中每个分量的影响，结果如表6所示。结果表明，引入规则化项Corr（A，As），将先验知识融入图中，大大提高了模型的性能原因是来自最终损失函数的信息对于在返回前K个区域时，仅使用Lreg训练模型通常比仅使用Lrank获得更好的结果，但是使用Lreg+Lrank同时强制预测分数和分数差距接近注释可以获得更好的性能。在第3.3节中，我们将Lreg设计为加权平滑L1损失函数，该函数更多地关注由该问题的特征激励的具有高注释分数的区域。一个有趣的观察结果是，当返回前K个区域（Acc5和dAcc10）时，加权Lreg比平滑L1损失获得更好的结果然而，总体分选精度（SRCC）没有显著变化。原因是Lreg更关注前K个区域，但对于大多数其他区域，其表现与平滑L1损失相似，因此整体排序结果保持相似。通过混合图形进行数据扩充。第三，我们验证了第3.2.4节中提出的图形数据增强方法。我们随机地将不同概率的图混合在一起，并在表7中显示结果。当混合图的概率为20%~40%时，所提出的数据增强方法可以大幅度提高模型的泛化能力，证明了所提出方法的能力。然而，当混合图的比例超过40%时，性能增益变小，这表明源图像和混合图像对于训练高度通用化的模型都是必不可少的。4222图形节点访问5访问10SRCC表8. 对训练图节点数的消融研究。因为在GAICD数据集中，图像中的候选数量小于90 [48]，对于N= 128，当输入是单个图像时，我们使用所有候选来构建图形，但是当输入是两个图像时（对于拟议的数据扩充），我们随机选择128个候选来构建图形。(a)（b）第（1）款训练期间的图形节点数。最后，我们研究了图的节点数对训练的影响。随着图节点数的增加（16→ 64），Acc10和SRCC的性能相应提高，而Acc 5的性能保持稳定甚至变差。当在训练阶段（64 →128）中考虑更多图节点时，性能相应地下降。我们认为原因是单个图像中的候选者的数量小于90，当输入是两个图像时，我们可以随机选择128个候选者（对于所提出的数据增强），但是当输入是单个图像时，我们必须使用所有候选者来构建图（60%的机会）。使用所有的candidates将减少训练过程中节点组合的数量（随机性），从而损害模型的泛化能力。4.5. 图的分析第4.4节中的消融研究结果表明，基于图的关系挖掘可以增强模型的能力。在本节中，我们希望有一个更深入的视角来揭示为什么基于图的推理（比较）可以帮助获得更好的结果。图5中显示了一个可视化示例。在图5（b）中，不同节点之间的边权重与注释得分之间的相似性高度相关。注释分数越接近，权重越高。通过比较图5（c）和图5（d），我们发现在基于图的特征传播之后，好视图和坏视图的特征之间的距离变得更大。上述观察的原因是，在图中，好的视图以大的权重彼此连接，并且坏的视图也以实质权重连接然而，好视图和坏视图之间的权重要小得多，经过特征传播后，好视图和坏视图的聚合特征之间的距离变得更大，这有助于模型更容易地发现好视图。5. 结论在这项工作中，我们提出了一个关系感知模型，以找到良好的意见，从图像，明确挖掘的相互（c）（d）图5. 基于图的推理如何执行的可视化示例。（a）源图像，（b）源图像的构造图的邻接矩阵，（c）基于图的推理之前不同候选者的特征分布的t-SNE [30]可视化，（d）基于图的推理之后的特征分布在（b）中，Top-K指示该区域在所有区域中具有第K个最高注释分数在（c）和（d）中，颜色条中的数字K还指示所有区域中具有第K个放大以获得最佳视图。不同观点之间的关系。我们引入了一个基于图的门控特征融合模块，利用挖掘出的关系特征更新局部特征。此外，我们还探索将人类的先验知识融入到图中，并为所提出的模型开发一种新的数据增强此外，我们还针对该问题设计了一个多任务损失模型，该模型同时考虑了预测分数和分数差距。大量的定量和定性评价表明，该方法实现了最先进的性能，并使强大的搜索良好的意见。确认本工作得到国家自然科学基金（ 61876181 、61673375、61721004）、中国科学院项目（QYZDB-SSW-JSC 006）和美国国家科学基金（1149783）的资助。德邦还得到了中国国家留学基金管理委员会（CSC）的支持。N=1660.576.60.781N=3260.577.00.792N=6459.777.80.795N=12858.276.10.7814223引用[1] Jiansheng Chen，Gaocheng Bai，Shaoheng Liang，andZhengqin Li. 自动图像裁剪：计算复杂性研究。在CVPR，2016年。[2] 陈立群，谢星，范鑫，马伟英，张洪江，周鹤琴。一个视觉注意力模型，用于适应小型显示器上的图像。多媒体系统，2003年。[3] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.超越卷积的迭代视觉推理在CVPR，2018年。[4] Yi-Ling Chen，Tzu-Wei Huang，Kai-Han Chang，Yu-Chen Tsai，Hwann-Tzong Chen，and Bing-Yu Chen.自动图像裁剪算法的定量分析：数据集和比较研究。在WACV，2017年。[5] Yi-Ling Chen，Jan Klopp，Min Sun，Shao-Yi Chien，and Kwan-Liu Ma.在网上学习用专业照片作曲。ACMMultimedia，2017年。[6] Zhao-Min Chen ， Xi-Shen Wei ， Peng Wang ， andYanwen Guo.用图卷积网络进行多标记图像识别。在CVPR，2019年。[7] 程彬，倪冰冰，颜水城，齐天。学习摄影。 ACMMultimedia，2010年。[8] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv，2014.[9] Seyed A Esmaeili ， Bharat Singh ， and Larry S Davis.Fast-at：使用深度神经网络快速自动生成缩略图。在CVPR，2017年。[10] 陈方，林哲，拉多米尔机甲，沈晓慧。使用视觉合成、边界简化和内容保存模型的黄金图像裁剪。在ACM多媒体，2014年。[11] Junyu Gao，Tianzhu Zhang，and Changsheng Xu.图卷积跟踪。在CVPR，2019年。[12] 斯派罗·吉达里斯和尼科斯·科莫达基斯用gnn去噪自动编码器生成分类权重，用于少量学习。arXiv，2019年。[13] 罗斯·格希克。快速R-CNN。在ICCV，2015年。[14] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在CVPR，2019年。[15] Kaimi ngHe，Geor giaGkioxari，PiotrDolla'r，andRossGir-shick.面具R-CNN。InICCV，2017.[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，1997年。[18] Jingwei Huang，Huarong Chen，Bin Wang，and StephenLin.基于视觉表现性和前景可识别性的缩略图自动生成。在ICCV，2015年。[19] 高月英，何冉，黄凯琪。使用美学图和梯度能量图自动裁剪图像。在ICASSP，2017年。[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv，2014.[21] Thomas N Kipf 和 Max Welling 图卷积网络的半监督arXiv，2016.[22] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS，2012.[23] Debang Li ， Huikai Wu ， Junge Zhang ， and KaiqiHuang.A2- rl：用于图像裁剪的美学感知强化学习。在CVPR，2018年。[24] Debang Li，Huikai Wu，Junge Zhang，and Kaiqi Huang.Fast a3rl：用于图像裁剪的美学感知对抗强化学习。TIP，2019年。[25] 李巧哲，赵欣，何冉，黄凯琪。行人属性识别的视觉语义图推理。在AAAI，2019年。[26] Liang Liu，Renjie Chen，Lior Wolf，and Daniel Cohen-Or.优化照片构图。在计算机图形学论坛，2010年。[27] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：带热重启的随机梯度下降。arXiv，2016.[28] Wei Luo，Xiaogang Wang，and Xiaoou Tang.基于内容的照片质量评估。见ICCV，2011年。[29] Chih-Yao Ma，Asim Kadav，Iain Melvin，Zsolt Kira，Ghassan AlRegib，and Hans Peter Graf.参与并互动：用于视频理解的高阶对象交互。在CVPR，2018年。[30] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。JMLR，2008年。[31] 卢卡·马切索蒂克劳迪奥·西法雷利加布里埃拉·丘尔卡视觉显著性检测框架及其在图像缩略图中的应用。ICCV，2009年。[32] Naila Murray Luca Marchesotti和Florent Perronnin Ava：用于美学视觉分析的大型数据库。CVPR，2012。[33] Masashi Nishiyama，Takahiro Okabe，Yoichi Sato，andImari Sato.基于感觉的照片裁剪。ACM Multimedia，2009年。[34] Jaesik Park，Joon-Young Lee，Yu-Wing Tai，and In SoKweon.照片构图建模及其在照片重排中的应用。载于ICIP，2012年。[35] Xiaojuan Qi，Renjie Liao，Jiaya Jia，Sanja Fidler，andRaquel Urtasun.用于RGBD语义分割的3D图神

下载后可阅读完整内容，剩余1页未读，立即下载