对象感知的密集语义对应

187 浏览量更新于2023-10-17 收藏 2.67MB PDF 举报

文件摘要

图像匹配

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2777对象感知的密集语义对应电子科技大学计算机科学与工程学院2电子科技大学自动化学院机器人研究中心范阳uestc@hotmail.com，xinliuestc@hotmail.com，hcheng@uestc.edu.cn摘要这项工作的目的是建立像素之间的对应关系，从同一视觉类，但具有不同的几何形状和视觉相似性的图像。这项任务特别具有挑战性，因为（i）它们的视觉内容仅在高级结构上相似，以及（ii）背景杂波不断带来噪声。为了解决这些问题，本文提出了一种对象感知的方法，通过为每个选择的判别网格单元学习一个分类器，并在语义约束下指导每个像素的定位，来估计每个像素具体地说，建立了一个对象感知的层次图（OHG）模型，从包含整个对象的粗网格单元，到包含较小语义元素的细网格单元，再到每个像素，对匹配一致性进行调节引入引导层作为局部结构匹配的语义约束。此外，我们建议学习的重要的高层次结构的每个网格单元在“对象驱动”的方式作为替代手工制作的描述符，在定义一个更好的所提出的方法已经在各种具有挑战性的基准测试和真实图像上进行了广泛的评估。结果表明，我们的方法显着优于国家的最先进的语义流的准确性。1. 介绍稠密语义对应是指一幅图像中的像素与另一幅语义相似的图像中的像素之间的相关性，是计算机视觉中的一个重要问题。由于其在语义分割[1]、深度估计[13]、场景解析[16]、共分割 [22]、显著对象检测[31]、姿态估计[7]等中的广泛应用，许多研究工作已经被用于构建密集语义对应。与光流法不同[4][5]，*通讯作者。来自同一场景的图像之间的变换（例如，相邻视频序列），语义流方法的目的是在可能没有空间或时间关系的视觉相关图像为此，已有的文献[18][12][26][14]通常采用描述符相似性度量（L1度量）进行局部检测，然后采用光流计算框架实现全局优化。这些方法基于以下假设：（i）语义上一致的像素（或区域）共享足够相似的低级结构，以及（ii）每个图像中的所有像素（或区域）都是同等当本地手工特征（例如，SIFT描述符）是合理的歧视，和背景杂波带来的只有少量的噪音。但是，当语义一致区域的确切外观仅在高层结构上相似时，或者当优化器无法过滤掉背景杂波的噪声例如，-10的对应方法需要匹配具有高类内变化的图像（图1）。1（a）），观点的变化（图。1（b））或强背景杂波（图。（c）第1段。在这些情况下，L1度量不足以估计语义一致区域的可能性。此外，平等对待所有区域也可能损害性能。在本文中，我们提出了一种新的方法来克服这些缺点。其核心思想是基于学习的分类器为每个可区分的网格单元（对象区域）建立语义对应，然后通过匹配局部结构来细化流场通过将这两个过程集成到单个模型中并以粗到细的方式对其进行优化，我们可以缩小本文的贡献如下：1) 对象感知层次图模型。我们设计了一个对象感知层次图（OHG）模型，用于密集对应，具有以下新颖性：（i）提出了一种新的算法来构造输入图像的对象感知层次结构;（ii）引入引导层以驱动局部结构的匹配;2778SF我们SF我们SF我们(a) 类内变异(b) 观点的变化(c) 背景杂波图1.（a）具有高类内变化的图像;（b）具有视点变化的图像;以及(c)具有强烈背景杂波的图像我们使用估计的密集对应来说明结果，将每个图像扭曲到其对应的目标我们还展示了最广泛使用的SIFT流（SF）[18]的结果进行比较。在我们的模型中施加了尺度和翻转不变性（iv）通过层次优化调整匹配一致性。2) “对象驱动”视觉相似性。与以往依赖L1度量来度量视觉相似性的方法不同，我们建议以“对象驱动”的方式--使用大量的“背景”图像/块--为模型的上两层中的每个节点训练判别分类器学习的权值特征可以捕获对象的重要高级视觉结构，同时安全地忽略局部相异性。我们在各种常用的基准点以及许多真实世界的图像上评估我们的方法实验结果表明，该方法可以生成比现有技术更本文的其余部分组织如下。我们首先在第节中简要介绍相关工作。2，然后在第节中详细描述我们的方法。3. 科. 4提供了几个公共数据集和真实世界图像的定性和定量结果。结论见第节。五、2. 相关工作建立每像素对应关系是计算机视觉中的一项基本密集对应方法最初被设计用于估计两个非常相似的图像之间的光流场[4]或深度[21]最近，人们对设计用于密集语义对应估计的方法越来越感兴趣。不同场景之间的像素匹配超出了相同场景的匹配，这使得它成为一项更具挑战性的任务。作为估计密集语义对应的重要步骤，SIFT流（SF）[18][17]首次被提出来估计场景/对象外观之间的密集对应。SIFT流中的一个典型假设因此，SIFT流通过匹配SIFT描述符而不是将原始像素强度与光学计算框架相匹配来产生语义上有意义的对应。流然而，底层的密集SIFT（DSIFT）是不稳定的几何变化和背景杂波，在很大程度上限制了SIFT流的适用性。多年来，已经提出了许多在处理不同视觉变化方面具有更好性能的方法。他们中的许多人专注于设计一个更强大的密集描述符，这代表了一个非常直接的解决方案。Hassner等人[12]开发了另一种SIFT表示，称为无尺度SIFT（SLS）描述符，用于尺度不变的密集匹配，并在跨尺度的密集语义对应中取得了令人印象深刻的结果。但由于SLS的计算复杂度较高，使其难以在实际中应用。匹配感知SIFT[26]被提出来通过将从关键点检测到的可靠尺度传播到每个像素来解决这些缺点，但是它严重依赖于关键点匹配技术，这对于跨场景匹配是不可靠的。通过对尺度不变描述符（SID）的一些修改，分段感知SID（S-SID）[27]利用“软分段”掩码来对抗背景杂波效应，但它可能会降低原始描述符的区分能力。总的来说，这些方法侧重于设计特定于问题的密集描述器。尽管这些方法在匹配相似场景/对象方面表现出色，但这些方法仍然存在许多缺点，这些缺点是由低级描述符和高级语义之间众所周知的“语义鸿沟”[19]造成的另一方面，已经提出了更强大的优化器。可变形空间金字塔（DSP）[14]被引入来执行跨场景/对象匹配。该方法通过金字塔图来调节匹配一致性，其中较大的空间节点主要处理外观变化，而较小的空间节点有助于定位具有精细细节的匹配。DSP使用SIFT描述符作为底层表示，因此它也遭受“语义鸿沟”。除此之外，它在结构上有两个主要弱点。首先，其对图像的规则空间划分可能产生许多其次，背景杂波可能会大大降低匹配精度。 Taniai等人[25]建议收回-2779er共分割和稠密对应在图像对中一起。Ham等人。[11]介绍了一种通过匹配对象提议来估计像素对应关系的有效方法。然而，手工描述符的固有局限性仍然没有得到解决。为了解决上述缺点，Zhou等人。[35]使用循环一致性作为监督信号来学习密集对应的高级语义信息虽然这种方法受益于强大的深度CNN，但它在需要大量不同类别训练集的应用中非常有限。Bristow等人[3]最近提出了一种密切相关的方法，该方法学习每个像素具有5×5空间支持的示例LDA分类器。虽然我们有着相似的目标，但我们的工作却大不相同。首先，考虑到许多小补丁（例如，皮肤块）是普通的，因此几乎无法区分，我们设计了一种基于OHG模型的分层策略，其中分类器仅针对可能对应于整个对象或对象的较小语义部分的上层节点学习，然后使用这些节点的匹配来指导每个像素的局部化。其次，我们的方法更侧重于对象区域，以便可以大大减少背景杂波3. 方法在这一部分中，我们首先详细描述了提出的对象感知层次图（OHG）模型，并说明为什么它是优于以前的可变形空间金字塔（DSP）模型。然后，我们展示了如何通过使用“背景”图像/补丁的大数据集来学习上两层中每个n节点的重要高级结构3.1. 对象感知层次图模型与传统的空间金字塔不同，我们的对象感知体系结构从一个有区别的矩形区域（对象区域）开始，到几个较小的对象程序（语义元素），到指导层，最后到每个像素（见图1）。2）的情况。这种新的四层结构有两个明显的优点：（i）它从优化框架中大大减少了背景杂波引起的噪声;（i i）它使得训练用于图中的上两层中的节点的区别性分类器成为可能，因为可以容易地保证和获得负集-一大组纯“背景”图像/块。我们的模型基于对象建议算法，该算法生成少量窗口（例如，1000）可能覆盖图像中的所有对象。在本文中，我们的模型采用了选择性搜索（SS）建议[28]，但它是不限于任何特定类型的建议算法。我们首先使用计算的对象建议本地化一个独特的矩形区域作为粗层。到一个一个的SemanticelementsDUIDANCE拉耶尔Pixels(a) 我们的（b）DSP图2. （a）OHG和（b）DSP之间的图形表示比较[14]。蓝色圆圈表示图形节点，边连接所有相邻节点。我们的对象感知体系结构更加关注对象区域，而空间金字塔平等对待每个区域。更具体地说，给定NP（例如，NP= 500）建议，我们通过累加所有对象建议Pr来获得对象映射Obj：NpObj（p）= Pri（p）（1）i=1其中Pri（p）是由第i个建议确定的位置p处的分数，如果像素p被该建议覆盖，则取1，否则取0对象映射Obj告诉我们每个像素属于对象区域的可能性有多大。因此，具有低对象性分数的像素通常属于背景。受一些显著对象检测方法的启发[29][31]，我们可以计算归一化对象图上四个方向上的累积对象值以排除这些区域。根据该值，通过预先设定的阈值θ（θ = 0. ①的人。可以采用从对象映射计算的积分图像[30]来提高该步骤的计算效率。我们希望第二层由包含语义元素的较小网格单元组成为此，我们首先通过选择大小为0的建议来确定多个建议作为候选C。20。4倍的第一层，并与第一层相交，高于0。六、从C语言中检测少量语义元素是一项非常复杂的任务。受[34]的启发，我们将语义元素检测问题转换为聚类问题。给定候选者C，我们将它们分成簇，并从每组中仅选择一个提案作为输出检测。此外，我们倾向于一小部分建议，这些建议与其他选定的建议有很因此，我们定义如下AnimageVS.Coarsegridcels…FinegridcelsPixels…2780σ目标函数：max{S（B）−α·O（B）+β·U（B）−γ·N（B）}BS.T.BC（二）在[34]中描述的算法。它从一个空的解决方案集开始，并向解决方案集添加建议，直到没有更多的建议可以添加以改善目标函数。然后，它从解决方案集中删除建议，直到没有更多的建议可以被删除，以进一步改善ob.com。这里S（·）是鼓励选择的数据项更有可能属于一个俱乐部的提案-表示惩罚所选窗口之间交叉的重叠项。U（·）是覆盖项，其表示粗层中所选窗口的覆盖。N（·）表示数字项，并且它惩罚所选区域的数量。通过最大化Eq. 2，我们可以确定一个小的建议子集，以便这些选择的建议很可能是聚类中心，与其他选择的窗口有小的重叠，并覆盖整个粗网格单元（第一层）。更具体地说，我们使用二进制变量zi来指示从候选者C中选择建议bi。如果选择了zibi，则zi=1，否则为0。数据项是biCSizi，其中Si是反映相似性的分数作为集群中心。这里我们采用在[34]中提出的测量，以计算Si。F或每个建议bi，Si=bj∈Cmax（lo g（sj·K（bi，bj））−τ，0），其中sj是提案b j的原始得分;K（bi，bj）是函数，它测量bi和bj 之间的重叠，在这里我们使用流行的Intersection-over-Union（IoU）得分[8];弹出功能。上述相互作用保持迭代，直到找到局部最优解。最后，只有少数建议被选中，以形成我们的层次结构的语义元素层。我们的分层体系结构的上两层只关注重要的对象区域。我们相信，这些区域的匹配提供了有用的先验知识，可以帮助更好地估计所有像素的对应关系。因此，我们在第二层下面有一个额外的层，称为密集指导层，以弥合区域语义和像素低级对应之间基于上两层中节点的匹配，通过使用已用于着色[15]和尺度估计[26]的图形模型自动生成指导层。具体地，我们初始化平移向量wg（p）=（up，vp），在对象区域中的像素p处具有其对应的逐区域平移向量。然后，通过最小化以下目标函数，将已知平移向量wg（p）传播到所有未知像素，如下所示，τ=log（logn1）是一个归一化常数。A--Σ Σg g g2j=1si·K（bi，bj）选择可能性高的提案-J（w）=（w（p）−pp，q∈Nwpqw（q））（四）对集群中心的向往，从C应该与其他选定的项目有很大的重叠。超覆成本为bi，bj∈C;i/=jK（bi，bj）zizj. 此外，我们鼓励选定的方案涵盖整个粗面网格单元因此，我们将粗网格单元划分为小瓦片。我们引入一个二进制变量t，m来指示瓦片m是否被所选择的提议覆盖。如果图块m被n个选择的命题所覆盖，tm=1。否则其中，WPQ是加权函数。与[15][26]相反，我们定义了强度和流量之间的线性关系，而不是强度和颜色或尺度之间的线性关系我们假设具有相似强度的相邻像素具有相似的流（平移向量）。因此，加权函数写为如下：w<$1+1（G（p）−µ）（G（q）−µ）（5）tm= 0。因此，承保范围为m∈T tm，在哪里pq2p qpT表示粗层中的瓦片的集合我们倾向于-选择一个小的建议集，因为为大量的区域训练分类器是耗时的。在那里-因此，我们在我们的对象ive中包含数项bi∈Czi功能结合所有项，我们得到以下目标函数：其中G（p）和G（q）分别表示像素p和q的强度σp和µp是像素p的相邻区域中的强度的均值和方差。如果G（p）与G（q）相似，则wpq将很大，反之亦然。最后，稠密制导层自动生成求解方程。4使用归一化切割[23]。max{ ΣbiC（Si−γ）zi−α·Σbi，bj∈CK（bi，bj）zizj在我们的分层架构的底层是像素层。我们使用一个图来表示所提出的对象感知层次结构，其中每个网格单元都是一个+ β· Σm∈TI jtm}（三）node. 所有相邻节点（具有重叠的网格单元）和父子节点由边连接（见图1）。2）的情况。在底层，每个像素只链接到其父节点。S.T.zi，zj= 0或1求Eq的解3是一个典型的NP难问题。为了快速解决这个问题，我们采用了贪婪的3.2. 匹配目标我们设计了两个目标函数，我们的对象感知层次图（OHG）模型。对于向上的节点-2781我我初始特征背景补丁学习的特征InitialfeaturesInputpatchBestmatchL earnedFeatures图3. 初始特征和学习特征的比较。在每种情况下，学习的特征都会提升属于给定区域重要部分的梯度，而初始特征只会每两层，我们施加更大的正则化，并定义更好的视觉相似性，以提高其对ap的鲁棒性。图4. 使用初始特征和学习特征的补丁匹配的比较。学习的特征“增加”重要区域的梯度，因此它对外观变化更加鲁棒。′从目标图像中的块i提取的特征向量持久性变化。对于逐像素图层中的节点（底层），我们设计了一个简化的目标函数，并简单地使用L1度量来测量视觉相似性，以提高计算效率。首先，我们引入上层的目标函数。令IS和IT分别表示源图像和目标图像。为了使我们的模型对水平翻转（现实世界图像中常见的视觉变化）具有鲁棒性，我们计算水平翻转平移F′而φ（·）将检测分数映射到范围[0，3]中。在我们的方法完成匹配上两层中的所有节点之后，我们使用等式：4以生成密集引导流wg来驱动逐像素层中的每个节点的匹配。为了加速匹配过程，我们既不链接像素层中的相邻节点，也不为每个像素训练分类器。我们仅使用每个像素p的HOG特征[10]来描述其局部结构。因此目标函数如下：基于目标图像IT预先生成图像。我们用wi去-注意节点i的临时平移，以及最终的平移。′Σ′Σf fg上层中的节点的位置被表示为w，其中E（w）=Dp（wp）+Vp，q（wp，wq）（9）伊普p，q∈NP Cwi=wi+fi·Fi，fi= 1或0是翻转变量。我们匹配目标函数被给出为：′其中第一项D采用L1度量标准来衡量′Σ′E（w，s，f）=Di（wi，si，fi）+λ我Σ′ ′Vi，j（wi，wj）i，j∈NHOG距离和第二项确保最终的流矢量wf由wg 驱动。NPC表示父子节点。Σ+µi，j∈NSi，j（si，sj）+ν′Σi，j∈N′Fi，j（fi，fj）（六）′3.2.1优化我们通过使用DSP[14]的优化框架来初始化基于上两层中所有节点构建的分层图的解决方案。因为我们的模型其中Di是数据项;Vi，j（wi，wj）=min（||wi−′WJ ||1，ε）是空间平滑项。与原始的-最终DSP目标函数，我们添加尺度平滑度ter-mSi，j=||si−sj||1和翻转平滑项Fi，j=||1.一、||1. N表示由图的边连接的节点对不同于以往的作品，只是简单地使用一个L1满足-为了评估匹配可能性，我们的数据项被定义为，在上面两层中只有几个节点（通常少于10个有区别的在逐像素层中，每个像素都是一个节点。为了提高效率，我们提出了一个两阶段的优化策略。E-Q. 9有两个条件：数据术语和指导术语。在第一阶段，我们只考虑指导术语。由于引导项有利于最终流和引导流的一致性，我们直接生成每个像素D（w′，s，f）=φ（WTX（i′））（七）通过使用引导流。在第二阶段中，我们改进了初始-在10像素半径的搜索区域内，'f'f′ ′i=si（i+F·fi+wi）（八）Eq.的简化目标函数 9为E（w）=iDp（wp）。其中，Wi是被训练为测量源图像IS中的节点i与块i之间的视觉相似性的SVM分类器，3.3. “Objectness driven” Visual描述子距离的L1范数被大多数′ ′ ′2782i与目标图像IT中的状态（wi，si，fi）的关系。X（i）是先前用于MEA的密集语义对应方法，2783我我S我我我确保视觉相似性。然而，手工制作的描述符倾向于捕捉次要的细节，而不是给定区域的重要高级结构（见图1）。（3）第三章。因此，直接采用手工制作的描述符作为底层表示，并单独使用L1度量来测量视觉相似性通常会在具有挑战性的情况下导致错误，例如，匹配高外观变化（见图1）。4）.为了克服这个缺点，我们训练了一个判别分类器来捕获每个特征表示的重要部分，然后使用学习的检测器来测量视觉相似性。具体来说，我们使用HOG模板[10]对每个节点的外观进行建模，并采用线性支持向量机（SVM）[6]来发现表示的哪些部分在视觉上最重要，哪些部分可以安全地忽略。因此，视觉相似性可以定义如下：表1. JR数据集上的定量结果。FAcc表示对于5个像素的误差阈值的流量准确率SAcc是通过使用交集对并集（IoU）分数的分割准确度。“*”表示本文所用建议方法的最终版本。我们的方法始终显示最好的分数。方法（%）FG3D汽车JODSPascalFACCSACCFACCSACCFACCSACC旧金山[18]63.3775.5052.2256.9145.2772.72DSP[14]48.6972.6946.5361.5038.2269.94DFF[32]49.4659.3330.4148.3122.4553.58UFL[33]36.9065.6834.7151.1823.7862.21[11]79.1375.1864.4059.6748.5267.25JR[25]82.9773.0459.4854.1148.3167.68我们的无SVM69.5174.7655.1057.2261.6271.73我们的87.4685.5870.7868.4472.9278.214. 实验实现所提出的方法在S（i，i）=WTX（i）（10）其中，W是针对节点i的学习的权重向量，′X（i）表示源图像I的特征向量，′在另一图像IT中的其对应目标i。因为我们要捕捉的是最重要的-t结构，我们可以以“对象驱动”的方式为上两层中的每个节点训练样本特定的分类器我们假设，一个对象区域的最重要的特征也是表现出高“对象性”的特征因此，我们用一个阳性样本和数百万个“背景”图像/补丁训练SVM分类器，类似于[20] [24]。为了提高其对小变换的鲁棒性，我们通过执行轻微变换（例如，在不同方向上小于5个像素的移位）。我们将正集合表示为Po，将负集合表示为NE，并且将每个补丁的特征向量表示为X。节点i的权重向量Wi计算如下：MATLAB软件我们用刚性HOG模板[10]表示上面两层中的每个节点，并且在图像金字塔上计算HOG特征。LIBSVM[6]用于训练每个节点我们通过使用PASCALVOC 2007数据集[8]中的图像并过滤掉包含对象的补丁来创建负样本对于像素层，我们使用具有25×25s-空间支持的HOG[10]特征作为底层表示。我们设置α=0。5，β=0。3，γ=0。5在Eq. 2.设λ=0。3，μ=0。2，则0=0。4在Eq. 6. 我们使用正则化参数C1=0。1且C2=0。01在Eq. 11. 这些参数的值在以下实验中是固定的。我们将在网上发布代码和结果。比较方法我们将所提出的方法与目前最强的方法进行比较，包括SF[18]， D-SP[14]， DFF[32]， UFL[33]，MATCH[26]， PF[11]和JR [25]. 总之，我们与7种主要方法进行了比较。在所有情况下，我们使用每个方法的作者发布的代码和推荐的参数设置4.1. JR数据集（Wi）=C1Σxp∈Poh（WTXp）+C2Σxn∈NEh（−WTXn）JR数据集[25]旨在评估密集语义对应的它包括三+的||WT||2（十一）不同难度的子集。FG3DCar是一个最简单的子集。它包含了195个图像对，从汽车的类别。挑战在于处理外观变化-其中h（x）=max（0，1−x）是铰链损失函数。C1和C2是正则化参数。由于该解决方案仅依赖于一小部分当我们独立地学习每个分类器时，需要仔细的校准阶段，以便输出具有可比性。我们遵循[2]中的校准过程。因为在我们的模型中只有几个分类器，我们发现在一组2000个“背景”补丁上运行所有分类器可以获得很好的结果。国家。JODS包括81对飞机、马匹和汽车的图像。JODS中的图像具有较大的类内变化，以及尺度和视点的变化。PAS- CAL是最具挑战性的子集。它包含来自不同对象类别的124个图像对（例如，自行车、摩托车和火车）。这些图像包含具有高外观变化、视点变化大、背景杂乱以及翻转变化的对象。我们在JR数据集上评估了像素级流量精度根据[25]中的实验方案，我们计算2784输入GTSFDSPDFFUFLPFJr我们10.90.80.70.60.50.40.30.20.10FG3D汽车1 5 1015（一）0.90.80.70.60.50.40.30.20.10JODS1 5 1015（b）第（1）款0.90.80.70.60.50.40.30.20.10Pascal我们的JRPFDFFDSPSF1 5 10 15（c）第（1）款图5. JR数据集上不同阈值的平均流量精度。我们的方法始终优于最先进的方法。在最具挑战性的PASCAL上，我们的方法仍然可以很好地执行，而其他方法已被证明是失败的。图6. JR数据集上的定性结果。我们展示了JR Benchmark不同子集的一些示例结果。在每个子集上具有5像素的误差阈值的平均流精度。如Tab.所示。1.我们的方法在所有子集上具有最高的稠密对应精度具体来说，在FG3DCar和JODS上，我们实现了5. 41%，9。91%，分别在像素级流量精度方面超过目前最强的方法。在最具挑战性的PASCAL上，我们比现有的最佳方法好50。29%的流量精度。这是因为1）我们的方法能够处理翻转变化，消除背景杂波，2）训练的特征对外观变化更加鲁棒。与[25]类似，我们还使用不同的阈值绘制了正确对应的百分比（见图11）。（五）。此外，根据计算的流场，将每对图像中一个图像的地面真实掩码转移到另一个图像，以测量IoU得分[10]，以进行更平衡的比较。注释传递结果也在选项卡中列出。1. 我们的方法也达到了最高分，显著提高了13分。35%的FG3DCar，11。28%，8。在PASCAL上比以前最好的结果高出44%。一些样本结果如图所示。六、4.2. Caltech 101数据集Caltech-101数据集[9]包括101个对象类别。在每个类别中，有50多个图像包含不同位置和比例的对象，并表现出高度的外观变化。它还为前景对象提供地面实况像素标签虽然它没有我们的JRPFDFFDSPSF我们的JRPFDFFDSPSF2785源目标SFDSP匹配UFLPFJr我们图7. 真实世界图像的定性结果。我们使用估计的密集对应来说明结果。好的结果应该是那些颜色和纹理保持不变，形状接近其相应的内容。groundtruth流场，我们可以转移分割掩模来评估密集语义对应方法在具有外观变化的图像上的性能，就像许多以前的作品一样[14][11][33]。遵循许多先前工作中的评估方法[14][11][33]，我们从每个对象类别中随机选择15对图像，并使用三种不同的度量（包括 La- bel Transfer Accuracy （ LT-ACC），IoU度量和本地化错误（LOC-ERR））来评估注释传输准确性所有方法的结果总结见表1。二、我们的方法也取得了最高分。4.3. 真实世界图像上的结果图图7提供了通过使用所估计的密集对应性将目标图像扭曲回源图像而获得的图像重建结果这些真实世界的图像对仅在语义上相关并且极其复杂。一个好的结果图像应该具有源图像的形状和位置以及目标图像的颜色和纹理。最近的方法已被证明是失败的，在许多具有挑战性的现实世界的图像对，但我们的方法获得了非常好的定性结果。4.4. 运行时每个方法的平均运行时间都在配备i7 2.50 GHzCPU 和 8 GB RAM 的 PC 。我们的方法是通过使用MATLAB与非优化代码实现的。平均需要98。我们的方法处理每个图像对（400×300）需要7秒。它比一些高效的方法需要更长的时间，例如，[18]和DSP[14]，但它实现了最好的性能。与一些高鲁棒性的方法（如JR[25]）相比，我们的方法要有效得多我们相信平行-表2.Caltech-101数据集。由于每个节点的训练加权向量是完全独立的，因此我们的方法的LEL实现将大大提高其计算效率。5. 结论本文提出了一种基于对象感知的层次图（OHG）模型，它是一种新的语义密集对应关系估计框架。与现有的工作不同，我们估计从语义到低层次的密集对应关系，通过训练一个判别分类器的每个节点在上两层，并指导匹配的局部结构。本文还定义了一种更好的视觉相似度。我们的方法在两个具有挑战性的基准上取得了令人满意的结果。在未来，我们将通过获取其他不变属性来提高密集对应估计的准确性旋转不变量鸣谢。本研究得到了国家自然科学基金（No.6157021026）和微软研究院（MSRA）的部分资助。Y.范的参与得到了国家自然科学基金的资助（编号61370073）。L. Xin由东莞市“863”计划（编号：2015AA016010）和东莞市MSTP（编号：2015215102）批准方法LT-ACCIOULOC-ERR旧金山[18]0.700.460.35DSP[14]0.750.510.32DFF[32]0.620.420.40[26]第二十六话0.730.440.38UFL[33]0.670.460.43[11]0.790.520.26JR[25]0.760.480.33我们0.810.550.192786引用[1] E. Ahmed ， S. Cohen 和 B. 价格语义对象选择。在CVPR，第3150-3157页[2] M. Aubry，D.Maturana，A.A. 埃夫罗斯湾C. 罗素和西维克3D椅子：使用大量cad模型数据集的基于零件的2d-3d对齐示例。在CVPR，2014年6月。[3] H. Bristow，J. Valmadre，and S.露西密集的语义对应，每个像素都是一个分类器。在ICCV，December 2015中。[4] T. 布罗克斯角 Bregler 和 J. 马利克大位移光流。在CVPR，第41-48页[5] T. Brox，A. Bruhn，N. Papenberg和J. Weickert基于变形理论的高精度光流估计ECCV，第25-36页，2004年[6] C.- C. Chang和C J. Lin LIBSVM：支持向量机的库.ACM Transactions on Intelligen-系统与技术，2：27：1-27：27，2011。软件可在http://www.csie.ntu.edu.tw/上获得请访问cjlin/libsvm。[7] J. Charles，T.Pfister，D.Magee，D.Hogg和A.齐瑟曼。个性化人类视频姿态估计。在CVPR，2016年。[8] M. Everingham pascal 视觉对象类（ voc ）的挑战。IJCV，88（2）：303[9] L.菲菲河Fergus和P.佩洛娜对象类别的一次性学习。TPAMI，28（4）：594[10] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。TPAMI，32（9）：1627[11] B. Ham，M.乔角，澳-地Schmid和J.庞塞提案流程。在CVPR，2016年。[12] T. Hassner，V. Mayzels，and L.泽尔尼克庄园在筛子和秤上。见CVPR，第1522-1528页，6月。2012年。[13] K. 卡尔施角Liu和S.B. 康深度转换：使用非参数采样从视频中提取深度。TPAMI，36（11）：2144[14] 金角，澳-地Liu，F. Sha和K.格劳曼可变形的空间金字塔匹配快速密集的对应关系。在CVPR，第2307-2314页[15] A. Levin，D. Lischinski和Y.韦斯使用最佳化着色。TOG，23（3）：689[16] C. 刘，J.Yuen，和A.托拉尔巴非参数场景解析，通过标签转移。TPAMI，33（12）：2368[17] C. 刘，J.Yuen，和A.托拉尔巴筛流：场景间的密集对应及其应用。TPAMI，33（5）：978[18] C. Liu，J. Yuen，A. Torralba，J. Sivic和W.弗里曼。筛流：不同场景之间的密集对应EC-CV，第28-42页，2008年[19] Y.卢湖，加-地Zhang，J. Liu，and Q.田构建具有小语义间隙的概念词典。IEEE Transactions on Multimedia，12（4）：288[20] T. Malisiewicz，A. Gupta和A. A.埃夫罗斯用于对象检测及其他的范例svms的集成。见ICCV，2011年。[21] K.真是的从光流场得到的自我运动和相对深度图。Biological Cybernetics，36（1）：87[22] M. Rubinstein，A. Joulin，J. Kopf，and C.刘某互联网图像中的无监督联合目标发现与分割。在CVPR，2013年6月。[23] Shi和J.马利克标准化切割和图像分割。TPAMI，22（8）：888[24] A.什里瓦斯塔瓦T. Malisiewicz，A. Gupta和A. A.埃夫罗斯数据驱动的跨域图像匹配视觉相似性。TOG，30（6），2011.[25] T. Taniai，S. N. Sinha和Y.佐藤两幅图像中稠密对应和联合分割在CVPR，2016年6月。[26] M. Tau和T.哈斯纳场景和尺度之间的密集对应TPAMI，38（5）：875[27] E.特鲁尔斯岛Kokkinos和F. Sanfeliu，A.还有莫雷诺-诺格尔。密集分段感知描述符。在CVPR，第2890-2897页[28] J. R. Uijlings，K.E. Sande，T.Gevers和A.W. 史默德斯对象识别的选择性搜索。IJCV，104（2）：154[29] T. Van Nguyen和J.塞普尔韦达基于增强假设的显著目标检测InIJCAI，2015.[30] P. A. Viola和M.J. 琼斯鲁棒的实时人脸检测。载于ICCV第2卷第747页。Citeseer，2001年。[31] L. Xin，Y.范角，澳-地Leiting和C.洪斌。显著性转移：一种基于示例的显著对象检测方法。InIJCAI，2016.[32] H.杨文Y. Lin，and J. Lu. Daisy过滤器流量：稠密对应的一般化离散方法。在CVPR，第3406-3413页[33] C. Zhang C.，中国古猿科Shen和T.沈无监督特征学习，用于场景间的密集对应。IJCV，116（1）：90[34] J. Zhang，S. Sclaro f f， Z. Lin， X. 申湾Price和 R. MeEscherich.Unconstrained显着对象检测通过建议子集优化。在CVPR，2016年。[35] T. Zhou，P. Krahenbuhl，M.奥布里，Q。Huang和A. A.冰-冻。通过3d引导的循环一致性学习密集对应。在CVPR，第117-126页

下载后可阅读完整内容，剩余1页未读，立即下载