无监督图像匹配优化

108 浏览量更新于2023-10-17 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8287无监督图像匹配和目标发现优化休伊五世Vo1，2，3，Francis Bach1，2，Minsu Cho4，Kai Han5，Yann LeCun6，Patrick Pe' rez3和JeanPonce1，21De′ partement2INRIA，巴黎，法国3Valeo.ai网站4POSTECH5牛津大学6纽约大学图1：提出的基于优化的方法自动发现描绘相似对象的图像之间的链接。该图显示了两个图像集群，它们是这种方法在VOC6x2对象识别数据集上的副产品，该数据集在两个视点下混合了6个类。详情见正文摘要完全或部分监督的学习是强大的，但依赖于不断增长的人类注释工作。作为缓解这一严重问题的一种方法，以及为特定应用服务，无监督学习已成为一个重要的研究领域。在计算机视觉中，非监督学习有各种各样的形式。在Cho等人的工作之后，我们在这里专注于集合中图像之间对象类别的无监督发现和匹配。[12]。我们表明，原来的方法可以重新制定和解决作为一个适当的优化问题。几个基准的实验建立我们的方法的优点。1. 介绍在视觉任务（例如图像分类、对象检测或语义分割）中已经取得了显著的进展，通常使用完全监督的算法和大量的手动注释数据（例如，[17、20、21、27、29、38、40]）。随着众包的出现，大公司，以及在较小程度上，学术单位，可以启动相应的大规模注释工作，可能涉及数百万图像的特定项目[40]。但是，处理互联网规模的图像（或视频）存储库或与个人助理或自动驾驶汽车相关的持续学习场景需要不那么渴望手动注释的方法。几种替代方案是可能的，包括弱监督方法，其依赖于容易获得的元数据[2，9]或图像级标签[14，23，24，25，39，45]而不是更复杂的注释，例如边界框[17，38]或对象掩码[20]作为监督信号;半监督方法[6，26]，利用相对少量的完全注释的图片，以及较大的未标记图像集;以及自监督算法，其利用图像部分[15，37]或视频子序列[1，34，48]的内部特征来构建可以在完全监督设置中进一步微调的图像模型。我们在这里解决了一个更具挑战性的问题，即发现图像集合的结构和有问题的对象，在一个完全无监督的设置[8，11，16，30，39，41，43]。虽然弱监督、半监督和自监督方法可以提供8288我我我IJIJ为大规模视觉识别奠定更实际的基础，图像模型的完全无监督构造是计算机视觉中的一个基本科学问题，应该加以研究。此外，对该问题的任何合理的解决方案将促进随后的人类标记（通过向操作者呈现所发现的组）和通过自动标签传播的缩放，通过提前链接潜在感兴趣的时间片段来帮助基于交互式查询的视觉搜索，并且提供学习视觉模型以用于随后识别的方式。1.1. 图像集合任何图像的集合，比如说，那些在互联网上找到的，或者更谦虚地说，在Pascal VOC在监督图像分类（例如，[27，29]）或对象检测（例如，[17，20，38]）任务，图结构和视觉内容都有明确的定义：注释器通常将图像分类到袋子中，每一个都旨在表示一些“对象”，“场景”或“动作”类（“马”，“森林”，“打网球”等）。当两个节点与同一个袋子相关联时，它们通过边连接，并且每个类别由图的相应连接分量中的图像（或其中的一些手动定义的矩形区域）经验地另一方面，在弱监督共分割[23，25，39]或共定位[14，24，45手动干预减少到选择哪些图像放入一个单一的袋子，和视觉内容，在由像素级符号标签或边界框定义的区域的形式与一个预定义的类别，发现使用聚类算法。1工作）：给定图像及其邻居，假设其包含相同的对象，鲁棒匹配技术利用外观和几何一致性约束来将置信度和显著性（“突出”）分数分配给该图像中的区域提议。整体发现算法在定位步骤和检索步骤之间交替，在定位步骤中，相邻者是固定的，并且具有最高显著性分数的区域被选择为潜在对象，在检索步骤中，潜在对象内的区域的置信度被用于找到每个图像的最近邻居。在固定数目的步骤之后，在每个图像中具有顶部显著性的区域被声明为它包含的对象。根据经验，[12]中已经表明这种方法给出了良好的结果。然而，它没有将图像匹配和对象发现公式化为适当的优化问题，并且不能保证连续的迭代将改善性能的某些客观度量。本文的目的是纠正这种情况。2. 该方法2.1. 问题陈述让我们考虑一组n个图像，每个图像包含p i个矩形区域建议，其中i在{1. . . n}。我们认为，图像配备了一些隐含的图形结构，其中当第二图像包含至少一个对象时，两个图像之间存在链接。我们的目的是发现这个结构，即找到链接和相应的对象。为了对这个问题进行建模，让我们定义一个指示符变量xk，当图像i的区域编号k对应于我们收集所有的变量将与图像i相的xk连接到{ 0，1}pi的元素x i中，并将所有变量xi连接到{0，1}p i的元素x中。在本文中，我们讨论了更困难的问题，{0，1}ni=1 皮岛同样，让我们定义一个指标变量完全无监督的图像匹配和对象发现，其中图形结构和对象边界框形式的视觉内容的模型都必须在没有任何人工干预的情况下从本地数据中提取。这个问题已经以各种形式得到解决，例如，聚类[16]2，图像匹配[39]或主题发现[41，43]（另见[8，11]，其中“伪对象”标签以无监督的方式学习）。在本报告中，我们直接建立在Cho等人的工作基础上。[12]（相关信息见[28]）1在监督图像分类/对象检测和弱监督共分割/共定位的情况下，一旦在训练时识别了图结构和视觉内容，就可以使用这些来学习不同对象类的模型并添加节点，eij，如果图像j包含对象，则其值为1，也是OC。在图像i中进行curring，其中1≤i，j≤n且j/=i，否则为0，将与图像i相关联的所有变量eij收集到{0，1}n的元素ei中，并将所有变量ei连接到行为eT的n × n矩阵e中。请注意，我们可以使用e来为set：如果e ij = 1，则图像j是图像i的邻居。根据定义，如果e是对称的，则e定义为无向图，否则为有向图让我们也用S kl表示图像i和j的区域k和l之间的相似性，并用Sij表示具有元素S k l的pi×pj矩阵。我们建议最大化关于x和e的ob-射函数边缘，以及测试时可能附加的边界框。2请注意，普通的无监督聚类，无论是经典的，谱的，ΣnS（x，e）=伊季报ΣΣnSklx kx l=x T[e ij S ij]x j.（一）criminative或deep [4，22，32，36]关注数据分区，而不是在杂乱的集合中发现匹配项的子集。i，j=1j/=iIJIj1≤k≤pi1≤l≤pj我i，j=1j/=i8289IJ我我我我IJ我我我直觉最大化S（x，e）鼓励在包含具有强相似性S kl的区域k和l的图像i和j之间构建边缘。我们当然希望条件[44]成立，我们有以下等价的原始和对偶版本的问题.对x和e变量的某些约束。下面的基数约束是相当自然的：• 一个图像不应包含超过一个预定义的max（x，e）∈Dinfλ，μ≥0K（x，e;λ，μ），minλ，μ≥0 sup（x，e）∈DK（x，e;λ，μ），（六）Σ p物体的数量，比如v，i∈ 1。. . n，xi·1pi≤ v，（2）其中定义域D是[0，1]i i与元素在[0，1]中的n×n矩阵空间和零对角矩阵的笛卡尔积。我们用一个小的ab表示它D=[0，1]N，其中1p是Rpi中所有元素都等于1的元素其中N =i p i+ n（n − 1）。我• 图像不应匹配超过预定数量的其他图像，比如说τ，i ∈ 1。. . n，ei·1n≤ τ。（三）2.3. 解决对偶问题我们建议用次梯度下降法来解决对偶问题从λ0和µ0的一些初始值开始，我们使用更新规则假设。从现在开始，我们假设Sij是EL-. λt+1=[λt+α（xt·1−v）]，i i ipi+（七）非负的，但不一定是对称的（我们在第3节中探索的相似性模型是不对称的）。同样，我们将假设矩阵e具有零对角，但不一定是对称的。在这些假设下，三次伪布尔函数S是超模的[10]。如果没有限制，µt+1=[µt+β（et·1n−τ）]+，其中[·]+表示非线性部分，k≥0，α和β是固定步长，xt·1p−ν和et·1n−τ分别是拉格朗日函数关于至λt和μt中的λ i和μi，我我类型的函数可以使用最大流算法在多项式时间内最大化[7]（在S（x，e）的情况下，（xt，et）∈argmax（x，e）∈[0，1]NK（x，e; λ t，μ t）.（八）不涉及线性和二次项，解决方案是当然，在没有约束的情况下是微不足道的，并且相当于将所有的xk和eij（其中i=j）设置为1）。当添加基数约束（2-3）时，情况不再是这样，并且我们必须采用梯度上升算法，如下所述。2.2.放松问题让我们首先注意到，对于二进制变量xk，xl和eij，如附录所示，对于λ和μ的固定值，我们的拉格朗日量是二元变量集x和e的超模伪布尔函数。这使我们能够利用以下直接推论[3，Prop。3.7]。提案2.1.设f表示某个超模伪-n个变量的布尔函数。我们有Maxf（x）=maxf（x），（9）xn n我们有i j∈{0，1}x∈[0，1]ΣnS（x，e）=ΣSklmin（eij，xk，xl），（4）并且f（x）在[0，1]n中的极大化子集合是f在{ 0，1 } n上的极大化子集合的凸包。i j iji，j=11≤k≤piJ i1≤l≤pj特别是，我们可以（x t，e t）∈ argmax（x，e）∈{0，1}NK（x，e; λt，μ t）.（十）关于SKL≥0。放松我们的问题，使所有变量如果允许在[0，1]中取值，我们的目标就变成了一个和凹函数，因此本身是凹函数，定义在凸集（超矩形）8290[0，1]N上，其中N是变量的总数这是超模函数的标准与我们的松弛问题相关的拉格朗日量是Σn如[7，10]所示，相应的超模三次伪布尔函数优化问题等价于二分冲突图中的最大稳定集问题，而二分冲突图本身又可以归结为最大流问题。详见附录。请注意，必须解决的最小割/最大流问题的大小取决于非零值Skl条目，其上限为n2p2，当ma-K（x，e;λ，μ）=S（x，e）−[λi（xi·1pi−ν）+μi（ei·1n−τ）]，i=1（五）IJSij是稠密的（表示p=max{pi}）。考虑到实际上p在1000和1000之间，这是非常其中λ=（λ1，. . .，λ n）T和μ=（μ1，. . .，μ n）T是正拉格朗日乘子。函数S（x，e）是凹函数原始问题是严格可行的，因此斯莱特四千为了使计算易于管理，在我们的实现中，我们将Sij中除了100到1000之间（取决于数据集的大小）的最大条目之外的所有条目都8291我我我我J我2.4. 解决原始问题一旦解决了对偶问题，正如Nedic 'Ozdaglar [35]和Bach [3]所指出的那样，原始问题的近似解可以作为原始序列（x t，e t）的运行平均值来找到，原始序列（xt，et）是次梯度方法的副产品：贪婪上升程序，对离散变量的兴趣进行测试。注意，通过构造，（2）和（3）的左侧和右侧的项在最佳情况下相等。2.6.围后处理可以从两个不同的角度来看待参数νxx=1TΣ−1不t=0Xt，e=1TΣ−1不t=0中文（简体）点：（1）作为可以在图像中描绘的对象的最大数量，或者（2）作为所考虑的对象区域候选的在迭代次数T之后。注意标量xk和e∈i，j位于[0，1]中，但不一定验证约束（2）和（3）中所述的方法。对这些价值的理论保证可以是在[3，35]中的额外假设下发现。2.5. 四舍五入的解决方案和贪婪的上升请注意，还有两个问题有待解决：在n w中找到的解（x∈，e∈）属于[0，1]N，而不是{0，1}N，并且它可能不满足原始约束。但是，请注意，由于函数的形式S，给定{1，. . .，n}，并且对于e和在一张照片中。这两种观点都同样有效，但按照Choetal。[12]中，我们在本文的其余部分中关注第二个，并在本节中提出一个简单的启发式方法，用于在这些候选对象中选择一个最终对象区域具体地说，由于在贪婪上升期间使用随机置换为我们的方法的每次运行提供了不同的解决方案，因此我们建议应用集成方法来稳定结果并提高该选择过程中的性能，该选择过程本身被视为与优化部分分开的后处理阶段。让我们假设，在L个独立执行之后，所有xj，其中ji，给定S的最大值，贪婪上升步，得到L个解（x（l），e（l）），1 ≤通过将ν个条目精确设置为1，对应于向量的最大项的xi的向量（eij Sij+eji ST）xj.同样，对于某个固定值，l≤ L。我们首先将这些解组合成单个离散对（x<$，e<$），其中x<$和e<$满足j/=iji对于x，S的最大值通过设置为1而达到，• x<$k=1如果nl，1≤l≤L使得xk（l）=1，我我{1，. . . ，n}，正好对应于对于{1. . . n}。• e<$ij=1，如果nl，1≤l≤L使得eij（l）=1。这就提出了以下方法，解，其中变量xi按由以下的某个随机置换σ指定的顺序更新：{1，. . . .，n}，然后并行更新变量ei。给定置换σ，下面的算法将将原始序列的平均值（x，e）运行到满足条件（2）和（3）的离散解（x，e）这种将单个解决方案组合的方式可以被视为最大池化过程。我们也尝试过平均池化，但发现效果不太好。请注意，在此中间步骤之后，图像可能会违反两个约束（2-3）中的任何一个这在我们方法的后处理阶段不是问题。实际上，我们必须使用x和e来为每个图像选择单个对象提案。我们为每张图片选择一个单独的提案，保留在x'（提案（i，k）s.t.x¯k =1）的值。为此目的，我们根据得分uk对图像i中的建议进行对于每个建议（i，k）定义为Σuk=x<$kmaxSkl，（12）我我j∈N（i，k）L|xl=1Ij其中，N（i，k）由与（i，k）具有最大相似性的ei中的1s表示的τ图像组成，测量单位：maxl|x<$l=1 Skl。最后，我们选择亲-伊季请注意，图像索引没有首选顺序。这实际上意味着用不同的随机排列重复这个过程，直到变量x和e不再改变或者达到迭代次数的某个限制。这个迭代过程可以被看作是一个初始化x=x，e=e。对于i=1到n，计算第ν个最大的向量元素nj=/ σ（i）（eσ（i）jSσ（i）j+ejσ（i）STjσ（i））xj.xσ（i）←0.对于t=1到νdoxkt←1。σ（i）对于i=1到n，计算τ个最大标量的指数j1到jτ我ei←0.对于t=1到τ，做eijt←1。返回x，e。xT Sijxj.8292在图像i中以最大得分uk作为最终对象区域。注意，对应于这些最终对象区域的图像的图可以通过计算e来检索，该e在给定由这些区域定义的x的值的情况下使目标函数最大化，如在贪婪上升中。此外，上述方法可以推广到使用定义的排名的每个图像一个以上的8293我我IJIJIJIJIJIJJ我我Ij我我我我ij（k′，l′）∈Qiji3. 相似模型现在让我们回到相似度函数Sij的定义。正如Cho等人所提倡的那样。[12]，与较大区域相比，紧密适合紧凑对象（前景）的矩形区域应该更好地模拟该对象，因为它包含较少的背景，或者比较小区域（部分）更好，因为它包含更多的前景。 Cho等人[12]仅以突出分数的形式实现第一个约束。我们在本节中讨论如何实现-表示图像i中与提议k相关联的实际矩形图像区域，并且令A（r）表示某个矩形r的面积。Pk的一个合理定义是Pk={l：A（rkrl）> ρA（rl）}，（16）对于某个合理的ρ值，例如，0.5.同样，Bk的一个合理定义是Bk={l：A（rkrl）> δA（rk）andA（rl）> γA（rk）}，我在本工作的优化上下文中注意这些想法。我我我我我（十七）3.1. 相似性分数在[12]之后，建议k和图像j的建议l可以被定义为对于δ和γ的合理值，例如，0.8和2.根据[12]，我们将匹配的突出得分（k，l）定义为′ ′S kl=s kl−v kl，其中v kl=maxs kl。（十八）ij ij ij ijij（k′，l′）∈Bk×Bl IjΣ Σ′ ′ ′ ′skl=a klg（rk，rl，o）g（rk，rl，o）akl，（13）ijijo∈Oi j i j ij′1≤k≤pi′1≤l≤pj在此定义下，Skl可以是负的。在我们的实现中，我们对这些分数进行阈值设置，使它们是非负的。当Bk和Bl很大时，其中kl是仅基于外观的相似性项，当区域rk和rl很小时，蛮力计算在我们的i j中使用WHO描述符（WARNHOG）[13，19]Vk1的k1化可能非常慢。我们建议在下面改为情况下，ri和rj表示与以下项相关联的图像矩形这两种方案中，o是离散偏移（平移加上两个比例因子），取值为O，g（r，s，o）测量o与直角r和s之间的几何相容性。直观地，skl仅缩放外观通过类似于一般化霍夫变换的几何一致性项对kl进行评分[5]，详情参见[12]。注意，我们可以重写Eq。（13）作为IJ简单的启发式，大大加快了计算。令Qij表示由具有最高得分skl的q个匹配（k，l）形成的集合，以递增顺序排序，其可以在O（p2logp）中计算。突出分数可通过以下程序有效计算skl=bkl·c，（14）ij ijij ij其中b kl 是维度的向量|O|与条目伊杰·穆普akl g（rk，rl，o），且cij=′ ′′ ′布肯湖pipj向量i j i jk，l=1ij这个想法是，相对较少的高置信度匹配b kl和向量c ij可以随时间预先计算， ′IJ存储开销为O（p2|O|）的情况。每个项skl然后可以是com-（k，l）可以用于有效地计算许多杰出的得分手有一个交易-of f之间的成本在O（|O|）时间，并且矩阵Si j因此可以是com-这一步，O（|P |Pl′|），以及|),andthenumberof算法的时间和空间复杂度为O（p2|O|）的情况。注意，由等式（1）定义的得分skl（13）取决于每个图像的区域提议的数量，这可能导致包含许多区域提议的图像之间的边缘的偏差。因此，可能希望通过将其定义为（k′，l′）∈Qijij2）A= 0，B = 0，A = 0，|Pk′×′P l|）的情况。在实践中，我们发现取q=10，000是一个很好的妥协，只有大约5%的突出分数以蛮力方式计算，并且显著的加速因子超过10。skl=1 bkl· c .（十五）4. 实验和结果IJ3.2. 突出得分pipjijij ij数据集、提案和指标。对于我们的实验，我们使用相同的数据集（ObjectDiscovery[OD]，VOC 6x2让我们用它们的索引k来标识包含在某个图像i中的区域提议，并将Pk定义为作为该区域的一部分的区域的集合（即，它们被包括在k内，具有一定的容差）。我们还将Bk定义为形成k的背景的区域集合（即，k包含将所有vkl初始化为0。IJ对于Qij中的每个匹配（k′，l′），对于Pk×Pl中的每个匹配（k，l），做vkl=skl。′ ′′ ′伊杰伊杰F或k=1到pi和l=1到pjdo′ ′如果skl>0且vkl=0，则vkl=IJIJIJMax锡肯湖（k′，l′）∈Bk×BlIJI j8294在这些区域内，具有一定的容差令rk和VOC所有）和区域建议（通过随机化Prim算法[RP][ 33 ]获得），如Cho等人。 [12 ]第10段。OD由三个对象类（飞机、马和汽车）的图片组成，离群值不包含任何对象实例。每个类别有100个图像，分别有18、7和11个异常值（不包含对象实例）。VOC全部8295方法VOC全部Cho等人36.6Cho等人我们的处决37.6不含CO不含EM36.4 ±0.3关于EM39.0 ±0.2W CO不含EM37.8 ±0.3关于EM39.2 ±0.2Li等人 [31]40.0Wei等人 [49个]46.9表1：我们算法的不同配置的性能与Cho等人的结果相比。在单独设置中的对象发现和VOC 6x2数据集。是PASCAL VOC 2007 train+ val数据集的子集，通过消除仅包含标记为困难或截断的对象的所有图像获得。最后，VOC 6x 2是VOC的一个子集，只包含6个类别的图像-为了进行评估，我们使用标准的CorLoc度量，即正确定位的图像百分比。它是无监督发现情况下的代理度量。图像当地面实况区域之一与预测区域之间的交集大于0.5时，在[12]之后，我们在“单独”和“混合”设置中评估我们的算法。在前一种情况下，类的性能平均为表2：在具有不同配置的单独设置中对VOC的性能。测量了OD和VOC 6x2上的二元性差距：它的范围从1.5%到8.7%的能量，在两个数据集上的平均值分别为5.2%和3.9%。我们现在在VOC all上评估我们的算法由于求解最大流问题的复杂性随着图像数量的增加而快速增长，对于连续优化的配置，我们减少了非零元的数量，在每个突出矩阵中尝试，使得图中的节点总数约为2×107。这些突出的矩阵，然后在四舍五入的连续解决方案中使用，但在贪婪的上升过程中，我们切换到突出的矩阵与1000个非零项目。对于没有为了连续优化，我们总是使用具有1000个非零条目的突出此外，为了减少我们的方法的catheter-ory足迹，我们预过滤包含1023张图片的类人的每个图像的潜在邻居的集合预过滤是通过标记100个最近的班在后者中，计算单个性能所有的班级都在一起。在我们的实验中，我们使用ν=5，τ=10和具有1000个非零条目的突出矩阵，除非另有说明。单独设置。我们首先在两个较小的数据集OD和VOC6x2上评估我们算法的不同设置。性能由三种设计选择决定：（1）使用标准化突出分数（NS）或其非标准化版本，（2）使用连续优化（CO）或变量x和e（所有条目等于1）来初始化贪婪上升过程，以及（3）使用或不使用增强方法（EM）。因此，我们总共有八种配置要测试。结果示于表1中。我们在Cho等人公开的代码中发现了一个小错误。文[12]的结果，并将文[12]的结果和修正后的结果一并报告。我们观察到，归一化的突出分数总是给出可比或更好的结果比其非归一化的对应，而集成方法也提高了我们的解决方案的分数和稳定性（较低的方差）结合归一化的突出分数，ensem- ble方法，和连续优化初始化贪婪上升产生最佳性能。我们的最佳结果优于[12]，但幅度很小，但具有统计学意义：OD为1.6%，VOC 6x2为1.8%。最后，为了评估持续优化的优点，我们有根据GIST [46]描述符之间的欧几里得距离，每个图像的邻居在单独的设置中，我们只对具有1023张图像的类人应用预过滤其他类足够小，不诉诸预过滤过程。表2显示了通过我们的方法与Cho等人相比使用不同配置获得的CorLoc值。可以看出，集成后处理和连续优化也有助于此数据集。我们得到了最好的结果与配置，其中包括他们两个，这是1.6%，优于Cho等人。然而，我们的性能仍然不如图像彩色化[31，49]的最新技术水平，后者采用了来自为图像分类训练的卷积神经网络的并明确地利用了单类假设。混合设置。我们现在在表3中比较我们的算法与Cho等人的算法的性能。在混合设置中（其他方法均不适用于这种情况）。可以看出，我们的算法没有连续优化，具有最好的性能在那些在explanation- tion。与Cho等人相比，它在OD数据集上的CorLoc好0.8%，在VOC 6x2上好4.3%，在VOC上好2.3%。当使用连续优化时，我们的方法的性能下降可能是由于我们使用了OD上只有200个非零条目、VOC 6x2方法ODVOC 6x2Cho等人84.267.7Cho等人我们的版本84.267.6不含EM不含CO无NS81.9 ±0.965.9 ±1.0w NS83.1 ±0.867.2 ±1.0W CO无NS82.9 ±0.866.6 ±0.7w NS84.4 ±0.868.1 ±0.9关于EM不含CO无NS84.4 ±0.068.8 ±0.4w NS85.6 ±0.368.7 ±0.5W CO无NS83.8 ±0.267.4 ±0.4w NS85.8±0.669.4±0.38296方法ODVOC 6x2VOC全部Cho等人--37.6Cho等人我们的处决82.255.937.5不含CO83.0±0.460.2±0.439.8±0.2W CO80.8 ±0.559.3 ±0.438.5 ±0.2表3：混合设置中数据集的性能。方法VOC 6x2v=1不含CO不含EM63.5 ±1.2关于EM67.7 ±0.8W CO不含EM65.8 ±0.8关于EM68.1±0.7ν=5不含CO不含EM67.2 ±1.0关于EM68.7 ±0.5W CO不含EM68.1 ±0.9关于EM69.4±0.3ν=10不含CO不含EM68.6 ±1.0关于EM69.1 ±0.3W CO不含EM68.9 ±0.7关于EM70.0±0.3表4：我们算法的不同配置的性能，其中ν= 1，ν= 5和ν=10。在具有连续优化的配置中，VOC上的所有非零条目（由于二分图的节点数量的限制），而我们在没有连续优化的配置中使用具有1000个非零条目的突出敏感度v。我们比较了在VOC 6x2数据集上使用不同ν值时我们方法的性能。3表4示出了通过我们的算法的不同配置获得的CorLoc，全部具有归一化突出。在这个数据集上，性能始终随着ν的值而增加。然而，在所有其他实验中，我们设置v=5以便于与[12]进行比较。使用深层特征。由于在各种任务中，来自为图像分类（深度特征）训练的当计算区域之间的外观相似性时，我们用VGG 16 [42]中不同层的激活替换了WHO[19]在这种情况下，两个区域之间的相似性仅仅是对应的深度特征（归一化或未归一化）的标量乘积。作为评估深度特征有效性的初步实验，我们在没有连续优化的情况下运行了我们的算法，并使用VGG16中的层conv4 3，conv5 3和fc 6表5显示了这些实验的结果。令人惊讶的是，测试的大多数深层特征的结果都比世卫组织差这可能是因为我们的匹配任务更类似于图像检索而不是分类，而分类通常是训练深度特征在这些测试中，只有从VGG16的层conv5 3提取的特征的变体与所获得的结果相比给出了改进（约2%[3]注意，我们也尝试过将ν解释为每幅图像中的最大物体数，但到目前为止还没有令人满意的结果。利用WHO。特征平均谁68.8 ±0.5conv4 3翘曲+中耕非规范64.2 ±0.2归一化57.1 ±0.6[18]第十八话非规范63.1 ±0.2归一化63.4 ±0.4conv5 3翘曲+中耕非规范64.9 ±0.2归一化64.1 ±0.4[18]第十八话非规范70.7±0.2归一化68.2 ±0.3FC6翘曲+中耕非规范61.3 ±0.2归一化61.0 ±0.4表5：在单独设置中，我们的算法在VOC 6x2上具有深度特征的性能。无监督的初始提案。应该指出的是，虽然我们的算法一样，曹等。[12]是完全无监督的，一旦给定区域建议，随机化的Prim为了研究这种内置监督的效果，我们还测试了用于选择区域建议的无监督选择性搜索算法[47]我们在VOC 6x2数据集上进行了三种不同的选择性搜索设置（快速，中等和质量）的实验。正如人们所预期的那样，快速模式给出了最少数量的建议和积极的建议（其IoU与一个地面真值框大于0.5的建议）;质量模式输出了最大的建议和积极的建议集，中等模式介于两者之间。为了与[12]进行比较，我们还运行了他们的公共软件，使用每种选择性搜索模式。建议算法Cho等人我们选择性搜索快速23.341.4 ±0.5介质20.648.4 ±0.5质量32.662.8 ±0.6随机化普里姆67.669.4 ±0.4表6：使用选择性搜索和随机化Prim作为区域提议算法的VOC 6x2上的对象发现。结果示于表6中。可以看出，Cho等人的表现都是好的。的方法和我们的下降显着时，使用选择性搜索。这可能是由于选择性搜索发现的积极建议的百分比然而，我们看到，在选择性搜索的质量模式下，我们的方法给出的结果非常接近RP的结果，而[12]中的方法失败得很严重。这表明我们的方法更稳健。可视化。为了深入了解我们的方法发现的结构，我们从它的输出中得到一个图像区域图，并可视化其主要的连接组件。该图的节点是最终保留的图像区域两个区域（i，k）和（j，l）是连通的，如果包含它们的图像是所发现的无向图像图中的邻居（eij或eji=1）8297IJ图2：混合环境中VOC 6x2的可视化。该图显示了区域图中的第三个组成部分，大致对应于摩托车类别。前两个组件如图所示。1.一、并且它们之间的突出分数Skl大于某个阈值。选择阈值以获得足够数量的足够大的组件用于可视化目的已被证明是困难的。我们使用了一个迭代过程：首先用高阈值来构造图，以产生从图中去除的少量合理大小的连通分量。在剩余的图上，找到新的合适的阈值以获得足够大小的新组件。重复此操作，直到达到组件的目标数量。当应用于VOC 6x2数据集上的混合设置中的结果时，该可视化过程产生大致匹配对象类别的聚类。在图1中，我们显示了前两个组件的子采样图（出于可视化目的），它们大致对应于自行车和飞机类。第三个组件如图2所示。虽然也包含其他类别的图像，但它是由摩托车图像占主导地位。可视化表明，我们的模型确实从图像集合及其包含的区域中提取了有意义的语义结构。5. 结论我们已经提出了一种基于优化的方法，完全无监督的图像匹配和对象发现，并证明了它的承诺，在几个标准的基准。在目前的形式下，我们的算法仅限于相对较小的数据集。我们正在探索几条提升其性能的途径，包括基于深度特征的更好机制和用于预过滤图像邻居和选择区域建议的PHM算法。未来的工作还将致力于开发有效的集成方法来发现图像中的多个对象，进一步研究使用无向图的对称版本的提议方法，理解为什么深度特征在我们的背景下不能给出更好的结果，并改进我们的连续优化方法，以便在混合设置中处理大型数据集，也许可以通过某种形式的变量聚类。附录：超模立方伪布尔函数[7，引理1]的一个直接推论是，具有非负三元系数和无二元项的三次伪布尔函数是超模函数。对于固定的λ和μ，这显然是（5）中拉格朗日量K的情况。此外，K中的一元项是非正的，因此可以重写Langragian，直到某个常数附加项，形式为 Σ Σf（x1，. . . ，xn）=cix<$i+cijkxixjxk，（十九）i∈U（i，j，k）∈T其中x<$i=1−xi（x i的补数），U∈{1，. . . ，n}，T∈ {1，. . .，n} 2，并且所有系数ci和cijk都是正的。我们专门研究这一部分的其余部分，[7]中的最大化方法应用于这种形式的函数。与这样的函数f相关联的冲突图[7，10]G（f）具有一组节点X（f）=V<$W，其中V的元素对应于线性项，W的元素对应于三次项，并且当对应项中的一个包含变量并且另一个包含其补时，边链接到节点通过构造G（f）是一个二部图，其边仅连接V的元素和W的元素.如[7]中所示，最大化f相当于在G（f）中找到最大权重稳定集，其中V的节点被分配权重ci，W的节点被分配权重cijk，这反过来又简化为计算从G（f）中推导出的网络中节点s和t之间的最大流，通过（1）添加源节点和具有s和相应元素之间的上限容量界限ci的边，（2）在W和t的对应元素之间添加sink节点t和具有上容量界cijk的边;（3）对G（f）中的所有边（从V到W）赋值容量上限为+∞。设[A，A′]表示通过计算得到的最小割图中的最大流，其中s是A的元素，t是A<$=X（f）\A的元素。最大权重稳定集则为S=（A<$V）<$（A<$W）。与S的元素相关联的单项式x<$i和xixjxk设置为1，所有变量的值都很容易推导致谢。这项工作得到了Inria/NYU合作协议、LouisVuit- ton/ENS 人工智能主席和 EPSRC 计划资助Seebibyte EP/M013774/1 的部分支持。我们也感谢Simon Lacoste-Julien的宝贵意见和建议。8298引用[1] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。在ICCV，2015年。[2] J. - B. Alayrac，P. Bojanowski，N.阿格拉瓦尔岛拉普捷夫Sivic和S.拉科斯特-朱利安从分级教学视频中学习。IEEE传输模式分析机器Intell ，40（9）：2194[3] F.巴赫.学习submodular函数：凸优化透视图。Foundations and Trends in Machine Learning ， 6（2-3）：145[4] F.巴赫和Z.哈沙威CNORAC：一个有区别的和灵活的聚类框架。在 Proc. Neural Info. Proc.Systems，2007年。[5] D.巴拉德将Hough变换推广到任意形状的检测。模式识别，1981年。[6] M.贝尔金岛Matveeva和P.新木大型图上的正则化和半监督学习。InCOLT，2004.[7] A. Billionnet和M.米努最大化一个超模伪布尔函数：超模三次函数的一个多项式算法。离散应用数学，12：1[8] P. Bojanowski和A. Joulin通过预测噪声进行无监督学习。ICML，2017。[9] P.博亚诺夫斯基R.拉朱吉，E.坟墓，F.巴赫I. Laptev、J. Ponce和C.施密特视频与文本的弱监督对齐。在ICCV，2015年。[10] E. Boros和P.锤.伪布尔优化。离散应用数学，123（1-3）：155[11] M. Caron，P. Bojanowski，A. Joulin和M.杜兹用于视觉特征的无监督学习的深度聚类。在ECCV，2018。[12] M.周，S。瓜克角Schmid和J.庞塞Unsupervisedobject discovery and localization in the wild：基于部件的匹配与自底向上的区域建议。CVPR，2015。[13] N. Dalal和B. Triggs用于人体检测的定向梯度的直方图。在CVPR，2005年。[14] T.德塞拉湾Alexe和V法拉利定位物体的同时了解它们的外观。ECCV，2010年。[15] C.多尔施A. Gupta和A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在ICCV，2015年。[16] A. Faktor和M.伊拉尼按组成聚类ECCV，2012年。[17] 费尔岑斯瓦尔布河 Girshick，D. McAllester和D. Ramanan使用区分性训练的基于部分的模型进行对象检测。IEEE传输模式分析机器Intell ，32（9）：1627[18] R.娘娘腔。快速R-CNN。在ICCV，2015年。[19] B. Hariharan，J. Malik和D. Ramanan用于聚类和分类的判别去相关。ECCV，2012年。[20] K.他，G.吉基奥萨里山口Dollar和R.娘娘腔。面罩R-CNN。InICCV，2017.[21] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[22] J. R. Hershey，Z. Chen，J. Le Roux，and S.渡边深度集群：用于分割和分离的判别嵌入。InICASSP，2016.[23] A. Joulin、F. Bach和J.庞塞用于图像共分割的判别聚类。CVPR，2010。[24] A. Joulin，K.Tang和L.飞飞基于Frank-Wolfe算法的高效图像2014年，在ECCV[25] G. Kim和E.邢基于各向异性扩散子模优化的分布式共分割。见ICCV，2011年。[26] D.金玛（ P. Kingma ）、 S.Mohamed ， D.J.Rezeland，以及M.威林深度生成模型的半监督学习。在Proc.Neural Info. Proc. Systems，2014.[27] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的Im-agenet分类。NIPS，2012

下载后可阅读完整内容，剩余1页未读，立即下载