没有合适的资源?快使用搜索试试~ 我知道了~
16271用于视觉识别的Ronan Sicre1,YannisA vrithis1,Ew a Kijak1和Fre'de'ric Jurie21INRIA / IRISA2诺曼底大学、UNICAEN、ENSICAEN、CNRS - UMR GREYC{ronan.sicre,ioannis. avritis}@ inria.frewa. irisa.frfrederic. unicaen.fr摘要基于部分的图像分类旨在通过学习的区分部分的小集合来表示十年前被认为是一条有前途的道路,但自从深度神经网络出现以来,这个方向一直被在这种情况下,本文带来了两个贡献:首先,这项工作进行了一个步骤,最近的部分为基础的模型(PBM)相比,专注于如何学习部分,而不使用任何标记的数据。所提出的方法不是像PBM文献中通常执行的那样学习每个类的一组部分,而是将给定的一组图像划分为视觉上相似的组,并且随后以完全不受监督的方式学习每组的一组有区别的部分这种策略打开了PBM在新的应用程序中使用的大门,标记的数据通常是不可用的,如基于实例的图像检索。其次,本文表明,尽管端到端模型最近取得了成功我们的实验表明,我们学习的部分可以帮助构建高效的图像表示,在分类和检索任务上都优于最先进的深度卷积神经网络(DCNN)。1. 介绍基于部分的模型--首先,由于它们依赖于有限的有意义的图像区域集,因此它们明确地提供了用于发现图像结构的强线索,即, 它们明确地将图像分解为有用的组件。此外,它们还提供了比基于大量区域池化的方法更紧凑的表示,因为与图像包含的不同区域的数量相比,部分的数量通常较低。最后,由于它们关注图像的关键部分,因此期望它们能更好地提供图像表示在性能方面,它适用于计算机视觉任务,如图像分类、识别或检索。由于其有吸引力的特性,基于部分的模型在过去被广 泛 讨 论 , 其 中 一 些 主 要 代 表 是 星 座 模 型 [30]、Ullman的基于片段的模型[28]或交织的分割和分段模型[11]。尽管这些工作相对成功,但必须认识到,深度卷积神经网络(DCNN)最近的成功引发了一场海啸,它席卷了过去的大多数模型,只为使用非常密集的图像区域采样的统计模型这些模型在性能方面非常好,但计算成本很高,需要大量的标记数据。在此背景下,本文的一个贡献是解决了大多数现有的基于部分的模型的一个强大的限制,即依赖于注释图像来学习(或发现)任务特定部分的必要性。这种监督部分学习阶段在大多数过去的方法中是至关重要的,并且防止它们在标记数据不可用的任务中使用,例如图像检索。本文的另一个贡献是提供了强有力的经验证据,证明基于部分的模型可以在分类和图像检索任务中超过DCNN表示的性能。更确切地说,我们通过实验证明,基于部件的模型可以与最先进的DCNN竞争,编码非常密集的图像表示。本文在两个分类任务(Willow和MIT67)和两个检索任务(Oxford5k和Paris6k)上通过实验证明,在没有任何注释图像的情况下学习的基于部分的表示可以有效地编码图像,提高最先进的DCNN表示的性能。本文其余部分的组织结构如下:第2节介绍了相关的工作,第3节揭示了所提出的方法,第4节给出了实验验证。162722. 以前的工作本节重点介绍基于部件的模型,尤其是这些模型如何学习部件。我们可以区分在学习过程中使用注释数据的方法和不使用注释数据的方法。我们将依次讨论这两个类别。在不使用标记图像学习部分的方法方面,我们所知道的唯一工作是Singh等人的工作[24]。在[24]中,部件被定义为相关补丁的集合,这些补丁除了具有区分性之外还足够频繁。其他部分。该问题是formalated作为一个无监督的判别聚类问题的一个巨大的数据集的图像补丁,优化的迭代过程之间的交替聚类和训练判别分类器。尽管该方法很有趣,但到目前为止,其性能不如本节其余部分中描述的监督方法。过去的大多数方法将部件定义为图像区域,从而可以有效地区分任务中涉及的不同类别。然而,它们在选择候选区域的方式以及如何评估区分类别的能力方面Ullman在[30]的星座模型中,类别内的可变性由星座形状和部件外观的联合概率密度函数表示。使用期望最大化与其他模型参数一起学习训练集中的独特特征假设在训练过程中只存在一类图像。在Felzenszwalb等人[5]提出的可变形零件模型中,通过选择与给定边界框位置具有显著重叠的区分区域来解决上述问题区域和零件之间的关联是通过估计一些潜在变量来完成的,即。,区域w.r.t.模型根部的位置Doersch等人[4]使用基于密度的均值漂移算法来发现区分区域。从弱标记的图像集合开始,产生相对于标签具有最大区分力的相干补丁集群,需要单次通过数据。最近,Juneja等人[9]还旨在通过首先通过低级分割线索识别可能的区分区域这两个步骤交替迭代,直到满足基于熵秩的收敛准则Similarly Mettes等人[12]提出学习跨类共享的部分Sicre等人[20,21]的最新方法提出在类似软任务的过程匹配算法,建立零件表示以及从标记的图像中将零件匹配到区域。这项工作在几个数据集上给出了最先进的结果。除了将分类过程分成两个阶段的上述方法之外,一个用于学习部分,第二个用于一旦图像被编码就学习分类器,[10,13]的最近方法依赖于所有部分和类别分类器的联合学习。这种基于部件的模型的所有组件的联合学习方法特别相关,因为区分区域针对目标任务进行了明确优化诸如[10,13]之类的方法,尽管它们具有出色的性能,但更多地强调了学习部件的注释图像的需求,并且还产生了与类别更紧密相关的部件。在本文中,我们的目标是学习独立于类别的部分,因此它们可以用于没有定义类别的任务(例如:图像检索),同时给出与联合学习部分相当的性能水平。在图像检索的上下文中,部分学习采取离线处理阶段的形式,其中在图像中自动挖掘模式。在这个意义上,相关的工作是发现空间相关的图像[16]及其部分[2,8],发现流行图像的最喜欢的视图[31],基于成对匹配的局部特征选择[27],多个查询描述器的在线聚合[19],或场景表示中不同视图的离线聚合[1]。这些方法可以用于改进图像检索,即使是最先进的CNN表示[26,18,6]。与这样的作品相比,我们不依赖于成对匹配或精确的几何验证,而是学习跨图像匹配此外,这些部分在不同的意象群中也是有3. 方法所提出的方法建立在[21]的最近工作的基础上,从中我们借用了将部分发现视为分配问题的思想,其中分配是在区域和部分之间进行的。与[10,13]相比,将部分学习与主任务(例如图像分类)解耦使得可以独立于任何类别定义从原始图像中学习部分。作为高级解释,所学习的部分可以被视为潜在的区别性中级特征的词汇表,其随后在图像中被检测以生成图像描述。3.1. 问题公式化*符号。Giv en相同大小的矩阵A、B,i,jaijbij是它们的(Frobenius)内积。向量1n是n×1的向量。最后,[n]是集合{1,. . . ,n}。16273一我我PRK图像和组。 在[21]之后,我们用I表示训练图像的集合,其中N =|我|. 对于n∈[N],I中的图像记为In。与[21]不同,我们假设在部分学习期间没有类别标签。相反,我分割的图像对于给定的区域描述符Xr,p∈Pk模型则给出为内积wp(Ak),xr。给出了所有部件p∈Pk的模型的简明D×P矩阵分成K组,[I=Ik,(1).ΣW(Ak),<$−11Xk(Ak)<$−µ1<$.(五)k∈[ K]..NkP其中I k是组k的图像,其中N k=。I k. . 分割B={Ik:k∈[K]}是未知的。地区从每个图像I ∈ I中提取一组区域RI。每个图像的区域的数量是固定的,并表示为|R|. r的集合。乔。来自组k中的图像的ns是表示为R k,其中Rk=。R k. =Nk|R|地区 去-训练集I中的区域总数为R=N| R|.给定一个列按区域索引的矩阵A,我们用Ai表示包含列r∈RI其列是向量wp(Ak),其中p∈ Pk。然后,由P×Rk匹配矩阵给出Pk中所有部分的所有区域描述子Xk的得分M(Ak),W(Ak)<$Xk.(六)目标函数给定部分模型被表示为每个组k(5)的矩阵Ak的函数,我们在容许集合Ak中寻找最优矩阵,对应于图像I。描述符。 每个区域r ∈ R是由一个(Ak)n∈argmaxAk ∈AkJ(A k)(7)我的天d k kkkscriptorxr∈R,它是DCNN内层的输出在区域r上,见4.2节。 通过X(Xk),我们表示J(A),p∈Pk r∈Rk公关wp(A),xr(八)d×R(d×Rk)矩阵,其列是所有训练图像I(图像组Ik)的描述符。=. Ak,W(Ak)<$Xk<$、(9)零件. 对于每组图像I k,我们学习a。集部分PK。我们假设有一个固定的数P =。P k. 的每一组的部分根据[21],我们使用P×Rk矩阵Ak将图像区域Rk关联到部件。理想情况下,元素如果区域r表示部分p,则k = 1,否则k = 0。要求. 我们将[21]的要求调整为无监督设置:(i)在每个组中,P部分是不同的,(ii)Pk的每个部分都存在于其组Ik的每个图像中,(iii)Pk中的部分应该在Ik中的图像中比在其余的训练图像I\Ik中更频繁地发生。前两个要求定义了每个组k的矩阵Ak上的以下约束:其提供了区域描述符Xk到组k中的部分W(Ak)的部分分配,使得矩阵M(Ak)的匹配分数由二元矩阵Ak紧密地近似。3.2. 图像分组上面给出的公式涉及两个问题:(i)对训练集的图像进行分组,以及(ii)学习每组的一组有区别的部分。我们遵循顺序的方法,首先分组,然后独立地学习每个组的部分。后者类似于[21,22]的监督设置,其中类被组取代,并保持相同的复杂性。我们讨论1Ak≤1(二)PRk阿k1| R|=1P 对于I∈Ik(3)其中≤表示元素方面。这意味着每个子矩阵Ak是部分分配矩阵。则矩阵Ak的容许集Ak是{0,1} P×R满足约束(2)和(3)。零件模型。第三个要求由线性判别分析(LDA)建模:给定群k中的矩阵Ak,定义部分p ∈ Pk的模型wp(Ak)为d-向量. ΣΣr∈Rkakxk在这里分组并在3.3节中部分学习。全球相似性。图像分组有助于将随后的部分学习限制为较小的训练集,但也指定了部分学习的目标,使得部分根据第3.1节中给出的要求(iii)是有区别的。从这个意义上说,一个组中的图像应该共享其他组中不会出现的模式。在此任务中不涉及区域,我们遵循通过全局视觉相似性对图像进行聚类的非常简单的解决方案特别地,我们通过由最后一个计算获得的全局描述符xi来表示训练集I中的每个图像I。同一DCNN的卷积层或全连接层wp(Ak),−1Σr∈R.16274KPR r− µPR、(四)用于表示区域,参见第4.2节。然后我们聚集IinK clusters usingk-means on global representations in其中,µ=1X1R且<$=1(X−µ1<$)(X−µ1<$)<$为了获得一组k个质心{ck:k∈[K]}。Fi-N NR R是区域de的经验均值和协方差矩阵。所有训练图像的脚本。 分类分数最后,平衡聚类以获得均匀划分将I的N个图像分成K组,每组N/K个图像。一个k16275不β不0不t..t tt后一步骤如下所述。平衡的原因是双重的:(i)平衡后续部分学习的成本,以及(ii)每个图像接收相同的权重,这是重要的,因为每组的部分数量是固定的。贪婪的平衡一种简单的平衡形式是在所有组上进行分配,将一个图像按通过LDA 使用(5),对于固定的Ak,Wk ← W(Ak),并且优化成本函数(9)以更新Ak,保持Wk固定。后一部分分三步完成。首先,对匹配矩阵Ak<$σβ(Mk)=σβ((Wk)<$Xk)σ(Mk),exp{β(Mk−(maxMk)1<$)},(12)时间,直到所有图像被分配到一个组。特别是,βrRk设ck是簇k的质心,k∈[K]。同样,设U为未赋值图像的集合,初始值等于I。对于每个k∈[K],我们选择最接近c k的图像arg minI∈U<$xI−ck<$,将其分配给群I k并将其从U中移除。重复这个过程,直到U为空。迭代平衡。另一种方法是得到I的一系列分区B t,使得每个分区B t比前一个B t-1更平衡,遵循[25]。 每个部分B t={I k:k∈[K]}通过将每个图像I∈I分配给群arg mink∈[K]dt(ck,xI)来定义,其中dt(c,x)2对于c,x ∈ Rd是平方欧氏距离的惩罚形式,由下式给出:其中,函数exp是逐元素的,而不是逐指数的,并且maxr表示逐行的最大值(在图像的区域上)。函数σβ是由参数β缩放的软指派的形式,并且仅确保行方向的σ∞范数为1。第二,将Ak 按元素进行阈值化为Ak←τ(Ak),以便将低值设置为零。这是实现不等式约束(2)的一种手段,因为整个列逐渐被设置为零。第三,迭代根据1001标准规范化行和列,直到k变成双随机的。 这是辛霍恩算法除了零列未被规格化之外。上面给出的迭代优化了成本函数(9)的修改版本,其包括负熵reg。dt(c,x)2,<$c−x<$2+bk(十)系数为1的[22]故,“以”为“以”。其中bk是作为基数Nk=的递增函数的惩罚项。I k.在迭代t时的群I k。特别地,该项被定义为bk= 1,并且. Nkα约束(2),(3),但不是二元的。 后者是通过重复整个过程以增加β。 这产生了问题(7)的β→ ∞的解,这是确定性退火的一种形式。匈牙利算法(HunA)。 给出的精确解bk=b kt(11)k kt t−1N/K问题(7)假设W(A)(或M(A))是固定的,是一个线性分配问题 [22]《易经》中,对于t >0,k∈[K]。 然后,序列Bt收敛一个统一的分区,即当k ∈ [ K ]时,当t → ∞时,Nk→N/K,参数α控制收敛速度. 在实践中,我们在α =0的情况下经过80次迭代得到划分B={I k:k∈[K]}。01[25].3.3. 每组学习部分给定训练图像I的分区B={Ik:k∈[K]},将针对每个组k求解优化问题(7)。[21]中给出的解决方案是迭代的,在优化区域到零件分配Ak和零件模型W(Ak)之间交替,保持另一个固定。这被称为迭代软分配(ISA)。另一方面,[22]将(5)代入(9),得到关于Ak的二次目标函数,其中W(Ak)被消除。这为二次分配问 题 的 任 何 算 法 打 开 了 大 门 。 匈 牙 利 al- 出 租 m(HunA)是在矩阵M(Ak)固定时研究的非迭代方法的一个特例虽然我们同时使用ISA和HunA,但我们不考虑二次分配公式[22],因为我们没有使用任何其他迭代解决方案中给出的工作。我们将在下面讨论这两种方法。迭代软指派(ISA)。从初始矩阵Ak开始,ISA迭代地计算零件模型矩阵它既可以作为独立的方法,也可以作为迭代算法IPFP的一部分与ISA相比,HunA非常快,但由于假设M(Ak)固定的限制,预计作为独立解决方案,HunA会较差。[22]的实验结果表明,HunA与迭代IPFP竞争,在性能方面,两者都不如ISA。然而,我们重新审视这一比较与一个新的设置,其中HunA实际上与ISA竞争。 这是一个有趣的发现,既因为HunA的效率,也因为它实际上并没有解决问题(7)。3.4. 算法无监督部分学习的整个算法总结在算法1中。首先,为每个图像I ∈ I计算全局描述符x I。然后,这些描述符被聚类到质心ck,k∈[K]。给定质心和描述符,我们使用贪婪( GREEDY)或迭代(ITER)平衡,将I的B均匀划分为K组N/K图像,参见第3.2节。然后,我们对每个组Ik∈ B进行遍历,从计算区域描述符Xk开始。为了以区别性的方式初始化部分模型Wk,如算法1中的INIT-PARTS所示,我们遵循[21]。特别是,Xk用k-均值聚类,对于每个获得的质心c及其对应的LD A模型w=k−1(c−µ),16276我−我+−最大池化响应rk(w)=maxrw<$Xk是com-算法1:无监督部分学习对于每个图像I∈ I。这些反应被汇总在Ik中的图像上(分别地, 它在I)中的互补,以产生 组内响应rk(w)(resp.组间再-1 函数W ←LEARN- PARTS(I)2计算全局描述符X∈Rd×N+sponserk(w))。选择最大化组内与组间反应比rk(w)/rk(w)的P模型,用d × P矩阵Wk表示。3C ←k-MEANS(X,K)k-means聚类4B ←GREEDY(C,X)或 ITER(C,X)分组,第3.2节5,对于Ik∈ B,其余的算法是独立的每组Ik。6计算区域描述符Xk∈Rd×Rk给定初始化部分Wk,匹配矩阵Mk=Wk←INIT-PARTS(X k) 初始部件描述符计算(Wk)Xk并将其软分配到Ak中。 ISA或Ak←σβ((Wk)Xk)软分配(12)将HunA应用于该Ak并将其转换为二进制,从而解决问题(7)。算法1包括ISA作为一个函数,其中第一个Sinkhorn步骤只是为了保持一致性Ak←ISA(Ak,Xk)或HUN(Ak)硬分配Wk←W(Ak)LDA(5)K关于HunaHunA可以直接用M(Ak)作为它的11W ←{W:k∈[K]}学习的零件模型输入,但我们在算法1中使用Ak。最后,通过LDA(5)获得部件模型Wk作为W(Ak),并在所有组上收集。虽然部分学习是独立的每一组,我们重新考虑,部分是有区别的,根据我们的第三12 函数A←ISA(A,X)13A←SINKHORN(A)使A双随机14对于β ∈ {β 0,. . . ,β max} do15而A不收敛,16W ←W(A)LDA(5)⊤17要求,由于区分初始化和LDA18分类器在第4节中,我们实验了两个选项,即GREEDY和ITER用于平衡分组,以及两个选项用于部分学习,即伊莎和胡娜。我们也在探索-A←τ(σβ((W)X))软指派(12)A←SINKHORN(A)使得A是双随机的具有不同数目的组K,而区域的数目|R|而P部分是固定的。虽然这项工作的重点是无监督的部分学习,但我们使用改进的实验设置进行了监督学习的实验,这与以前的工作[21,22]相当。除了分类,我们还考虑图像检索作为最终任务。4. 实验本节给出了上述方法的实验验证,应用于图像分类以及图像检索。我们首先介绍了数据集,然后提供实现细节,最后给出我们得到的结果。4.1. 数据集Willow动作[3]分类数据集包含911个图像,分为7类常见的人类动作,即与计算机交互,拍照,播放音乐,骑自行车,骑马,跑步,步行。每个动作至少有108个图像,其中大约60个图像用作训练图像,其余的用作测试图像。数据集还提供了边界框,因为我们希望自动检测图像的相关部分,所以不使用边界框。MIT 67 scenes[17]旨在对室内场景进行分类,由67个类别组成。这些包括商店(例如,面包店、玩具店)、家庭(例如,厨房,卧室),公共空间(例如,图书馆,地铁),休闲(例如,餐厅、音乐厅),和工作(例如医院、电视演播室)。每个类别都有大约80张图像用于训练,20张用于测试,总共6700张图像。Oxford 5k[14]和Paris 6k[15]检索数据集分别包含5,063和6,392个图像,每个数据集有55个查询图像和正图像描述了两个城市的地标,每个数据集中有11个地标,每个数据集有5个查询。底片是来自相同两个城市的图像,但没有描绘地标。 通过平均精密度(mAP)评价性能。硬阳性图像被标记为垃圾,并且在mAP计算中不考虑。4.2. 实现细节图像区域。使用选择性搜索[29]获得一组建议区域,如[22]所示。每个图像的区域总数固定为|R|=1,000。如果小于|R|区域可用,我们随机添加区域以达到|R|.区域描述符。我们使用许多DCNN图像描述器,为每个任务选择在文献中给定数据集上提供最先进性能的网络。我们的动机确实是为了证明我们的基于部分的模型可以改进这些性能非常好的网络。在Willow数据集上,非常深的VD19网络的最后一个卷积层[23]用于区域的全局表示和表示。我们注意到,对于这个网络,图像被调整为768像素的最大尺寸,并执行平均池化以获得512维的描述。7891016277在MIT 67场景中,在Places 205[32]上训练的非常深的VD16网络的第七个全连接层用于区域和全局图像描述,给出4096维向量。在编码阶段应用PCA将描述从4096维减少到512维。最后,对于图像检索,使用在Landmarks数据集[6]上 微 调 的 ResNet101[7] 该 网 络 包 括 最 大 池(MAC[26]), PCA和归一化,并输出2048维描述符。学习部分。我们遵循[21]的一般学习和分类管道,在无监督部分学习的情况下,用计算组代替类。具体来说,在部分学习期间,|R|=1,000个区域从每个图像中提取,以学习每组P=100个部分,用于分类和检索,而组的数量K是变化的参数。我们注意到ISA方法学习零件的参数与[21]中使用的参数相同。编码.一旦部分被学习,编码阶段的目标是收集给定图像的部分响应以构建图像描述符。特别地,对于给定图像,|R|=1,000个区域,并且如前所述提取它们的描述符。对于每个区域描述符x,计算每个组k∈[K]的每个部分分类器p的得分wp(A),x我们在这里提出不同的编码。零件袋(BOP)是一个二维描述,tor,通过连接平均值和最大值在每个部分的所有图像区域上。第二个选项是将每个部分的每个四分之一图像上的最大分数添加到BOP。该6PK维描述符被称为空间部件袋(sBOP)。作为替代方案,每个部分由在所有图像区域上给出最大分类分数的区域的描述符来描述。这些区域DCNN描述符然后被连接,可选地在连接之前通过PCA减少。该描述符被称为PCA化的部件上CNN(pCOP)并且具有d′PK维度,其中d′是(缩减的)DCNN描述符的维度。在这项工作中,我们还建议通过其部分分类器得分来加权最大评分区域的DCNN描述符,称为加权pCOP(wpCOP)。这种编码允许结合来自BOP和COP的信息。所有描述符和编码表示是归一化的。分类管道。在训练图像上学习部件。然后,训练图像和测试图像通过相同的编码方法来描述。最后,在训练集上学习线性支持向量机,并将其应用于测试图像的分类。回收管道。零件是在数据库的图像上学习的。然后,数据库和查询图像由相同的编码方法描述。最后,对于每个查询,数据库图像通过点积相似性进行排名(所有描述符都是2-归一化的)。表1.与基线全局描述符相比,使用不同的算法和编码进行分类的监督部分学习S-ISA:监督ISA; S-HunA:监督HunA。方法柳树MIT 67地图地图Acc.全球88.583.678.5S-ISA防喷器89.286.681.6S-ISA sBOP90.186.782.5S-ISA pCOP91.786.582.4S-ISA wpCOP92.488.382.8S-HunA防喷器88.186.982.3S-HunA sBOP87.687.683.1S-HunA pCOP91.186.281.9S-HunA wpCOP91.688.883.74.3. 结果本节对部分学习应用于分类和检索的性能进行了广泛的研究。虽然这项工作的重点和贡献是无监督的部分学习,我们也在分类的情况下进行了监督部分学习的这使得我们能够将改进的管道(包括使用的不同DCNN和编码)与以前的工作进行比较,从而提供有关ISA和HunA等算法的相对性能的新发现用于分类的监督部分学习。全局图像描述符与两部分学习方法进行了比较即ISA和HunA,在两个分类数据集上使用各种编码。该过程完全如算法1所示,但使用给定的类,而不是计算组,类似于以前的工作。结果在表1中给出。我们观察到部分学习在两个数据集上的表现优于全局图像表示,在MIT 67上的增益更大有趣的是,HunA在MIT 67上的表现优于ISA,尽管在Willow上表现较差。 这一点很重要,因为HunA不应该精确地解决问题(7),而是在零件模型固定时优化零件到区域分配的特殊情况还请注意,HunA比ISA快100倍,因此在一些实验中受到青睐。此外,我们表明,建议的wpCOP是在所有实验中表现最好的编码分类的无监督部分学习。然后,在表2中的Willow上和表3中的MIT 67上评估所提出的无监督部分学习策略。对于这些实验,我们保留了两种编码:wpCOP用于其较高的性能(如前一个实验所示),sBOP用于其较低的维度。这两种编码分别与ISA和HunA算法相结合.至于监督学习的情况,我们观察到这两种算法都没有真正优于另一种:HunA在MIT 67上的表现优于ISA,但在Willow上表现较差。各种 数字 的 组 是 评价:K∈{5,10,20,40,80}在Willow上,K∈ {50,67,100}在16278表2. 分类的无监督部分学习,使用不同的匹配算法和不同的编码Willow actions。使用迭代平衡执行的重复测试。结果以mAP表示比基线全局描述器更好的性能以粗体显示。K编码ISA小娜5sBOP77.575.4wpCOP88.486.810sBOP81.977.5wpCOP89.588.420sBOP85.981.8wpCOP90.489.340sBOP85.283.3wpCOP90.389.680sBOP85.384.7wpCOP88.889.1表3. 分类的无监督部分学习,使用不同的匹配算法和MIT 67场景上的不同编码。使用贪婪和迭代平衡来执行搜索。最好的分数用粗体K方法贪婪迭代地图Acc.地图Acc.100ISA sBOP86.281.085.681.2ISA wpCOP87.882.487.682.367ISA sBOP85.981.585.580.2ISA wpCOP87.882.287.581.750ISA sBOP85.080.385.680.1ISA wpCOP86.881.987.781.3100HunA sBOP87.183.187.383.7HunA wpCOP88.683.288.883.467HunA sBOP86.682.386.883.5HunA wpCOP88.783.688.883.350HunA sBOP86.181.886.382.1HunA wpCOP88.182.987.682.0表4. 使用VD19进行初始化的MIT 67场景分类的无监督部分学习。使用迭代平衡执行的重复测试。K方法地图Acc.100HunA sBOPHunA wpCOP85.987.681.683.550HunA sBOPHunA wpCOP85.187.180.683.267. honor 我们观察到20和40组使用wpCOP编码在Willow上提供最佳性能。类似地,我们在MIT 67上观察到,总体上K=100优于K= 67,后者优于K = 50。尽管表中未示出,但与K = 100相比,K = 200在MIT67上给出了类似的精度和略低的mAP。我们还观察到,用sBOP编码的无监督部分在Wil-low上的表现并不优于全局表示。然而,MIT 67上的sBOP和两者上的表5. Oxford5k和Paris6k检索数据集上的无监督部分学习和mAP测量。使用HunA进行迭代平衡和部分学习。K方法D牛津5kParis6kori。83.292.451278.992.5全球[6]25676.290.912873.089.06467.182.5ori。77.291.451277.491.450HunA sBOP25677.191.512875.091.76471.691.5ori。83.194.851284.394.650HunA wpCOP25684.394.512881.794.36471.095.3ori。79.190.551279.090.5100HunA sBOP25678.690.612877.590.76473.991.3ori。83.594.551284.494.2100HunA wpCOP25684.194.012881.693.86469.694.0我们观察到,在Willow上,无监督部分比监督部分低约2% mAP,在MIT 67上仅低0.3%准确率。表3还研究了两种分组方法,即迭代平衡与贪婪平衡。没有一个比另一个提供了显著的收益我们重复分组计算多次,以检查随机k均值初始化的影响。在Willow上三次运行中观察到的最大差异为sBOP的0.6%mAP和 wpCOP的0.4%mAP。进一步研究了初始分组的影响,见表4。这里,使用不同的全局描述执行初始分组,即非常深的VD19网络的卷积层的输出。性能略有变化,即mAP总体上低1%,准确度稳定,sBOP性能较低,但wpCOP性能较高。无监督部分学习检索。现在,由于我们提出的部分学习方法是无监督的,它允许学习没有任何标签的部分。因此,我们可以将此方法应用于各种任务,其中没有注释数据可用,例如图像检索。表5显示了每个数据集提供了显著的改进。 即使在两幅图像上进行无监督部分学习,16279图1.200个得分最高的部件在Oxford5k(第一行)和Paris6k(第二行)的查询图像上可视化表6. 总结了我们在分类和检索任务上的监督和非监督部分学习的最佳结果。S-ISA:监督ISA; S-HunA:监督HunA。无监督部分学习是在K= 100的情况下进行的。方法DMIT 67Oxf5kParis6k地图Acc.地图全球83.678.583.292.4全球256--76.290.9S-HunA sBOP87.683.1--S-HunA wpCOP88.883.7--HunA sBOP87.383.779.190.5HunA wpCOP88.883.483.594.5HunA sBOP256--78.690.6HunA wpCOP256--84.194.0检索数据集,即牛津5k和巴黎6k。无监督部分学习方法与全局图像表示以及简化表示进行比较。在图像检索中,为了在大型数据库中进行有效的检索,具有高度简化的表示是非常重要的.虽然sBOP编码在原始描述符维度上劣于全局表示,但wp-COP提供了改进,当降低维度时,该改进更大我们进一步注意到,sBOP在低维度下优于全局表示,甚至在牛津5k上64维的极端情况下优于wpCOP。 无监督部件在这两个数据集上都可以看到有趣的是,K=100组在Oxford5k上的表现优于K=50组,就像MIT 67上的分类一样,但K=50组在Paris 6k上的表现更好此外,定性结果如图1所示,其中200个最高评分部分在Oxford5k和Paris6k的几个查询图像上可视化。所有查询图像的可视化显示在补充材料中。摘要最后,表6总结了我们在MIT 67、Oxford5k和Paris6k上使用K=100组进行迭代分组学习由HunA进行平衡和部分学习。很明显,HunA和ISA是两种可比较的部分学习方法,HunA计算速度更快。值得注意的是,相同的部分学习方法在监督和无监督设置中都具有竞争力我们提出的wpCOP编码优于所有替代方案。与全局表示相比,在分类中使用基于部件的模型有明显的好处,即使是以未监督的方式。在检索中,增益也获得在低维。5. 结论本文介绍了一种新的框架,基于零件的模型的非监督学习。 其关键思想是通过使用一个聚类算法,并学习部分模型,是区分w.r.t.不同的群体。我们的直觉是,我们的部分学习方法能够捕获新任务的数据分布,而无需为该任务添加任何标签。我们证明,我们的部分为基础的模型,当用于编码图像,提高图像分类器的性能相比,全球编码的图像。更重要的是,这些模型打开了新的应用程序,没有类标签,例如实例检索。我们的方法在两个分类和两个检索数据集上进行了实验验证,不断提高最先进的DCNN的性能。引用[1] Y. Avritis,Y. Kalantidis,G. Tolias和E.斯皮鲁从社区照片集中重新提取地标和非地标图像。ACM Multimedia,第153-162页。ACM,2010年。[2] O. Chum和J. Matas。空间相关图像的大规模发现。PatternAnalysisandMachineIntelligence , IEEETransactions on,32(2):37116280[3] 德莱特岛Laptev和J.西维克在静止图像中识别人的动作:对特征袋和基于零件的表示法的研究。在英国机器视觉会议论文集,第2卷,2010年。[4] C. 多尔施A.Gupta和A.A. 埃夫罗斯中级视觉元素发现作为判别模式搜索。神经信息处理系统进展,第494-502页,2013年[5] P. F. 费尔岑斯瓦尔布河B. Girshick,D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。IEEETransactions on Pattern Analysis and MachineIntelligence,32(9):1627[6] A. Gordo,J.Almazan,J.Revaud和D.拉勒斯深度视觉表示的端到端学习,用于图像检索。arXiv预印本arXiv:1610.07940,2016年。[7] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,2016年。[8] K.希斯,北Gelfand、M. Ovsjanikov,M. Aanjaneya,以及L.吉巴斯图像网络:计算和利用图像集合中的连接性。IEEE计算机视觉与模式识别会议,2010年。[9] M. Juneja,A.韦达尔迪角V. Jawahar和A.齐瑟曼。块喊:用于场景分类的独特部分。在IEEE计算机视觉和模式识别会议论文集,2013。[10] P. Kulkarni,F. Jurie,J. 塞佩达山口 Pérez和L. 切韦阿利耶河SPLeaP:用于图像分类的学习部分的软池。在ECCV,2016年。[11] B. Leibe,A.Leonardis和B.席勒具有交叉分类和分割功能的鲁棒对象检测 Int. J.计算机Vision,77(1-3):259-289,May2008.[12] P. Mettes,J. C. van Gemert和C. G. M.斯诺克无备件:共享部分探测器用于图像分类。CoRR,abs/1510.04908,2015年。[13] S. N. Parizi、A.Vedaldi、A.Zisserman和P.费尔岑斯瓦尔布自动发现和优化用于图像分类的部件。在国际会议上学习代表,2015年5月。[14] J. Philbin,O. Chum,M. Isard,J. Sivic,and A. 齐塞-曼。具有大词汇量和快速空间匹配的对象检索。IEEE计算机视觉与模式识别会议论文集,2007年6月。[15] J. Philbin,O. Chum,M. Isard,J. Sivic,and A.齐瑟曼。量化损失:改进大规模图像数据库中特定对象的检索。IEEE计算机视觉与模式识别会议论文集,2008年6月[16] T.夸克湾Leibe和L.范古尔从社区照片集中挖掘世界范围的对象和事件图像和视频检索会议,第47-56页,2008年[17] A. Quattoni和A.托拉尔巴识别室内场景。 IEEE计算机视觉与模式识别会议论文集,2009年。[18] F. Radenovic,G.Tolias和O.好朋友CNN图像检索从BoW学习:无监督微调与硬样本。2016年欧洲计算机视觉会议[19] R. Sicre和H. 我去。多查询局部目标检索的记忆向量第五届ACM多媒体检索国际会议论文集,第479-482页。ACM,2015.[20] R. Sicre和F.朱丽发现和对齐用于图像分类的区别性中级特征。在模式识别国际会议上,第1975IEEE,2014。[21] R. Sicre和F.朱丽用于视觉识别的区分性部分模型。计算机视觉和图像理解,141:28[22] R. Sicre,J. Rabin,Y. Avrithis,T. Furon和F.朱丽自动发现的判别零件作为一个二次分配问题。arXiv预印本arXiv:1611.04413,2016
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功