高效可扩展的二进制图像聚类方法

175 浏览量更新于2023-10-13 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于可伸缩图像聚类的Zheng Zhang1， 2，3 *，Liu3 *，Jie Qin4 *，Fan Zhu3，Fumin Shen5，YongXu1†，Ling Shao3，and Heng Tao Shen51哈尔滨工业大学（深圳）2澳大利亚昆士兰大学3阿联酋Inception人工智能研究所4瑞士苏黎世联邦理工学院计算机视觉实验室5电子科技大学中国抽象。如何经济地对大规模多视点图像进行聚类是计算机视觉中的一个长期问题为了应对这一挑战，我们引入了一种新的方法命名为高度经济化的可扩展图像聚类（HSIC），从根本上超越了传统的图像聚类方法，通过二进制压缩。我们直观地将二元表示学习和高效的二元聚类结构学习统一到一个联合框架中。特别地，通过利用跨多个视图的可共享信息和个体信息两者来学习常见的二进制表示，以捕获它们的潜在相关性。同时，通过有效的离散优化方法，实现了鲁棒二值质心的聚类分配. 通过这种方式，沉重的连续值欧几里德距离计算可以成功地减少有效的二进制异或操作期间的聚类过程。据我们所知，HSIC是第一个专门为可扩展的多视图图像聚类而设计的二进制聚类工作。在四个大规模图像数据集上的大量实验结果表明，HSIC始终优于最先进的方法，同时显着减少计算时间和内存占用。关键词：大规模图像聚类·二进制码学习·二进制聚类·多视角特征1引言图像聚类是实际计算机视觉应用中常用的无监督分析技术[17]。图像聚类的目的是发现图像表示的自然和可解释的结构，以便将彼此相似的图像分组到同一个簇中。基于根据采集图像的源的数量或描述图像的特征的数量，现有的聚类方法可以分为单视图图像聚类（SVIC）[1，16，32，36]和多视图6图像聚类*表示平均缴款;†表示相应的作者。6D分块可以用于多个特征、定义或模型，在此，我们仅关注具有多个特征（例如，多个像素）的图像的聚类问题。、LBP、HOG和GIST）。2Z. Zhang等人原始图像多视图功能二进制表示学习离散聚类结构学习图1：HSIC的流水线。通过交替优化，共同有效地解决了常见的二进制表示学习和离散聚类结构学习（MVIC）[3、4、22、47、48]。最近，MVIC [3，48，51]由于从单个图像中提取多个异构特征的灵活性而引起了越来越多的关注与SVIC相比，MVIC能够获取数据的更多现有的MVIC方法可以大致分为三组：多视图谱聚类[19，30，31]，多视图矩阵分解[4，22，37]，和多视图子空间聚类[13，45，49]。多视图谱聚类[47]构建多个相似性图，以在所有视图上实现共同或相似的特征向量矩阵，然后生成共识数据分区，其关键在于单视图谱聚类[29]。由于矩阵分解[20]的直接可解释性，多视图矩阵分解方法[4，22]将来自多个视图的信息集成到可兼容的共同共识中，或者将异构特征分解为指定的质心和聚类指示矩阵。与上述策略不同，多视图子空间聚类[13]采用多个视图之间的互补属性来揭示共同的潜在子空间并量化真正的一些其他基于内核的MVIC方法[10，42]在每个视图上利用线性或非线性内核注意，SVIC（例如、k均值[16]和谱聚类[29]）也可以被利用来处理多视图聚类问题。他们的一个常见做法是对任何单视图特征或简单地连接多个特征进行聚类[47，48]。尽管SVIC和MVIC方法已经在小规模和中等规模数据上取得了很大的进展，但是当以高尺寸处理大规模数据时，它们两者都将变得难以处理（因为无法负担的计算和存储器开销），这在“以大尺寸”的情况下是非常具体的。正如[15，41]中所指出的，我们认为实值特征是限制现有聚类方法可扩展性的根本瓶颈。为了解决这个问题，受到紧凑二进制编码（也称为压缩二进制编码）的最新进展的启发，提出了一种新的压缩二进制编码方法。散列）[5，23，24，27，34，39，40，43]，我们的目标是开发一个可行的二进制集群-：共享投影LBP生猪……………………………联合学习×：视图特定投影………聚类指标GIST特征投影列式二进制码群集质心…高度经济的多视图二进制压缩3大规模MVIC的封装技术。具体地，我们将原始实值欧氏空间变换为低维二元汉明空间，基于然后可以在其上设计有效的集群解决方案。以这种方式，实值数据的耗时的欧几里德距离测量（通常具有O（Nd）复杂度，其中N和d分别指示数据大小和维度）可以通过用于紧凑二进制码的极快的XOR运算（具有O（1）复杂度）来基本上消除。注意，所提出的方法是因此在计算和存储器资源有限的实际使用情况下（例如，在可穿戴或移动设备上如图1.提出了一种高效的大规模MVIC的高效可扩展图像聚类（HSIC）框架HSIC联合学习有效的常见二进制表示和鲁棒的离散聚类结构。前者可以最大限度地保留跨多个视图的可共享信息和视图特定/个体信息;后者可以显着提高聚类的计算效率和鲁棒性。通过促进两个目标之间的协作，联合学习策略优于单独学习每个目标。一个有效的交替优化算法来解决联合离散优化问题。这项工作的主要贡献包括：1) 据我们所知，HSIC是具有大规模MVIC能力的开创性工作，其中可以在统一的学习框架中获得常见的二进制表示和鲁棒的2) HSIC从多个视图中捕获可共享和特定于视图的信息，以充分利用异构图像特征的互补性和个性。在聚类模型中引入稀疏性导致的21范数，进一步降低了聚类模型对离群值和噪声的敏感性。3) 在四个图像数据集上的大量实验结果清楚地表明，HSIC可以将存储器占用和计算时间减少到951和100%。69.35倍，分别超过经典的k均值算法，同时始终优于最先进的方法。值得注意的是，文献中的两部作品[15，41]与我们的最相关[15]介绍了一种两步二进制k-均值方法，其中对通过迭代量化（ITQ）[14]获得的二进制代码进行聚类，[41]集成二进制结构SVM和k-均值。我们的HSIC在以下方面与他们有根本的不同：1）[15]和[41]是SVIC方法，而HSIC是专门为MVIC设计的; 2）[15]将聚类任务分为两个不相连的过程，完全消除了二进制编码和聚类结构学习之间的重要联系。同时，[41]学习的二进制代码太弱，因为缺乏适当的代表能力而不能达到令人满意的结果更重要的是，这两种方法都不能充分利用可扩展MVIC的多个视图的互补属性，这也在[50]中显示。在下一节中，我们将介绍我们的HSIC的详细框架，然后详细说明交替优化算法。计算复杂性和内存负载方面的分析也将被提出。4Z. Zhang等人我我我我我我v=1我我2高度经济的可扩展图像聚类假设我们具有一组多视图图像特征X={X1，...，Xm}，来自m个视图，其中Xv=[xv，· · ·，xv] ∈dv×N 是累积特征矩阵1N从第五视图看。dv和N分别表示Xvxv∈dv×1是来自第v个视图的第i个特征向量。无监督MVIC的主要目标是将X划分为c个组，其中c是聚类的数量在这项工作中，为了解决大规模的MVIC问题，我们的HSIC的目的是执行二进制聚类在更低维的汉明空间。特别地，我们执行多视图压缩（即，将多视图特征投影到公共汉明空间上）同时，强大的二进制聚类结构制定在学习的汉明空间有效的聚类。作为预处理步骤，我们首先将每个视图的特征归一化为零中心向量。受[26，40]的启发，在这项工作中，每个特征向量都是通过简单的非线性RBF核映射编码，即，，ψ（xv）=[exp（−xv−我我av2/γ），···，exp（−xv−av2/γ）]，其中γ是与h相关的预确定的k，并且1i lψ（xv）∈l×1维不是一个l维的线性空间，它是一个线性空间从第五视图看。与[25，26，40]类似，{av}l随机选择L锚i i=1点从Xv（l= 1000用于在这项工作中的每个视图随后，我们将介绍如何分别学习常见的二进制表示和鲁棒的二进制聚类结构，并最终以联合学习目标结束1) 二进制表示学习。我们认为一个家庭K个散列函数，其将每个ψ（x，v）量化为二进制表示bv=[bv，· · ·，bvT 1，消除i i1iK不同视图之间的语义间隙，HSIC生成共同的二进制表示。通过组合多视图特征来呈现。具体地，HSIC同时编程。在Hamming s空间上对一个共同体进行了Σmmmultievies检验，即. e. ， bi=sgn（ Pv）ψ（xv），其中bi是来自差分视频的第i个特征的公共二进制码（i. e. ，xv，v=1，…，m），sgn（·）是一个元素，其中，sgn（·）是一个元素，其中，sgn（·）是一个元素。tion，Pv=[pv，···，pv]∈l×K是在rix上的映射，用于该ev-tv视图和1K是第i个散列函数的投影向量。因此，我们通过最小化以下量化损失来构建学习函数：min ΣmΣNbi−（P v） ψ（xv）2.（一）Pv， bi我Fv=1i =1由于不同的视图从不同的角度描述同一主题，因此投影{Pv}m应该捕获共享信息，最大限度地提高多个视图的相似性以及区分不同视图之间的个体特性的视图特定/个体信息为此，我们将每个投影分解为s，i上的可共享和个体投影的组合。e. ，Pv=[Ps，Pv]。Specifily，PS∈l×KS 即在多个视图上的共享预节点，其中Pv∈l×KI是第v个视图的独立预节点，其中K = KS+ KI。因此，HSIC集体地学习共同的高度经济的多视图二进制压缩5vFǁ我FFFF从多个视图使用二进制表示minP，B，αvΣmv=1（αv）r.B−（Pv） ψ（Xv）2+λ1Pv2S.T. Σαv= 1，αv> 0，B =[B;B]∈{− 1， 1}K×N，Pv =[P，Pv]，（2）s I sIv其中B=[b1，· · ·，bN]，α=[α1，· · ·，αm]∈ λm衡量不同视图的重要性，r >1是管理权重分布的常数，λ1是正则化参数。第二项是控制参数尺度的正则化器此外，从信息理论的角度来看，由二进制码的每个比特提供的信息需要被最大化[2]。基于这一点，并受[14，44]的启发，我们采用了一个额外的正则化子。r二进制cΣ odesB，使用最大熵原理，即，maxvar [B] =var[sgn（Pv）ψ（xv）].这个addi-B上的正则化可以保证均衡划分，减少二进制码的冗余。在这里，我们用符号函数的符号幅度来替换符号函数，并将松弛正则化公式化如下Σvv21 .一、vvvvΣvMaxK E[（pi）（xi）tr（P）Nψ（X）ψ（X）P=g（P）的情况。（三）最后，我们将问题（2）和（3）结合在一起，并将总体通用二进制表示学习问题重新表述为如下mvin Σm（αv）r.B−（P v） ψ（Xv）2+λ1Pv2 −λ2g（Pv）ΣP、 B v=1S.T. Σ αv= 1，αv> 0，B =[B;B]∈{− 1， 1}K×N，Pv =[P，Pv]，（4）s I sIv其中λ2是加权参数。2) 鲁棒的二进制聚类结构学习。对于二进制聚类，HSIC直接将学习的二进制表示B分解为二进制聚类中心Q和离散聚类指标F，使用minB − QF 21，s.t. Q1 = 0，Q ∈{−1，1}Q、 FK×c，F∈{0，1}Σc×N，Jfji=l，（5）其中A21=Σiai2，ai是矩阵A的第i行。（5）的第一约束确保了与二进制码一样的聚类质心上的平衡特性。注意，施加在损失函数上的21范数也可以由F范数代替，即，B − QF2. 然而，基于F范数的损失函数会放大由噪声和异常值引起的误差因此，为了实现更稳定和鲁棒的聚类性能，我们采用了稀疏诱导的21范数。在[ 12 ]中还观察到，21范数不仅保留了每个特征内的旋转不变性，而且还控制了重建误差，这显著减轻了表示离群值的负面影响。3) 联合目标函数为了保持学习的二进制代码和强大的集群结构之间的语义互连，我们将共同的二进制表示学习和离散集群结构构建成一个联合学习框架。通过这种方式，统一框架可以交互地增强Σ、6Z. Zhang等人v=1FF我3v算法一：高度经济的可扩展图像聚类（HSIC）输入：多视图特征{Xv}m∈ φdv×N，m≥3;码长K;质心数c;最大迭代κ和t;λ1、λ2和λ3。输出：二进制表示B、聚类质心Q和聚类指示符F。姓名首字母缩写：从每个视图中随机选择l个锚点来计算核化特征嵌入ψ（Xv）∈l×N，并将它们归一化为具有零中心均值。重复步骤：通过等式更新Ps（8）;Pv-步骤：通过等式更新Pv（9），λv= 1，···，m;我我B-步骤：通过等式更新B（12）;重复Q-步骤：通过等式（1）迭代地更新Q（14）;F-步骤：通过等式更新Fα-步骤：通过等式（16）更新α;直到收敛或达到κ次迭代;α-步骤：通过等式（16）更新α（18）;直到收敛或达到t次迭代;学习的二进制表示和集群结构的质量。因此，我们有以下联合目标函数：minP， B，Q， F，αvΣΣmv=1（αv）r.B−（Pv） ψ（Xv）2+λ1Pv2 −λ2g（Pv）Σ+λ3B−QF 21，S.T.αv= 1，αv> 0，B =[B; B] ∈ {− 1，1}K×N，Pv=[P，Pv]，S IvK×cSIc×NQ1 = 0，Q∈{− 1， 1}，F∈{ 0， 1}， fji=l，⑹J其中λ1、λ2和λ3是用于平衡不同项的影响的折衷参数。为了优化困难的离散规划问题，开发了一种新的交替优化算法，如下一节所示。2.1优化问题（6）的解是非平凡的，因为它涉及具有三个离散约束的混合二进制整数在下文中，我们引入交替优化算法以迭代地更新每个变量，同时固定其他变量，即，在每次迭代中更新Ps→ Pv→ B → Q → F → α。你好为了使Σtractable21-normlossfunction，我们首先在（6）中重新编写作为λ trUDU，其中U=B−QF，D∈K×K是对角矩阵，第i个其对角元素被定义为dii= 1/2ui，其中ui是U的第i行。1) Ps-步骤：当修复其他变量时，我们通过以下方式更新可共享投影：Σmmin弗河茨布夫22λ2.⊤vvΣΣPsv=1（α）Bs−Psψ（X）F+λ1PsF−NtrPsψ（X）ψ （X）Ps. （七）高度经济的多视图二进制压缩7Ps我NFFFηη对于非整数卷积，我们将ψ（Xv）ψ（Xv）写成X~。TakingderivatonfL关于Ps，设L= 0，我们可以得到Ps的封闭形式解，即，Ps=（A+λ1Σmv=1（αv）rI）−1TB，（八）其中A=（1−λ2）Σm （αv）rX~andT=Σm（αv）rψ（Xv）.Nv=1v =12) Pv-步骤：类似地，当固定其他参数时，第v个个体投影矩阵的最优解可以通过求解vv2v2λ2.v~vΣmivnBI−（PI）PIψ（X）F+λ1PIF−NtrPIX（PI）、（9）其封闭解可由Pv=W ψ（Xv）B，其中W=.（1−λ2）X~+λ1IΣ−1我可以提前计算。3) B-步骤：关于问题（6）B可以重写为：minBΣmv=1（αv）r.B−（Pv） ψ（Xv）2Σ。+λ3trU⊤ΣDU，s.t. B∈{−1， 1}K×N . （十）如果Bonly具有' 1 '和' -1 '个节点，并且D是一个独立的节点，则tr（BB）=KN和tr.⊤ΣB DB=N * tr（D）是常数项w.r.t. B. 基于这一点以及一些进一步的代数计算，（10）可以被重新表示为Σ。Σm弗河vvΣK×Nmin −2trBBv=1（α）（P）ψ（X）+λ3QF+常数，标准差 B ∈{−1，1}、（11）而这并不意味着这些成本都是合理的。该方案包含以下公式：B=sgn.Σmv=1（αv）r. （Pv）（Xv）Σ+λ3QF.（十二）4) Q-步骤：首先，我们将（6）退化为以下计算上可行的问题（通过移除一些不相关的参数并丢弃第一个约束）：. ⊤Σ最小传输UDUQ、 F⊤+νQ12，s.t. Q ∈{−1，1}K×c，F∈{0，1}Σc×N，Jfji = 1。（十三）当ν>0时，问题（6）和（13）是等价的。然后，通过固定变量F，问题（13）变为⊤minL（Q）=−2tr（BQ⊤DQF）+νQ 12+ const，s.t. Q∈ {−1，1}K×c.（十四）受[ 35，38 ]中有效离散优化算法的启发，我们开发了一种自适应离散近似线性化优化算法，该算法通过Qp + 1 = sgn（Qp − 1 L（Qp））迭代更新Qinthee（p+1）-thiterat i tion，其中L（Q）是L（Q）的梯度，1是学习步长，η∈（C，2 C），其中C是Lipschitz常数。然而，对于每个函数，如果时间间隔1/η太小/太大，Q的解将陷入不良局部最小值或发散。为此，根据相邻迭代之间L（Q）值的变化，通过放大或缩小自适应地确定合适的η，从而加快了算法的收敛速度。8Z. Zhang等人Fvv=1v=1v我5) F-步骤：类似地，当修复Q时，问题w.r.t. F变成minfiΣNi=1diibi − Qfi 21，s.t. fi ∈{0，1}c×1μm、Jfji = 1。（十五）我们可以将上述问题划分为N个子问题，并且以列方式独立地优化聚类指示符。也就是说，一列F（即，，fi）在每个时间被计算。具体来说，我们解决的子问题，在一个穷举搜索的方式，类似于传统的k-均值算法。关于第i列fi，其第j个条目的最优解可以通过下式有效地获得：.fji=1，j=arg minH（dii*bi，q），K0，否则，（十六）其中，所要求的是Qi和H（·，·）的向量，并且H（·，·）不表示H_a_d_i。注意，计算汉明距离比计算欧几里德距离要快得多，因此分配的向量fi将有效地构成矩阵F。6) α-Step：Lethv=<$B−（P v）<$φ（Xv）<$2+λ<$P v||2− λg（P v），问题（6）1 2w.r.t. α可以重写为Σmminα（α v）rhv，s.t.Σα v= 1，α v> 0。（十七）v=1v（17）的拉格朗日函数为minL（αv，ζ）=Σm（αv）rhv−（mαv−1），其中ζ是拉格朗日乘数。取偏导数w.r.t.αv和α v，分别，我们可以得到∂L∂αv =r（αv）r−1hv−ζ，∂L关于我们Σmv=1α v−1。1v（h）1−r（十八）根据[47]，通过设置αv，ζL= 0，α的最优解是1.一、v（hv）1−r为了获得问题（6）的局部最优解，我们迭代地更新上述六个变量直到收敛。为了处理例子外的问题，Imagec lusteringg，HSICneeddstogener atett. hebinarycoΣdeforranewquueryimgex？fromthehev-theview（i. e. ，x（v）bybv=sgn（Pv）ψ（x（v）），且对这两个方程都有意义j=argminkH（bv，qk）in thefatH. aΣmm i n g spa c e. 为穆乌特·穆尔西亚-查看新的clusteringg，thecommonbinarrycodeofxisb=sgnmv=1（αv）r（P v）ψ（xv）.该操作通过F的唯一性来确定x的唯一性。这是一个完整的在算法1中示出了HSIC的学习过程。2.2复杂性和内存负载分析1）HSIC的主要计算负担在于压缩二进制表示学习和鲁棒离散簇结构学习。计算P_S和P_v的计算复杂度分别为O（K_S_IN）和O（m（K_IN））。计算B消耗O（KIN）。类似于[15]，构建离散簇结构需要O（N）的k次迭代的逐位运算符，其中距离计算每次仅需要O（1）。HSIC的总计算复杂度为F高度经济的多视图二进制压缩9我KO（t（（KS+mKI+ K）IN + K N）），其中在所有实验中t和K凭经验设定为10。一般而言，优化HSIC的计算复杂度与样本的数量是线性的，即，O（N）.2）在HSIC算法中，由于内存开销的原因，不可避免地要存储映射矩阵Ps和PV，分别需要O（lKS）和O（lKI）的内存开销。值得注意的是，学习的二进制表示和离散聚类质心仅需要按位存储器负载 O （ K（N+c）），这远小于需要O（d（N+c））实值数值存储占用的k3实验评价在本节中，我们在四个可扩展图像数据集上进行了多视图图像聚类实验，以使用四种常用的性能度量来评估HSIC的有效性。所有实验都是基于Matlab2013a使用具有Intel 3.4GHz CPU的标准Windows PC实现的。3.1实验设置数据集和特征：我们在四个图像数据集上进行实验，包括ILSVRC2012 1K [11]，Cifar-10 [18]，YouTube Faces（YTBF）[46]和NUS-WIDE [9].具体来说，我们从ILSVRC 2012 1 K中随机选择10个类，每个类1300张图像，表示为ImageNet-10，用于中等规模的多视图聚类研究。Cifar-10包含60， 000个微小的彩色图像，分为10个类别，每个类别6， 000个图像YTBF的一个子集包含来自89个不同人的182，881张人脸图像（每个人>1，200与[38]类似，我们收集NUS-WIDE的子集，包括21个最常见的概念，得到195， 834个图像，每个类别至少有3， 091个图像。由于NUS-WIDE中的一些图像被多个概念标记，为了简单起见，我们只选择最具代表性的一个标签作为其真实类别。在所有数据集上提取多个特征。具体来说，对于ImageNet-10，Cifar-10和YTBF，我们使用三种不同类型的特征，即、1450-d LBP、1024-d GIST和1152-d HOG。对于NUS-WIDE，采用五个公开可用的特征用于实验，即： 64 维颜色直方图（ CH ）、 225 维颜色矩（ CM ）、 144 维颜色相关（CORR）、73维边缘分布（EDH）和128维小波纹理（WT）。规格和参数：我们采用四种广泛使用的评估指标[28]进行聚类，包括聚类准确度（ACC），归一化互信息（NMI），纯度和F分数。此外，还比较了HSIC算法的计算时间和内存占用. 为了公平地比较不同的方法，我们根据原始论文使用默认或微调的参数设置运行所提供的代码。对于二进制聚类方法，128位代码长度用于所有数据集。对于HSIC的超参数λ1、λ2和λ3，我们首先采用网格搜索N在ImageNet-10上找到最佳值的策略（即，10−3，10−310- 5，分别-ly），然后为了简单起见直接在其他数据集上采用我们凭经验设r和δ= KS（即，共享二进制码的比率）为5和0。在所有实验中，Multi-view结果不包含“Multi-view”。对每种方法进行10次随机初始化，得到平均聚类结果。我们从三个角度进行了以下实验。首先，我们在中等规模数据集上验证了HSIC的各种特性，即，ImageNet-10.在这里，我们比较HSIC与SVIC和MVIC方法（包括实值和二进制方法）。其次，利用三个大规模数据集对HSIC进行了评估。10Z. Zhang等人表1：ImageNet-10上的性能比较。粗体黑色和蓝色数字分别表示最佳的单视图和多视图聚类结果公制ACC NMI纯度F评分特征LBPGIST生猪MulViewLBPGIST生猪MulViewLBPGIST生猪MulViewLBPGISTHOG MulView单视图算法k-平均值0.2265 0.3085 0.24920.30730.1120 0.18530.18030.2361 0.3098 0.24390.31330.16280.1970 0.13630.1996k-Medoids0.26050.07550.1721 0.12980.14610.19880.2852 0.23290.26901973年12月31日0.1874（b）在2005年12月31日之前，0.31130.10000.1541 0.12790.19660.22550.2805 0.27610.32540.16620.1827 0.18700.2122Nystr¨om0. 22340. 24590. 25440.29500.09360.1222 0.13170.17190.21810.2585 0.27410.33200.14900.1749 0.16390.2050NMF 0.2178 0.2540 0.25090.27370.10760.1353 0.14340.16100.21780.2614 0.27050.28870.15710.1798 0.16090.18540.2585 0.31920.25290.32840.13560.1806 0.12540.22150.22600.2660 0.27970.34472017年12月31日0.2301多视图算法0.2843 0.25160.28220.11310.1301 0.13680.21100.21490.3090 0.27960.29022019年12月31日0.2305机动车辆公里数0.30580.11810.1612 0.13720.18810.21150.3091 0.25380.30820.14610.1730 0.18610.21612009年12月31日0.31820.11730.1255 0.11520.16480.21170.2258 0.21680.32480.14030.1614 0.18130.1813多重NMF 0.2113 0.2639 0.25740.26320.0986 0.1732 0.16050.17080.2202 0.2735 0.28550.29050.15310.1789 0.18020.1906OMVC 0.2062 0.2706 0.25440.27390.11960.1613 0.12220.17440.19250.2611 0.25920.26370.13330.1739 0.17610.1885机动车辆安全理事会0.31910.12930.1593 0.12940.20970.21320.3126 0.28280.33930.14810.1909 0.19110.2180Binary Alg.ITQ+bk-平均值[15]0.18610.2923 0.25620.31010.06040.1746 0.12000.23040.18790.2842 0.26440.31680.12140.1954 0.16430.2032CKM[40] 0.17120.2382 0.19060.27940.03940.1352 0.07380.18230.17840.2556 0.19620.28440.11070.1687 0.13890.1990HSIC-TS 0.1829 0.3030 0.25230.35680.13670.1672 0.10130.23760.19350.3247 0.25770.36650.11940.1945 0.15250.23090.1951 0.2923 0.25160.37490.12890.1592 0.10150.24110.20620.3165 0.26250.37950.12520.1832 0.15660.2321HSIC（我们的）0.2275 0.3128 0.25970.38650.1396 0.1692 0.12190.25150.2131 0.32530.39050.13530.1929 0.17390.2530对于所有视频方法，来自所有视频的数据都是简单地一致的，以便在多个视频文件中使用。表2：ImageNet-10上不同方法的时间成本（秒）Alg.k-均值时间加速阿克-克梅恩斯提后加速比Nystr¨om提后加速比LSC-K提后加速比AMGL提后加速比MLAN提后加速比OMVC提后加速比CKM提后加速比HSIC-TS提后加速比HSIC（我们的）提后加速比LBP691×164.31×154.60×2110.33×16930.04×14310.05×6960.10×174.06×183.83 ×417.25 ×GIST431×113.91×113.91×2260.19×17300.03×15570.03×6160.07×113.91×162.69 ×410.75 ×生猪821×117.46×126.83×3310.25×18620.04×22260.04×6430.13×184.56×165.13 ×327.33 ×MulView 2011×219.57×1910.58×5030.40×38200.05×33360.06×11090.18×277.44×2010.05 ×540.20 ×挑战大规模MVIC问题。备注：基于ImageNet上的结果-10（参见表2），实值MVIC方法仅获得与k均值相当的结果，但它们非常耗时。此外，当应用那些MVIC方法（例如，例如，在一个实施例中，AMGL和MLAN）来存储数据集，我们会遇到“存储错误”因此，不对三个大规模数据集比较实值MVIC方法。第三，对我国的HSIC进行了实证分析。3.2在中等规模ImageNet-10我们将HSIC与几种最先进的聚类方法进行了比较，包括SVIC方法（即例如，k-means[16]，k-Medods[33]，Approximatekernelk-means[8]，Nystr¨om[6]，NMF[20]、LSC-K [7]）、MVIC方法（即， [31]第一次，他是一个很有才华的人。MultiNMF [22]、0MVC [37]、MVSC [21]）和两种现有的二进制聚类方法（即，ITQ+bk-意指[15]和CKM [41]）。另外，还比较HSIC的两个变体以显示其功效，即，HSIC与F-范数正则化二进制聚类（HSIC-F），和HSIC与二进制代码学习和离散聚类（HSIC-TS）的两个单独的步骤。类似于[21，22]，对于所有SVIC方法，我们简单地将所有视图的特征向量级联以用于“多视图”聚类。表1展示了所有聚类方法的性能。从表1中，我们可以观察到，在大多数情况下，我们的HSIC可以实现可比的SVIC结果，但优越的MVIC结果相比，所有的实值和二进制聚类方法。这表明HSIC在公共表示学习和鲁棒聚类结构学习上的有效性，特别是对于MVIC情况。此外，很明显，HSIC优于HSIC-F和HSIC-ST，这证明了联合学习框架的鲁棒性和有效性。高度经济的多视图二进制压缩11计算成本如表2所示。从其最后三列中，我们可以看到，由于汉明空间中的高效距离计算，与诸如k-均值和LSC-K的实值聚类方法相比，二进制聚类方法可以减少计算时间。特别是，我们的HSIC是比比较实值和二进制聚类方法，这也证明了开发的高效优化算法的优越性具体地，我们的用于MVIC的HSIC的加速非常清楚地达到40的裕度。20倍于k均值。对于内存占用，k-means和我们的HSIC分别需要361 MB和2. 73 MB，即使用HSIC可以减少132倍的内存为什么HSIC优于实值方法？表1清楚地示出了与实值聚类方法相比，HSIC实现了具有竞争力或优越的聚类性能。有利的表现主要来自于：1)HSIC极大地受益于所提出的有效的离散优化算法，使得学习的二进制表示可以消除原始实值特征中的如可见于图2、在编码空间中增强了同一类的2)对于图像聚类，二进制特征对局部变化更具鲁棒性，因为由变化的环境引起的小变化可以通过量化的二进制代码来消除3）HSIC是一个统一的最优二进制码和聚类结构的交互式学习框架，它被证明优于那些不相交的学习方法（例如，基于最优二进制码的聚类算法）。、LSC-K、NMF、MVSC、AMGL和MLAN）。3.3大规模数据集上的实验为了展示HSIC在大规模MVIC问题上的强大可扩展性，我们在三个大规模多视图数据集上将HSIC与几种最先进的可扩展聚类方法进行了聚类性能总结在表3中。鉴于这些结果，我们有以下观察：1）一般来说，MVIC比SVIC表现更好，这意味着有必要将多个特征的互补特性用于图像聚类。特别是，我们的HSIC实现了竞争力或更好的SVIC结果，但一致的最佳MVIC性能。这主要归功于自适应权值学习策略和对共享信息和个体信息的利用原始LBP500403020100-10-20-30原始要旨40200-20-40原始猪403020100-10-20-30级联MulView-50电话：+86-20 - 88888888传真：+86-20 -88888888-40-40-200204060-60电话：+86-20 - 88888888传真：+86-20 -88888888-40电话：+86-20 - 88888888传真：+86-20 - 88888888403020100-10-20-30LBP上的二进制码403020100-10-20-30Gist上的二进制码403020100-10-20-30HOG上的二元码403020100-10-20-30MulView上的二进制编码-40电话：+86-20 - 88888888传真：+86-20 -88888888-40-40-200204060-40电话：+86-20 - 88888888传真：+86-20 -88888888-40电话：+86-20 - 88888888传真：+86-20 - 88888888图2：从ImageNet-10中随机选择的5个类的t-SNE可视化。两行分别示出实值特征和基于128位HSIC的二进制码12Z. Zhang等人表3：三个大规模数据集的性能比较。较粗黑箭头蓝色数字分别表示最佳单视图和多视图结果度量Alg.k-均值k-均值++ k-中心点阿克-克梅恩斯LSC-K Nystr¨omITQ+bk-均值CKM HSIC-TS HSIC-F HSICCIFAR-10LBP0.21850.21820.21710.20660.25500.23390.23220.22250.24400.2536 0.2681ACCGIST0.28420.28450.24190.28470.30100.25920.27770.25210.32090.3456 0.3595生猪0.26610.27030.24560.26080.28380.24080.24810.22940.31780.3394 0.3389MulView0.28770.28820.26300.28790.34880.27470.27870.27030.37420.3809 0.3951LBP0.10440.10440.08620.10210.13030.09220.09630.10920.11050.1094 0.1220NMIGIST0.16920.16910.12380.16920.18690.12260.15020.11840.20630.2134 0.2299生猪0.16340.16450.13280.16070.16680.14150.15700.10340.20530.2199 0.2170MulView0.18030.18050.15650.18080.23820.15110.16130.14990.25470.2596 0.2629LBP0.24010.24000.23390.22750.27680.24450.24900.24760.25260.2697 0.2837纯度GIST0.30560.30520.24830.30540.33060.26260.28820.26490.36500.3651 0.3828生猪0.29430.29530.25610.28470.30390.26550.27560.23190.31990.3589 0.3481MulView0.31360.31380.29210.31480.37870.29750.29530.28460.39560.4045 0.4204LBP0.16770.16760.17030.16430.16920.15170.16850.15090.17170.1670 0.1721F-scoreGIST0.18660.18660.17440.18670.20440.16540.18080.16060.23180.2318 0.2397

下载后可阅读完整内容，剩余1页未读，立即下载