没有合适的资源?快使用搜索试试~ 我知道了~
1基于不变信息聚类的无监督图像分类与分割牛津大学xuji@robots.ox.ac.ukJoão F.牛津大学joao@robots.ox.ac.uk牛津大学Universityofvedaldi@robots.ox.ac.uk摘要我们提出了一个新的聚类目标,从头开始学习神经网络分类器,只给未标记的数据样本。该模型发现了准确匹配语义类的聚类,在8个无监督聚类基准中实现了最先进的结果,跨越了图像分类和分割。其中包括STL10(ImageNet的无监督变体)和CIFAR10,我们分别以6.6和9.5个绝对百分点的准确率该方法不专门用于计算机视觉,并且在任何配对的数据集样本上操作;在我们的实验中,我们使用随机变换来从每个图像中获得一对。经过训练的网络直接输出语义标签,而不是需要外部处理才能用于语义聚类的高维表示。我们的目标只是为了最大限度地提高每对课堂作业之间的互信息它很容易实现,并且严格基于信息论,这意味着我们可以毫不费力地避免其他聚类方法容易受到的退化解决方案除了完全非监督模式,我们还测试了两个半监督设置。第一个在STL 10分类上实现了88.8%的准确率,在所有现有方法(无论是监督,半监督还是无监督)上建立了新的全球最先进水平。第二个显示的鲁棒性减少90%的标签覆盖率,相关的应用程序,希望利用少量的标签。github.com/xu-ji/IIC1. 介绍大多数监督式深度学习方法需要大量手动标记的数据,这限制了它们在许多场景中的适用性。这对于大规模图像分类是正确的,对于分割(逐像素分类)更是如此,其中每个图像的注释成本这是非常高的[38,21]。另一方面,无监督聚类的目标是将数据点完全分组到类图1:在完全未标记的数据上使用IIC训练的模型学习聚类图像(顶部,STL 10)和补丁(底部,波茨坦3)。找到的原始聚类直接对应于语义类(狗、猫、卡车、道路、植被等)。以最先进的精确度训练是端到端的,随机初始化,在任何阶段都不使用任何技巧。没有标签[25]。许多作者试图将成熟的聚类算法与深度学习相结合,例如通过使用k-means风格目标进行自举网络训练[51,24,7]。然而,简单地组合聚类和表示学习方法通常会导致退化的解决方案[7,51]。正是为了防止这种退化,繁琐的管道-涉及预训练,特征后处理(白化或PCA),网络外部的聚类机制-已经发展[7,17,18,51]。在本文中,我们介绍了不变信息聚类(IIC),一种方法,解决这个问题,在一个更原则的方式。IIC是一种通用的聚类算法98659866直接将随机初始化的神经网络训练成分类函数,端到端并且没有任何标签。它涉及一个简单的目标函数,这是配对数据样本的函数分类之间的互信息输入数据可以是任何形式的,并且由于聚类空间是离散的,因此可以精确地计算互信息。尽管IIC简单,但它对影响其他方法的两个问题具有内在的鲁棒性。第一个是聚类退化,这是单个聚类支配预测或聚类消失的趋势(这可以用k均值观察到,特别是当与表示学习结合时[7])。由于互信息中的熵最大化分量,如果将所有图像分配到同一类,则损失不会最小化。同时,模型最好为每个图像确定地预测单个类别(即,one-hot)由于条件熵最小化(图1)。(3)第三章。第二个问题是具有未知或干扰项类的噪声数据(例如STL 10 [10IIC通过使用与主输出层平行的辅助输出层来解决这个问题,该辅助输出层被训练来产生过聚类(即,相同的损失函数,但比地面实况更大数量的聚类辅助过聚类是一种通用的技术,可以用于其他算法。IIC的这两个特征有助于使其成为我们的无监督基线中唯一一种足够强大的方法,可以使用STL 10的噪声未标记子集,这是ImageNet [14]的一个版本,专门设计为无监督聚类的基准。在本文的其余部分,我们首先解释语义聚类和中间表示学习之间的区别(第2节),这将我们的方法与无监督深度学习中的大多数工作分开。然后,我们描述了IIC在统计学习中的理论基础(第3节),证明了在瓶颈下最大化样本对之间的互信息是一个原则性的聚类目标,这相当于提取它们共享的抽象内容(共聚类)。我们建议,对于静态图像,一个简单的方法来生成对共享的抽象内容从未标记的数据是采取每个图像和它的随机变换,或每个补丁和邻居。我们表明,最大化MI自动避免了退化的解决方案,并且可以在分割的情况下被写为卷积,从而允许使用任何深度学习库进行有效的实现。我们在大量数据集(第4节)上进行了实验,包括STL,CIFAR,MNIST,COCO-Stuff和波茨坦,在所有情况下都建立了新的无监督聚类和分割技术,STL10,CIFAR 10和COCO-Stuff-3的结果分别为59.6%,61.7%和72.3%,击败了最接近的竞争对手(53.0%,52.2%,54.0%)。注意火车-CNN集群概率FC( | )���������(目的CNNFC���(���′|���’���′=������可选过聚类FCFC���������(���������(���������(图2:用于图像聚类的IIC虚线表示共享参数,g是随机变换,并且I表示互信息(等式10)。(三))。使用深度神经网络从头开始执行大规模的真实世界分割,而无需标签或算法,这是一项极具挑战性的任务,可以忽略不计。我们还进行了消融研究,并额外测试了两种半监督模式,在所有监督、半监督和无监督方法中,在STL 10上设置了88.8%的新的全局最新技术水平,并证明了当90%的标签被删除时,半监督准确性的鲁棒性2. 相关工作共聚类和互信息。使用信息作为学习表征的标准并不新鲜。其中最早的作品是贝克尔和欣顿[3]。更一般地说,从配对数据中学习已经在联合聚类[25,16]和其他建立在信息瓶颈原则[20]上的作品[50最近的几篇论文使用信息作为训练深度网络的工具。IMSAT [28]最大化数据及其表示之间的互信息,DeepINFOMAX [27]最大化空间保留特征和紧凑特征之间的信息。然而,IMSAT和DeepINFOMAX将信息与其他标准相结合,而在我们的方法中,信息是唯一使用的标准。此外,IMSAT和DeepINFOMAX都计算连续随机变量的互信息,这需要复杂的估计量[4],而IIC则通过简单而精确的计算来计算离散变量。最后,DeepINFOMAX考虑了特征x和它的确定性函数f(x)之间的信息I(x,f(x)),其原则上与熵H(x)相同;相比之下,在IIC中,信息并没有简单地减少到熵。语义聚类与中间表示学习。在语义聚类中,学习函数直接输出高级别的离散分配(即,9867图3:在随机初始化的连续时期中,在未标记的MNIST上使用IIC进行训练(左)。该网络直接输出输入图像的聚类分配概率,并且每个聚类分配概率通过10个聚类顶点的凸组合被渲染为坐标。由于整个数据集都显示在每个快照中,因此没有挑选。Ground truth标签(模型不可见)由颜色给出在每个集群中,显示其分配者的平均图像没有标签也没有启发式,IIC发现的集群完全对应于唯一的数字,具有one-hot某些预测(右)。语义)簇。另一方面,中间表示学习器产生连续的、分布式的、高维的表示,其必须例如通过k均值进行后处理,以获得无监督语义聚类所需的离散低基数分配后者包括诸如生成自动编码器图像重建[48]、三元组[46]和时空顺序或上下文预测[37,12,17]的目标,例如预测补丁接近度[30]、解决拼图[41]和修复[43]。注意,它还包括许多聚类方法(DeepCluster [7],范例[18]),其中聚类仅是辅助的;使用聚类式目标,但是不产生具有语义对应的组。例如,Deep-Cluster [7]是一种最先进的方法,用于使用过聚类作为代理任务来学习高度可转移的中间特征,但不会自动找到语义上有意义的聚类。由于这些方法使用与语义聚类目标分离的辅助对象,因此它们的表现比IIC(第4节)更差并不奇怪,IIC直接对其进行优化,使用最终聚类器隐式地包裹在内部来训练网络优化图像间距离。深度聚类的许多方法,无论是语义的还是辅助的,都利用近似给定分组标准的输入图像之间的距离函数聚集聚类[2]和HOG特征[13]的部分有序集[1]已用于对图像进行分组,并且范例[18]将组定义为应用于单个图像的随机变换的集合。注意,后者不容易扩展,特别是图像分割,其中单个200×200图像将需要40k类。[2018- 05- 18][2018 - 05 -18][2018 -ADC [24]和DEC [51]依赖于CNN固有的视觉一致性和解纠缠特性[23]来产生聚类分配,这些分配在每次迭代中进行处理和加强。后三种方法基于k-means风格机制来细化特征质心,这容易导致退化解决方案[7],因此需要明确的预防机制,例如预训练,聚类重新分配或通过PCA和白化进行特征清理[51,7]。不变性作为训练目标。优化功能输出,使其通过时空或非实质性失真是IIC与几项工作共享的想法,包括范例[18]、IMSAT [28]、邻近度预测[30]、Tagger [22]的去噪目标、时间慢度约束[55]以及优化特征以使其对局部图像变换保持不变[47,29]。更广泛地说,建模数据变换的问题在深度学习中受到了极大的关注,一个例子是变换自动编码器[26]。3. 方法首先,我们介绍了一个通用目标,不变信息聚类,它可以用来聚类任何类型的未标记的配对数据,通过训练网络来预测聚类身份(第3.1节)。然后,我们将其应用于图像聚类(第3.2节,图2和图3)和分割(第3.3节),通过使用随机变换和空间接近度生成所需的配对数据。3.1. 不变信息聚类设x,x′∈X是来自联合概率分布P(x,x′)的成对数据样本。例如,x和x′可以是包含相同对象的不同图像。目标不变信息聚类(IIC)的基本思想是学习一个表示Φ:X → Y,它保留了x和x′之间的共同点,同时丢弃了特定于实例的细节。前者可以通过最大化相互影响来实现编码变量之间的形成:maxI(Φ(x),Φ(x′)),(1)Φ这相当于最大限度地提高了Φ(x)与Φ(x′)的关系,反之亦然。方程eq的影响(1)一般来说,是使成对样本的表示相同。然而,它与仅仅最小化表示距离不同,例如在基于k均值的方法中所做的那样[7,24]:I内熵的存在允许我们避免简并,如下面详细讨论的。如果Φ是具有小输出容量(通常称为“瓶颈”)的神经网络,则等式(1)还具有从数据中丢弃实例特定细节的效果。聚类强加了一个自然的瓶颈,因为表示9868我我空间是Y={1,. . .,C},类索引的有限集合(与无限向量空间相对)。没有瓶颈即假设无限容量,等式由于数据处理不等式[11],即I(x,x′)≥I(Φ(x),Φ(x′)),故将Φ设为恒等函数,可简单地求解方程(1)。由于我们的目标是学习具有深度在神经网络中,我们考虑软聚类而不是硬聚类,这意味着神经网络Φ由(可重构的)softmax层终止。则输出Φ(x)∈[0,1]C可以解释为离散随机变量的分布。在C类上的able z,形式上由P(z=c)给出|x)= Φc(x)。使输出具有概率意味着允许分配给输入的聚类中的不确定性。现在考虑分别针对两个输入x和x’的一对这样的集群分配变量z和z’它们的条件联合分布由P(z =c,z′=c′)给出|x,x′)=Φc(x)·Φc′(x′)。 该等式表明,当以特定输入x和x'为条件时,z和z'是独立的;然而,通常,在输入对(x i,x ')的数据集上边缘化之后,它们不是独立的,i = 1,. . . ,n. 例如,对于训练的分类网络Φ和图像对的数据集,其中每个图像包含其对中的相同对象,但在随机不同的分类中。位置时,由每对中第一个类z构成的随机变量将与每对中第二个类z′的随机变量具有很强的统计关系;一个是另一个的预测(在这种情况下,实际上是相同的),因此它们高度相关。在对数据集(或实际上是批处理)进行边缘化之后,联合概率分布由C×C矩阵P给出,其中行c和列c′处的每个元素构成Pcc′=P(z=c,z′=c′):1ΣnH(z)的最大值是lnC,这是在所有聚类被同等可能地挑选时获得的。当数据在聚类之间均匀分配时,会发生这种情况,从而使它们的质量相等。因此,如果所有样本被分配到单个聚类(即,输出类对于所有样本是相同的)。因此,由于最大化互信息自然地平衡了预测的强化与质量均衡,它避免了将k均值与表示学习相结合的算法容易出现的退化解决方案的趋势[7]。对于熵最大化的进一步讨论,以及如何用熵系数优先考虑它,请参阅补充材料。互信息的含义。读者现在可能想知道最大化相互信息的好处是什么,而不仅仅是最大化熵。首先,由于软聚类,可以通过将所有预测向量Φ(X)设置为均匀分布来简单地最大化熵,从而导致没有聚类。这是由条件熵分量校正的,其鼓励确定性的独热预测。例如,即使对于相同对x=x′的退化情况,IIC目标也鼓励确定性聚类函数(即,Φ(X)是独热向量),因为这导致空条件熵H(z|z′)= 0.其次,IIC的目标是找到共享冗余的两个数据点之间的共同点,例如同一物体的不同图像,明确地鼓励提炼公共部分而忽略其余部分,即,特定于其中一个示例的实例详细信息。如果没有配对样本,这是不可能的。3.2. 图像聚类IIC需要成对样本(x,x′)的源,这在无监督图像聚类中通常是不可用的。P= n i=1Φ(xi)·Φ(x′)。(二)褶皱在这种情况下,我们建议使用生成的图像对,由图像x及其随机扰动的ver组成,边值Pc=P(z=c)和Pc′=P(z′=c′)可以通过对行和列求和来获得,这个矩阵。正如我们通常考虑对称问题,其中对于每个(x,x′),我们也有(x′,x),P是sym-sionx′=gx.目标EQ。(1)可以写成:maxI(Φ(x),Φ(gx)),(4)Φ我我我使用(P+P)/2进行度量。现在目标函数eq。可以通过将矩阵P插入到相互信息的表达式[36]中来计算,这导致公式:其中图像x和变换g都是随机变量。 有用的g可以包括缩放、偏斜、旋转或缩放。翻转(几何)、改变对比度和颜色饱和度(光度),或任何其他可能I(z,z′)=I(P)=ΣCc=1ΣCc′=1Pcc′·lnPc′Pc·Pc′.(三)保持图像的内容不变。 然后可以使用以恢复对于所述对中的哪个被拾取不变其效果是学习一个函数,该函数将为什么要避免退化解。互信息(3)扩展为I(z,z′)=H(z)−H(z|z′)。因此,最大化该数量权衡最小化条件聚类分配熵H(z|z′)和最大化个体聚类分配熵H(z)。H(z)的最小值|z′)是0,当簇as-1可以彼此精确预测时获得。的数据,使集群接近扰动,与-退出丢弃群集。这个目标很简单,可以用六行PyTorch代码来编写(图2)。4).辅助过聚类。对于某些数据集(例如,STL 10),训练数据有两种类型:一个已知仅包含相关类,而另一个已知包含不相关或干扰类。最好是训练一个9869u+tdefIIC(z,zt,C=10):P =(z.unsqueeze(2)*zt.unsqueeze(1)).sum(dim=0)P =((P + P.t())/ 2)/P.sum()P[(P EPS).data] = EPSPi = P.sum(dim=1).view(C,1).expand(C,C)Pj = P.sum(dim=0).view(1,C).expand(C,C)图4:PyTorch中的IIC目标输入z和zt是n×C矩阵,具有针对n个采样对的C个预测聚类概率(即 CNN软最大预测)。例如,数据集中每个图像的预测以及其变换版本(例如,使用标准数据扩充)。- 专用于相关类的聚类器,其仍然受益于由干扰项类提供的上下文,因为后者通常大得多(例如,与STL 10的13 K相比,100 K我们的解决方案是在网络中添加一个辅助的过聚类头(图2)。2)使用完整的数据集进行训练这允许我们利用噪声未标记的子集,尽管是一个无监督的聚类方法。其他方法通常不足以鲁棒地这样做,因此避免了100k个样本因此,对于整个图像聚类也可以应用于单独的块。然而,通过扰动整个图像来并行地变换所有块,而不是单独地变换块,这要有效得多这些不变性的任何数量或组合可以被链接并同时学习;唯一的细节是确保原始图像和变换图像类概率张量的索引对齐,这意味着来自打算配对在一起的块的预测也是如此。形式上,如果图像变换g是几何变换,则聚类概率的向量Φu(x)将不对应于Φu(gx);相反,它将对应于Φg(u)(gx),因为块xu通过变换被发送到块xg(u)。 所有的向量可以通过对张量Φ(gx)应用逆变换g − 1来一次配对,如[g−1Φ(gx)]u=Φg(u)(gx)。例如,翻转输入图像将需要翻转结果概率张量回来了一般来说,扰动g可以合并几何和光度变换,而g−1只需要撤销几何变换。因此,分割目标是当训练无监督时,clustering([8,24,51]). 由于辅助过聚类1MaxΣI(Pt),(5)头部输出对大量群集的预测Φ|不|t∈T卷积¸而不是地面事实,同时仍然保持预测1ΣnΣΣx `这是匹配的地面真值数量的集群(主要的头),它可以是有用的,在一般情况下,增加表达。Pt=n|G||Ω|i=1g∈G u∈GΦu(xi)·[g−1Φ(gxi)].在学习的特征表示中,即使对于没有干扰项类的数据集[7]。3.3. 图像分割IIC同样适用于图像分割 图像聚类,除了两个修改。首先,由于对每个像素进行密集预测,因此聚类应用于图像块(由神经网络的每个输出像素的感受野定义)而不是整个图像。其次,与整个图像不同,人们可以访问补丁之间的空间关系。因此,我们可以将局部空间不变性添加到第3.2节中的几何和光度不变性列表中,这意味着我们不仅通过合成扰动,而且还通过提取图像中的相邻斑块对来具体地,设RGB图像x∈R3×H×W为张量,u∈ Ω ={1,. . . ,H} × {1,. . . ,W}像素位置,以及xu一个以u为中心的面片。我们可以通过观察位置u和它的邻居u+t在某个小位移t∈T<$Z2处形成一对斑块(xu,xu+t)。所有补丁x u的聚类概率向量可以读取为张量Φ (x)∈ [0,1] C×H×W 的列向量Φ(xu)=Φu(x)∈[0,1]C,通过卷积网络Φ的单次应用计算。然后,为了应用IIC,在联合概率矩阵(2 )的计算中简单地代入对(Φu (x), Φu+t(x))所使用的几何和光度扰动是-因此,目标是最大化每个块标签Φu(xi)与其变换的相邻块的块标签[g-1Φ(gxi)]u+t之间的信息,期望在图像i= 1,. . .,n,每个图像内的补丁u∈Ω,以及扰动g∈G。信息依次在所有相邻位移t∈T上平均(发现这比在计算之前在t上平均稍好信息;参见补充材料)。实施. eq 的联合分布。 (5)对于所有的位移,t∈T都可以用一种简单而高效的方法计算。给定一批图像对y = Φ(x),y′= Φ(gx)的两个网络输出,其中y,y′∈Rn×C×H×W,我们首先通过使用双线性重采样器1[32]将y ′带回y的坐标空间,该重采样器反转g中的n y几何变换,y′←g−1y′。然后,在等式中的内求和。(5)简化为卷积两个张量使用任何标准的深度学习框架,这可以通过交换y和y’中的每一个的前两个维度、计算P=y*y’(在两个维度中填充d的2D卷积)以及归一化来结果产生P ∈ [0,1]C×C×(2d+1)×(2d+1).4. 实验我们将IIC应用于完全无监督的图像聚类和分割,以及两个半监督设置。前-1空间Transformer网络中的核心可微算子[32]。9870STL10CIFAR10 CFR100-20 MNIST形式G,由随机加性和乘性颜色变换以及水平翻转组成),并且在测试时间对于所有实验使用单个中心裁剪,除了半监督微调,其中使用10个裁剪。架构所有的网络都是随机初始化的,并且由一个ResNet或类似VGG11的base b组成(参见sup. 垫),跟随一个或多个头部(线性预测器)。让基础事实簇的数量是kgt,并且输出改变。头的两个角是K。对于IIC,有一个k=kgt的主输出头和一个辅助过聚类头(图2)。(二)其中k > kgt. 对于半监督过聚类,表1:无监督图像聚类。图例:t基于k均值的方法。不直接学习聚类函数,需要进一步应用k-means来进行图像聚类的方法。使用我们的实验与作者的原始代码获得的结果STL10无辅助过聚类43.8单分水头(h= 1)57.6无样本重复(r= 1)47.0未标记的数据段被忽略49.9全设置59.6表2:IIC的消融(无监督设置)。 每一行显示一个相对于完整设置的变化完整的设置有辅助overclus- tering,5个初始化头,5个样本重复,并使用STL 10的未标记在所有情况下,都优于基线。我们还通过消融研究对我们的方法进行了分析。有关次要细节,请参见补充材料。4.1. 图像聚类数据集。我们在STL 10上进行了测试,STL 10是适用于无监督分类的ImageNet,以及CIFAR 10,CIFAR100 -20和MNIST。主要设置是纯无监督聚类(IIC),但我们也测试了两个半监督设置:微调和过度聚类。对于无监督聚类,遵循以前的工作[8,51,52],我们在完整的数据集上训练并在标记部分上测试;对于半监督设置,训练集和测试集是分开的。至于DeepCluster [7],我们发现Sobel过滤这是有益的,因为它不鼓励基于颜色等琐碎线索的聚类,并鼓励使用更有意义的线索,如形状。此外,对于数据扩充,我们在每个批次中重复图像r次;这意味着一个批次中的多个图像对包含相同的原始图像,每个图像对都与不同的变换配对,这鼓励了更大的蒸馏,因为有更多的视觉细节可以忽略的例子(第第3.1节)。对于所有实验,我们设置r∈[1,5]。图像被重新缩放和裁剪以进行训练(在应用trans-mapping之前)。一个输出头,k > kgt。为了增加鲁棒性,每个头被重复h= 5次,具有不同的随机初始化,并且我们称这些具体实例化子头。每个子头从b中提取特征,并输出每个批处理元素在相关数量的聚类上的概率分布对于半监督微调(表3),从半监督上聚类网络复制基础,并与单个随机初始化的线性层组合,其中k=kgt。训练 我们使用亚当优化器[33],学习率为10- 4。对于IIC,通过最大化eq来训练主头和辅助头。(3)交替时期。对于半监督过聚类,通过最大化等式来训练单头。(三)、半监督微调使用标准的逻辑损失。评价我们根据准确度进行评估(真阳性除以样本量)。对于IIC,我们遵循标准协议,即在学习的聚类和真实聚类之间找到最佳的一对一置换映射(从主输出头;忽略辅助过聚类头)使用线性分配[35]。虽然这个步骤使用标签,但它并不构成学习,因为它只是使度量对聚类的顺序不变。对于半监督过聚类,每个地面实况聚类可以对应于若干预测聚类的联合。因此,评估需要从k到kgt的多对一离散映射,因为k > kgt。这从标签中提取了一些信息,因此需要单独的训练集和测试集。注意,该映射是使用训练集找到的(在测试集上计算准确度),并且不影响网络参数,因为它仅用于评估。对于半监督微调,输出通道顺序匹配地面实况,因此不需要映射。各分项独立评估;我们报告平均和最好的子标题(由最低IIC损失选择)性能。无监督学习分析IIC非常有能力在未标记的数据中发现准确对应于底层语义类的聚类,并且在此任务中优于所有竞争基线(表1),显著的利润率为6。6%和9。在STL 10和CI的情况下为5%随机网络13.513.15.9326.1K-means [53]†19.222.913.057.2光谱聚类[49]15.924.713.669.6三胞胎[46]‡24.420.59.9452.5AE [5]‡30.331.416.581.2[40]第四十32.029.715.782.7去噪AE [48]30.229.715.183.2[34]第34话28.229.115.283.2[54]第54话27.028.414.782.5GAN 2015 [45]29.831.515.182.8[52]第52话27.727.213.796.42016年12月[51]†35.930.118.584.32017年DAC大会[8]47.052.223.897.8DeepCluster 2018 [7]33.4米37.4米18.9米65.6[24]第二十四话53.032.516.099.2最低损耗分水头59.661.725.799.2IIC(平均分接头±标准)59.8±0.84457.6±5.0125.5±0.46298.4±0.6529871猫狗鸟鹿猴汽车飞机卡车图5:STL10上的无监督图像聚类(IIC)结果。来自最佳性能头的预测的聚类概率被示出为条。 预测对应于最高的,地面实况是绿色的,错误预测的类是红色的,并且所有其他的是蓝色的。最下面一行显示了失败案例。表3:完全和半监督分类。注:* 完全监督方法。 我们对作者代码的实验。†多重评价。图6:半监督过聚类。使用IIC损失训练过度聚类(k> kgt),并仅使用标签进行评估映射。即使丢弃了90%-75%的标签(左和中),性能也是稳健的。STL 10-r表示输出k= 1的网络。4r.总体精度随着输出聚类数k(右)的增加而提高。详情见补充材料。FAR10如第2节所述,这强调了端到端优化的优势,而不是使用固定的IIC发现的聚类具有高度的区分性(图1)。 5),虽然注意到一些失败的情况;由于IIC提取的是图像中纯粹视觉上的对应关系,因此它可能会被组合类的实例所混淆,例如鹿与猫的皮毛图案。我们的消融(表2)说明了各种实现细节的贡献,特别是使用辅助过聚类的准确性增益。半监督学习分析。对于半监督学习,我们通过对训练好的网络进行微调,在所有报道的方法中,在STL10上建立了一个新的最先进的方法以完全无监督的方式与IIC目标(半监督过聚类中的召回标签用于评估,并且不影响网络参数)。这明确地验证了我们的非监督学习方法的质量,因为我们甚至击败了最先进的监督学习方法(表3)。考虑到半监督过聚类中的大部分参数是未经监督训练的(即,所有网络参数),图6显示STL10的可用标签数量下降了90%(在10个类中将可用的标记数据量从5000减少到500)几乎没有影响,这并不奇怪性能,成本仅为10%,准确性下降这种设置对标签的要求比微调低,因为后者学习所有网络参数,而前者仅需要学习k和kgt之间的离散映射,这使得它成为具有少量标记数据的应用的重要实际设置。4.2. 分割数据集。使用深度神经网络对真实世界数据进行大规模分割我们在场景和卫星图像上建立了新的基线,以实现纹理类的高光性能,其中空间邻近不变性的假设(第3.3节)最为有效。COCO-Stuff [6]是一个具有挑战性和多样性的分割数据集,包含从建筑物到水体的“东西”类。我们使用15个粗略标签和164k图像变体,通过仅拍摄至少75%填充像素的图像减少到52k。COCO-Stuff-3是COCO-Stuff的子集,只有天空,地面和植物。铃响了。对于两个COCO数据集,输入图像缩小三分之二并裁剪为128×128像素,Sobel预处理应用于数据增强,并且忽略对非填充像素的预测。波茨坦[31]分为8550 RGBIR200×200 px卫星图像,其中3150人无证我们测试了6标签变体(道路和汽车,植被和树木,建筑物和杂物)和一个3标签的变体(波茨坦-3)形成的合并的3对。所有分割训练和测试集都已随我们的代码发布。STL102015年多索维茨基[18]†74.2SWWAE 2015 [54]†74.3[19]第十九话74.1[15]第十五话87.32017年[42]†76.0[42]第42话87.6DeepCluster 2018 [7]73.4米[24]第二十四话56.7米[27]第27届中国国际石油化工展览会77.0IIC plusfinetune†79.2IIC plus finetune88.89872图7:示例分割结果(无监督和半监督)。左:COCO-Stuff-3(黑色的非填充像素),右:波茨坦-3。显示了输入图像、IIC(完全无监督分割)和IIC*(半监督过聚类)结果以及地面实况分割(GT)。COCO-Stuff-3 COCO-Stuff Potsdam-3波茨坦随机CNN37.319.438.228.3K-means [44]†52.214.145.735.3SIFT [39]‡38.120.238.228.5Doersch 2015 [17]47.523.149.637.2Isola 2016年[30]54.024.363.944.9DeepCluster 2018 [7]41.619.941.729.2IIC72.327.765.145.4表4:无监督分割。IIC实验使用单个子标题。图例:t基于k均值的方法。不直接学习聚类函数,需要进一步应用k-均值来用于图像聚类。架构所有的网络都是随机初始化的,并且由一个基本的CNNb组成(参见sup.垫)然后是头,它是1×1卷积层。与第4.1节类似,过聚类使用比kgt高3-5倍的k。由于分割比图像聚类昂贵得多(例如,一个200×200的波茨坦图像包含40,000个预测),运行所有分割实验其中h= 1且r= 1(sec.4.1)。训练IIC(eq. (5)),其中d= 10。对于Potsdam-3和COCO- Stuff-3,可选熵系数(第3.1节和sup.垫)并设置为1.5。使用该系数后,性能略有提高,提高幅度为1.2%-3.2%这两个数据集在性质上是平衡的,具有非常大的样品体积(例如,40,000×75预测每批次波茨坦-3)导致稳定和平衡的批次,justi-平等优先。其他培训详情与第4.1节相同。评价评估使用如第4.1节中的准确度,按像素计算。对于基线,原始作者对于需要应用k均值来产生每像素预测的基线(表4),用来自训练集(10M)的随机采样的像素特征来对于波茨坦,波茨坦-3; COCO-Stuff、COCO-Stuff-3的测量值为50 M),并在完整测试集上进行测试以获得准确度。分析. 在没有标签或分类学的情况下,只要给出聚类基数(3),IIC就会自动将COCO-Stuff-3划分为可识别为天空、植被和地面的聚类,并学习对波茨坦-3的植被、道路和建筑物进行分类(图3)。(七).分割是非常复杂的,捕捉精细的细节,但同时在所有图像中局部一致和连贯。由于空间平滑性被构建到损失中(第3.3节),因此我们的所有结果都能够使用原始网络输出而无需后处理(避免例如CRF平滑[9])。从数量上看,我们的表现超过了所有的基准线(表4),特别是18. 在COCO-Stuff-3的情况下为3%。损失的有效卷积公式(等式1)(5))允许我们并行地优化所有批次图像中的所有像素这与我们的基线形成对比,我们的基线不是原生地适于分割,需要对每个批次内的像素的子集进行导致损失波动性增加,训练速度比IIC慢 3.3倍5. 结论我们已经证明了,在不使用标签或分类的情况下,可以将神经提出的新目标依赖于统计学习,通过优化相关对之间的互信息-可以通过随机变换- 并且自然地避免退化解。由此产生的模型分类和分割图像与国家的最先进的水平的语义准确性。由于不特定于视觉,该方法开辟了许多有趣的研究方向,包括随着时间的推移优化数据流中的信息致谢。我们感谢ERC StG IDIU-638009和EPSRC AIMSCDT的支持。9873引用[1] Miguel A Bautista、Artsiom Sanakoyeu和Bjorn Ommer。使用部分有序集的深度无监督相似性学习。在IEEE计算机视觉和模式识别集,第7130-7139页,2017年。3[2] Miguel A Bautista 、 Artsiom Sanakoyeu 、 EkaterinaTikhoncheva和Bjorn Ommer。Cliquecnn:深度无监督范例学习。神经信息处理系统进展,第3846-3854页,2016年。3[3] 苏珊娜·贝克尔和杰弗里·E·辛顿。自组织神经网络,发现表面在随机点立体图。自然,355(6356):161,1992. 2[4] Ishmael Belghazi , Sai Rajeswar , Aristide Baratin , RDevon Hjelm,and Aaron Courville.我的:互信息神经估计。arXiv预印本arXiv:1801.04062,2018。2[5] Yoshua Bengio、Pascal Lamblin、Dan Popovici和HugoLarochelle。贪婪的深度网络分层训练。神经信息处理系统的进展,第153-160页,2007年。6[6] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可 可 - 东西:上下文中的事物和东西类。arXiv预印本arXiv:1612.03716,2016。7[7] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。arXiv预印本arXiv:1807.05520,2018。一二三四五六七八[8] 常建龙,王凌峰,孟高峰,向世明,潘春红。深度自适应图像聚类。在IEEE计算机视觉和模式识别会议论文集,第5879-5887页三五六[9] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2018。8[10] Adam Coates,Andrew Ng,and Honglak Lee. 无监督特征学习中单层网络的分析第十四届人工智能和统计国际会议论文集,第215-223页,2011年2[11] Thomas M Cover和Joy A Thomas 信息理论的要素。JohnWiley Sons,2012. 4[12] Rodrigo Santa Cruz,Basura Fernando,Anoop Cherian,and Stephen Gould. Deeppermnet:视觉排列学习。arXiv预印本arXiv:1704.02729,2017。3[13] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在计算机视觉和模式识别,2005年。CVPR2005。IEEE计算机协会会议,第1卷,第886-893页。IEEE,2005年。3[14] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。2[15] Terrance DeVries和Graham W Taylor。改进的卷积神经网 络 的 正 则 化 。 arXiv 预 印 本 arXiv : 1708.04552 ,2017。7[16] Inderjit S Dhillon,Subramanyam Mallela,and Dharmen-dra S Modha.信息论联合聚类。在第九届ACM SIGKDD国际知识发现和数据挖掘会议上,第89ACM,2003年。2[17] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE InternationalConference on Computer Vision的Proceedings,第1422-1430页,2015年。一、三、八[18] Alexey Dosovitskiy , Philipp Fischer , Jost TobiasSpringenberg,Martin Riedmiller,and Th
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功