没有合适的资源?快使用搜索试试~ 我知道了~
12085TF·用于深度无监督图像检索的自监督乘积量化杨均张南益赵韩国首尔国立大学,韩国国立首尔大学,韩国国立首尔大学网址:kyun0914@ispl.snu.ac.kr,nicho@snu.ac.kr摘要基于监督深度学习的哈希和向量量化正在实现快速和大规模的图像检索系统。通过充分利用标签注释,他们实现了出色的检索性能相比,传统的方法。 然而,为大量的训练数据精确地分配标签是费力的,并且注释过程也容易出错。为了解决这些问题,我们提出了第一种深度非监督图像检索方法,称为S自监督产品量化(SPQ)网络,它是无标签的,并以自监督的方式进行训练我们设计了一种交叉量化对比学习策略,通过比较单独变换的图像(视图)来联合学习码字和深度视觉描述符。我们的方法分析了图像内容,提取描述性特征,al-lysis。$i简体中文(a) 对比学习$i简体中文$i简体中文$i简体中文这使得我们理解图像表示以进行准确检索。通过对基准点进行广泛的实验,我们证明了所提出的方法即使在没有监督的预训练的情况下也能产生最先进的结果1. 介绍近似最近邻(ANN)搜索以其存储开销小、搜索速度快等优点在图像检索研究中受到广泛关注。ANN研究中有两种主流方法,一种是Hash[42],另一种是矢量量化(VQ)[16]。这两种方法的目标都是在保持语义相似性的同时将高维图像数据转换为紧凑的二进制代码,其中区别在于测量二进制代码之间的在散列方法[7,43,17,15,32]的情况下,使用汉明距离计算二进制代码之间的距离,即,简单的XOR运算。然而,该方法具有距离只能用几个不同值表示的限制,其中复杂距离表示是不可能的。为了缓解这个问题,(b) 交叉量化对比学习(我们的)图1.(a)对比学习和(b)交叉量化对比学习的比较。将单独采样的两个变换(t,t′ )应用于图像x以生成两个不同的视图x~i和x~j,并且从特征提取器获得对应的深度描述符x(i)和x(j(),分别。对比学习中的特征表示是通过比较投影头输出zi和zj之间的相似性来实现的。而不是投影,我们引入了量化头,它收集码本的产品quantization- tion。通过最大化一个视图的深度描述符与另一个视图的乘积量化描述符之间的交叉相似性,码字和深度描述符两者被联合训练以包含区分性图像内容表示。已经提出了基于VQ的方法[23,13,24,2,48,3,49],替代地在距离测量中利用量化的其中,产品量化(PQ)[23]是最好的方法之一,可以非常快速准确地提供PQ的本质是将特征向量(图像描述符)的高维空间分解成若干子空间的笛卡尔积。然后,每个IM-伊(,j(伊(j(12086将年龄描述符按子空间划分为若干个子向量因此,每个子空间的码本被配置有对应的质心(码字),其被视为图像的量化表示。PQ方案中的两个不同二进制码之间的距离通过利用具有查找表的实值码字来非对称地近似,从而产生比散列更丰富的最近,有监督的深度哈希方法[44,5,22,29,47]显示出大规模图像检索系统的有希望的结果。然而,由于二进制哈希码不能直接应用于学习深度连续表示,与使用实向量的检索相比,性能下降是不可避免的。为了解决这个问题,在[20,4,46,31,26,21]中已经提出了通过在连续深度图像特征向量(深度描述符)上引入不同的量化方法,允许在实值空间中直接学习深度表示。尽管深度监督图像检索系统提供了出色的性能,但它们需要昂贵的训练数据注释。因此,还提出了深度无监督散列方法[30,11,39,50,41,14,36,45,37],其研究图像相似性以发现没有注释的语义可区分的二进制代码。然而,虽然基于量化的方法具有优于基于散列的方法的优点,但是仅存在采用量化进行深度无监督检索的有限研究例如,[35]采用预提取的视觉描述符代替图像进行无监督量化。在本文中,我们提出了第一个无监督的端到端的基于深度量化的图像检索方法;自监督乘积量化(SPQ)网络,其联合学习特征提取器和码字。如图1所示,SPQ的主要思想是基于自监督对比学习[8,40,6]。我们认为单个图像的两个不同“视图”(单独变换的输出)是相关的,并且相反地,从其他图像生成的视图是不相关的。为了训练PQ码字,我们引入交叉量化对比学习,其最大化相关深度描述符和乘积量化描述符之间的交叉相似性。这种策略导致深度描述符和PQ码字都变得有区别,从而允许SPQ框架实现高检索准确性。为了证明我们的建议的效率,我们在各种训练条件下进行实验具体来说,与以前的方法不同,这些方法利用从大型标记数据集学习的预训练模型权重,我们使用排除人类监督的“真正”无监督设置进行实验尽管没有标签信息,SPQ实现了最先进的性能。我们工作的贡献总结如下:• 据我们所知,SPQ是第一个基于深度非监督量化的图像检索方案,其中特征提取和量化都包含在单个框架中,并以自监督方式进行训练。• 通过引入交叉量化对比学习策略,从两个不同的角度联合学习深度描述符和PQ码字,提供有区别的表示以获得高检索分数。• 在快速图像检索协议数据集上进行的大量实验验证了我们的SPQ即使在真正的无监督设置下也具有最先进的检索性能。2. 相关作品本节根据是否使用深度学习(传统方法与深度方法)对图像检索算法进行分类,并简要说明方法。为了更全面的了解,请参阅调查文件[42]。常规方法。快速图像检索的最常见的策略之一是散列。对于一些示例,局部敏感性散列(LSH)[7]采用随机线性投影来散列。谱散列(SH)[43]和离散图散列(DGH)[32]利用基于图的方法来保留原始特征空间的数据相似性K均值散列(KMH)[17]和迭代量化(ITQ)[15]专注于最小化将原始特征映射到离散二进制代码时发生的另一种快速图像检索策略是矢量量化。有乘积量化(PQ)[23]及其改进的变体;优化PQ(OPQ)[13]、局部优化PQ(LOPQ)[24]以及具有不同量化器的方法,例如加法[2]、复合[48]、树[3]和稀疏复合量化器[49]。我们的SPQ属于PQ家族,其中深特征数据空间被划分为几个不相交的子空间。然后用我们提出的损失函数训练划分的深度子向量以找到最佳码字。深奥的方法。基于监督的深度卷积神经网络(CNN)的散列方法[44,5,22,29,47]在许多图像检索任务中表现出优异的性能。还有基于量化的深度图像检索方法[4,26],其使用预训练的CNN并微调网络以一起训练鲁棒的码字。为了改进,在[46,31,21]中应用度量学习方案以学习码字和深度表示以及成对语义相似性。注意我们12087C1X11X21X31X41C2X32X12X22X42·联系我们Q东凤企业股份有限公司∼联系我们联系我们∈n=1X{}∈FQX{}Q联系我们R›→RQ子向量码字深度描述符乘积量化描述符相关不相关功能E拖拉机:���量化头:5交叉量化对比学习x^x^,z^图2. SPQ中的特征提取、量化和训练过程的说明。随机采样的数据增强技术(tnT)应用于x1和x2,以产生变换图像(不同的视图)。有两个可训练的组件;(1)基于CNN的特征提取器,以及(2)量化头,其收集多个码本以进行乘积量化。例如,我们建立了两个码本C1和C2,并在中说明了二维概念Voronoi图。深度描述器的原始特征空间(特征向量x?nR(D)被划分成两个子空间并且生成子向量;其中m=l、2和xnm。RD/2。通过在每个xnm上采用软量化器qm(),子量化描述符znm=qm(xnm)用码字的组合来近似。值得注意的是,表示相似特征的子向量被分配给相同的码字。输出乘积量化描述符n通过沿着D维度级联子量化描述符来获得RD。 为了更好地理解,我们将与x 1相关的特征表示绘制为蓝色,将x2绘制为红色。考虑到x和z之间的交叉相似性为:,则训练网络以理解区分性图像内容,同时将频繁出现的局部模式收集到码字中。还利用一种度量学习,即,对比学习;然而,我们的方法在学习码字时不需要标签信息。关于无监督深度图像检索,大多数工作是基于散列。具体地说,在[11,39,50,14]中利用生成机制,并且基于图技术在[36,37]中使用值得注意的是,DeepBit [30]与SPQ具有相似的概念,因为变换后的图像与原始图像之间的距离最小化。然而,散列码表示具有仅利用简单旋转变换的限制。在深度量化方面,只有一项被称为无监督神经量化(UNQ)的研究[35],它使用预先提取的视觉描述符,而不是使用图像本身来寻找码字。为了提高图像描述符和码字的质量,用于无监督的基于深度PQ的检索,我们使用特征提取器来配置SPQ以探索整个图像信息。然后,我们以自我监督的方式联合学习SPQ的每个组件。与[8,40,6]类似,数据集的全部知识通过几种变换来增强,例如裁剪和调整大小、翻转、颜色扭曲和高斯模糊。通过交叉对比不同增强的图像,图像描述符和码字都变得有区别,以实现高检索分数。3. 自监督乘积量化3.1. 总体框架图像检索模型的目标是学习映射:xb其中表示整个系统,x是包括在数据集中的图像=xnNN列车-ing样本,并且b是B比特二进制码b∈{0,1}B。如图2所示,SPQ的R包含基于深度CNN的特征提取器。(x;θF),其输出紧凑的深度描述符(特征向量)x 研发部任何CNN archi-结构可以用作特征提取器,只要它可以处理完全连接的层,例如AlexNet [28]、VGG [38]或ResNet [18]。我们使用ResNet50配置基线网络架构,该架构通常在图像表示学习中表现出出色的性能,详细信息见第4.2节。关于用于快速图像检索的量化,R在量化头中使用M个码本C1的(x(;θQ),…,CM,其中Ci由K个码字组成CR D/M作为C m=cm1,…,cmK。通过将深特征空间划分为多个子空间的笛卡尔积来进行PQ。每个子空间的码书都具有代表图像数据集的若干特征。每个码字是- longing的码书推断一个聚类质心的一个divided深描述符,其目的是保持一个局部模式X^11X^2x^32x^412088东凤企业股份有限公司X--n=11[n’.S2n=1QQ2i−12我ΣnmθFK2值为1当且仅当n′k′exp(−xnm−cmk′2/τq)J.值得注意的是,为了减少冗余2NBn=1∥·∥Lcqc之间xi和i彼此相似的,经常发生的事在量化期间,图像之间的相似属性通过被分配给相同的码字而共享,而可区分的特征具有不同的码字。其结果是,各种距离representations的有效的图像检索实现。3.2. 自我监督训练为了更好地理解,我们简要描述了算法1中SPQ的训练方案,其中θF和θQ分别表示特征提取器和量化头的可训练参数,γ是学习率。在这种情况下,θQ表示码本的集合。培养方案和SPQ的量化过程。首先,要进行深度学习与和以端到端的方式,并且使整个码字连续。这是因为当子向量与最近码字之间的一致性最大化时,其它码字的贡献减小。对于给定的大小为NB的小批量,我们从数据库中随机采样NB个示例,并将增强技术的随机组合应用于每个图像两次以生成2NB个数据点(视图)。从[9,8,6]中得到启发,我们考虑到同一图像的两个单独视图(x~i,x~j)是相关的,并且源自小批量内的不同图像的其他2个(N B1)视图是不相关的。 在此假设下,我们设计交叉量化对比损失函数以学习相关的一对示例(i,j)为:exp(S(i,j)/τcqc)为了训练,我们需要解决硬分配量化的不可行为此,按照[46]中的方法,我们引入软量化(i,j)=−logΣNBj]exp(S(i,n′)/τcqc)(二)在量化头上,使用软量化器qm(·)作为:其中n′=2n−1,如果j是奇数,(i,j)表示余弦2nelsexi和zj之间的相似性,τcqc是一个非n∈g ativ e temper-K2z=ΣΣexp(−xnm−cmk2/τq)cK(一)性质参数r,并且1[n′=j]∈{0,1}是其中τq是缩放softmax的输入的非负温度参数,并且2表示平方欧几里德距离以测量相似性。的不相关样本的一半计算。批次余弦相似性被用作距离度量以避免x和z之间的范数偏差。补间输入。 以此方式,子量化描述符znm=qm(xnm;τq,Cm)可以被认为是属于Cm的码字的指数加权和。注意,码本中的整个码字被用于近似量化输出,其中最接近的码字贡献最大。此外,与先前的深度PQ方法[46,21]不同,我们排除了帧内归一化[ 1 ],已知帧内归一化[1]在级联子量化描述符以获得整个乘积量化描述符时使突发视觉特征的影响最小化。由于我们的SPQ是在没有任何人类监督的情况下训练的,这有助于找到不同的特征,因此我们专注于捕捉主导视觉特征,而不是平衡每个码本的影响。算法1SPQ的主要学习算法.输入:T可设定参数:θF、θQ、批量NB1:对于采样的小批量{xn}NBdo2:对于{1,. . . ,NB}做3:绘制两个变换t2n−1 T,t2nT4:x~2n−1←t2n−1(xn)5:x~2n←t2n(xn)6:x2n−1,x2n=F(x~2n−1),F(x~2n)7:z2n−1,z2n=(x2n−1),(x2n)8:结束9: 对于{1,. . . ,NB}中的j和{1,. . . ,NB}做10:S(2i−1,2j)=xTz2j/(x2i−1z2j)11:S(2i,2j−1)=xTz2j−1/(x2iz2j−1)为了一起学习深度描述符和码字,我们提出了交叉量化对比学习方案。受对比学习[8,40,6]的启发,我们尝试比较深度描述符和量化的去量化的乘积。12:结束13: Lcqc=1NB14:θF←θF−γ15:θQ←θQ−γ.(2n−1,2n)+各种视图的脚本(转换图像)。作为ob-16:结束θQ在图2中,如果视图源自相同图像,则深度描述符和乘积量化描述符被视为相关,而如果视图源自不同图像,则深度描述符和乘积量化描述符被视为不相关。注意,为了增加码字的泛化能力,忽略深度描述符与其自身的量化描述符(x(n和x(z)n)之间的相关性。这输出:更新θF、θQ关于用于生成各种视图的数据增强,我们采用五种流行的技术:(1)调整裁剪大小以处理局部、全局和相邻视图,(2)水平翻转以处理镜像输入,(3)颜色抖动以处理颜色MKLcqc12089n=1F2∥·∥F×个--×个表1.三个基准数据集的组成数据集#训练#查询#检索#类失真,(4)灰度级以更多地关注强度,以及(5)高斯模糊以应对图像中的噪声。默认设置直接取自[8],其中所有变换都以顺序方式随机应用(1-5)。例外地,我们修改颜色抖动强度为0.5,以适应SPQ,以下的经验观察。最后,SPQ能够以自我监督的方式通过对比图像的不同视图来解释图像中的内容。3.3. 检索图像检索分两步进行,与PQ [23]相似。首先,检索数据库组成的二进制代码NUS-WIDE[10]拥有近270,000张图像,具有81个唯一标签中的各种分辨率,其中每张图像属于一个或多个标签。我们挑选出包含21个最常见类别的图像进行实验,总共有169,643个。我们随机选择了总共10,500张图像作为训练集,每个类别至少500张,总共2,100张图像作为查询集,每个类别至少100张,其余图像作为检索数据库。配置有Ng图库的数据集Xg={xn}Ng图像. 通过emplo ying,深度描述符xn是从xn获得的,并且被分成M个等长子向量,如xn=[xn1 ,...,xnM]。然后,通过计算子向量与码本Cm中的每个码字之间的平方欧几里德距离(2)来搜索每个子向量Xnm的最近码。然后,最近码字k*的索引被格式化为二进制码以生成子二进制码bnm。最后,将所有子二进制码级联生成M·log2(K)位二进制码其中bn=[bn1,…, bnM]。我们重复这个过程为所有图库图像建立一个二进制编码检索数据库移动到检索阶段,我们对查询图像x q应用相同的分割过程,以提取xq及其子向量的集合为xq=[xq1,...,xqM]。利用欧氏距离来度量子向量与所有码本的每个码字之间的相似性,以构造预先计算的查找表。查询和图库之间的距离计算是不对称近似的,并且通过对查找结果求和来加速。4. 实验4.1. 数据集为了评估SPQ的性能,我们在三个公共基准数据集上进行了综合实验,遵循最近的无监督深度图像检索方法[50,45,37]中的实验协议。CIFAR-10[27]包含60,000张大小为32 32在10个类标签中,并且每个类具有6,000个图像。我们选择每个类5,000个图像作为训练集,每个类100个图像作为查询集。利用50,000个图像的整个训练集来构建检索数据库。FLICKR25K[19]由25,000张从Flickr网站收集的各种分辨率的图像每个图像都用24个语义标签中的至少一个来手动注释。我们随机选取2,000张图像作为查询集,并使用剩余的23,000张图像构建检索数据库,其中5,000张图像用于训练。4.2. 实验设置评估指标。我们采用平均精度(mAP)来评估检索性能。具体地,在FLICKR 25 K和NUS-WIDE数据集上的多标签图像检索的情况下,即使只有一个标签匹配,也认为是相关的。我们将分配给二进制代码的位数改变为16、32、64,以测量检索方法的mAP分数,对于CIFAR-10数据集为mAP@1,000,对于FLICKR25 K和NUS-WIDE数据集为mAP@5,000,遵循[37,45]中的评估方法。此外,通过使用不同算法的64位哈希码,我们绘制了精确度召回曲线(PR),以比较不同召回水平下的精确度,并报告了关于1,000个顶部返回样本(P@1,000)的精确度曲线,以对比正确检索结果的比率实作详细数据。我们将三种基准方法进行分类以进行比较。具体来说,(1)基于散列的没有深度学习的浅层方法:LSH [7]、SH [43]、ITQ [15],并且基于乘积量化:PQ [23],OPQ [13] LOPQ [24],(2)深度半无监 督方 法 :DeepBit [30], Greedy- Hash [41], DVB[36],DistillHash [45],TBH [37]和(3)深度真正无监督方法:[11],HashGAN [14],BinGAN [50],BGAN[39].术语“半”和“真正”指示是否使用预训练的模型权重。半训练条件和真正的训练条件都可以应用于SPQ;然而,我们采用真正的无监督模型,其具有不需要人类监督的优势作为基线。为了评估浅层和深层半无监督方法,我们采用AlexNet [28]或VGG16 [38]的ImageNet预训练模型权重来利用fc7特征,遵循[45,36,37]的实验设置。由于这些模型只接受固定大小的输入,因此我们需要通过放大小图像并对大图像进行下采样来将所有图像调整为224 224在评估深度真正无监督方法(包括SPQ)的情况下,同样的重新CIFAR-1050,00010,00050,00010FLICKR25K5,0002,00023,00024NUS-wide10,5002,100157,0432112090联系我们--表2.不同检索方法在三个基准数据集上的mAP得分CIFAR-10 FLICKR25K NUS-WIDE16位32位64位16位32位64位16位32位没有深度学习的LSH [7]0.1320.1580.1670.5830.5890.5930.4320.4410.443上海[43]0.2720.2850.3000.5910.5920.6020.5100.5120.518ITQ [15]0.3050.3250.3490.6100.6220.6240.6270.6450.664PQ [23]0.2370.2590.2720.6010.6120.6260.4520.4640.479OPQ [13]0.2970.3140.3230.6200.6260.6290.5650.5790.598LOPQ [24]0.3140.3200.3550.6140.6340.6350.6200.6550.670深度半无监督方法DeepBit [30]0.2200.2490.2770.5930.5930.6200.4540.4630.477GreedyHash [41]0.4480.4730.5010.6890.6990.7010.6330.6910.731DVB [36]0.4030.4220.4460.6140.6550.6580.6770.6320.665DistillHash [45]0.4540.4690.4890.6960.7060.7080.6670.6750.677[37]第三十七话0.5320.5730.5780.7020.7140.7200.7170.7250.735深度真正无监督方法新加坡[11]0.4350.4370.4330.6160.6280.6250.5930.5900.607HashGAN [14]0.4470.4630.481------北京[50]0.4760.5120.5200.6630.6790.6880.6540.7090.713BGAN [39]0.5250.5310.5620.6710.6860.6950.6840.7140.730SPQ(我们的)0.7680.7930.8120.7570.7690.7780.7660.7740.785为了简单起见,使用FLICKR 25 K和NUS-WIDE数据集的3.5mm大小的图像,并且使用CIFAR-10的原始分辨率图像以减少计算负荷。我们的SPQ实现基于PyTorch和NVIDIA Tesla V10032GB Tensor Core GPU。根据最近的自监督学习研究[8,6]中的观察结果,我们将基线网络架构设置为FLICKR 25 K和NUS-WIDE数据集的标准ResNet 50 [18在具有小得多的图像的CIFAR-10数据集的情况下,我们将基线设置为标准ResNet 18 [18],并将过滤器的数量修改为与ResNet 50相同。对于网络训练,我们采用Adam [25],并在不重新启动的情况下使用余弦调度来衰减学习率[33]并将批量大小NB设置为256。我们将子向量X和码字c的维度固定为D/M=16,并且还将码字的数量固定为K=2.4。因此,由于需要M个log2(K)比特来获得16、32、64比特二进制码,所以码本数目M被改变为4、8、16。温度参数τq和τcqc设置为5和0.5。使用Kornia [12]库操作数据增强,并且以与[8]中的设置相同的概率应用每个转换4.3. 结果在三个不同的图像检索数据集上的mAP结果在表2中列出,示出了SPQ在每个比特长度上实质上优于所有比较的方法。此外,参考图3和图4,SPQ被证明是最理想的回收系统。首先,与最佳浅层方法LOPQ [24]相比,SPQ在CIFAR- 10、FLICKR 25 K和NUS-WIDE上的平均mAP中分别显示出超过46%p、13%p和11.6%p的性能改进CIFAR-10的差异更明显的原因是因为浅层方法涉及不必要的放大过程,以利用ImageNet预训练的深度特征。SPQ具有的优势,在各种合适的神经架构,可以accommo-日期的特征提取和端到端的学习浅的方法。其次,与最佳深度半无监督方法TBH [37]相比,SPQ在CIFAR-10、FLICKR 25 K和NUS-WIDE上分别产生了23%p、4.6%p和3.9%p的平均mAP评分。即使在没有预先训练的模型权重等先验信息的情况下,SPQ也可以通过比较训练样本的多个视图来很好地区分图像中的内容。方法12091SPQ(Ours)TBHDistillHashBGAN公司简介LOPQSPQ(Ours)TBHDistillHashBGAN公司简介LOPQ一一一0.90.80.70.90.80.70.90.80.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.1000.10.20.30.40.50.60.70.80.9一个召回(a) CIFAR-10000.10.20.30.40.50.60.70.80.9一个召回(b) FLICKR25K000.10.20.30.40.50.60.70.80.9一个召回(c) NUS-wide图3.在三个基准数据集上的精度-召回曲线,其中二进制代码为64位。0.90.820.850.80.70.80.780.760.740.80.750.60.50.40.720.70.680.660.640.70.650.30100二百人三百四百五百六百七百八百九百一千返回的最多图像(a) CIFAR-100.620100200300400500600700800900一千返回的最多图像数(b) FLICKR25K0.60100200300400500600700800900一千返回的最多图像数(c) NUS-wide图4.Precision@top-三个基准数据集上的1000条曲线,采用64位二进制代码最后,即使使用真正的无监督设置,SPQ也能达到最先进的检索精度。具体而言,不像以前的基于散列的真正无监督的方法,SPQ引入可微产品量化的无监督图像检索系统的第一次。通过以自监督方式考虑不同视图之间的交叉相似性,允许深度描述符和码字是有区别的。4.4. 实证分析4.4.1消融研究我们配置SPQ的五个变体来研究:(1)SPQ-C,其通过比较(z i)和(z j)用对比度学习代替交叉量化对比学习,(2)SPQ-H,其采用硬量化而不是软量化,(3)SPQ-Q,其采用标准矢量量化,其不划分特征空间并且直接利用整个特征矢量来构建码本,(4)SPQ-S,其利用预训练模型权重来进行深度半无监督图像检索,以及(5)SPQ-V,利用VGG 16网络架构作为基线。如表3所示,我们可以观察到SPQ的每个组分都对性能改善有足够的贡献。与SPQ-C的比较证实,考虑-表3.先前最佳方法SPQ及其变体在三个基准数据集@32位上的mAP得分。方法CIFAR-10FLICKR25KNUS-wide[37]第三十七话0.5730.7140.725SPQ-C0.7630.7510.756SPQ-H0.7450.7360.742SPQ-Q0.7340.7330.738SPQ-S0.8140.7810.788SPQ-V0.7610.7490.753SPQ0.7930.7690.774使用交叉相似性而不是比较量化输出提供了更有效的图像检索结果。从SPQ-H的结果中,我们发现软量化更适合于学习码字。SPQ-Q的检索结果显示出与SPQ的最大性能差距,这说明乘积量化通过增加距离表示的量来实现精确的搜索结果值得注意的是,SPQ-S利用ImageNet预训练的模型权重进行网络初始化,其性能优于真正的无监督SPQ。在此观察中,我们可以看到,尽管SPQ展示了最佳SPQ(Ours)TBHDistillHash公司简介SPQ(我们的)TBHDistillHashBGAN公司简介SPQ(我们的)TBHDistillHash公司简介SPQ(Ours)TBHDistillHash公司简介精度精度精度精度精度精度12092(a) [50](b)TBH [37](c)SPQ(Ours)图5.分别由BinGAN、TBH和SPQ在CIFAR-10查询集上学习的深度表示的t-SNE可视化0.80.7950.790.7850.780.7750.7700.10.20.30.40.50.60.70.80.91彩色抖动强度(a) τq与颜色抖动强度。0.80.7950.790.7850.780.7750.770.7650.7600.10.20.30.40.50.60.70.80.91彩色抖动强度(b) τcqc与颜色抖动强度的关系4.4.2可视化如图5所示,我们使用t-SNE [34]来检查BinGAN,TBH和我们的SPQ的深度表示的分布,其中BinGAN和SPQ是在真正的无监督设置下训练的。尽管如此,我们的SPQ散射器数据样本最明显的地方,每种颜色表示一个不同的类标签。此外,我们在图7中示出了实际的重新翻转的图像。有趣的是,不仅是图像图6.根据CIFAR-10@32位上的颜色抖动强度的超参数的灵敏度研究。查询前10个检索图像图7.32位CIFAR-10上的SPQ检索结果为了提高检索的准确性,在不需要任何人工指导的情况下,使用一些标签信息可以获得更好的结果。尽管SPQ-V不如基于ResNet的SPQ,但其性能仍然超过现有的最先进的检索算法,这证明了基于PQ的自监督学习方案的优越性。此外,我们根据图6中的颜色抖动强度探索超参数(τq和τcqc)灵敏度。一般来说,由于超参数的变化而引起的性能差异是微不足道的;然而颜色抖动强度的影响是显著的。因此,我们确认,SPQ是强大的超参数,输入数据准备是一个重要的因素。但是也检索具有视觉上相似内容的图像,如猫出现在狗检索结果中5. 结论在本文中,我们提出了一种新的基于深度自监督学习的快速图像检索方法,自监督乘积量化(SPQ)网络。通过使用乘积量化方案,我们构建了第一个用于图像检索的端到端无监督学习框架。我们引入了一种交叉量化的对比学习策略来学习深度表示和码字,以区分图像内容,同时聚类局部模式。尽管没有任何监督的标签信息,我们的SPQ产生国家的最先进的检索结果在三个大规模的基准数据集。作为未来的研究,我们希望通过在一个批处理中比较更多的视图来提高性能,这需要更好的计算环境。我们的代码可在https://github.com/youngkyunJang/SPQ上公开获取。6. 确认这项工作部分得到了韩国国家研究基金会(NRF)的支持,该基金由韩国政府(MSIT)(2021 R1 A2C2007220)资助,部分得到了韩国政府资助的IITP资助[No. 2021- 0-01343,人工智能研究生院项目(首尔国立大学)]。q=1q=5q=25地图cqc=0.1cqc=0.5cqc=1.0地图12093引用[1] Relja Arandjelovic和Andrew Zisserman。 关于Vlad在CVPR,第1578-1585页,2013中。四个[2] Artem Babenko和Victor Lempitsky。用于极端矢量压缩的加性在CVPR中,第931-938页,2014年。一、二[3] Artem Babenko和Victor Lempitsky。用于大规模相似性搜索和分类的树量化。在CVPR,第4240-4248页一、二[4] Yue Cao,Mingsheng Long,Jianmin Wang,Han Zhu,and Qingfu Wen.用于高效图像检索的深度量化网络。在AAAI,2016。二个[5] Zhangjie Cao , Mingsheng Long , Jianmin Wang , andPhilip S Yu.Hashnet:深度学习,通过延续来散列。在ICCV,第5608-5617页,2017年。二个[6] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 arXiv 预 印 本 arXiv :2006.09882,2020。二三四六[7] Moses S Charikar。来自舍入算法的相似性估计技术。在STOC,第380-388页,2002中。 一、二、五、六[8] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。Arxiv,2020年。二三四五六[9] 陈婷,孙益州,岳石,洪良杰。基于神经网络的协同过滤抽样策略研究。在ACM SIGKDD,第767-776页,2017年。四个[10] Tat-Seng Chua , Jinhui Tang , Richang Hong , HaojieLi,Zhiping Luo,and Yantao Zheng.Nus-wide:新加坡国立大学的真实网络图像数据库在《公民自由和种族权利国际公约》第48页。ACM,2009年。五个[11] Bo Dai,Ruiqi Guo,Sanjiv Kumar,Niao He,and LeSong.随机生成散列。ICML,2017。二三五六[12] et al. E.里巴关于Kornia的调查:一个用于Pytorch的开放源代码可区分计算机视觉库。2020. 六个[13] 葛铁铮,何开明,柯启发,孙建。优化的产品量化近似最近邻搜索。在CVPR中,第2946-2953页,2013年。一、二、五、六[14] KamranGhasediDizaji , FengZheng , NajmehSadoughi , Yanhua Yang , Cheng Deng , and HengHuang.无监督深度生成对抗哈希网络。在CVPR中,第3664-3673页二三五六[15] 龚云超,斯韦特兰娜·拉泽布尼克,阿尔伯特·戈多,和弗洛-伦特·佩龙宁.迭代量化:一个procrustean的方法来学 习 二 进 制 代 码 的 大 规 模 图 像 检 索 。 PAMI , 35(12):2916-2929,2012. 一、二、五、六[16] Robert M.作者声明:David L. 诺伊霍夫 量化。IEEETransactions on Information Theory , 44 ( 6 ) : 2325-2383,1998. 一个[17] 何开明,方文,孙建。K-means hashing:一种用于学习二进制紧凑代码的仿射保持量化方法。在CVPR中,第2938-2945页,2013年。一、二[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。三、六12094[19] Mark J Huiskes和Michael S Lew。mir flickr检索评估。ICMR,第39-43页,2008年。五个[20] 他是拉雅·杰恩、华金·塞佩达、帕特里克·佩雷斯和雷米·格里邦瓦尔。Subic:一种用于图像搜索的监督结构化二进制代码。在ICCV,第833-842页,2017年。二个[21] 杨均章和南益曹广义积量化网络在半监督图像检索中的应用。在CVPR,2020年。二、四[22] Young Kyun Jang,Dong-ju Jeong,Seok Hee Lee,andNam Ik Cho.基于深度聚类和块哈希网络的人脸图像检索。在ACCV,第325Springer,2018. 二个[23] Herve Jegou、Matthijs Douze和Cordelia Schmid。最近邻搜索的乘积量化。PAMI,33(1):117- 128,2010. 一、二、五、六[24] 扬尼斯·卡兰蒂迪斯和扬尼斯·阿弗里斯。局部优化的产品量化近似最近邻搜索。在CVPR,第2321-2328页,2014年。一、二、五、六[25] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015. 六个[26] 本杰明·克莱因和里奥·沃尔夫。用于图像搜索和检索的端到端监督在CVPR中,第5041-5050页,2019年。二个[27] Alex Krizhevsky等人从微小的图像中学习多层特征。2009. 五个[28] Alex Krizhevsky , Ilya Sutskever , and Geoffrey EHinton.使用深度卷积神经网络的图像网分类。在NeurIPS,第1097-1105页,2012中。三、五[29] 李琦,孙哲南,何冉,谭铁牛。深度监督离散散列。在NeurIPS,第2482-2491页,2017年。二个[30] Kevin Lin,Jiwen Lu,Chu-Song Chen,and Jie Zhou.使用无监督深度神经网络学习紧凑的二进制描述符。在CVPR,第1183-1192页,2016年。 二三五 6[31] Bin Li
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功