没有合适的资源?快使用搜索试试~ 我知道了~
1基于草图的细粒度图像检索庞凯越1、杨永新2、杨永新1.Hospedales1,3 陶翔1宋毅哲11SketchX,CVSSP,萨里大学2伦敦玛丽女王大学3爱丁堡大学pang qmul.ac.uk,t.hospedales@ ed.ac.uk,{yongxin.yang,t.xiang,y.songsurrey.ac.uk}@www.example.com摘要预训练阶段微调阶段ImageNet预训练长期以来一直被细粒度基于草图的图像检索(FG-SBIR)社区认为是在本文中,我们提出了一种用于表示预训练的自监督替代方案。具体来说,我们认为拼图游戏的recomposing图像从洗牌的部分。我们确定了两个关键方面的拼图任务设计,需要有效的FG-SBIR预训练。第一种是以混合模态的方式来表达谜题其次,我们表明,框架的优化置换矩阵推理通过Sinkhorn迭代是更有效的比常见的分类器公式的仿真拼图自我监督。实验表明图1:传统上,AFG-SBIR数据集竞争性FG-SBIR系统这种自我监督的预训练策略在所有四个产品级FG-SBIR基准测试中的性能明显优于标准的基于ImageNet的流水线。有趣的是,它还可以在预训练/微调和微调/测试阶段改进跨类别的泛化1. 介绍基于细粒度草图的图像检索(FG-SBIR)方法使用户能够通过手绘草图表达自己的心理图像或视觉意图,从而检索特定对象实例的照片由于其商业潜力,该领域最近蓬勃发展,考虑了各种研究角度,包括CNN架构[19],注意力[28],实例匹配损失[23]的选择,通过哈希[36]提高效率,以及通过解析[34]或抽象[22]的数据增强。尽管取得了巨大的进步,但几乎所有当代竞争性FG-SBIR模型都依赖于一个必要的条件:模型必须从ImageNet [ 6 ]分类器的预训练权重进行微调。这背后的原因是,为FG-SBIR收集实例级草图-照片对非常昂贵,当前最大的单个产品类别数据集的规模仅为TEM依赖于两个先决条件:ImageNet预训练和三重微调在这里,我们调查取代的为- mer与混合域拼图求解器,从而提高FG-SBIR的准确性和泛化。成千上万将这样的数据收集扩展到从头开始训练当代深度CNN所需的大小是不可能的。因此,ImageNet预训练被广泛用于为FG-SBIR提供初始化。虽然在改善FG-SBIR的致命数据缺乏方面很有用,但ImageNet预训练会与预期的下游任务不匹配。对象类别分类的训练需要检测区分不同对象类别的高级属性,同时学习忽略对于FG-SBIR中的实例级识别任务至关重要的某些细粒度细节至关重要的是,Ima-geNet只包含来自照片模态的图像,而FG-SBIR需要照片和草图之间的跨模态匹配。这表明ImageNet分类可能不是FG-SBIR最有效的预训练策略事实上,最近[20]探索了将照片与其边缘图匹配的自我监督任务,以替代模型训练的草图-照片对。这也可以用于预训练。但是,其有效性10347✓三重排序模型拼图解决者拼图解决者…10348有限,因为任务归结为边缘检测,并且对于模型来说没有足够的挑战性来学习用于匹配的细粒度跨模态判别模式。本文挑战了长期以来对FG-SBIR的ImageNet预训练进行重新排序的做法,并介绍了一种简单有效的自监督替代方案。具体来说,我们建议通过从混合模态混洗补丁中恢复图像也就是说,从照片和edgemap域中随机抽取的补丁。如图1所示,解决这个问题需要学习如何弥合域差异,理解整体对象配置,并对细粒度的细节进行编码,以便足够准确地对每个补丁进行编码,从而推断出它们的相对位置。请注意,在[15,5]之前已经研究了单模态识别问题的拼图求解。在这项工作中,不同的是,我们处理一个更具挑战性的混合模态拼图问题。解决拼图游戏作为一项任务本身是困难的;结果,不是直接解决它,即,恢复未混洗的原始图像,其中所有补丁被放回正确的位置,大多数先前的工作[15,11,5]将拼图求解作为识别任务。相比之下,我们将拼图解决问题框架为置换推理问题,并使用Sinkhorn迭代解决它[3,24]。我们的实验表明,拼图求解器的这种形式化为自我监督表示预训练提供了更强大的模型一个令人惊讶的结果是,这种方法可以完全打破表示预训练和FG-SBIR微调之间的类别关联,而不损害性能,以及导致FG-SBIR微调和运行时测试阶段之间的跨类别的(1)首次研究了FG-SBIR的预训练方法。(2)我们提出了一种新的混合模态拼图求解器作为有效的预训练策略。(3)在所有四个公开的产品级FG-SBIR数据集上进行的广泛实验首次表明,ImageNet分类作为FG-SBIR的预训练策略是不必要的,并证实了我们的拼图方法的优越性结果还表明,这导致改进的概括跨对象类别。2. 相关工作细粒度SBIR细粒度SBIR的问题首先在[12]中提出,它采用了基于可变形零件的模型(DEPELLED)表示和图形匹配。最近,深度学习方法非常受欢迎,通常依赖于“ImageNet预训练+ FG-SBIR微调”的两阶段范式这项工作的重点是用更具挑战性但更相关的混合模式拼图解决任务来取代第一阶段的ImageNet预训练。注意虽然FG-SBIR是这项工作中研究的唯一问题,但所提出的方法可以潜在地应用于任何跨模态匹配任务。预训练+微调许多基于深度CNN的计算机视觉模型假设在ImageNet预训练的CNN中已经捕获了丰富的通用表示[31,7,35,26],然后可以使用任务进行微调使用各种策略的具体数据[13,30,25,21,8]。特别是对于训练数据有限的任务,微调ImageNet预训练模型几乎是一个无处不在的步骤,其有效性很少受到质疑。 最近[10]挑战了ImageNet针对目标检测等下游任务进行预训练的传统智慧,并演示了如何通过从头开始的训练获得类似的结果然而,即使在这项研究中,有效概括所需的数据规模也超出了典型的FG-SBIR数据集,因此必须进行预训练我们表明,适当设计的自监督任务(混合模态拼图求解)和模型(置换推理)导致FG-SBIR的强初始表示,其性能优于经典的ImageNet预训练。第一个拼图游戏被认为是为了教育皇室儿童学习地理,因为它涉及视觉空间处理[1]。从那时起,竖锯就成为儿童和成人的一种流行的娱乐形式。最近,计算机视觉界已经意识到它作为表征学习的自我监督信号的潜力[15,24,11,14,5]。现有的拼图求解器提出了单峰拼图任务,而我们表明,混合模式拼图是有益的多模态表示学习。区分实验方法的一个更重要的因素是,它们是通过将学习问题框架为一组预定义的排列的分类任务来简化学习问题,还是直接解决排列问题本身。后者在技术上要求更高,因为稀疏二进制分配矩阵必须在每行和列恰好有一个“1”的约束下形成。已经证明,对于某些目标任务,例如分类/检测[24],两种方法之间的差异很小。然而,本文的一个关键发现是表明Jigsaw预训练的Sinkhorn-permutation解决方案对于在下游FG-SBIR中获得显着改善至关重要6.1)。3. FG-SBIR的Jigsaw预训练概述这项工作的目的是引入一个自我监督的预训练策略的形式解决混合模态拼图。因此,整个FG-SBIR培训管道由两个阶段组成:自监督拼图预训练和监督FG-SBIR三重微调。第一个自我阶段将使用照片P和相应的程序,10349I)JJ(A/,Y)$i k()*I,$i k()*$i k()*Q,$i k()*+,M(K,L,照片L×····IJ⊘×∈IJIJRNNCNNN,OOO826953741826953741边缘K826953741交叉模态拼图Y下游任务的微调在N处停止,A/图2:我们为FG-SBIR提出的Jigsaw预训练示意图。我们以一个9块瓷砖的拼图为例。 首先将照片p和对应的edgemape划分为3 × 3网格,并根据排列顺序进行重排O. 使用随机二进制向量R,然后将这些拼接成最终的混合模态拼图x。 x被馈送到我们的拼图求解器J(x)=G(F(x)),包括ConvNet特征提取器F()和基于Sinkhorn的置换求解器G(),以获得求解拼图的置换矩阵A+。在预训练之后,我们采用CNN模块F()并将其用作FG-SBIR微调的特征提取器。Cally产生边缘图E以产生混合模态拼图图像X。我们的拼图求解器J(x)通过学习解决这些拼图来训练表示。在第二阶段,我们使用学习的表示作为初始条件,并通过对注释的手绘草图和照片进行监督的三元组排名来微调FG-SBIR模型。我们首先定义了一个跨模态混洗算子x=T(e,p,O,R),它将一张照片p和它的边映射对应物e变换成一个混合模态夹具是一种新型的夹具。屁股你看我的夹具一个w图像是通过产生具有约束的分配矩阵来拼图(i)所有元素都是0或1;(ii)每行和每列都只有一个赋值。例如,A+=1意味着将第i个输入补丁分配给第j个目标补丁,并且输入和输出补丁之间的映射是1对1。Sinkhorn运算符Sinkhorn()为了实现Sinkhorn运算符,我们遵循[3]并迭代归一化它的行的输入,以近似双随机矩阵A+:Sinkhorn0(A)= exp(A)在N×N阵列中包含N个贴片 O是ll−1一个数组的随机排列[1. - 是的- 是的[2019-04-15]将输入图像块映射到x中的拼图块,并且R是伯努利样本的N维向量,Sinkhorn(A)=Tc(Tr(SinkhornSinkhorn(A)= lim Sinkhornl(A)l→∞(A))(一)将确定输入面片是否从照片p或edgemape。因此,如图2所示,生成x其中T(X)=X<$(X1 1T),T(X)=X<$(1 1TX)通过从输入的位置Oi绘制第i个补丁,具体地,如果Ri=1,则从草图绘制第i个补丁,如果Ri=0,则从照片绘制第i个补丁Jigsaw Puzzle Solver我们的拼图求解器J(x)进程混合模态拼图图像x,并返回A+,一个N N分配矩阵,将每个拼图块映射到未混洗图像的目标块(图2)。拼图求解器J(x)=G(F(x))通过CNN特征提取器F(·)实现,随后是置换作为A的行和列方向的归一化操作,矩阵,具有表示逐元素除法,1N是1的列向量。l是控制用于估计分配的Sinkhorn迭代次数的超参数。对于拼图预训练,我们的损失函数旨在缩小A+和真实分配矩阵Y(从O生成)之间的分布差距,定义为:+求解G(·)。求解器应用完全连接的层W损失(A,Y)=在CNN其中A ij描述了将第i个输入谜题位置分配给第j个目标位置的CNN偏好强度。然后,它推断出最有可能的全局分配,ΣN ΣN−i=1j =1[log(A+)×Yij+log(1−A+)×(1−Yij)](二)通过将Sinkhorn算子应用于亲和矩阵A+= Sinkhorn(A),将拼图块转换为输出块。 这将完成输入补丁的解混洗并解决L/JLN,N,N,I)JJ(J,L/,L…#={0,1,0,1,0,1,1,0}(1)(2)(3)(4)(5)(6)FG-SBIR10350总结在每次迭代中,训练图像是边缘扩展的,并且随机混洗和模态混合。训练拼图解算器J来解混洗图像需要10351·×2||−||CNN学习特征提取器,该特征提取器既是模态不变的,又编码足够细粒度的细节,以使置换求解器能够成功地解混洗。4. FG-SBIR微调在微调阶段,我们进行监督学习的手绘草图照片检索。具体来说,我们剥离置换求解器模块G,并在标准三元组排名损失中使用特征提取器F(·)loss(s,p+,p−)=两个阶段都在256x256的空白画布上,然后送入模型。数据和代码将很快发布。所有实验都是使用GoogleNet [29]的基础架构F()在Tensorflow上运行,并使用单个NVIDIA 1080Ti GPU进行的。对于Jigsaw预训练:初始学习率设置为1 e-3,用于50 k次迭代,并降低到1 e-4,用于另外10 k次迭代,批量大小为128。由于产品图像具有白色背景,因此因此,在实践中,我们首先在对象周围绘制边界框(通过简单的max(0, n+d(F(s),F(p+))−d(F(s),F(p)))(三)像素值阈值化)在照片和边缘图IM中年龄,并在其中执行补丁洗牌。Sinkhorn算子的迭代次数l被设置为5, 10, 15, 20其中s是查询草图,p+和p-是正数,而p-是负数。有效的照片示例,d(s,p)=F(s)F(p)2,并且是作为正和负示例距离之间的裕度的超参数为了评估,我们根据d(s,p)检索到查询草图s具有最小距离的照片p5. 实验设置为了明确拼图预训练的优势,我们控制所有基线和消融变体,以使用相同的CNN架构和优化策略。学习率和超参数不进行网格搜索以获得最佳性能。只有训练迭代可能会因数据集而异数据集和预处理为拼图预训练:FG-SBIR基准测试使用的是来自[ 2 ]的鞋、椅子和手袋产品搜索数据集。对于预训练,收集相同类别的附加照片图像。(1)鞋子(2)Handbags -我们过滤掉那些具有嘈杂背景或不相关视觉效果的图像,例如,一个带有人体模型的手袋(3)椅子-我们将这些照片中的90%用于自我监督训练,其余的用于模型选择的验证。我们使用[38]从照片中提取边缘图。对于Triplet微调:我们使用所有四个公开可用的产品FG-SBIR数据集[2]来评估我们的方法 , 即 QMUL Shoe V1 , QMUL Shoe V2 , QMULChair和QMUL Handbag,分别有419,6,648,297,568个草图照片对。其中,我们使用304,5,982,200,400对进行训练,其余的用于测试,与[2]中相同的分裂。由于用于预训练的边缘图和微调中的草图之间存在明显的数据偏差,例如,笔画宽度、模糊度,我们通过清理和简化模型处理草图和边缘图[27]。我们将所有输入图像缩放并居中,对于补丁数N=4, 9, 16, 25分别。直觉上,更密集的拼图会带来更复杂的非洗牌问题,因此需要更多的Sinkhorn迭代。为了消除对补丁边缘统计的过度拟合[15],我们在补丁之间留下一个随机间隙。对于三元组微调:我们用16的批量训练三元组排名。我们为QMUL Shoe V2训练了50k次迭代,其余的训练了20k次迭代。学习速率被设置为1 e-3,具有固定的裕度值ε= 0。1.作为运行时增强,我们还采用了[34]中的多裁剪策略。在这两个阶段中,应用了常见的训练增强方法 , 包 括 水 平 翻 转 和 随 机 裁 剪 以 及 颜 色 抖 动MomentumOptimizer始终使用动量值0.9。评估在社区的对流之后,FG-SBIR性能通过acc@K进行量化,即真实匹配照片排名前K的草图百分比。我们通过实验关注K=1的最具挑战性的场景。每个实验进行五次。然后报告五次试验所得结果的平均值和标准差。基线由于我们的重点是预训练,我们的基线包括替代的预训练方法,而最终的三重微调始终保持不变。计数[16]和旋转[9]:这是两个流行的自我监督替代拼图。前者要求每个分割图块中的视觉基元总数等于整个图像中的视觉基元总数。后者要求模型识别应用于图像的2d旋转我们发现,用于学习计数的常见2x2分裂可能看起来适合分类目的,但经验上对于细粒度匹配来说太粗糙了。因此,在我们的实现中,我们将其增强为在3x3分裂内计数,这相当于训练一个11路连体网络(9个瓦片+1个原始图像+ 1个对比负图像1,以避免琐碎的学习)。我们遵循同样的几何定义1一个潜在的捷径是,它可以很容易地满足约束,通过学习计数尽可能少的视觉基元,所以许多条目的特征嵌入可能会崩溃为零,没有对比信号。−10352训练前FG-SBIR数据集方法自我监督? QMUL鞋V14×4QMUL鞋V23×3QMUL椅子3×3QMUL手提包4×4计数[16]41.74%±2.30 30.42%±0.54 72.78%±4.35 54.05%±2.77旋转[9]度32.17%±2.68 28.83%±0.40 70.31%±3.45 38.33%±1.86CPC [17]骨密度21.91%±1.69 8.65%±0.34 35.24%±0.42 15.36%±0.69匹配[20]39.13%±0.87 31.05%±0.84 75.69%±1.53 50.36%±0.68ImageNet [29]浏览器43.48%±1.74 33.99%±1.09 85.16%±1.5652.62%±2.04我们/1000路开关42.78%±3.75 30.24%±1.74 79.59%±1.53 49.40%±3.97Ours/ImageNet平均值48.00%±2.91 31.26%±0.65 79.59%±1.3461.07%±1.50我们的价格56.52% ±2.7536.52% ±0.8485.98% ±2.01 62.97%±2.04表1:与作为FG-SBIR任务的预训练方法的不同基线的比较。每个数据集名称右上角的上标分别表示为FG-SBIR带来最佳性能的拼图游戏解决的粒度。90度的倍数旋转设置[9],即,0、90、180和270度,这使得4向分类是客观的。CPC[17]:一种最先进的自监督方法,通过使用强大的自回归模型预测潜在空间中的未来来学习表示。我们遵循作者 匹配:这在边缘映射查询与正照片和负照片对应物之间训练三重排序模型[20]。ImageNet [29]:这对应于ImageNet上的标准预训练1K分类我们的/1000-way:我们调整了基于混合模态jiasaw求解的模型,但我们没有解决它,而是遵循[15,11]来解决1000-way jigsaw模式分类的替代问题。最后,Ours和Ours/ImageNet,这两种方法可以从头开始训练我们提出的方法,也可以在ImageNet的初始化权重基础上进行构建。6. 结果和分析6.1. 与基线的我们的第一个发现是,自监督拼图预训练从零开始对目标类别照片(即,对于鞋产品上的FG-SBIR,收集未注释的鞋照片用于预训练),然后进行标准FG-SBIR微调是非常有效的。下面是参考表1的结果的更详细的分析。解决跨模态拼图任务是比ImageNet预训练更好的策略吗?是的很明显,我们提出的方法(Ours)在所有四个数据集上都优于所有其他基线,包括传统的基于ImageNet预训练的方法(ImageNet),有时具有显著的边际。此外,ImageNet预训练并没有提供任何好处,但与我们的jig-saw求解器(Ours/ImageNet)相结合时是有害的这些结果表明,与我们的混合模态预训练策略相比,单模态对象分类的训练具有有限的相关性拼图的解决方式重要吗?是的 我们与Ours/1000路之间的巨大差距证实了我们技术选择的重要性:通过Sinkhorn运算器将拼图求解作为置换估计来实际求解。这种疗效差异是由于两个原因:(i)如何选择用于分类的预定义置换集决定了任务的模糊性。尽管努力通过分类集的进化来最大化任务效率[15],但在固定的排列集合中进行分类比我们的分配矩阵估计更差,我们必须在所有可能的排列中进行选择(ii)Sinkhorn算子提供了排列的直接表示和估计,使得潜在特征被适当地学习以支持该目的,而不是与排列的粗略相关。为什么边缘照片匹配无效?乍一看,训练边缘照片匹配模型[20]似乎是预训练FG-SBIR的自然任务选择,因为边缘和人类草图之间存在相似性2。然而,基线(匹配)的非常差的性能表明,即使edgemap是草图的有用替代品(如我们的方法所示),如何设计跨模态任务很重要。边缘照片匹配任务只需要整个图像级的照片到边缘映射匹配,这可以通过学习边缘检测器来有效地解决。相比之下,我们的混合模态拼图问题要困难得多-为什么不同数据集的改进有所不同?值得注意的是,与椅子相比,我们的方法在鞋子和手袋上表现出更大的余量。我们认为这是因为整体解决鞋子和手袋上的拼图比椅子更难,因为它们呈现出更复杂和多样化的设计风格,因此需要更好的模型能力,并通过拼图解决预训练阶段获得6.2. Jigsaws的跨类别泛化我们的第二个发现是,预先训练好的解决拼图游戏的模型预训练2事实上,尤其是在图像到图像的翻译领域,人们倾向于将术语sketch和edgemap互换。10353ImageNet一只鞋_{4x 4,3x 3,5x 5,89.4886.60椅子_{5x 5,4x 4,3x 3,5x5}85.1685.98手提包_{5x 5,4x 4,5x 5,4x4}63.6962.9759.8856.5255.1352.0052.6243.4836.5236.4936.1933.99×××××××100706590608055705060454050354030302520 20B=C=QMUL_Shoe_V1 B=C=QMUL_Shoe_V2 B=C=QMUL_Chair B=C=QMUL_Handbag(一)(b)第(1)款图3:预训练和FG-SBIR中的跨类别泛化。符号A、B、C指的是FG-SBIR模型学习模式A+B C,其中A代表我们的拼图训练数据,通过类别B的三重排序模型进一步微调,最后在类别C上进行测试我们在这里稍微滥用了符号,因为有时A也可以是ImageNet。我们使用符号=表示对其中两个阶段使用同一类别。(a)拼图预训练和微调/测试之间的跨类别概括。微调/测试始终保持不变(B=C)。(b)预训练/微调和测试之间的跨类别概括。预训练/微调始终保持不变(A=B)。最好用zoom观看在一个类别上进行三重微调,然后在另一个类别上进行测试,与同一类别内的两个阶段相比,这是相似的,有时甚至更好。Jigsaw-informed分析预训练模型我们首先研究了在拼图预训练和三重微调阶段具有相同对象类别的重要性。 根据图3(a)中的结果,我们进行了以下观察:(i)预先培训和微调类别的匹配并不重要。事实上,使用Shoe数据集进行预训练往往会在所有四个微调/测试类别中提供最佳性能。(ii)这表明真正重要的不是预训练/微调类别是否对齐,而是每个单独的预训练数据集本身的丰富性。在这方面,我们观察Shoe>Handbag> Chair,看看哪个数据集在各种目标数据集上提供了最有效的预训练。这个结果也与我们的直觉相吻合,即一个好的预训练模型应该是类别不可知的。(iii)总的来说,只要预训练使用我们提出的拼图策略,并提供来自任何时尚类别的中等大小的产品照片集,标准的Ima-geNet预训练策略就可以被击败。这些结果的一个关键含义是提供了一个新的途径,在实践中缩放FG-SBIR系统。虽然为每个对象类别收集大的注释的徒手草图-照片对数据集是非常昂贵的,但大规模收集任何时尚类别中的产品照片是非常可行的,并且可以用于提高FG-SBIR性能。Jigsaw-enabled FG-SBIR模型的分析我们探索的第二种类型的概括性是选择预训练方法对最终FG-SBIR模型在培训和测试之间跨类别转移。从图3(b)中的结果,我们可以看到,与图3(a)相比,在这种跨类别测试设置中性能下降。然而,在每种情况下,Jigsaw预训练都比标准ImageNet预训练更好地实现了跨类别生成。6.3. 消融研究在本节中,我们将我们提出的方法与一些变体进行比较,以验证我们的拼图预训练范例中的一些关键设计选择。拼图的粒度拼图游戏的难度取决于重新组合位置洗牌件的粒度如果粒度非常粗,例如,2,任务相对简单,可能不会对有效的特征学习构成足够的挑战。如果粒度非常细,例如,10 10,即使是人类也可能很难解决,并导致模型对噪声过拟合。我们通过列举从2 2到5 5的拼图大小来探索这种效果,并在图4(a)中显示结果。我们观察到以下情况:(i)除了2 2,不同粒度的FG-SBIR结果差异很小,所有较大的拼图通常都优于ImageNet基线。(ii)每个数据集的拼图预训练的最佳粒度略有不同,但通常3 3或4 4的拼图是一个不错的选择。给定一个类别的收集的照片和提取的边缘图,有四种方式来构建预训练puz- zles的模态,即:仅照片域,仅边缘映射域,照片和边缘图在图像级混合(两种模式65.3664.5463.09ImageNet拼图_4x459.5948.0937.1433.9132.2630.9528.3525.9222.09B=鞋C=主席B=鞋C=手提包B=主席C=鞋B=主席C=手提包B=手提包C=鞋B =手提包C=椅子10354ImageNet拼图_4x485.9885.1683.4183.51拼图_2x2拼图_5x5拼图_3x365.7762.9762.2658.1056.5254.0852.6251.1343.4842.0638.4336.5236.5533.9927.5790 9080 8070 7060 6050 5040 4030 3020QMUL_Shoe_V1 QMUL_Shoe_V2 QMUL_椅子QMUL_手袋(一)20QMUL_Shoe_V1 QMUL_Shoe_V2 QMUL_椅子QMUL_手袋(b)第(1)款图4:所提出的拼图预训练的不同消融变体对FG- SBIR任务性能的比较(b)图像的数据形式红色误差条表示五次重复试验的标准更多详情见正文。最好用zoom观看。的图像被使用,但每个难题只包含一个罪-GLE随机选择的模态),照片和边缘贴图在块级混合(我们的)。我们总结了这些结果数据集变量方法Acc@1C2FFImageNet 44.57%±1.58我们的鞋4×455.30%±2.27图4(b)中的变量,并得出一些结论:(i)Al-虽然我们的下游任务是跨域的,但照片域上的预训练似乎只足以在数据集上获得相当好的性能。这与单独使用边缘映射的性能下降形成对比。(ii)将照片和边缘图图像混合到两种模式的单个数据集中,与仅使用照片相比,其优势有限(Jig- saw两者未混合)。(iii)我们的补丁明智的混合模态输入策略(拼图都混合)导致所有四个数据集上的最佳性能。7. 进一步分析QMUL鞋V1QMUL主席QMUL手提包HOLEFImageNet44.18%±2.25我们的鞋4×454.61%±1.13UFG-SBIRImageNet26.96%±1.74我们的鞋4×435.30%±2.92C2FFImageNet 83.30%±1.85我们的鞋4×491.54%±1.98HOLEFImageNet85.77%±2.24我们的鞋4×489.90%±1.34UFG-SBIRImageNet72.37%±2.35我们的鞋4×472.16%±2.53C2FFImageNet57.14%±2.59我们的鞋4×457.38%±2.21HOLEFImageNet54.29%±1.70我们的鞋4×463.33%±2.68UFG-SBIRImageNet32.86%±2.03我们的鞋4×456.43%±0.98到目前为止,我们完全专注于不同的预训练方法和数据集,同时保持标准的CNN和FG-SBIR匹配架构以促进直接比较。接下来,我们将研究我们的预训练方法在多大程度上补充了FG-SBIR方法设计中的最新改进。我们考虑三种FG-SBIR变体,包括:㈠加强结构:粗到细融合[28,33],我们将其表示为C2FF;(ii)训练目标:[28]:具有高阶可学习能量函数的三元组排名损失-HOLEF;(iii)问题制定:未监督的FG-SBIR-UFG-SBIR,其中边缘映射被视为SBIR训练的人类草图[20]。从表2中的结果可以看出,我们的自监督混合模态拼图预训练匹配或改进了测试的每个FG-SBIR变体的ImageNet性能。Sinkhorn迭代的效果l在实践中,选择l值的权衡:如果它太小,那么表2:当使用不同的FG-SBIR变体时,我们的拼图方法和ImageNet预训练之间的比较得到的分配矩阵将远离真正的置换矩阵,而当它在图5中,我们展示了拼图求解器如何对从1到l的不同值的线性切片做出反应。可以进行以下观察:(i)一般来说,当数字接近l时,拼图模型饱和,只有少数例外,最佳性能在中途获得(图5(c))。(ii)对于经过一轮Sinkhorn标准化的许多设置,拼图性能已经达到了合理的水平。这意味着,即使我们在训练过程中应用l次Sinkhorn迭代,模型也只能略微提高求解成功率,但可以继续预训练更好的模型。(三)尽管未能得到实例Jigsaw_only_edge Jigsaw_both_unmixed85.9884.3383.92Jigsaw_only_photo拼图_两者_混合69.3858.1056.3154.0854.7651.8250.4346.1938.4336.1335.3236.5231.1810355鞋CH安德巴格头发SAGHandb椅子hoe×补丁成功率98补丁成功率90补丁成功率7097 806096 70509512345678910111213141560123456789101112131415161718192040123456789101112131415161718192021222324 25实例成功率929088868482实例成功率30201010.80.60.40.2实例成功率80123456789101112131415(a) 3x3拼图游戏01234567891011121314151617181920(b) 4x4拼图游戏0123456789101112131415161718192021222324 25(c) 5x5拼图游戏图5:Jigsaw求解器成功率与Sinkhorn迭代曾经在l下训练。补丁成功率和实例成功率分别是指被打乱的补丁被正确排序的百分比和其中所有补丁被完美恢复的实例的百分比请注意,由于鞋测试set草图-照片对图6:我们的产品级FG-SBIR数据集和现有通用对应物Sketchy的插图完全未混洗,例如,小于1%的5 5难题,求解器可以始终得到大量的补丁的权利。(iv)不同的拼图粒度对应于非常不同的拼图成功率尺度,与FG-SBIR形成鲜明对比(图4(a)),只要粒度超过2x2,就几乎没有差异。注意:SBIR数据集特色我们注意到,到目前为止,当应用于产品级FG-SBIR基准测试时,我们的拼图预训练的优越性得到了验证,因为这是FG-SBIR最有可能应用的地方。在这里,我们考虑两种其他类型的数据集:类别级SBIR的Flickr15k [4]基准(即,目标是检索特定类别的任何实例,而不是一个特定的实例),以及Sketchy [23],其中草图-照片配对数据覆盖125个真实世界对象类别。我们遵循这些基准的标准分割,并评估我们的Jigsaw预训练方法与表3中的标准ImageNet预训练。我们可以看到我们的吉格-数据集方法Oursshoe4×4Oursshoe4×4/ImageNet ImageNet粗线条53.45%±0.28 51.86%±0.1760.26%±0.16Flickr15k2 7 . 2 3 % ±0.8124.03%±0.8444.15%±0.30表 3 : 粗 粒 度 SBIR 数 据 集 的 性 能 比 较 Sketchy 和Flickr15k上报告的值分别用acc@1和mAP测量。saw策略对这些基准测试无效,直接ImageNet预训练显然会带来最佳结果。为了理解为什么,我们在图6中显示了Sketchy中鞋类的测试集照片和QMUL Shoe V2中随机的10张鞋照片。 可以看出:(i)在产品级FG-SBIR中,姿态和形状在粗略的而不是细粒度的细节匹配中起关键作用。QMUL Shoe V2中较少的姿势可变性导致了Sketchy的可移植性较差。(ii)与白色背景的产品图像不同,Sketchy和Flickr15k图像具有复杂的背景。因此,在教授模型处理Sketchy和Flickr15k所需的复杂背景时,产品照片的预先培训毫无效果。在这些情况下,ImageNet预训练更合适。8. 结论我们引入了一种新的混合模式拼图自监督预训练策略的FG-SBIR与一个新的求解器。我们证明了该方法优于传统的ImageNet预训练阶段。这种策略可以很好地概括各个类别,并进一步导致具有更好的跨类别概括属性的FG-SBIR模型。我们希望这种预训练策略能够成为未来FG-SBIR工作的规范,并被其他跨模态检索/识别任务所采用。鸣谢:杨永新感谢女儿–鞋椅子手袋G汉德巴椅子鞋SAGHandb椅子hoe鞋椅子手袋粗略QMUL10356引用[1] 拼图-维基百科,自由的百科全书拼图。https://en.wikipedia.org/wiki/Jigsaw_puzzle网站。2[2] SketchX ! Shoe/Chair Fine-grained-SBIR 数 据 集 。sketchx.eecs.qmul.ac.uk,2017年。4[3] 瑞安·普雷斯科特·亚当斯和理查德·S·泽梅尔。 通过沉角传播排名。arXiv预印本arXiv:1106.1925,2011年。二、三[4] Tu Bui,L Ribeiro,Moacir Ponti,and John Collomosse.使用三重损失卷积神经网络进行基于草图的图像检索的紧凑描述符。CVIU,2017年。8[5] 法比奥·M·卡卢奇、安东尼奥·德诺森特、西尔维亚·布奇、巴尔巴拉·卡普托和塔蒂亚娜·托马西。解决拼图游戏的领域泛化。在CVPR,2019年。2[6] Jia Deng , Wei Dong , R Socher , and Li Jia Li.Imagenet:一个大规模的分层图像数据库。CVPR,2009。1[7] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。InICML,2014. 2[8] Mengyue Geng , Yaowei Wang , Tao Xiang , andYonghong Tian.深度迁移学习用于人员重新识别。arXiv预印本arXiv:1611.05244,2016。2[9] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv:1803.07728,2018。四、五[10] Kai m ingHe,RossGirshick,andPiotrDoll a'r. 重新思考imagenet预训练。在ICCV,2019年。2[11] Dahun Kim,Donghyeon Cho,Donggeun Yoo,and InSo Kweon. 通过完成损坏的拼图游戏来学习图像表示在WACV,2018。二、五[12] Yi Li , Timothy M Hospedales , Yi-Zhe Song , andShaogang Gong.通过匹配可变形零件模型的基于细粒度草图的图像检索。InBMVC,2014. 2[13] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。2[14] 贡萨洛·梅纳,大卫·贝朗格,斯科特·林德曼,贾斯珀·斯诺克。用Gumbel-Sinkhorn网络学习潜在排列。在ICLR,2018年。2[15] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。在ECCV,2016年。二、四、五[16] Mehdi Noroozi,Hamed Pirsiavash和Paolo Favaro。通过学习数数来学习表象. InICCV,2017. 四、五[17] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比 预 测 编 码 的 表 示 学 习 。 arXiv 预 印 本 arXiv :1807.03748,2018. 5[18] Kaiyue Pang,Da Li,Jifei Song,Yi-Zhe Song,Tao Xi-ang,and Timothy M Hospedales.深层分解逆素描。在ECCV,2018。2[19] Kaiyue Pang,Yi-Zhe Song,Tao Xia
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功