深度草图哈希：基于手绘草图的快速图像检索

102 浏览量更新于2023-10-16 收藏 3.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12862深度草图哈希：基于手绘草图的快速图像检索刘莉1，沈福民2，沈玉明1，刘祥龙3，邵玲11英国东英吉利大学计算科学学院2电子科技大学未来媒体研究中心3北京航空航天大学计算机科学与工程学院{李.刘，余明.沈，凌.邵}@ uea.ac.uk，fumin. gmail.com，xlliu@nlsde.buaa.edu.cn摘要基于手绘草图的图像检索（SBIR）是一种特殊的跨视图检索任务，其查询对象是抽象的、有歧义的草图，而检索数据库是由自然图像组成的。这一领域的工作主要集中在提取草图和自然图像的代表性和共享特征。然而，这些方法既不能很好地处理草图和图像之间的几何失真，也不适用于大规模SBIR，重连续值距离计算。在本文中，我们加快SBIR通过引入一种新的二进制编码方法，命名为深度草图哈希（DSH），其中提出了一个半异构的深度架构，并纳入到一个端到端的二进制编码框架。具体地说，三个卷积神经网络被用来编码手绘草图，自然图像，特别是，作为桥梁，以减轻草图图像的几何失真的辅助草图令牌。学习的DSH代码可以有效地捕获跨视图的相似性以及不同类别之间的内在语义相似性。据我们所知，DSH是第一个专门为具有端到端深度架构的类别级SBIR设计的哈希工作在TU-BerlinExtension和Sketchy两个大规模数据集上对所提出的DSH进行了全面评估，实验一致表明DSH的S-BIR精度优于几种最先进的方法，同时实现了显着减少的检索时间和内存占用。1. 介绍基于内容的图像检索（CBIR）或基于文本的检索（TBR）在实际的计算机视觉应用中发挥了重要作用。但是，在某些情况下，如果示例查询不可用或难以描述它们，图1.本文对SBIR概念进行了说明给定一个徒手查询，我们的目标是从图库中检索与查询相同类别的相关自然图像使用关键字，怎么办？为了解决这个问题，基于草图的图像检索（SBIR）[13，19，49，73，45，50，3，12，27，21，61，6，7，20，66，46，52]最近发展起来的一种检索方法，在信息检索领域正变得流行起来（如图1所示）。①的人。与传统的检索方法相比，使用草图查询可以更有效和精确地表达搜索目标的形状，姿态和细粒度的细节，这对人类来说是直观的，远比用文本中的“百”字描述要方便得多然而，SBIR是具有挑战性的，因为人类绘制手绘草图没有任何参考，但只关注显着的对象结构。因此，与自然图像相比，草图中的形状和比例通常是扭曲的。为了解决这个问题，一些研究试图为SBIR架起草图和自然图像之间的桥梁。这些方法大致可分为两类：手工制作的方法和基于跨领域深度学习的方法。手工SBIR首先通过从自然图像中提取边缘或轮廓图来生成近似草图。之后，手工制作的功能（例如，、SIFT [40]、HOG [8]、梯度场HOG [18，19]、边缘局部方向直方图（HELO）[51，49]和学习关键字图像检索库结果SBIR输出……草图查询12863i=1(LKS)[50]）提取自然图像的草图和边缘图，然后将其输入“词袋”（BoW）方法以生成SBIR的表示。手工制作方法的主要局限性在于草图和自然图像之间的领域差距不能因此，很难很好地补救，因为很难将边缘图匹配到具有较大变化和模糊性的非对齐草图。为了进一步改善上述域偏移问题，卷积神经网络（CNN）[24]最近已被用于从具有端到端框架的草图和图像中学习域可变换特征[52，46，66]。由于能够更好地处理域间隙，深度方法通常在类别级别[13，19，49，73，45，50，12]和精细级别上都比手工方法实现更高的性能。[52，66，27] SBIR任务。目前的深SBIR方法虽然取得了一定的进展，但仍面临着严峻的挑战。特别地，这些方法倾向于在每个图库图像仅包含在干净背景上具有简单轮廓形状的单个对象的情况下执行得很好（例如，“月亮”，“埃菲尔铁塔”和“金字塔”在基于形状的Flickr15K数据集[19]）。然而，在实践中，图库图像中的对象可以从具有相对复杂的背景（例如，，灌木丛中的犀牛）。在这种情况下，现有的方法无法处理手绘草图和自然图像之间的显著几何失真，并且导致不令人满意的性能。而且，对SBIR搜索效率的研究较少。大多数SBIR技术基于对连续值特征（手工制作或深入学习）应用计算复杂度为O（Nd）的最近邻（NN）搜索。这种方法在某些现实场景中（例如，在可穿戴或移动设备上）。因此，能够在有限的计算和存储器资源的情况下对大量图像进行快速SBIR对于实际应用至关重要。为了解决上述问题，在本文中，我们介绍了一种新的深度草图哈希（DSH）框架的快速徒手SBIR，它结合了二进制代码和深度哈希函数的学习到一个统一的框架。具体而言，DSH通过将草图和自然图像嵌入到两组紧凑的二进制代码中来加速SBIR，旨在不仅保持它们的成对语义相似性，而且还利用内在的类别相似性。与之前仅利用图像和草图的Siamese [46，61]或三重CNN[52，66]的方法不同，我们提出了一种新的半异构深度架构，包括三个CNN，其中开发了一个独特的中间层网络，该网络提供了“草图令牌”，以有效地减少手绘草图和自然图像之间的上述几何失真。这项工作的贡献主要包括：• 据我们所知，DSH是第一个专门为类别级SBIR设计的哈希工作，其中二进制代码和深度哈希函数都是在联合端到端框架中学习的。 DSH目标以生成二进制代码，该二进制代码可以成功地捕获（图像和草图之间的）交叉视图关系以及不同类别之间的内在语义相关性。为此，应用高效的交替优化方案来产生高质量的散列码。• 一种新型的半异构深度架构在DSH中被定义为散列函数，其中自然图像，徒手草图和辅助草图令牌被馈送到三个CNN中（如图所示）。（3）第三章。特别是，自然图像及其相应的草图令牌被馈送到异构后期融合网络中，而草图和草图令牌的CNN在训练期间共享相同的权重。因此，与以前的SBIR深度网相比，DSH中的架构可以更好地弥补图像和草图之间的领域差距。• 实验一致地说明了与最先进的方法相比，DSH的优越性能，同时实现了检索时间和记忆负荷的。相关工作散列技术[42，16，34，62，39，30、55、35、17、14、74、36、14、70、37、47、38、54、25、33、41]最近已经成功地应用于将高维特征编码成紧凑的相似性保持二元码，这使得能够通过使用汉明距离进行极快的相似性搜索。受此启发，最近的一些SBIR作品[1，15，43，56，58，60]已经将现有的哈希方法用于有效的检索。例如，LSH [16]和ITQ [17]分别用于基于草图的图像[1]和3D模型[15]检索任务。事实上，在各种哈希方法中，跨模态哈希[31，68，72，26，32，2，57，75，71，10，23，5，4]，通过保持来自不同模态的异构表示之间的相关性来学习二进制代码，与SBIR问题更相关。然而，上述所有散列技术都不是专门为SBIR设计的，并且忽略了手绘草图和自然图像之间的内在联系，导致性能不令人满意.在下一节中，我们将介绍我们在DSH中的深度哈希网络的详细架构，然后详细介绍我们的哈希目标函数。2. 深度草图哈希为了帮助更好地理解这一节，我们首先介绍一些符号。设O1={Ii，Zi}n1，其中Ii是自然图像，Zi是其对应的草图标记32864表1.建议的DSH的详细配置图2.我们的DSH输入图示：手绘草图、自然图像和相应的草图标记。草图标记具有与徒手草图相似的笔画模式和外观从I;O={S}n2是一组手绘草图i2jj=1Sj;n1和n2表示样本分别在O1和O2中。此外，定义标签矩阵YI={yI}n1∈RC×n1，其中yi=1，如果{i，zi}i i=1ci属于类c，否则为0;YS={yS}n2∈j j=1用同样的方法定义了s k腐蚀的RC×n2。我们的目标学习两组m位二进制码BI={BI}n1∈Net（底部）和C2-Net（中间）。特别是，C1-Net（底部）从AlexNet稍微修改[24]，i i=1{-1，1}m×n1和BS={bS}n2∈{−1，1}m×n2，对于O15个卷积（conv）层和2个全连接（fc）层和O2。j j=1层用于自然图像输入，而C2-Net配置有4个卷积层和2个全连接层，2.1. 半异构深度架构如前所述，SBIR是一个非常具有挑战性的任务，由于草图和图像之间的大的几何失真。受[29，50]的启发，在这项工作中，我们建议采用辅助图像表示作为桥梁，以减轻草图和自然图像之间的几何失真。特别地，使用手绘草图形式的受监督的中间级信息，从自然图像中检测一组边缘结构，称为在实践中，给定一个图像，我们将得到一个初始的草图标记，其中每个像素都被分配了一个分数，用于表示它是轮廓点的可能性。然后，我们使用最大分数的60%（与[50]相同）对每个像素进行阈值化，并获得最终的草图标记，如图所示。二、Sketch-token有两个优点：（1）它们只反映了自然图像的基本边缘，而没有详细的纹理信息;（2）不同于普通的边缘图（例如，，Canny），它们具有与徒手草图非常相似的笔画模式和外观。接下来，我们将展示如何在草图令牌的帮助下设计DSH架构。我们提出了一种新的半异构深度架构，其中三个CNN被开发为哈希函数将手绘草图、自然图像和辅助草图标记编码为二进制代码。如图3、DSH框架包括以下两部分：1) 交叉权重后期融合网络：开发了一个具有两个并行CNN的异构网络，称为C1-对应的草图标记输入。详细参数列于表1中。受最近的多模态深度框架[48]的启发，我们用交叉权重连接了C1-Net（底部）和C2-Net（中间）的池化3，fc a，fc b。通过这种方式，我们利用两个网络之间的高级交互来最大化两种模式之间的互信息，同时还保留了每个网络的信息。最后，类似于[31，10]，我们后期将C1-Net（底部）和C2-Net（中间）融合到统一的二进制编码层哈希C1中，以便学习的代码可以充分受益于自然图像及其相应的草图标记。2) 共享重量草图网络：对于手绘草图输入，我们开发了C2-Net（顶部），配置如表1所示。具体来说，考虑到草图令牌和手绘草图之间存在的相似特征和隐式相关性，我们为C2-Net（中间）和C2-Net（顶部）设计了一种连体架构，以在Conv中共享相同的深度权重，fc层在优化过程中（见图（3）第三章。因此，经由共享权重网络（来自散列C2）学习的徒手草图的散列码将减轻SBIR期间图像与草图之间的几何差异深度哈希函数：用Θ1表示C1-Net（底部）中的深度权重，用Θ2表示C2- Net（中间）和C2-Net（顶部）中的共享权重。对于自然图像及其草图标记，我们从交叉权重后期融合形成深度散列函数BI=sign（F1（O1; Θ1，Θ2）alarmClock树铠甲牛城堡茶壶净层内核大小步幅垫输出输入---3×227×227conv111×114096×55×55合并13×32096×27×27conv25×512256×27×27合并23×320256×13×13C1-Net（自然图像）conv3conv4conv5pooling33×33×33×33×311121111384×13×13384×13×13384×13×13256×7×7fc a7×7104096×1×1英国足球1×1101024×1×1散列C11×110m×1×1输入---1×200×200conv114×143064×63×63合并13×32064×31×31C2-Net（手绘草图/草图-令牌）conv2 1Conv2 2池化23×33×33×3112110128×31×31128×31×31128×15×15conv3 1conv32pooling33×33×33×3112110256×15×15256×15×15256×7×7fc a7×7104096×1×1英国足球1×1101024×1×1散列C21×110m×1×1428651图3.说明所提出的DSH的主要思想。具体来说，我们将卷积神经网络和离散二进制代码学习集成到一个统一的端到端框架中，该框架可以以交替的方式进行有效优化C1-Net（底部）和C2-Net（中间）的净同样，共享权重草图网络（即，，C2-Net（Top））被认为是用于手绘草图的散列函数BS= sign（F2（O2;Θ2））。通过这种方式，从上述深度哈希函数学习的哈希码可以导致更合理的SBIR，特别是当存在显著的草图图像失真时。接下来，我们将介绍二进制代码和哈希函数联合学习的DSH目标。2.2. DSH的目标制定1) 交叉视图成对损失：首先定义O1和O2的交叉视图相似度矩阵W∈Rn1×n2，其中Wij的元素表示{Ii，Zi}和Sj之间的交叉视图相似度。学习的BI和BS的内积应充分近似相似性矩阵W。因此，我们考虑以下问题：最小J：=||� �||第二条第一款BI， BSS. t. BI∈ {− 1，+1}m×n1，B S∈ {− 1，+1}m×n2，哪里||·||是Frobenius范数，是元素乘积。可以定义跨视图相似性矩阵W通过语义标签信息作为Wij=1，如果yI= yS，并且将隐含地使所有类别独立，并丢弃高级语义的潜在相关性。受词嵌入的最新发展[44]的启发，在本文中，我们通过利用NLP词向量工具箱1将独立标签映射到高级语义空间来克服上述缺点。因此，可以定量地测量和捕获不同标签之间的内在语义相关性（例如，“猎豹“的语义嵌入由于语义嵌入有意指导高质量二进制代码的学习，我们优化了以下语义因子分解问题最小J2：=||φ（YI）−DBI||2个以上||φ（YS）−DBS||二、（二）BI， BSS. t. BI∈ {− 1，+1}m×n1，B S∈ {− 1，+1}m×n2，其中 φ（·）是w阶嵌入模型， φ（YI）∈Rd×n1， φ（ YS ）∈Rd×n2 ， d=1000是w阶嵌入的维数. D ∈Rd×m是两个视图的语义因子分解的共享基。注意，共享基础我们使用的方法有助于保持潜在的语义相关性，这也有利于SBIR中的跨视图代码学习。ij最终目标函数：与以前的哈希不同-1否则。由等式(1)自然图像同一类别的草图会被拉到尽可能地远离，否则。2) 语义因子分解损失：在十字架之外-在代码学习过程中使用连续松弛的方法，我们保持DSH优化中的二进制约束。通过回顾Eq。(1)和等式(2)，我们得到最终的目标函数：视图相似性，我们还考虑保留内部集图像集O1和minBI， BS， DI，DS，Θ1，Θ2J：=||� �||第二章（三）草图集O2。然而，给定的0/1标号矩阵YI而YS只能提供二进制测量（即，的+λ（||φ（YI）−DBI||2个以上||φ（YS）−DBS||（二）+γ（||F（O;Θ，Θ）−BI||2个以上||F（O;Θ）−BS||2）、样本是否属于同一类别），这导致1 1 1 22 2 2所有不同的类别具有相等的距离（例如，“因此，直接使用这种离散标签信息S. t. BI∈ {−1，+1}m×n1，BS∈ {−1，+1}m×n2.1https://code.google.com/archive/p/word2vec/。该模型是从维基百科的前10亿个字符训练的。42866i=1我�k�kF（Θ，Θ）112�小批量小批量BPBP小批量BP更新更新更新DD…D培训序列时代时代时代这里，λ>0和γ>0是平衡参数。最后两个正则化项旨在最小化二进制码BI、BS和深度哈希函数算法1深度草图哈希（DSH）输入：自然图像和对应的草图标记对的集合O1={IiZi}n1;徒手草图集合O2={I i Zi }n 1;F（O;Θ，Θ），F（O;Θ）.相似正则化项{SJ}n2;标签信息{yI}n1和{yS}n2;1 1 122 2 2J=1ii=1jj=1在[53，37]中也用于有效的哈希码学习。接下来，我们将详细说明如何优化问题（3）。深度优化的总时期T输出：深度哈希函数F1（O1; Θ1，Θ2）和F2（O2;Θ2）。1：随机初始化{bI}n1∈ {−1，+1}m×n1，ii=1{bS}n2∈{−1，+1}m×n2，整个训练集;3. 优化jj=1n×n显然，问题（3）是非凸和非光滑的，由于二元约束，其通常是NP-难问题。为了解决这个问题，我们提出了一种基于交替优化的算法，该算法以迭代的方式顺序更新D、BI、BS和深度哈希函数F1/F2在实践中，我们首先使用具有相应语义标签的自然图像和草图来预训练C1- Net（底部）和C2-Net（顶部）作为分类网络。之后，预训练的模型将应用于我们的半异构深度模型，如图所示。3，然后用以下交替步骤进行优化。D更新步骤。通过固定除D之外的所有变量，Eq. (3)缩小为经典的二次回归问题构造跨视图相似度矩阵W ∈ R12.2：对于t=1，，Tepoch，3：根据等式更新D。(5);4：根据等式更新BI和BS(10);5：通过第t个历元数据更新深度参数{Θ1，Θ2};6：结束图4.DSH交替优化方案说明I I2S S2这不是困难的显示方程。(7) 可以写成w。r. t. �P于我��min||φ（Y）−DB||D+的||φ（Y）−DB|| ,(4)ask这可以通过解析求解为不不T T�系我�SIT TTD=（φ（YI）BI+ φ（YS ）BST ）（BIBI +BSBST）−1. （五）最小值b（B<$�P于我��K 我B�kbk1×n1 +λB��kDkdk−�rk），（9）S. t. b∈{−1，+1}.BI更新步骤。通过固定所有其他变量，我们通过以下等式优化BI因此，可以通过下式获得BImin||� �||2+λ||φ（YI）−DBI||第二章（六）我SSTITIB我+γ||F1（O1;Θ 1，Θ2）−BI||二、S. t. BI∈ {− 1，+1}m×n1.我们进一步重写（6）为min||BIT||2+λ||BITDT||2−2trace（BITR），（7）B我b�k=sign（�rk−b�kB��k Bk−λdk DkBk）.（十）以这种方式，二进制码B1可以被逐位地优化，并且最终达到稳定点。BS更新步骤。通过固定所有其他变量，我们学习哈希码BS与方程类似的公式（十）、S. t. BI∈ {− 1，+1}m×n1，其中R=BS（WTm）+λDTφ（YI）+γF1（O1;Θ1，Θ2）和||B我||2= mn1。直接优化具有离散的BI是具有挑战性的，Θ1和Θ2更新步骤。一旦获得BI和BS，我们根据以下欧几里得损失更新C1-Net和C2-Net的参数Θ 1和Θ 2：最小L：= ||F（O; Θ，Θ）− BI||2个以上||F（O; Θ）−B S||二、约束受离散循环坐标下降（DCC）[54]的启发，我们通过固定所有Θ1，Θ21 1 1 22 2 2（十一）其它m-1行，即，每次我们只优化一个通过首先计算部分梯度和所有n样品��D.不为我们可以得到用链式法则来计算。然后我们1k kk kF2（Θ2）Θ1，Θ2）B_I、B_S、R和D_T分别为第k行，k = 1，. . . 、m.为方便起见，我们还有S42867�B=[b我使用标准的小批量反向传播（BP）方案来同时更新我们的整个深度Θ1和Θ2。T T T�系我��我我我SSTS不不 SITTSTT架构在实践中，上述过程可以很容易地实现。B¬k= [b1联系我们，的。. .，bk−1，的。 . .，b�k−1，bk+1，b�k+1，的。. .，bm]，，的。 . . ，b�m]的，（八）通过深度学习工具箱（例如，Caffe [22]）。如图4、迭代更新D→B →��[d]1，. . . ，dk−1，dk+1，. . . ，d�m].在每一个历元中BS→{Θ1，Θ2}。因此，DSH可以42868表2.在两个数据集上与之前的SBIR方法（MAP、Precision@200、检索时间/查询和内存负载（MB除了产生二进制代码的DSH之外，所有其他方法都使用连续值特征表示方法尺寸TU-柏林延长线粗略地图精度@200检索时间每个查询内存负载（MB）(204，489图库图片）地图精度@200检索时间每个查询内存负载（MB）(73，002画廊图像）HOG [8][第18话][49]第四十九话LKS [50]12963500129613500.0910.1190.1230.1570.1200.1480.1550.2041.434.131.441.51二、02 ×103五、46 ×103二、02 ×103二、11 ×1030.1150.1570.1610.1900.1590.1770.1820.2300.531.410.500.567 .第一次会议。22 ×1021 .一、95 ×1037 .第一次会议。22 ×1027 .第一次会议。52 ×102[46]第四十六话SaN [67][52]第五十二话[61]第六十一话645121024640.3220.1540.1870.0540.4470.2250.3010.0727.70×10−20.531.027.53×10−299.87 .第一次会议。98×1021 .一、60 ×10399.8MB0.4810.2080.5290.0840.6120.2920.7160.0792.76×10−20.210.412.64×10−235.4二、85 ×102五、70 ×10235.6Siamese-AlexNet40960.3670.4765.35六、39 ×1030.5180.6901.68二、28 ×103Triplet-AlexNet40960.4480.5525.35六、39 ×1030.5730.7611.68秒二、28 ×103DSH（拟议）32（位）0.3580.4865.57×10−40.780.6530.7972.55×10−40.2864位0.5210.6557.03×10−41.560.7110.8582.82×10−40.56128（位）0.5700.6941.05×10−33.120.7830.8663.53×10−41.11’*’最终在总共T个时期内优化，其中T=10次十五岁请注意，总体目标是下界的，因此（3）的收敛性总是通过我们的优化中使用的坐标下降来保证。整体DSH总结在算法1中。一旦DSH模型被训练，给定草图查询Sq，我们可以用C2-Net（Top）计算其二进制代码bSq=sign（F2（Sq;Θ2））对于检索数据库，每个图像和草图-标记对{I，Z}的统一散列码被计算为 bI=sign（ F1（I，Z; Θ1，Θ2）），其中C1-Net（底部）和C2-Net（中间）。4. 实验在本节中，我们在两个最大的SBIR数据集上对DSH进行了广泛的评估：TU-柏林扩展和草图。我们的方法是使用Caffe2和双K80 GPU来训练我们的深度模型，并在i7 4790K CPU上使用MATLAB 2015 b进行二进制编码。4.1. 数据集和方案数据集：TU-Berlin[11]Extension包含250个对象类别，每个类别有80个徒手草图。我们还使用[69]提供的与TU-Berlin相关的204，489个扩展自然图像作为我们的自然图像检索库。Sketchy[52]是一个新发布的数据集，最初用于细粒度SBIR，其中包括来自125个类别的12，500个对象（图像）的75，471个手绘草图。为了更好地适应本文中大规模SBIR的任务，我们从ImageNet中收集了另外60，502张自然图像（平均484张图像/类别）[9]，以形成一个新的检索库，总共有73，002张图像。与之前的散列评估类似，我们从每个类别中随机选择10个和50个草图分别作为TU-Berlin和Sketchy的查询集，剩余的草图和图库图像3用于训练。2我们训练的深度模型可以从http://github.com/ymcidence/DeepSketchHashing网站。3所有自然图像都被用作训练集和检索库。比较方法和实现细节：我们首先将提出的DSH与几种以前的SBIR方法进行比较，包括手工HOG [8]，GF-HOG [18]，SEHLO [49]，LSK [50];和基于深度学习的Siamese CNN [46] ， Sketch-a-Net （ SaN ） [67] ， GNTriplet [52] ， 3D shape [61] 。对于 HOG ， GF-HOG ，SEHLO，Siamese CNN和3D形状，我们首先需要从自然图像中计算Canny边缘图，然后提取特征。详细地，我们通过具有码本大小3500的BoW方案计算GF-HOG;对于HOG、SEHLO和LSK，我们完全遵循[50]中使用的最佳设置。由于Sketchy数据集中缺乏笔画顺序信息，我们在实验中仅使用单个深通道SaN，如[66]所示。我们在TU-Berlin和Sketchy数据集上微调了Siamese CNN和SaN，而GN Triplet和3D形状的公共模型只允许直接进行特征提取，而不需要任何重新训练。此外，我们还添加了Siamese-AlexNet （具有对比损失）和 Triplet-AlexNet（具有三重排序损失）作为基线，这两个网络都是我们在两个数据集上构建和训练的。特别地，我们的Siamese/Triplet-AlexNet 的语义成对/三重监督分别与[46]/[65]相同。此外，DSH还与最先进的跨模态哈希技术进行了比较：集体矩阵分解散列（CMFH）[10]、跨模态半监督散列（CMSSH）[2]、跨视图散列（CVH）[26]、语义相关性最大化（SCM-Seq和SCM-Orth）[68]、语义保持散列（SePH）[31]和深度跨模态散列（DCMH）[23]。请注意，由于DCMH是一种最初用于图像-文本检索的深度哈希方法，因此在我们的实验中，我们通过将文本嵌入通道替换为相同的并行图像通道将其修改为暹罗网。此外，还有四种跨视图特征嵌入方法：[59]第59话：你是谁？ [59][64]用于比较。除了DCMH，两个数据集中的每个图像和草图分别由4096-d AlexNet [24]fc 7和512-d SaNfc 7深度特征表示。42869表3.使用不同跨模态方法的类别级SBIR。对于非深度方法，使用4096-d AlexNetfc 7图像特征和512-d SaNfc 7草图特征。对于深层方法，使用原始的自然图像和草图TU-柏林延长线粗略方法地图精密度@200地图精密度@20032位64位128位32位64位128位32位64位128位32位64位128位[第10话]0.1490.2020.1800.1680.2820.2410.3200.4900.1900.4890.6570.286跨模态散列方法（二进制代码）[2]SCM-Seq [68][第68话][26]第二十六话0.1210.2110.2170.2140.1830.2760.3010.2940.1750.3320.2630.3180.1430.2980.3120.3050.2610.3720.4200.4110.2330.4540.4700.4490.2060.3060.3460.3250.2110.4170.5360.5250.2110.6710.6160.6240.3710.4420.4670.4590.3760.5290.6500.6410.3750.7580.7760.773SePH [31]0.1980.2700.2820.3070.3800.3980.5340.6070.6400.6940.7410.768DCMH [23]0.2740.3820.4250.3320.4670.5400.5600.6220.6560.7300.7710.784提出DSH0.3580.5210.5700.4860.6550.6940.6530.7110.7830.7970.8580.866交叉视图特征学习方法（连续值向量）[第59话]XQDA [28]PLSR [63]CVFL [64]0.2760.1910.3660.1970.3650.2010.3330.2630.4820.2780.5360.2780.3610.4600.5550.5570.7050.5500.3790.6070.6100.7150.7750.7270.141（4096-d）0.289（4096-d）0.215（4096-d）0.407（4096-d）0.462（4096-d）0.675（4096-d）0.623（4096-d）0.803（4096-d）PLSR和CVFL都是基于重建部分数据来近似完整数据，因此维数固定为4096-d。TU-BerlinExtension以太网@64位1Sketchy小册子@64位10.45TU-柏林扩展数据集0.7粗略数据集0.80.60.80.60.40.350.30.250.60.50.40.40.20.40.20.20.150.10.050.30.20.100 0.2 0.4 0.6 0.81召回00 0.2 0.4 0.6 0.81召回03264128256码长03264128256码长图5.TU-Berlin Extension和Sketchy数据集上的精确度-召回率曲线和HD2精确度活泼地由于这些哈希和特征嵌入方法需要带有相应标签的成对数据作为输入，在我们的实验中，我们进一步将这些深度特征（从TU-Berlin Extension/Sketchy数据集提取）构建成100，000个样本对（每个类别800/400对）来训练所有上述跨模态方法。对于提出的DSH，我们使用SGD在Ca f fe上训练我们的深度模型，初始学习率α=0.001，动量= 0.9，批量大小为64。我们将α降为0。3α，并在15个时期后终止优化。对于这两个数据集，我们的平衡参数都设置为λ=0。01并且γ=10−5通过训练集上的交叉验证。在测试阶段，我们报告了平均精度（MAP）和最高等级200时的精度（precision@200），以评估类别级SBIR。对于所有散列方法，我们还评估了半径为2的汉明距离（HD2）的精度和精度召回曲线。增补─此外，我们报告了检索时间每查询（s）从图像画廊和内存负载（MB）的比较方法。4.2. 结果和讨论DSH与SBIR基线：在表2中，我们展示了两个数据集上所有SBIR方法的MAP和精度@200的比较。通常，基于深度学习的方法可以比手工制作的方法实现更好的性能，并且由于Sketchy中的数据相对简单，类别较少。我们的128位DSH可实现0.138/0.142和在两个数据集上，与性能最佳的比较方法相比，分别有0.210/0.105的改进（MAP/精度@200）。这是因为DSH的半异构深度架构是专门为类别级SBIR设计的，通过有效地引入辅助草图标记来减轻手绘草图和自然图像之间的几何失真。其他深层方法：Siamese CNN、GN Triplet和3D shape仅将图像和草图作为训练数据，具有简单的多通道深层结构。在比较的方法中，我们注意到3D形状产生的SBIR性能比以前的论文[61，66]报道的更差。在[66]中，来自检索图库的图像都包含具有完美背景去除的对齐良好的对象，因此从这些图像计算的边缘图可以很好地表示对象，并且具有与手绘草图几乎相同的笔画模式，这保证了良好的SBIR性能。然而，在我们的任务中，检索图库中的所有图像都是真实的，具有相对复杂的背景，并且计算出的边缘图和草图之间仍然存在很大的差异。因此，从我们的边缘图中提取的3D形状特征变得无效。类似的问题也存在于SaN、HOG和SHELO中。此外，检索时间和记忆负荷列于表2中。与传统的SBIR方法相比，我们的DSH在检索过程中可以实现更快的速度和更低的内存负载。DSH与跨模态散列：我们还将DSH与表3中的跨模态散列/特征学习方法进行了比较。如前所述，我们使用学习到的深度特征作为非深度方法CMFHCMSSHCVHSCM-序列SCM-OrthSephDCMHDSHCMFHCMSSHCVHSCM-序列SCM-OrthSephDCMHDSHCMFHCMSSHCVHSCM−SeqSCM-OrthSePHDCMHDSHCMFHCMSSHCVHSCM−SeqSCM-OrthSePHDCMHHDS精度精度HD2HD242870泰迪杯长凳花象直升机水壶犀牛图6.SBIR的可视化：使用128位的Sketchy数据集上的八个示例查询草图及其前20个检索结果DSH代码。红框表示误报。表4.不同组件的有效性（MAP 128位）方法TU-柏林延伸粗略仅C2-Net（顶部）+ C1-Net（底部）仅C2-Net（顶部）+ C2-Net（中部）0.4970.3790.6820.507仅使用交叉视图成对损失仅使用语义因子分解损失0.5220.4850.7150.667我们提出的完整DSH模型0.5700.783(a)图像检索图库（b）测试草图查询图7.Sketchy数据集中10个代表性类别的32位DSH代码的t-SNE可视化DSH之后，自然图像(a)并且来自相同类别的测试草图查询（b）几乎分散到相同的聚类中。同时，语义相似的范畴分布紧密，否则远离。与我们的DSH进行公平比较。特别是，SCM-Orth和SePH在两个数据集上的非深度哈希方法之间总是具有很高的准确性。由于其深度的端到端结构，DCMH可以比非深度哈希方法获得更好的结果，而CMFH和CMSSH由于不（半）监督学习机制。对于跨视图特征学习方案，CCA和CVFL分别在TU-Berlin Extension和Sketchy数据集上取得了优异的性能。我们的DSH可以始终优于表3中的所有其他方法。DSH的优越性能也在64位查准率-查全率曲线和沿着不同代码长度的HD2曲线中得到了证明（如图2所示）。5）通过比较曲线下面积（AUC）。此外，我们在图4中给出了t-SNE的可视化.其中测试草图和图像库的类似DSH分布直观地反映了DSH代码的有效性。最后，一些查询的例子与前20名SBIR检索结果显示在图。6.DSH成分分析：我们在表4中评估了DSH不同组分的有效性。具体来说，我们通过仅使用具有相同二进制编码方案的C2-Net（顶部）和C1-Net（底部）通道来构建异构深度网络。它产生大约0的情况。073和0。101MAP通过仅使用相应数据集上的图像和草图而减小，这充分证明了草图标记对于减轻几何失真的重要性。我们还观察到，交叉视图成对损失项或语义因子分解损失项将导致比应用完整模型更差的性能，因为在DSH中捕获的交叉视图相似性和内在语义相关性可以彼此补充并且同时有益于最终MAP。5. 结论在本文中，我们提出了一种新的深度哈希框架，命名为深度草图哈希（DSH），快速基于草图的图像检索（SBIR）。特别地，设计了一种半异构深度架构来编码手绘草图和自然图像，以及辅助草图令牌，其可以有效地减轻两种模态之间的几何失真。为了训练DSH，二进制代码和深度哈希函数以交替的方式联合优化。大量的实验验证了DSH在检索精度和时间/存储复杂度方面优于最先进的方法。10.90.80.70.6泰迪喇叭蜜蜂板凳杯狗狮子马鞋直升机0.50.40.30.20.1000.10.20.30.40.50.60.70.80.9110.90.80.70.6泰迪喇叭蜜蜂板凳杯狗狮子马鞋直升机0.50.40.30.20.1000.10.20.30.40.50.60.70.80.9142871引用[1] K. Bozas和E.西班牙语基于面片散列的大规模草图在2012年的国际视觉计算研讨会上[2] M. M. Bronstein，A. M.布朗斯坦，F. Michel和N. 帕拉吉奥。通过使用相似性敏感散列的跨模态度量学习的数据融合。CVPR，2010。[3] X. Cao，H. Zhang，S. Liu，X. Guo和L.是林书Sym-fish ：对称感知翻转不变草图直方图形状描述符。CVPR，2013。[4] Y. Cao，M. Long和J.王. 相关散列网络用于高效的跨模态检索。arXiv预印本arXiv：1602.06697，2016年。[5] Y. Cao，

下载后可阅读完整内容，剩余1页未读，立即下载