草图图像检索中的生成域迁移哈希方法

23 浏览量更新于2023-10-13 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于草图到图像检索的Jingyi Zhang1、 2、Fumin Shen1、Li Liu2、Fan Zhu2、Mengyang Yu3、LingShao2、Heng Tao Shen1和Luc Van Gool31电子科技大学计算机科学与工程学院未来媒体研究中心，成都2Inception Institute of Artificial Intelligence，阿布扎比，阿联酋3瑞士苏黎世联邦理工学院计算机视觉实验室抽象。由于手绘草图的简洁性，基于草图的图像检索（SBIR）具有丰富的实际应用案例在消费类电子产品中。然而，SBIR仍然是一个长期未解决的问题，主要是因为草图域和图像域之间的显着差异。在这项工作中，我们提出了一个生成域迁移哈希（GDH）的方法，第一次生成哈希代码从合成的自然图像，从草图迁移。生成模型利用对抗损失学习草图分布与自然图像分布不可区分的映射，同时基于循环一致性损失学习逆映射以增强不可区分性.通过从生成模型中学习到的鲁棒映射，GDH可以将草图迁移到其不可区分的图像对应物，同时保留草图的域不变信息利用端到端多任务学习框架，可以联合优化生成模型和二进制化散列代码。在多个大规模数据集上进行的分类级和细粒度SBIR的综合实验表明，GDH在效率、内存成本和有效性方面具有一致的平衡优势。4关键词：域迁移·哈希函数·SBIR1介绍触摸屏在消费类电子产品（从便携式设备到大型家用电器）中的普及促进了人机交互（徒手绘图）。草图的输入对于视觉记录想法来说简洁，方便，高效基于草图的图像检索（SBIR）[39，56，1，55，40，48，9]作为基于草图的一种扩展应用，受到了越来越多的关注。通讯作者：沈福民4型号和代码，请访问https://github.com/YCJGG/GDH2J. Zhang，F.申湖，澳-地Liu，F.Zhu，M.于湖，加-地Shao，H.申湖，澳-地Van GoolSBIR的主要挑战是手绘草图具有固有的抽象性和图标性，这放大了草图和真实世界图像之间的跨域差异。最近的工作尝试采用交叉视图学习方法[39，9，29，38，13，34，4，14，37，32]来解决这样的挑战，其中常见的做法是通过将草图和自然图像嵌入到公共空间来减少域差异这一系列方法的最关键的缺陷是每个域内的学习与其他基于图像的检索问题类似，查询时间随着数据库的大小和草图/图像表示的尺寸呈指数增长为此，引入了深度草图散列（DSH）[29]来用二进制向量替换全精度草图/图像然而，二值化过程引入的量化误差可以破坏域不变信息和跨域的语义一致性。在这项工作中，我们的主要目标是改善上述工作中的不足之处，并提供一个实用的解决方案，可扩展的SBIR问题。我们提出了一种生成域迁移散列（GDH）方法，通过将草图迁移到自然图像域来提高泛化能力，其中迁移草图的分布与自然图像的分布是不可区分的。此外，我们引入了一个端到端的多任务学习框架，共同优化的周期一致性迁移以及哈希码，其中的对抗性损失和周期一致性损失可以同时保持哈希码的语义一致性。GDH还集成了一个关注层，引导学习过程集中在最具代表性的区域。SBIR的目标是检索与查询草图共享相同类别标签的自然图像，而细粒度SBIR的目标是除了类别级一致性之外还保持出于一致性的目的，我们将标准SBIR称为类别级SBIR，将细粒度版本称为细粒度SBIR。由于在GDH中学习的双向映射是高度欠约束的（即，，不需要草图和自然图像之间的像素级对齐[15]），GDH可以自然地提供用于保留草图和自然图像之间的几何形态和详细实例级特征此外，一个三元组的排名损失，以提高细粒度学习的基础上的类内实例的视觉相似性所提出的用于类别级和细粒度SBIR任务的GDH方法的流水线在图中示出1.一、在各种大规模数据集上进行的分类级和细粒度SBIR任务的广泛实验本工作的主要贡献如下：– 我们第一次提出了一个生成模型GDH的基于哈希的SBIR问题。与现有方法相比，生成式模型可以生成域迁移哈希3通过将草图迁移到它们在自然图像域中的不可区分的对应物中，本质上提高了泛化能力。– 在对抗性损失和循环一致性损失的指导下，优化的二进制哈希码可以保持跨域的语义一致性同时，训练GDH不需要跨域的像素级对齐，因此允许广泛和实际的应用。– GDH可以将最先进的基于散列的SBIR方法DSH [29]的类别级SBIR性能提高高达20。在TU-Berlin Extension数据集上为5%，最多为26。在Sketchy数据集上分别为4%。同时，GDH可以实现与实值细粒度SBIR方法相当的性能，同时显著减少二进制代码的检索时间和存储成本。从伪草图重建图像图像鉴别器DI图像生成器GI草图鉴别器DS房/假的输入草图假素描草图生成器GSResBlock6伪造图像散列函数H三重排序损失房/假的逐元素乘积1注意层-11从伪图像重建草图注意面罩输入图像上采样逐元素乘积-11语义损失和量化损失图1.一、说明我们的域迁移网络和紧凑二进制代码学习的深度模型。域迁移模块由GI、GS、DI和DS组成。右下角的模块是哈希网络H。红色箭头表示真实草图和假自然之间的循环，而紫色箭头表示真实自然图像和假草图之间的循环。2相关工作在本节中，我们讨论了以下四个方向的相关工作。类别级SBIR：大多数现有的类别级SBIR方法[39，9，29，38，13，34，4，14，37，32，22]依赖于学习草图和自然图像的公共特征空间。然而，基于此学习这样的公共特征空间可能最终导致对训练数据的过拟合解决方案。基于哈希的SBIR：如果学习的公共特征空间是实值的，则检索时间取决于数据库大小和算法的可伸缩性4J. Zhang，F.申湖，澳-地Liu，F.Zhu，M.于湖，加-地Shao，H.申湖，澳-地Van Gool我因此可以被抑制。为了提高效率，引入了基于散列的方法[42，26，30，31，44，51，61，28，46，36，28，45，43]来解决SBIR问题。最先进的基于散列的SBIR方法DSH [28]采用端到端半异构CNN来学习二进制散列代码以进行检索。然而，泛化问题仍然存在于DSH中，因为学习的半异构CNN也是跨两个域的非线性映射。生成对抗网络：生成对抗网络（GANs）[10]在各种图像生成[6]和表示学习[33]任务中的成功是鼓舞人心的，可以使用对抗损失将草图迁移到自然图像域，其中迁移的草图无法与自然图像区分开来。图像到图像转换方法[41，16]可以达到这个目的，并且能够将草图迁移到自然图像中，但是，训练所需的每个草图和图像对之间的像素级对齐为了解决这样的问题，Zhu et al.[62]引入了循环一致性损失。在这项工作中，我们采用这样的循环一致性损失，并迫使双向映射是相互一致的受益于高度欠约束的循环学习，草图可以被迁移到它们在自然图像域中的不可区分的对应物。细粒度SBIR：在有限数量的细粒度SBIR方法中[55，40，48，3，53，21，35，54，20]，Yu等人。[55]提出了具有三元组排序损失的多分支在我们的工作中，我们还利用三重排序损失，以保持类内实例的视觉相似性。通过改进对测试数据和二进制哈希码的泛化能力，所提出的GDH方法可以在细粒度SBIR任务上实现与[55]相当的性能3生成域迁移哈希3.1初步给定n训练图像I ={I}n1 和n训练草图S={S}n2得双曲余切值.1ii=12. 我i=Σ1所有训练实例的标签向量（行向量）为Y I=yn1∈.Σn2ii=1{0， 1}n1×c和YS=yS∈ {0， 1}n2×c，其中yI和yS是我i=1one-hot向量，c是类的数量我们的目标是研究从草图到自然图像，同时学习散列函数H：{I ，Ifake} → {-1，+1}K，其中K是散列码的长度使得可以在真实的和生成的自然图像的提取的散列码之间保持语义一致性3.2网络架构为了达到上述目的，我们同时优化了一对生成和判别网络和一个哈希网络。生成域迁移哈希5生成网络：令G1和G8是用于将草图迁移到自然图像的两个并行生成CNN，反之亦然：GI：S→I和GS：I → S。考虑到自然图像包含比其草图对应物更多的信息，将草图迁移到自然图像本质上是一个上采样过程，并且可能需要更多的参数。为了抑制背景信息并引导学习过程集中在最具代表性的区域，我们在GS中集成了注意力模块[47，60]。注意力模块包含一个具有1×1内核大小的卷积层，其中将具有阈值的softmax函数应用于输出以获得二进制注意力掩码。可以在二进制注意力掩码和来自ResBlocks的特征图之间执行逐元素乘法。判别网络：GDH中除了两个生成器外，还相应地集成了两个判别网络，其中DI用于区分带有掩码（I⊙mask）的图像和生成图像GI（S），DS用于区分真实草图S和生成草图GS（I）。哈希网络：散列网络H旨在生成真实图像I和生成图像GI（S）两者的二进制散列码，并且可以基于具有其掩模（I ⊙掩模）的真实图像和来自域迁移网络的生成图像GI（S）两者来训练。散列网络H是从18层深度残差网络（Resnet）[12]修改而来的，通过将softmax层替换为对值具有二进制约束的全连接层，其中全连接层的维度等于散列码的长度。我们将共享权重哈希网络的参数表示为θH。对于自然图像和草图，我们用公式表示深度散列函数（即，散列网络）为B I= sgn（H（I⊙mask; θH））∈{0，1}n1×K和B S=sgn（H（GI（S）;θH））∈{0，1}n2×K，其中sgn（·）为特征函数. 请注意，为了便于计算，我们使用输出的行向量在下面的部分中，我们将介绍二进制代码和哈希函数的联合学习的深度生成哈希我们将共享权重哈希网络的参数表示为θH。对于自然图像和草图，我们用公式表示深度散列函数（即，散列网络）为B I= sgn（H（I⊙mask; θH））∈{0，1}n1×K和B S=sgn（H（GI（S）;θH））∈{0，1}n2×K，其中sgn（·）为特征函数. 请注意，为了便于计算，我们使用输出的行向量在下面的部分中，我们将介绍二进制代码和哈希函数的联合学习的深度生成哈希3.3目标制剂我们的目标函数中有五个损失对抗性损失和周期一致性损失指导域迁移网络的学习。语义和三元组损失保持跨域的类内实例的语义一致性和视觉量化损失和统一约束可以保持对实例的特征空间相似性。以下各段详细讨论了每项损失。6J. Zhang，F.申湖，澳-地Liu，F.Zhu，M.于湖，加-地Shao，H.申湖，澳-地Van GoolSS对抗性和周期一致性损失：我们的域迁移网络由四部分组成：GI，GS，DI和DS[62]。我们把GI，GS，DI和DS的参数记为θC. Sp ecifily，θC|GI是G I的一部分，也是GI的一部分。请注意，域迁移网络的输入应该是图像-草图对，通常我们有n1n2。因此，我们重复使用同一类别的草图来匹配图像。来自同一类别的草图随机重复，并且S将被遍历到S={S1，···，S1，S2···，S2，···，Sn2，···，Sn2}以进行标记。苏雷|S|为|我|. Sup posethehedatadi s trionsareIpIanddSpS. 对于如果GI：SI和Diiscriminat或DI ，则可以将附加的空间操作写为minmaxLG（GI，DI，S，I）：=EIpI[logDI（I⊙mask，θC|DI）]θC |GI θC|DI+ESp[lo g（1−DI（GI（S，θC|GI），θC|DI）]，（一）其中，生成器和鉴别器在两个玩家的极大极小博弈中竞争：generatortriestog enerateimagesGI（S）thatok相似于来自域I的图像及其对应的掩码，而鉴别器尝试区分真实图像和伪图像。另一个映射函数GS：I→S的对抗性损失在这两种情况下是相同的。Cycle一致性损失可以防止学习的映射函数GI和GS彼此冲突，其可以表示为minθC |GI，θC|GSLcyc（GI，GS）：=EIpIGS（GI（S，θC|GI），θC|GS）−S+ESpGI（GS（I，θC|GS），θC|GI）−I⊙mask.（二）其中·是Frobenius范数。域迁移网络的完全优化问题是m_in_axL_g_an：=L_G（G_I，D_I，S_，I）+L_G（G_S，D_S，I，S_）+υL_c_y_c（G_I，G_S）。（三）θC|GIθC |DIθC |GS θC |DS我们根据以前的工作[62]在实验中设置平衡参数υ= 10语义损失：图像和草图的标签向量是YI和YS。受快速监督离散散列[11]的启发，我们考虑以下具有投影矩阵D∈Rc ×K的语义因子分解问题：minBI、BS、D¨Lsem：=¨BI¨2- 义德¨+¨BS¨2- YSD¨+ D2，（四）S. t. B I∈ {−1，+1}n1 ×K，B S∈ {−1，+1}n2 ×K。Lsem的目标是使同一类别的二进制码之间的距离最小化，而使不同类别的二进制码之间的距离最大化。量化损失：引入量化损失以保留数据的固有结构，并且可以用公式表示如下：¨I ¨2¨S ¨2minLq：=¨ H（I; θH）−B¨θH+¨H（GI（S，θC|GI）;θH）−B¨.（五）生成域迁移哈希7我2我我我H ¨三重排序损失：对于细粒度检索任务，我们将三元组排序损失集成到目标函数中，以保持p. airedcrosΣs-domaninsta n i n s tano bect a tegy。对于给定的文件Si、I+、I-、Spe cif icilyeachtripletcontaqerysketchSindapoive我我i magesam l eI+和negat i vei magesam l eI-。我们找到了该记录扫描我损失函数如下：Σ。¨我. +Σ¨2minLtri：=θHMax0，∆+¨H（GI（Si，θC|GI）;θH）−H我我 ; θH¨我¨-¨H（GI （Si，θC|GI）;θH）−H. I−;θΣ¨Σ，（六）其中，参数∆表示两个w对（Si，I+）和d（Si，I-）的输出的相似性之间的裕度。在没有文字或数据的情况下，它有一个-我我工作确保负的输出之间的汉明距离pair（Si，I-）的输出之间的汉明距离大于pair（Si，I+）的输出之间的汉明距离。在该实施例中，我们将Δ等于代码长度的一半（即，，∆ = 0。5K）。完整目标函数：我们还希望一个真实的自然图像和一个生成的图像的二进制代码是彼此接近。因此，我们使用单位ionconstraintLc=H（I;θH）−H（GI（S，θC|G）;θH）2被添加到最终目标函数，其公式化如下：minBI， BS，D，θC，θHL总：=Lgan+Lsem+λLtri+αLq+βLc，（七）S. t. B I∈ {−1，+1}n1 ×K，B S∈ {−1，+1}n2 ×K，其中λ是控制参数，对于细粒度任务λ = 1，对于语义级SBIR λ = 0。超参数α和β控制两个对应项的贡献。3.4联合优化由于联合优化问题的非凸性和输出离散二进制码的NP-困难性，不可能找到全局最优解。受文献[11]的启发，我们提出了一种基于交替迭代的优化算法，在其他变量固定的情况下，依次优化一个变量。以这种方式，变量D、BI、BS、域迀移网络的参数θC和散列函数的参数θH将被迭代地更新。D-步骤。通过固定除D之外的所有变量，Eq. (7)可以简化为一个经典的二次回归问题：¨最小ID¨2- 义德¨+¨BS¨2- YSD¨+ 1000万美元.=mintrDD.ΣΣYIYI+YSYS+ ID.- 2trD.ΣΣYIBI +YS BS，（八）8J. Zhang，F.申湖，澳-地Liu，F.Zhu，M.于湖，加-地Shao，H.申湖，澳-地Van GoolII SS II S S第一章（12）S S（13）我我其中I是单位矩阵。取上述函数关于D的导数并将其设置为零，我们得到方程的解析解（八）、.Σ-1。ΣD= YY +YY + IYB + YB。（九）B1-步骤。当所有的变量是固定的，除了B I，我们重写方程。（7）作为II¨ 2¨I ¨ 2min¨B −YB我D¨ +α¨ H（I;θH）−B¨.（十）.Σ自TRB I以来，是一个常数，Eq。(10)等价于以下问题：min−trB我.。BYΣΣID +α H（I;θH）.（十一）对于BI∈ {−1， +1}n1×K，BI有一个封闭解如下：.ΣB= sgn YD +α H（I; θH）。B S-步骤。考虑到与BS相关的所有项，可以通过与等式（1）类似的公式来学习。(12)：.ΣB=sgnYD+αH（GI（S，θC|GI）;θH）。（θC，θH）-步长在对D、BI和BS进行优化之后，我们根据以下损失来更新网络参数θC和θH：minθC，θHL：= Lgan+ λLtri+ αLq+ βLc。（十四）首先在I和S？上分别设置k个网络，并随机选择k个任务组组成小批量，然后采用带SGD的反向传播算法对两个网络进行优化。在实践中，我们使用深度学习框架（例如，Pytorch）来实现所有步骤。我们在每个历元中迭代地更新D→BI→ BS→{θC，θH}因此，GDH可以在L个时期内最终优化，其中在我们的实验中20≤L≤ 30GDH的算法在算法1中示出。一旦学习了GDH模型，对于给定的查询草图sq，我们可以推断出其二元编码ebsq=sgn（H（GI（Sq，θC|G）;θH））。对于图库，通过哈希网络计算每幅图像的哈希码bI= sgn（H（I = mask; θH）），其中mask可以很容易地通过yGS（I;θC ）获得|GS）。G_I（S_q，θ_C）不等于G_I（S_q，θ_C ）的最小平方|G（I）是基于非对称的，并且因此不需要将多个数据库存储到散列网络中。生成域迁移哈希9i=1i=1算法1：生成域迁移哈希（GDH）输入：训练自然图像I={Ii}n1以及相应的草图S={Si}n2;标签信息Yi和Ys;码长K;训练时期的数量L;平衡参数α、β、λ。输出：生成模型G1和G5;深度散列函数H。1：随机初始化BI∈ {−1，+1}n1×K和 BS∈ {−1，+1}n2×K;2：对于l= 1， 2，···，L做3：根据等式更新D。(9); 4：根据等式（1）更新B1; （12）;5：根据等式（1）更新BS（13）;6：根据等式6更新网络参数θ C和θ H。(14)通过利用第l个时期数据进行训练;7：结束8：返回网络参数θC和θH。4实验和结果在实验部分，我们的目标是解决以下三个问题：– 与其他最先进的二进制或实值方法相比，GDH的性能如何？– 如何GDH执行相比，其他国家的最先进的实值方法细粒度SBIR？– 每个组件或约束如何对GDH的整体性能做出贡献？4.1数据集和设置类别级检索。在两个最大的SBIR数据集上评价GDH：Sketchy [40]和TU-Berlin [8]扩展。Sketchy数据库包含125个类别，包含12，500个对象图像的75，471个草图我们还利用了从ImageNet [5]收集的另外60，502张自然图像[29]因此，整个图像数据库总共包含73，002个图像。TU-Berlin是一个包含250个对象类别的草图数据集，每个类别包含80个草图。由[59]提供的与TU-Berlin相关的另外204，489幅自然图像用于构建图像数据库。与之前的散列实验类似[29]，分别选择50和10个草图作为TU-Berlin和Sketchy的查询集，其余的用作训练的图库。我们将GDH与8种现有的类别级SBIR方法进行比较，包括4手工制作方法：[2019 - 03 - 18][2019 - 03 - 04][2019 - 04][4种基于深度学习的方法：3D shape [50]，Sketch-a-Net（SaN）[56]，GN Triplet [40]和SiameseCNN [35]。此外，我们还比较了GDH与7种最先进的跨模态散列方法：集体矩阵分解散列（CMFH）[7]、跨模型半监督散列（CMSSH）[2]、跨视图散列（CVH）[19]、语义相关性最大化（SCMSeq10J. Zhang，F.申湖，澳-地Liu，F.Zhu，M.于湖，加-地Shao，H.申湖，澳-地Van Gool表1. 与先前SBIR方法的比较w.r.t. MAP、每个查询的检索时间（s）和TU-BerlinExtension和Sketchy上的内存开销（MB）方法尺寸TU-柏林延伸Sketchy地图检索时间每个查询内存成本（MB）(204，489张图片）地图检索时间每个查询内存成本（MB）(73，002张图片）HOG [4]GF-HOG [13]SHELO [37]LKS [38]12963500129613500.0910.1190.1230.1571.434.131.440.204二、02 ×103五、46 ×103二、02 ×103二、11 ×1030.1150.1570.1820.1900.531.410.500.567 .第一次会议。22 ×1021 .一、95 ×1037 .第一次会议。22 ×1027 .第一次会议。52 ×102美国有线电视新闻网（CNN）SaN [56][40]第四十话[50]第五十话645121024640.3220.1540.1870.0727.70×10−20.531.027.53×10−299.87 .第一次会议。98×1021 .一、60 ×10399.80.4810.2080.5290.0842.76×10−20.210.412.64×10−235.4二、85 ×102五、70 ×10235.6Siamese-AlexNet40960.3675.35六、39 ×1030.5181.68二、28 ×103Triplet-AlexNet40960.4485.35六、39 ×1030.5731.68秒二、28 ×103GDH（拟议）32（位）0.5635.57×10−40.780.7242.55×10−40.2864位0.6907.03×10−41.560.8102.82×10−40.56128（位）0.6591.05×10−33.120.7843.53×10−41.11“* “ 指出，这两种方法都是通过对 T U - B e r l i nE x t e n s i o n 和S k e t c h y 数据集进行微调，直接使用由本领域技术人员提供的公开模型。和SCM-Orth）[57]、语义保持散列（SePH）[25]、深度跨模态散列（DCMH）[17]和深度草图散列（DSH）[29]。最后，我们还将我们的方法与其他四种跨视图特征嵌入方法进行了比较：[29][2 上述方法的实施细节和实验结果在[29]中报道。我们使用Adam求解器[18]，批量大小为32。对于两个数据集，我们的平衡参数都设置为α= 10−5，β = 10−5和λ所有网络都是以初始学习率Ir = 0训练的。0002. 在25个epoch之后，我们降低了散列网络lr → 0的学习率。1lr，并在30个时期之后终止两个数据集的优化。我们的方法是由Pytorch与双1080Ti GPU和i7- 4790 K CPU实现的。细粒度检索。我们在QMUL-鞋子和QMUL-椅子数据集上进行GDH的实验[55]。这两个数据集是细粒度的实例级SBIR数据集，其分别包含419个鞋草图-照片对和297个椅子草图-照片对。我们将我们提出的GDH方法与几种细粒度方法进行比较，包括2种手工制作的方法：HOG+BoW+RankSVM [23]和密集 HOG+RankSVM[55]，以及3个深度特征基线：改进的Sketch-a-Net（ISN）[56]，3D形状（3DS）[50]和Triplet Sketch-a-Net（TSN）[55]。所有这些算法都是实值方法。值得注意的是，网络TSN [55]中的数据是经过大量预训练的，并且数据已经通过复杂的增强处理。然而，为了强调我们的域迁移模型的能力，我们的实验中不包括数据增强。请注意，QMUL-Shoes和QMUL-Chairs是唯一的细粒度数据集，其中每个数据集只包含一个类别。因此，没有必要优化Eq.（七）、为了更好地适应细粒度检索的任务，我们跳过算法1中的前五步，直接更新θC和θH的参数。我们的平衡参数设置为λ= 1。实现细节与类别级检索的设置相同。生成域迁移哈希11表2. MAP与TU-Berlin Extension和Sketchy上类别级SBIR的不同跨模态检索方法的比较。方法TU-柏林延长线粗略32位64位128位32位64位128位[7]0.1490.2020.1800.3200.4900.190跨模态散列方法（二进制代码）[2]SCM-Seq [57]SCM-Orth [57]CVH [19]0.1210.2110.2170.2140.1830.2760.3010.2940.1750.3320.2630.3180.2060.3060.3460.3250.2110.4170.5360.5250.2110.6710.6160.624SePH [25]0.1980.2700.2820.5340.6070.640DCMH [17]0.2740.3820.4250.5600.6220.656DSH [29]0.3580.5210.5700.6530.7110.783交叉视图特征学习方法（实值向量）[49]XQDA [27]PLSR [24]CVFL [52]0.2760.1910.3660.1970.3650.2010.3610.4600.5550.5570.7050.5500.141（4096-d）0.289（4096-d）0.462（4096-d）0.675（4096-d）提出GDH0.563 0.6900.6510.724 0.8110.784对于端到端深度方法，使用原始自然图像和草图。对于其他，使用4096-d AlexNet fc7图像特征和512-d SaN fc 7草图特征。PLSR和CVFL都基于重建部分数据以近似完整数据，因此维度固定为4096-d.4.2结果和讨论与类别级SBIR基线的比较。我们比较我们的GDH方法与10个基线方法的平均平均精度（MAP），检索时间和内存成本在两个数据集。输出码长分别为32、64和128位。如表1中所报告的，与两个数据集上的其他SBIR方法相比，GDH始终以快得多的查询时间和低得多的存储器成本实现最佳性能此外，GDH在TU-Berlin和Sketchy数据集上分别将Triplet-AlexNet的最新性能提高了24.2%和23.7%。128位的性能低于64位的性能可以用量化误差累积来解释[44]。我们还注意到，在两个数据集上比较方法的性能远低于以前的论文[50，55]。原因是他们以前使用的数据都很好地与完美的背景移除对齐，并且对象的边缘几乎可以适合草图。同时，我们的实验采用了具有复杂背景的真实感图像，这与草图有很大的不同。与Cross-modality Hashing的比较在表2中，我们将我们的GDH方法与具有32、64和128位二进制代码的跨模态散列/特征学习方法进行了比较。我们使用学习到的深度特征作为非端到端学习方法的输入，以与GDH进行公平比较。与两个数据集上的所有跨模态基线相比，GDH实现了最佳性能。具体地，在两个数据集上，在不同的代码长度下，GDH可以分别以20.5%/7.1%、16.9%/10%和8.1%/0.1%胜过性能最好的基于散列的SBIR方法DSH [29]。12J. Zhang，F.申湖，澳-地Liu，F.Zhu，M.于湖，加-地Shao，H.申湖，澳-地Van Gool表3. QMUL-shoes和QMUL-chairs上细粒度SBIR的不同实值方法的精度比较。方法QMUL-shoes. acc@1QMUL-shoes. acc@10QMUL-chairs.@ 1QMUL-chairs.@ 10BoW-HOG + rankSVM [23]0.1740.6780.2890.670Dense HOG + rankSVM0.2440.6520.5260.938实值ISN深度+ rankSVM [5]0.2000.6260.4740.825向量3DS深度+ rankSVM [50]0.0520.2170.0610.268TSN无数据扩充[55个]0.3300.8170.6440.956带数据扩充的TSN [55个]0.3910.8780.6910.979GDH@32位0.2860.7200.3920.876二进制码GDH@64位0.3230.7830.5560.959GDH@128位0.3570.8430.6710.990为了强调我们的域迁移模型的能力，不包括数据增强[55]。即便如此，与其他实值方法相比，我们的二进制结果具有竞争力和前景细粒度SBIR的比较。在表3中，我们报告了GDH在细粒度SBIR的Shoes and Chairs数据集上优于其他五种方法的前1和前10精度。与最先进的实值TSN（没有数据增强）相比，128位GDH在鞋和椅子数据集的前1和前10准确度方面分别实现了2.7%/2.7%和2.6%/3.4%的改进具体来说，Chairs数据集的前10名准确率达到99%，甚至高于TSN的数据增强性能备注。对于细粒度SBIR，尽管使用了二进制散列码，但在表中可以观察到与实值最新方法相比的可比较的甚至改进的性能3.第三章。另一方面，GDH中的二进制代码允许比实值方法大大减少的存储器成本和检索时间然而，GDH一般表现出性能下降的细粒度SBIR相比，其性能的类别级我们对这种现象的解释是，一个类别内的几何形态和详细的实例级特征可以更难以捕捉与二进制哈希码比类别间的差异。在图2中，示出了基于GDH的检索结果的一些示例更多的例子和实验可以在补充材料中找到。4.3消融研究我们在表4中证明了GDH的每个损失分量的有效性。在第3.3节中提供了统一约束Lc、量化损失Lq以及对抗性和周期一致性损失Lgan可以观察到，所有这些组分都是互补的并且有益于GDH的有效性特别地，对抗性和循环一致性损失Lgan和量化损失Lq对于类别级SBIR是同等关键的，并且三重排序损失Ltri对于细粒度SBIR是必不可少的。还可以观察到，注意力层对于以稳定的裕度改善整体性能是一致有效的。受混合操作[58]的启发，为了进一步减少域差异，我们提出了一种采用线性混合的特征融合方法。生成域迁移哈希132图二. 使用128位GDH代码在Sketchy数据集上查询草图及其前10名检索精度的示例橙色框表示地面实况结果。h为h_i g的二元码的两种类型：1）sgn（1H（G_I（G_S（I_i，θ_C |G），θC|G）;θH）+1H（Ii;θH）和2）sgn（H（G2I SI（Si，θC|GI）;θH））。除了写好直线外，我们还评估了其他融合策略，如级联和Kronecker产品然而，这些融合方法都没有帮助。图3.说明GDH生成的草图能够很好地表示相应的自然图像。显然，观察到使用草图来生成假自然图像比逆生成更困难此外，我们进行另一个实验中的草图域，而不是自然图像域。通过在草图域中使用类似的散列技术，所有草图S和对应的生成的伪草图GS（I）被嵌入到汉明空间中，作为H（Si）= H（Si;θH）和H（Ii）= H（GS（Ii）;θH）。但是，它导致性能大幅下降，特别是在处理具有复杂背景的图像时。5结论在本文中，我们提出了一个生成域迁移哈希方法的类别级和细粒度SBIR任务。GDH首次采用了一种生成模型，将草图迁移到自然图像域中的不可区分的对应物，而不是将草图和自然图像映射到一个公共空间中在对抗性损失和循环一致性损失的指导下，用于真实图像和合成图像的鲁棒散列码（即，从草图迀移）可以利用不依赖于跨域对之间的像素级对准的端到端多任务学习框架来获得。我们-14J. Zhang，F.申湖，澳-地Liu，F.Zhu，M.于湖，加-地Shao，H.申湖，澳-地Van Gool草图伪造图像图像假素描表4.不同组件的有效性（MAP/128位的准确性）（类别级SBIR的Sketchy和细粒度SBIR的QMUL-Shoes）。方法类别层级MAP（略图）细粒度acc. （QMUL-鞋）top-1前10无信用证0.727--无Lq0.104--无L根0.2210.2260.671无注意层0.7980.3350.823线性混合0.7820.2820.744级联混淆0.6420.1820.654Kronecker乘积混淆0.7350.2420.704将图像嵌入草图域0.3100.2630.791我们的模型GDH@128位（二进制）0.8110.3570.843图3.第三章。我们的域名迁移网络的可视化。前两行是草图到图像的结果，最后两行是图像到草图的结果，这表明我们的域迁移网络能够从两个方向转移域。在GDH中加入了一个注意层，有效地抑制了背景信息，引导GDH的学习过程集中在最关键的区域.在大规模数据集上的广泛实验表明，GDH在分类级和细粒度SBIR任务的效率，内存成本和性能 GDH的表现也优于性能最好的基于哈希的SBIR方法DSH [29]，最多可达20。在TU-Berlin Extension数据集上为5%，最多为26。在Sketchy数据集上分别为4%。6确认这项工作得到了国家自然科学基金项目61502081和项目61632007的部分支持，中央大学基础研究基金项目ZYGX2014Z007。生成域迁移哈希15引用1. Bozas，K.，Izquierdo，E.：基于面片散列的大规模草图图像检索。在：Advancesin Visual Computing - 8th International Symposium，ISVC 2012，Rethymnon，Crete，Greece，July 16-18，2012，Revised Selected Papers，Part I。pp. 2102. Bronstein，M.M.，布朗斯坦，上午，Michel，F.，Paragios，N.：通过使用相似性敏感散列的跨模态度量学习的数据融合。在：第二十三届IEEE计算机视觉和模式识别会议，CVPR 2010，美国加利福尼亚州旧金山，2010年6月13日至18日pp. 35943. Bui，T.，里贝罗湖Ponti，M.，Collomosse，J.P.：基于草图的视觉搜索的三重卷积网络CoRRabs/1611.05301（2016）4. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR 2005），2005年6月20-26日，美国加利福尼亚州圣地亚哥pp. 8865. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。In：Proc.CVPR。pp. 2486. Denton，E.L.，Chintala，S.，费格斯河等：深度生成图像模型使用对抗网络的拉普拉斯金字塔在：神经信息处理系统的进展。pp. 14867. 丁，G.，Guo，Y.，中国科学院，Zhou，J.：多模态数据的集体矩阵分解散列。2014年IEEE计算机视觉和模式识别会议，CVPR 2014，哥伦布，俄亥俄州，美国，2014年6月23-28日pp. （2014年8. Eitz，M.，Hays，J.，Alexa，M.：人类如何绘制物体？ACM Trans.Graph.31（4），44：1-44：10（2012）9. Eitz，M.，Hildebrand，K.Boubekeur，T.，Alexa，M.：描述符的评价用于从草图特征线进行大规模图像检索计算机图形34（5），482-498（2010）10. 古德费洛岛 Pouget-Abadie，J. Mirza，

下载后可阅读完整内容，剩余1页未读，立即下载