带噪声标签的跨模态搜索与相互量化

13 浏览量更新于2023-10-25 收藏 818KB PDF 举报

标签噪声

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7551带噪声标签的跨模态搜索的相互量化杨尔坤1，姚东仁2，刘同良3，邓成1*1西安电子科技大学电子工程学院2MEEI和哈佛医学院，243 Charles Street，Boston，MA，USA3TML实验室，悉尼人工智能中心，悉尼大学，澳大利亚{erkunyang，chdeng}@ gmail.com，dongren yao@meei.harvard.edu，tongliang. sydney.edu.au摘要深度跨模态哈希已成为监督多模态搜索的重要工具。这些模型倾向于使用大型的多模态数据集进行优化，其中大多数标签都经过手动验证。不幸的是，在许多情况下，这种准确的标记可能是不可用的。相比之下，可能会获取具有低质量注释的数据集，这不可避免地引入了大量的错误或标签噪声，因此降低了搜索性能。为了解决这一挑战，我们提出了一个通用的鲁棒的跨模态哈希框架，以关联不同的模态，同时打击嘈杂的标签。更具体地说，我们提出了一种基于代理的对比度（PC）损失，以减轻不同模态之间的差距，并与PC损失和互量化损失一起选择的小损失样本一起训练不同模态的网络。联合损失中的小损失样本选择有助于选择可信样本指导模型训练，互量化损失可以最大化不同模态之间的一致性，有利于提高样本选择的有效性。在三个广泛使用的多模态数据集上的实验1. 介绍通过将来自多个模态的高维数据转换为公共汉明空间中的紧凑的二进制哈希码，跨模态哈希为大规模多模态数据存储和搜索提供了显着的效率。最近，基于监督深度学习的跨模态哈希方法已经取得了令人鼓舞的成果，并被应用于许多多模态学习任务[4 这些模型通常依赖于大量具有干净和完整标签的训练实例怎么-*通讯作者。然而，在我们的日常生活中，被系统性破坏的噪声标签无处不在且不可避免，例如社交网络标签[7]、众包[38]、医疗诊断[13]和金融分析[1]。由于深度网络具有很大的模型容量，它们可以很容易地记住甚至过度拟合这些噪声标签，这相应地降低了模型泛化[51]。为了对抗嘈杂标签的影响，已经进行了许多研究，例如校正方法[14]，Men- torNet [19]，Co-teaching [15]和T-revision [40]。这些方法可以为单峰学习任务学习鲁棒的连续表示。然而，它们不能同时处理多模态输入，例如真实世界的多媒体数据。此外，连续表示对于存储和计算是低效的，并且将连续表示二值化是不平凡的。不适当的二值化可能会引入大的量化误差，并严重降低模型的性能。因此，研究如何学习鲁棒的二进制码以用于带噪声标签的跨模态搜索是非常重要的。这在以前的作品中很少涉及。我们对一个使用噪声标签训练的通用深度跨模态哈希框架进行了实证研究。图1a示出了用噪声标签评估的训练数据集的不同时期的平均精度（mAP）值。我们可以看到，在训练阶段，性能继续提高，这表明模型在整个训练过程中会不断记住噪声标签。图1b显示了使用干净标签评估的测试数据的性能，这也表明模型将快速过拟合噪声标签，从而降低搜索性能。此外，从图1a中，我们可以看到，由于来自不同模态的表示可能存在于具有异质性的完全不同的空间中，因此不同模态的性能最后，错误标记的数据可能混淆不同模态之间的区分连接，从而导致缓解异构差距的挑战。因此，我们认为，75520.6000.5750.660.640.650.5500.5250.620.600.550.5000.4750.4500.600.580.500.450.4250 50 100 150 200 250 300历元(a) 使用噪声标签0 50 100 150 200 250 300历元(b) 测试结果0 50 100 150 200 250 300历元(c) 使用干净标签图1.我们在具有0.6非对称噪声的MIRFlickr-25 k数据集上训练了一个具有二进制交叉熵损失的基本交叉模式哈希模型图中报告了不同时期的平均精密度（mAP）值：（a）基于训练数据集的噪声标签的mAP值;（b）测试数据集的mAP值;（c）基于训练数据集的干净标签的mAP值，其中“T T2 I mAP”和“T I2 T mAP”用于干净的训练数据集，并且“F T2 I mAP”和“F I2T mAP”用于损坏的训练数据集。对于每条线，我们运行五次并报告平均值。每个子图中STD的误差条以阴影突出显示同时考虑噪声数据和模态间差异是更有挑战性和复杂的。为了解决上述问题，我们首先对噪声标签对深度跨模态搜索模型的影响进行了更深入的分析。然后，我们提出了我们的方法来对抗噪声标签的影响。具体地说，根据地面真值标签，我们将噪声训练数据集分为准确标记的干净数据集和错误标记的损坏数据集。然后，我们分别基于不同训练时期的正确标签显示这两个数据集的mAP值。结果示于图Ic中。正如之前关于图像分类的研究所揭示的那样，深度神经网络（DNN）存在记忆效应：DNN倾向于首先记忆和拟合多数（干净）模式，然后过拟合少数（嘈杂）模式。从图1b和图1c中，我们还可以获得以下跨模态搜索任务的关键发现：（1）对于干净的跨模态训练数据和损坏的跨模态训练数据，用正确的标签评估的性能都是先增加后减少，这表明在学习的早期阶段，跨模态搜索模型可以很好地拟合干净的数据，也可以很好地泛化到损坏的数据;（2）测试数据的性能是先增加后减少，这表明跨模态搜索模型可以很好地泛化到损坏的数据。从干净的数据中学习可能在早期学习阶段占主导地位，然后被过度拟合到有噪声的标签所压倒。基于上述分析，我们提出了一个强大的跨模态哈希框架，称为跨模态互量化（CMMQ），以对抗噪声标签的影响，同时缩小异构差距。首先，为了关联不同的模态，我们设计基于Hadamard矩阵[34]为每个类生成代理代码，并采用基于代理的对比（PC）损失将不同模态的示例推送到相应的共享代理代码。第二，挖掘差异性，从噪声标签中提取有用的信息，我们利用深度交叉模态模型的分类效果，并优先选择PC损失小的示例来自信地训练网络。第三，不同的模型不太可能同意噪音的例子。因此，我们采用了一个相互量化损失来最大化不同模态网络的一致性，这可以进一步提高样本选择的有效性。整个学习框架如图2所示.在深入讨论细节之前，我们明确强调我们的贡献如下。• 我们提出了一种基于代理的对比损失机制，它可以将不同模态的样本推送到它们对应的共享代理代码上，有效地缩小了异质性差距• 通过优先选择损失较小的示例，我们的方法可以有效地利用深度跨模态网络的记忆效应，并对抗噪声标签的影响。• 提出了一种互量化损失的概念，以最大化不同模态模型的一致性，从而提高预测码的质量。• 在三个跨模态基准数据集上的实验清楚地表明，该方法可以在各种设置中优于许多最先进的方法。本文的其余部分组织如下。在第2节中，我们简要回顾了一些密切相关的工作。在第三节中，我们提出了我们的跨模态互量化范式。第四节给出了实验结果。最后，第5节提供了结论性意见。T2I_mAPI2T_mAPT2I_mAPI2T_mAPT_T2I_mAPT_I2T_mAPF_T2I_mAPF_I2T_mAP地图地图地图7553JJ{X → B}BDi=1--JJ j=1D{M} M {}2. 相关工作2.1. 深度跨模态汉明搜索不同于传统的深CMHS [4，9，10，20，42，45，46]利用深度网络将多模态输入转换为汉明空间中的二进制代码。由于模型容量高，在特征提取和二进制量化方面，深度CMHS通常可以获得更好的搜索性能。为了利用监督标签中的语义信息，提出了一些监督深度CMHS方法来学习多模态数据的公共判别汉明空间这些方法通常是通过基于分类的损失（例如，交叉熵损失）[41]或基于距离的损失（例如，成对或三重损失）[9，20]。为了减轻对大量正确标记数据的需求，提出了一些半监督学习方法[48，52，54，55]来利用标记和未标记数据。还有一种方法NrDCMH [36]试图通过使用噪声标签数据进行学习来解决这个问题具体来说，NrDCMH首先基于特征相似性和标签相似性之间的裕度检测有噪声的训练样本，然后基于相似性裕度对数据对进行重新加权。但这图2.拟议CMMQ的框架。这些方法肯定会消失，但据报道，它们在经验上效果很好。然而，所有现有的噪声标签方法都是专门为具有连续特征的单峰学习而设计的，并且将它们扩展到具有二进制表示的多模态学习是一个挑战。3. 所提出的方法3.1. 初步对于具有m个模态的跨模态搜索，我们表示a具有N个示例的多模态数据集为D={M }m，工作只能处理场景，只有语义-哪里i i Nii=1我示例不属于的tic标签可以翻转。在现实世界的应用中，这个假设可能太强了。此外，解决所有人都关心的问题要困难得多。Mi={xj，yj}j=1是第i个模态，xj∈Xi是第i个模态的第j个示例，并且yi是cor。响应标签在实际应用中，清洁标签yi可以在be之前被随机地破坏为噪声标签yi数据标签可能被破坏和翻转。虽然这是j j在以前的作品中很少涉及。2.2.噪声标签学习噪声数据的学习已经得到了很好的研究[2，17，23，27，37，47]。现有的噪声标签学习方法主要分为基于模型的方法和无模型的方法。第一种类型通过估计表示干净标签翻转为噪声标签的概率的噪声转移矩阵来对干净标签和噪声标签之间的关系进行建模[30，39]。通过完美估计的噪声转移矩阵[30]，这些方法可以保证从噪声数据中学习的分类器是一致的的观察。因此，我们假设在训练期间，我们只能访问有噪声的多模态训练数据集tr=关于i=xi，yiN. 但是，对于AC-为了精确地评估所提出的方法的性能，我们假设存在干净的测试数据集Dte。定义1（鲁棒跨模态汉明搜索）。为了实现有效的跨模态搜索，多模态输入通常经由不同的散列函数hi：i被变换到公共汉明空间中。这里，h i是第i个模态的散列函数，其可以用用Θi参数化的DNN模型来实例化。然后，给定一个输入数据xi，我们可以得到相应的二进制利用最优分类器（即，清洁的最小化者风险）[27]。然而，目前的方法通常是脆弱的码bi=hi（xi，Θi）。（一）J J估计重噪声数据的噪声转移矩阵，也难以处理大量的类[15]。第二条链通常采用分类法来减少噪声标签的副作用。例如，该类别中的许多最先进的方法被专门设计为，例如，选择可靠的例子[15，50]，重新加权例子[19，31]，正确的标签[21，28]，采用边信息[33]，并（隐式地）添加正则化[14]。虽然从这些方法中学习的分类器与用于干净数据的最佳分类器之间的差异并不明显，对于鲁棒的跨模态汉明搜索，我们想要学习一族哈希函数h i，i = 1，.，我和吵闹的人在一起多模态训练数据集训练器，使哈希码由Eq。（1）可以在干净的测试数据集Dte上表现良好。在下文中，我们首先提出了一种基于代理的对比学习方法，以最大限度地提高不同模态之间的相关性。然后，在此框架的基础上，详细阐述了置信样本的选取策略7554联系我们ΣΣ−−−≤≤JJJ−J′×L输入py（BCE）：S（bi，oj）=−1⊗（oj，klogbiJk=1j，kn一nΣ||−L以及交叉模态相互正则化以抵消噪声标签的影响。3.2.基于代理的对比量化为了实现有效的跨模态搜索，受代理学习技术[29]和中心表示学习方法[11]的启发，我们首先生成一组共享代理代码O=〇1，…oN，其中oi0，1K是第i个示例的长度为K的代理代码。然后，我们最大限度地提高从不同模态生成的哈希码和相应的共享代理代码之间的相似性，以最大限度地减少跨模态的语义差距。具体地，对于示例xi，其概率属于-一，一。阿达玛矩阵有以下两个一，一（1）它是一个二进制矩阵，其元素为1或+1;（2）Hadamard矩阵的行是相互正交的，这意味着任何两个行向量之间的汉明距离等于K/2。请注意，我们希望为不同的类别分配不同的代理代码，因此，如果c K，我们直接选择每行作为代理代码。如果K< C2K，我们用一个组合两个Hadamard矩阵H2K=[Hk，HK]的连续性结构化代理代码。对于单标签数据，我们分配一个每个类别的代理代码。而对于多标签数据，我们首先为每个类分配一个代理代码，然后将其正在连接到J第j个代理码可以通过下式估计：通过多数表决来消除多标签数据的代理代码。i i3.3.自信的范例选择P（oj|xj）=δ（S（bj，oj）），（2）其中S（bi，oj）测量示例bi和代理代码oj 之间的相似性。由于bi和oj都是二进制向量，我们将S（·，·）设置为iveBinaryCross处的最小值JKk∈Kj，k优化方程中的PC损失。（3）减轻不同模态之间的语义鸿沟。然而，如图1b所示，当使用噪声数据进行训练时，模型最终会过拟合噪声标签，导致最佳性能此外，从图1c中，我们可以得到-（1−oj，k）logbi）.而δ（·）是一个可以从干净的数据中学习将主导变换j，k我在早期学习阶段进行优化。这是一致S（bj，oj）转化为概率，这里我们简单地设置δ（x）=exp（βx）。然后，我们可以将基于代理的对比（PC）损失公式化为与[26]，这表明，对于交叉熵损失，其梯度与早期学习阶段的正确方向相关。换句话说，干净数据N在早期学习阶段， m将被最小化。Lp=Lp[log（δ（S（bi，oj）+αR（bi）]，（3）在上述理解下，我们直观地认为Jj=1i =1J具有小损失的示例作为置信示例（即，前具有高可能性的样本是干净的），并应用其中，R（bi）是用于减少学习的二进制码的量化误差的正则化项，并且α是超参数来控制这两个部分。 [20]我们可以“小损失”准则来选择可信样本。具体来说，我们进行小损失选择，设R（bi）= K（bi1）.从等式（3），我们可以看到，通过最小化PC损失，样本与其对应的代理码之间的相似性如下所述，代理代码是基于数据标签构造的。因此，来自不同模态的相同类别中的示例的散列码将共享公共代理码，并且最小化等式（1）。（3）可以显式地提高模态内区分度，同时增强跨模态区分度。代理代码生成。代理代码充当来自不同模态的二进制代码的共享优化目标。在这里，我们利用阿达玛矩阵来构造它。具体地说，我们首先用Sylvester的构造[ 34 ]建立一个K K Hadamard矩阵，<$H2n−1， H2n−1<$D~ =argmin（D），（5）Dn′：|Dn′|≥R（t）|Dn|其中Dn表示小批量数据，R（t）控制小批量中所选小损失示例的百分比，并且a是所采用的总损失函数。如图1a所示，即使存在噪声标签，深度网络也可以在初始时期学习干净简单的模式。因此，它们可以在训练开始时使用损失值过滤掉噪声样本。然而，问题是，当epoch的数量变得很大时，模型最终会过拟合噪声标签。为了纠正这个问题，我们希望在开始时在小批处理中保留更多示例，即，R（t）是大的。然后，我们逐渐增加下降率，即，R（t）变得更小，这样我们就可以保持干净的例子，在我们的模型记住它们之前删除噪音R（t）的详细设置可以HK=H2n−1，−H2n−1=H2<$H2n−1，（4）在第4节中找到。跨模态相互量化。选择小-其中表示Hadamard乘积，K=2n。两个初始Hadamard矩阵是H1=[1]和H2=[2]。损失的例子与方程。（5）、我们分别考虑不同模态下的损失，并使用损失之和。+7555|LBMKL我 JKLJ我计算损失a;通过等式（1）获得小损失集Dn。（5）从KL我 J氮钾J氮钾然而，从一致性最大化原则[3，32]的角度来看，不同的模型会同意大多数干净样本的标签基于这一观察，我们提出了一个相互量化损失，以最大限度地提高不同模式之间的协议。具体来说，我们采用 Jensen-Shannon（JS）分歧。为了简化实现，我们使用对称的Kullback-Leibler（KL）散度来替代这项算法一：跨模态相互量化输入：噪声训练图像集D_t_r，网络工作h_i，i = 1，.，m、码长K、学习率η、历元Tmax和迭代Imax。学习代理代码与方程。（4）;为每个具有多数表决的实例分配代理代码oj对于时期t=1至Tmax，从数据库r中获取小批量Dn;我我我L=D（B|B）+D（B |B）、（6）i，j=1，i=jbj=hi（xj，Θi），<$xj∈Dn;L其中KL散度DKL（BiBj）测量散列码Bi和Bj通过Eq获得损失。（9）在Dn;用反向传播更新网络;端N Ki输出：网络参数Θi，i = 1，...，M.D（B B）=1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000|n=1k=1bn，klog（）.（七）表1.我们实验中使用的三个数据集的统计数据通过匹配来自不同模态的预测等式中的相互量化损失（6）可以帮助我们的al-出租m选择具有干净标签的示例，因为具有小的相互量化损失的示例意味着来自不同模态的网络在其预测上达成一致。此外，来自其他模态的网络的正则化也可以帮助模型找到更多的更宽的最小值，这有望提高泛化性能[53]。3.4. 优化将等式中的基于代理的对比损失组合在一起。（3）和方程中的相互量化损失（6）我们可以将整体损失函数设置为：L_a=L_p+ λL_m。数据集火车测试数据库MIRFlickr-25k10,0002,00018,015NUS-wide10,5002,100178,321MS-Coco10,0005,000117,2187556我一xi∈D<$nJ（八）在选择小损失的例子，如在方程。（5），我们可以计算这些例子的损失，以进一步优化：1386维的BoW矢量。按照之前的方法[20]，我们的实验中使用了20，015个图像-文本对，其中有24个最频繁的标签。NUS-WIDE[8]是一个公共网络图像数据集，包含269，648个网络图像，其中包含81个地面实况注释概念。关联的文本被表示为一个1000维的Bow向量。在对没有标签或文本信息的数据进行修剪后，我们得到了190，421个图像-文本对，其中10个最频繁的标签作为我们的基准。MS-COCO[24]有大约120，000个图像，每个图像都与一个文本相关联，该文本表示为2，000维BoW向量。每个图像-文本数据对至少使用80个类别中的一个进行注释。L=1Σn|JL（x）.（九）学习过程总结在算法1中。4. 实验4.1. 数据集我们采用三个跨模态基准数据集来评估所提出的方法。表1总结了这三个数据集的主要统计数据，详细信息如下。MIRFlickr-25 K[18]包含从Flickr网站收集的25，000张图像。每个图像都被分配了一个相关的文本描述，基线。我们采用四种流行的监督深度跨模态哈希方法，包括 DCMH [20] ， PRDH [44] ， SSAH [22] 和CMHH [4]作为基线。DCMH和PRDH都是基于成对标签的。SSAH使用网络从标签中学习表示。CMHH考虑增加困难对的权重以提高性能。DCMH，PRDH，SSAH的代码由作者提供，我们自己实现了CMHH。实施.为了进行公平的比较，我们使用ResNet18 [16]作为图像模态主干，使用三层多层感知器（MLP）作为文本模态|D~4.2.实验装置7557·Tk-{}表2.五种方法在三个跨模态数据集上的mAP结果，最佳结果以粗体显示任务方法MIRFlickr-25KNUS-wideMS-Coco32位64位128位32位64位128位32位64位128位DCMH0.6600.6680.6350.5820.5830.5760.5330.5420.505PRDH0.6600.6720.6630.5860.5780.5640.5300.5340.554I2tSSAH0.6580.6650.6310.5750.5770.5810.5360.5320.545CMHH0.6520.6370.6480.5760.5730.5740.5390.5430.541CMMQ（我们的）0.7370.7420.7570.6010.6060.6070.5420.5560.565DCMH0.7070.7090.6930.5820.5850.5770.5240.5230.534PRDH0.6710.6960.6920.5770.5790.5920.5290.5340.522T2iSSAH0.6620.6530.6780.5660.5700.5760.5020.5290.525CMHH0.7040.6830.6580.5710.5770.5850.5270.5360.514CMMQ（我们的）0.7230.7250.7220.6000.6040.6030.5310.5490.541图3.非对称噪声的转移矩阵为0。6噪声率（以6类为例）。我们的方法和四个基线的骨干。对于图像模态，我们将最后一个全连接层替换为具有K个隐藏单元的新全连接层，然后是tanh（）激活函数。我们随机初始化这个新层，并使用ImageNet上预先训练的模型初始化所有前面的层[12]。文本模态的MLP我们使用RMSprop优化器，重量衰减为10−5。对于所有三个数据集，我们将最小批量大小设置为128，学习率设置为10−5，并设置α=0。0001，β=1，λ=0。7 .第一次会议。为了全面评估方法的鲁棒性，我们将标签噪声设置为对称[15]，噪声率为0。6在实验中。噪声标签和地面实况标签之间的转换矩阵如图3所示。评估设置。不失一般性，所有实验都在双模态数据集上进行，以评估两个跨模态任务：使用图像查询来检索相关文本样本（I2T），以及使用文本查询来检索相关图像点（T2I）。四个评价指标被用来评估搜索性能，包括平均精度的平均值（mAP），TopN精度，召回@k，和精度召回曲线。前三个指标基于汉明排名，它根据数据点到查询的汉明距离而精确召回度量基于哈希查找协议。具体而言，mAP是用于评估检索准确性的最广泛使用的标准之一，因为它可以同时评估检索精度和返回结果的排名。给定一个查询和一个R排序的检索结果列表，可以计算该查询的平均精度（AP）。mAP被定义为所有查询的AP的平均值。对于所有三个数据集，我们将R设为5000。TopN-precision定义为所有查询的前N个检索实例中相似实例的平均比率，在实验中，N被设置为100。Recall@k计算所有地面实况中来自前k个重新检验实例的真实邻居的百分比。在实验中，将k设定为100。如果主题共享至少一个共同的语义标签，则将其视为相似，否则，将其视为不相似。选择设置。在[15]之后，我们假设噪声率ρ是已知的，并将小损失样本的比率R（t）设置为：R（t）= 1mintρ，ρ，其中对于所有数据集，T k设置为10。在实践中，如果事先不知道噪声率ρ，则可以使用验证集来推断[27]。4.3. 结果和分析4.3.1Hamming Ranking我们首先使用不同长度的散列码（即，（四）进行全面评估。然后选取MIRFlickr-25 K数据集，在K=64的条件下，给出了topN-查准率和召回率@k曲线，进行了全面的对比研究。三个数据集上所有方法的mAP结果在表2中报告。从结果中我们可以看出CMMH在干净标签设置方面更先进，但对于有噪声的数据，它不能胜过DCMH。这可能是由于CMMH在使用噪声标签进行训练时更关注更有可能被损坏的数据的硬示例。结果也显示-简化了同时处理跨模态检索75580.090.080.070.060.050.040.030.020.01DCMH CMHHPRDHCMMQ SSAH0.900.101.00.850.080.90.800.060.80.750.040.70.700.020.60.650 20 40 60 80100排名靠前的样本(a) TopN精度0.000 20 40 60 80100最高回报率示例(b) 召回@k0.50.2 0.4 0.6 0.8 1.0召回(c) pr曲线图4. Precision-recall, topN-precision,and recall@k curves on MIRFlickr-25k with the hash code length of K =64for “I2T”task.1.00.90.80.70.60 20 40 60 80100排名靠前的样本(a) TopN精度0.00020 40 60 80100最高回报率示例(b) 召回@k0.50.2 0.4 0.6 0.8 1.0召回(c) pr曲线图5.MIRFlickr-25 k上的精确度-召回率、topN-precision和召回率@k曲线，“T2 I”任务的哈希码长度为K=64和噪声标签是一个不平凡的任务。此外，从表2中，我们还可以得到CMMQ通常以较大幅度优于其他竞争方法。例如，与CMHH（最先进的深度交叉模式哈希方法）相比，CMMQ可以获得4的绝对增长。百分之七十八7%的平均mAP的三个数据集上的两个检索任务，分别。结果清楚地validate的CMMQ方法优于以往的方法的跨模态搜索与噪声标签。在MIRFlickr-25 K数据集上通过不同方法实现的K =64的“I2 T”任务的topN-精度和召回率@k曲线从这些图中，我们可以得到，所提出的CMMQ通常实现更高的精度和召回，这与mAP评估一致。对于跨模态最近邻搜索，用户通常关注返回结果的顶部。因此，顶部返回实例与查询的相关性更重要。从topN-precision和recall@k曲线可以看出，当返回的实例数量较少时（例如，<40），这进一步证明了CMMQ可以更好地对抗噪声标签，并以高质量学习哈希码。4.3.2Hash结果给定一个查询对象，可以计算返回对象在任何汉明半径内的查准率和查全率。通过研究这些值与从0到K的每一个汉明半径，我们可以绘制精确率-召回率曲线。图4c和5c分别报告了MIRFlickr-25 k上K=64的从这些数字中，可以再次观察到CMMQ始终实现最佳性能。从表2、图4和图5可以看出，CMMQ通常在两个汉明排序度量（即，mAP、topN精度和召回率（recall@k）和散列查找度量（即，精度召回），展示了我们的方法在学习二进制代码中的实用性，用于具有噪声标签的跨模态4.3.3样本选择为了分析跨模态搜索的小损失样本选择的效果，我们将训练数据分为干净数据和损坏数据，如第1节所述。然后，我们在图6中展示了MIRFlickr-25 k的损失值的直方图，哈希码长度为64。从结果中我们可以观察到，大多数干净数据具有相对较小的损失，0.800.750.700.65DCMH CMHHPRDHCMMQ SSAHDCMH CMHHPRDHCMMQ SSAHDCMH CMHHPRDHCMMQ SSAHDCMH CMHHPRDHCMMQ SSAHDCMH CMHHPRDHCMMQ SSAH精度精度回忆（*0.1）回忆（*0.1）精度精度75590.740.720.700.680.660.00.10.20.30.40.50.60.70.80.90.7500.7250.7000.6750.6500.6250.6000.575T2I_mAPI2T_mAPT2I_mAP*I2T_mAP*0 20 40 60 80100120140历元图6. 图7的损失频率。MIRFlickr-25 k图8. 测试mAP的比较是-干净的数据和损坏的数据对于具有不同λ的两个搜索任务。BCE损失和我们的方法之间的差异。而损坏数据的损失通常很大。这个图清楚地表明，通过选择损失较小的例子，我们可以有效地构建一个更干净的子集，从而减轻噪音标签的影响。4.4. 参数敏感性分析在本小节中，我们研究了参数对λ的敏感性。我们在MIRFlickr-25 k数据集上训练我们的模型，哈希码长度为32，λ的值从0到1不等。结果示于图7中。我们可以看到，当λ大于0时，“I2T”和“T2I”任务的mAP值首先增加，然后保持在高值。六、结果表明，在实践中，我们可以从0的情况。六比零。9 .第九条。在本文中，我们将λ设为0。7 .第一次会议。通过将λ设为0，我们的模型退化为没有相互量化损失的模型。因此，通过比较λ=0和图7中其他点的结果，我们还可以验证所提出的相互量化损失在我们的模型中的作用。具体来说，我们可以观察到，通过增加相互量化损失，可以明显提高这证明了所提出的互量化损失的有效性。此外，实验结果还表明，通过最大化不同模态输出之间的一致性，该模型能够预测出正确的标签，从而提高最终的搜索性能。4.5. 鲁棒分析为了直观地研究鲁棒性的改善，我们在MIRFlickr-25 k的测试数据上绘制了mAP分数与历元的关系，使用二进制交叉熵（BCE）和图8中的建议方法，其中“T2 I mAP*”和“I2 T mAP*”表示BCE损失，“T2 I mAP”和“I2 T mAP”表示我们的方法。从实验结果可以看出，尽管BCE损失可以在学习早期提高测试性能，但噪声标签已经对跨模态搜索模型产生了严重影响。通过选择具有小损失的置信样本，我们的方法可以对抗噪声标签，即使在早期学习阶段也可以大大提高模型而且我们当BCE损失模型的性能开始下降时，该方法可以继续改善搜索结果总体而言，与原始BCE损失相比，我们提出的方法可以实现更优越的结果，这表明我们的方法可以减轻噪声标签的干扰，并具有更强大的性能。5. 结论这项工作提出了一种跨模态相互量化（CMMQ）的方法，同时缩小模态差距和打击嘈杂的标签。为了减轻不同模态之间的差异，我们首先设计了一个基于代理的对比（PC）损失拉从不同的模态接近共享的代理代码生成的哈希表示。此外，为了改善噪声标签的影响，我们建议选择小损失的例子，被认为是更有信心的例子，还设计了一个相互量化损失，以进一步提高样本选择的有效性最后，通过优化所选择的清洁子集，我们的方法可以显着减轻噪声标签的影响。在三个基准跨模态数据集上的实验表明，所提出的CMMQ优于几个国家的最先进的。更广泛的影响。所提出的方法基于所选择的训练数据点的学习统计来预测内容，因此将反映这些数据中的偏差。6. 确认我们的工作部分得到了国家重点研发计划&项目2017 YFE 0104100的支持，部分得到了国家自然科学基金项目62132016、62171343和62071361的支持，部分得到了陕西省重点研发计划项目2021 ZDLGY 01 -03的支持，部分得到了基础科学基金项目的支持。ZDRC 2102中央大学研究基金，部分由广东省基础与应用基础研究基金（2021 A1515110026）资助，部分由陕西省自然科学基础研究计划（项目编号：2022JQ-608）资助，部分由澳大利亚研究委员会项目DE-190101473和DP-220102121资助。i2t_mAPt2i_mAP地图地图7560引用[1] Yacine Aüit-Sahalia，Jianqing Fan，Dacheng Xiu.噪声和异步金融数据的高频协方差估计Journal of the AmericanStatistical Association，105（492）：1504-1517，2010.1[2] Yingbin Bai ，Erkun Yang， Bo Han ，Yanhua Yang，Jiatong Li，Yinian Mao，Gang Niu，and Tongliang Liu.理解和改进带有噪声标签的学习的早期停止。NeurIPS，34，2021. 3[3] Avrim Blum和T.米切尔将标记和未标记的数据与联合训练相结合。1998年，ACCLT。5[4] Yue Cao，Bin Liu，Mingsheng Long，and Jianmin Wang.跨模态汉明散列。在ECCV中，第202-218页，2018年。一、三、五[5] Zhangjie Cao ， Mingsheng Long ， Jianmin Wang ， andQiang Yang.用于异构多媒体检索的传递哈希网络。在AAAI人工智能会议上，2017年。1[6] Zhangjie Cao ， Mingsheng Long ， Jianmin Wang ， andPhilip S Yu.Hashnet：深度学习，通过延续来散列。在ICCV，第5608-5617页，2017年。1[7] 车英哲和赵正昊使用主题模型的社交网络分析。SIGIR，第565-574页，2012年。1[8] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.Nus-wide：新加坡国立大学的真实网络图像数据库ICMR，第1-9页，2009年5[9] Cheng Deng ， Zhaojia Chen ， Xianglong Liu ， XinboGao，and Dacheng Tao.用于跨模态检索的基于三元组的深度哈希网络IEEE传输图像处理。，27（8）：3893-3903，2018. 3[10] Cheng Deng，Erkun Yang，Tongliang Liu，Jie Li，WeiLiu，and Dacheng Tao.用于图像搜索的无监督语义保持对抗性哈希 IEEE Trans. 图像处理。，28（8）：4032-4044，2019. 3[11] 邓成，杨二坤，刘同良，陶大成。用于监督图像搜索的具有类特定中心的双流深度哈希。IEEE transactions onneural networks and learning systems，31（6）：2189-2201，2019。4[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。6[13] Yair Dgani, Hayit Greenspan, and Jacob Goldberger.基于医学图像的不可靠人工标注训练神经网络。在ISBI，第39-42页，2018年。1[14] Bo Han，Jiangchao Yao，Gang Niu，Mingyuan Zhou，Ivor W Tsang，Ya Zhang，and Masashi Sugiyama.掩蔽：噪声监督的新视角。在NeurIPS，第5841- 5851页，2018年。第1、3条[15] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor Tsang，and Masashi Sugiyama.合作教学：使用非常嘈杂的标签对深度神经网络进行鲁棒训练。在NeurIPS，第8527-8537页，2018年。一、三、六[16] Kaiming He， Xiangyu Zhang， Shaoying Ren ，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。57561[17] Peng Hu，Xi Peng，Hongyuan Zhu，Liangli Zhen，andJie Lin.使用噪声标签学习跨模态检索。在CVPR中，第5403-5413页，2021年。3[18] Mark J Huiskes和Michael S Lew。mir flickr检索评估。ICMR，第39-43页，2008年。5[19] Lu Jiang ， Zhengyuan Zhou ， Thomas Leung ， Li-JiaLi，and Li Fei-Fei. Mentornet：在损坏的标签上学习数据驱动的深度神经网络课程。在ICML，第2304-2313页，2018年。第1、3条[

下载后可阅读完整内容，剩余1页未读，立即下载