基于零镜头草图的图像检索中语义感知的知识保存

44 浏览量更新于2023-10-12 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于零镜头草图的图像检索中语义感知的知识保存刘庆1，谢玲希1，2，，王慧宇1，李建民. Yuille11约翰霍普金斯大学2诺亚qingliu@jhu.edu，198808xc@gmail.com，huiyu@jhu.edu，alan.l. gmail.com摘要基于草图的图像检索（SBIR）是一个重要的视觉问题，具有广泛的应用前景。近年来，在更加现实的环境下，对这一问题的研究引起了预训练（ImageNet）出租车卡车火车For gotte n车测试先前方法ra cecar和挑战性的零射击学习设置在本文中，我们从领域适应的角度研究这个问题，我们表明，在改善功能的关键小巴豪华轿车车车SUV（看不见）SUV✓嵌入到零射击场景中基于一个框架它从ImageNet上的预训练模型开始，并在SBIR基准测试的训练集上对其进行微调，我们提倡救护车✓ 保存我们的缘故SBIR保护先前获得的知识，例如，从ImageNet中学习到的丰富的判别特征为此，我们设计了一种名为语义感知知识保护（SAKE）的方法，该方法以经济的方式微调预训练模型并利用语义信息，例如，类间关系，达到知识保存的目的。在两个扩展SBIR数据集TU-Berlin和Sketchy上进行的零炮实验验证了该方法的优越性能。广泛的诊断实验验证，知识保存的好处SBIR在零拍摄设置，作为一个大部分的性能增益是从更适当的结构化特征嵌入的照片图像。1. 介绍基于草图的图像检索（SBIR）是计算机视觉中一个重要的应用驱动问题[7，14，6，15]。给定手绘草图图像作为查询，并且给定照片图像的大型数据库作为图库，目标是找到相关图像，即，那些具有相似视觉内容或相同对象类别的对象。该任务的最重要问题在于为跨模态数据找到共享特征近年来，随着经济的快速发展，...图1：EST-SBIR任务和我们的模型的说明灾难性的遗忘是有害的，尤其是在零触发设置中。我们的语义感知知识方案（SAKE）保留了丰富的视觉特征的原始领域知识（例如，汽车的不同子类型的视觉细节），这有助于区分正确的照片候选者（例如，、SUV）从干扰物（例如，赛车）在看不见的类。随着深度学习的发展，研究人员将深度神经网络引入这一领域[22，45，21，43，37，33，30，44，42，39]。在传统的设置中，假设训练和测试图像来自同一组对象类别，在这种情况下，现有的方法实现了令人满意的性能[22]。然而，在现实世界的应用中，不能保证训练集在应用阶段覆盖图库中的所有对象类别。本文研究了这种更具挑战性的设置在极端情况下。这种设置被命名为基于零拍摄草图的图像检索（ZERO-SBIR），它假设目标域中的类在训练阶段是不可见的此设置的目标是测试模型将学习到的知识适应未知领域的能力。实验表明，现有的SBIR模型通常在这种具有挑战性的设置中产生较低的准确性[4，35，16]，可能是因为它们过度拟合源域，同时不知道看不见的类别。为了解决这个问题，我们需要一个模型来同时解决对象识别、跨模态3662查询查询SBIR3663匹配和域适配。我们的一个重要观察结果是，零触发学习中的不满意性能与顺序学习期间的灾难性遗忘现象密切相关[17，8]，即。具体任务的微调过程。所有现有的EST-SBIR模型都使用混合损失函数微调ImageNet预训练模型，例如一个基于softmax的项用于区分不同的类，一个反射损失项用于学习共享图像表示[4]。然而，灾难性遗忘意味着先前获得的领域知识，例如从ImageNet中学习到的丰富的判别特征，如果与新任务无关，则在微调过程中大部分从模型中消除这导致特征过度拟合到源域中的有限数据，因此不太能够有效地表示和区分目标域中包含未见过类别的样本（图1中给出了示例）。为了验证这一点，我们使用新源域中的数据对Ima-geNet预训练的AlexNet [19]进行微调然后，我们修复网络，并使用fc 7特征在ImageNet上再次训练线性分类器，即原始域。在微调之前，该模型报告的分类精度为56。29%，而这一数字下降到45。54%之后该实验验证了模型在微调过程中忘记了从ImageNet学习的部分知识。基于这一观察，我们提出了一种新的框架，名为语义感知知识prEscherichia（SAKE），其目的是在微调过程中最大限度地保留先前获得的知识。SAKE不需要访问原始ImageNet数据，而是设计了一个辅助任务，将训练（微调）集中的每个图像近似映射到ImageNet语义空间。更具体地，在教师-学生优化过程期间进行近似，其中ImageNet上的预先训练的模型在所有参数固定的情况下提供我们还使用语义信息来细化教师信号，以提供更好的监督。我们的动机如图1所示。按照惯例，我们在两个流行的SBIR数据集上进行实验，即TU-Berlin数据集[5]和Sketchy数据集[33]。结果验证了SAKE与现有技术方法相比在提高BS-SBIR方面的有效性，并且在我们使用迭代量化（ITQ）对图像特征进行二进制化后，这些增益也持续存在[10]。此外，SAKE在训练期间需要适度的额外计算和很少的内存，并且在测试阶段不使用额外的资源。这简化了其在现实世界场景中的应用。本文的其余部分组织如下。第二节简要介绍了相关工作。第3节描述了问题设置和我们的解决方案。在第4节中展示了实验之后，我们在第5节中结束这项工作。2. 相关工作SBIR和SB-SBIR。SBIR任务的基本问题是学习一种共享表示，以弥合手绘草图和真实照片图像之间的模态差距早期的作品采用手工制作的特征来表示草图，并使用Bag-Of-Words模型的不同变体将其与从照片图像中提取的边缘图进行匹配[32，13，7，14，6]。近年来，深度神经网络（DNN）被引入这个领域[22，45，21，43，37，33，30，44，42，39]。第一亲-[35]和[16，4]，SBIR研究提出，在零射击设置出现。为了鼓励将学习到的跨模态表示从源域转移到目标域，EST-SBIR在语义嵌入中利用边信息[4，35]并采用深度生成模型，例如生成对抗网络（GAN）[4]和变分自动编码器（VAE）[35，16]。灾难性的遗忘。当预先训练的模型被微调到另一个领域或不同的任务时，它往往会失去在原始领域执行原始任务的能力。这种现象被称为灾难性遗忘[11，8，25]，并在训练神经网络中观察到。增量学习方法[24，2，29，38，34]使模型适应逐渐可用的数据，并需要克服灾难性遗忘。[17]建议选择性地减慢对旧任务重要的权重的学习。后来，[20，36]提出在微调阶段模仿原始模型但我们的目标是将模型推广到未知的领域，我们添加语义约束来细化原始模型知识蒸馏。[12，31]首先提出将知识从大型教师网络压缩到小型学生网络。后来，知识蒸馏在许多代中被扩展到优化深度网络[9，40]，并指出知识蒸馏可以细化地面真实标签。在EST-SBIR中，为了保留在预训练阶段学习的知识，我们建议为微调数据集中的训练样本生成伪ImageNet标签。3. 所提出的方法在本节中，我们首先描述问题提出了基于零镜头草图的图像检索（ZS-SBIR）的概念，并阐述了我们的动机，即零镜头学习与灾难性检索之间的联系。基于这一观察，我们提出了我们的解决方案，旨在最大限度地保留来自预训练模型的知识，并且我们通过弱语义对应来帮助这个过程。3664标签：蛋糕图像CSE-ResNet-50特征嵌入xi∈RM或…准则标签教师网络…LSAKEWordNetImageNet标签L基准地面监测SSJJIji ij|C||C|知识保存语义意识图2：我们的模型概述。我们使用CSE-ResNet-50将草图和照片图像嵌入到共享的嵌入空间中。在获得特征表示xi之后，我们将其用于两个分类任务，一个是预测基准标签上的分布，另一个是预测Imagenet标签上的分布。前一个任务由基准中的地面实况监督。后者使用ImageNet预训练模型中的教师信号进行训练，并受到语义信息的约束。3.1. 问题陈述在基于零次草图的图像检索中，数据集由两个子集组成，即用于训练检索模型的参考集和用于验证检索模型性能的测试集参考集表示源域中的数据，我们将其表示为OS={PS，SS}，其中PS和SS分别是照片和草图的子集，上标S表示源。类似地，测试集包含目标域中的数据，并且表示为OT={PT，ST}，其中上标T表示目标。在EST-SBIR的训练阶段，参考集中的照片和草图用于两个目的：(i)提供语义类别供模型学习;更重要的是，引导模型实现照片和草图之间的跨模态相似性。数学-在数学上，设PS={（pi，y i）|y i∈CS}n1SS=3.2. 动机：零射击学习和灾难性遗忘之间的联系我们的目标是学习两个模型，表示为f（·;θP）和g（·;θS），分别用于照片和草图图像的特征提取。我们假设f（·;θP）和g（·;θS）都是输出相同维数M的向量的深度网络。也就是说，每个学习的特征向量，或者xi= f（pi;θP）或者xj= g（sj;θS），都是RM中的一个元素。我们注意到，在测试期间，计算这些特征之间的距离以测量草图查询和每个照片候选者之间的相似性。也就是说，SBIR的目标是训练特征提取器，使得同一类的特征在RM中彼此接近地投影。在参考集可用的情况下，训练分类模型是一种简单的解决方案。但由于{（s，z）|z∈CS}n2i=1源集中有限数量的训练数据，j j jj=1（yi和zj也可以写成搜索者经常从ImageNet向量形式yi= 1yi E ∈R ，zj=1z E ∈R），其中CS是参考类集。大多数现有的方法在这两个数据集上训练映射函数，知道输入是照片还是草图1.在测试过程中，每次给出一个s k etch查询s0∈ ST，目标是在PT，i中搜索具有相同语义标签的图像。e. ，所有p0∈PT使得y0=z0，其中y0和z0都落在测试类集CT内.零激发设置指示在训练阶段中不出现测试类，即，，CSCT=.1这对于改进测试集中的特征提取很重要。通常有两种类型的方法，即，或者训练具有单独权重的两个网络[4，16]，或者在同一网络中设计内部结构以进行区分[22]。[3]，一个大规模的图像数据库，并将模型微调到源域。因此，在训练之后，我们获得能够在源域中进行特征表示的模型，但这并不一定意味着在目标域中满足性能，特别是在这两个域很少重叠的零触发设置中。从上面的分析可以看出，我们的目标是弥合可见的源域和不可见的目标域之间的差距。由于后者仍然是不可见的，我们转而观察在一个其他可见的域域的域适应的行为。自然的选择在于ImageNet的原始域。我们问，在对源域进行微调之后，模型在表示原始域方面有多好。然而，经过微调的模型报告显示，3665SOK我在原始域中的不令人满意的性能，甚至假设预训练模型是由相同的数据训练的。这种现象被命名为灾难性遗忘-C类O.这两个分支都是通过在xi之上添加一个全连接层，然后添加一个softmax函数来构建的。更具体地，第一分类器WBcom.”[17]《明史》：“明者，明也。putesyi=softmax（α>xi+β），y∈i∈R| C|，目标在模型被调整到-其他域。为了验证这一点，正如引言中所述，我们在ImageNet上训练AlexNet [19]，然后在TU-Berlin [5]参考集上对其进行微调。然后，我们提取fc7特征，并在这些固定特征之上为ImageNet训练线性分类器。分类准确性的急剧下降（从56。29%到45。54%）验证了从ImageNet中学习的一部分知识被遗忘了（即，不保存）。这促使我们推测零机会学习与灾难性遗忘密切相关换句话说，通过减轻灾难性遗忘，适应回到原始领域的能力变得更强，因此我们也可以预期转移到目标领域的能力变得更强。请注意，要遵守零触发设置，在原始域中设置的类别和在目标域也必须是独占的，即，CO<$CT=，其中上标O代表原件。我们实施这个想法使用了一个简单而有效的算法，这将在下一小节中详细介绍。3.3. 语义感知的知识保存我们首先描述了我们用于特征提取的网络架构SBIR[44，33，21，45，35]中的大多数先前的作品使用独立网络或半异构网络（具有独立的较低级别和在顶层聚合的网络）来处理照片和草图以使网络适应SBIR基准，特别是参考集，达到弥合草图和照片图像之间的差距，并学习跨模态数据的良好相似性度量的目的第二分类器 WI 在 y〜i=softmax（ζ>xi+η）上工作，y〜i∈R| C|，其中有助于保持网络从之前的ImageNet训练中学习到的丰富视觉特征，使网络适应了BS-SBIR目标域。α、 β、 ε、 η分别是两个线性分类器中的权重和偏置项在无法访问原始ImageNet数据的情况下，我们认为第二个分类器的训练是不平凡的。为了解决基准数据集中图像没有真实ImageNet标签的问题，SAKE查询ImageNet预训练模型，即模型SAKE由初始化，以提供教师信号，该教师信号在通过语义约束细化之后，用于监督y_n的学习。接下来，我们将详细介绍培训目标。3.4. 优化目标这两个分类任务都是端到端的模拟训练，我们模型的学习目标可以写为L=Lbenchmark+λSAK ELSAKE，其中Lbenchmark基于地面事实对y中的分类损失进行建模。我们使用交叉熵损失函数来计算它1Xexp（α>xi+βy）分开在这里，我们采用条件SE（CSE）模-L基准=-logPyii，Ule在[22]中提出，并将其集成到ResNet块中，得到一个简单的CSE-ResNet-50网络，用于联合处理照片和草图。CSE利用两个完全连接的层，然后是S形激活，以在每个块之后重新加权通道的重要性。在前向传递期间，二进制码被附加到第一层的输出以指示输入数据的域，即，无论是照片还是素描。因此，不是有两个独立的网络f（·;θP）和g（·;θS），而是通过令f（·;θP）=h（·，输入域=0;θ）和g（·;θS）=h（·，输入域=1;θ）得到一个统一的网络h（·，·;θ）。这种条件自动编码器结构有助于网络学习来自不同模态的输入数据[22]的实验验证了CSE的有效性在使用CSE-ResNet-50获得特征表示xi=h（pi，0;θ）（或对于草图输入为h（si，1;θ））之后，网络分叉成两个分类器：一个是预测照片pi（或草图si）的基准标签y i（或z i）∈ CS;另一个是预测ImageNet标签，即，数据属于1000个ImageNet中的每一个的可能性有Nk2CSexp（α>xi+βk）其中N是总训练样本数r，αk和βk是类别k的基准标签分类器Wb中的权重和偏置项。如果输入数据是草图，则yi可以由ziLSAKE计算分类损失，以y为单位。由于没有地面真值标签可用于此损失项，因此我们将教师信号和语义约束组合到其中。在下文中，我们将详细阐述这两个组成部分。从老师那里学习信号。给一张照片在 1000 个ImageNet 类 CO 中具有未知对象标签的图像，使用ImageNet训练的分类器来估计其身份是直观的。受最近知识蒸馏[9，12]和增量学习[20，36]方面工作的启发，我们建议通过使用ImageNet预训练网络作为教师来实现这一目标。教我们的模型记住丰富的视觉特征，并做出合理的ImageNet标签预测。在训练过程中，教师网络是固定的，并采取与模型相同的照片输入。根据预测3666我MLMqt= Softmax（ti）∈ R|C| made by the teacher network,数据集包含20，000个均匀分布在即，样本pi属于每个类别的概率在CO中，我们鼓励我们的模型做出同样的预测-第与作为独热向量的地面真值标签不同，我们从教师网络中得到的是CO上的离散概率分布。因此，使用具有软标签的交叉熵损失来计算教师损失：250个类别。新增的204，489张照片在[44]中，我们也使用它。Sketchy数据集由来自125个类别的75，471张手绘草图和12，500张相应的照片图像组成。[21]收集了另外60，502张照片图像，总共产生了73，002个样本。我们将遵循[35]，老师=1X X−qtlogP exp（x>xi+ηm），随机抽取30/25个类作为测试集，其余220/100个类作为参考，Nim2COi，ml2CO exp（x>xi+ηl）为训练做准备。在测试步骤期间，来自测试集的草图被用作检索查询，并且其中，Rm和ηm是Im中的权重和偏置项用于类别m的ageNet标签分类器WI。由于随机变换被添加到每个输入样本中以用于数据扩增目的，因此教师网络在线进行预测。在测试步骤中，不需要教师网络。教师信号的语义限制。虽然教师网络已经在复杂的ImageNet数据集上进行了训练，但原始域和源域之间存在知识差距，因此它可能会在SBIR参考集上出错。由教师做出的错误预测所给予的监督将损害我们的SAKE模型中保留有用的原始领域知识因此，我们建议使用额外的语义信息来指导师生优化过程。更具体地说，我们使用WordNet [27，26]来构建语义相似度矩阵A;每个条目ak，m表示类k∈CS和类m∈CO之间的相似性。给定基准样本pi，其具有真实标签yi=k，如果类m在语义上类似于k，则我们鼓励y 〜 im的预测是大的，即，k，m是大的。ak针对每个类定义，并且可以与ti组合以形成语义感知的教师信号，其中logits是两个分量的加权和，qi=tmax（λ1·ti+λ2·ayi）的S。因此，SAKE损耗可以写为：来自同一组类的照片图像被用作检索图库。正如[35]所建议的，测试集中的每个类都需要至少400张照片图像。我们注意到，TU- Berlin/Sketchy中的一些类别也存在于ImageNet数据集中，如果我们选择它们作为我们的测试集，它将违反零拍摄假设（对于使用ImageNet预训练模型进行初始化的现有作品也是如此）。因此，我们遵循[16]的工作，并使用Sketchy中的谨慎分割来测试我们的模型，其中包括ImageNet的1000个类中不存在的21个SAKE对Sketchy的这种仔细分割的性能在结果部分中显示。对于TU-Berlin数据集，我们还仔细评估了模型在应用于由ImageNet和非ImageNet类组成的测试集时的性能。结果见第4.3节。实施详情。我们使用PyTorch [28]用两个TITAN XGPU实现了我们的模型。我们使用在ImageNet上预训练的SE-ResNet-50网络来初始化我们的模型，它也在训练阶段用作SAKE中的教师网络。为了提供语义约束，使用来自nltkcorpus reader的WordNetpython接口我们将每个类别映射到一个节点在WordNet中，使用路径相似性来设置k，m。到1XLSAKE=NX−qi，mlogPexp（n>xi+ηm）、Oexp（n>xi+ηl）训练我们的模型，应用Adam优化器，参数β1= 0。9，β2= 0。999，λ = 0。0005 学习率im2COl2Cl从0开始。0001，并以指数方式衰减到1e−7，其中，m和ηm与教师中定义的相同损失，是类别m的ImageNet标签分类器中的权重和偏差项。注意Lteacher是LSAKE的特殊设置，其中λ1=1且λ2=0。我们认为，这个损失项有助于细化来自教师网络的监督信号，并使知识保存过程的se-mantic意识。4. 实验4.1. 数据集和设置数据集。我们在两个大规模草图照片数据集上评估了SAKE：TU-Berlin [5]和Sketchy [33]以及从[44，21]获得的扩展图像。TU-柏林训练我们使用批量大小等于40，并训练网络，20个纪元。在我们的实验中，λSAKE被设置为1，λ1被设置为1，λ2被设置为0。3、除非另有说明。为了实现ZS-SBIR，基于由xi计算的距离进行最近邻搜索。对于实值特征向量，使用余弦距离来避免向量范数引入的变化。为了加速取回为了提高编码速度，二进制散列被广泛用于对输入数据进行编码。为了与现有的零次散列方法[35，41]进行公平的比较，我们对我们的模型学习的特征向量应用迭代量化（ITQ）[10]算法以获得二进制代码。在[4]之后，我们使用来自训练集的草图和照片的最终表示来学习优化的旋转，然后将其用于O3667方法SBIR Zero-Shot DimensionTU-Berlin Ext.草图扩展草图扩展（[16]分裂）[22]第二十二章：你是谁？2590. 三六九 - -表1：SAKE和现有方法的EST-SBIR性能比较其余的“-” indicates the results are not presented by the authors on that测试样本的特征向量，以获得二进制TU-Berlin Ext.草图扩展代码. 在此之后，计算针对32641283264128检索任务我们将发布我们的模型和代码[41]第四十一话0的情况。1320的情况。1390的情况。1530的情况。1460的情况。1650的情况。168验收ZSIH [35]0的情况。2010的情况。2200的情况。2340的情况。2320的情况。2540的情况。2594.2. 与现有方法的比较我们将我们的模型与ZS-SBIR上的三个先前的工作进行比较：ZSIH [35]， CAAE和CVAE [16]，和SEM-PCYC [4]，它们都使用生成模型和复杂的SAKE0. 2690的情况。3590的情况。392 0的情况。289 0的情况。3640. 410表2：SAKE和现有的零激发散列方法的ZS-SBIR mAP@all比较。32、64和128表示所生成的散列码的长度。框架，例如图转换层，对抗训练，等等，鼓励学习良好的共享嵌入，λ100的情况。1λ20的情况。313空间[22]提出的EMS是目前最先进的ZS-SBIR 00的情况。3620的情况。3640的情况。3700的情况。3690的情况。362在SBIR模型，并声称能够解决零-ZS-SBIR 10的情况。4260的情况。4310的情况。4340的情况。4160的情况。412直接拍摄的问题，所以我们包括他们的EST-SBIR结果用于比较。我们还将我们的模型与两种SBIR方法GN-Triplet [33]和DSH [21]以及两种零激发方法SAE [18]和DSH [41]进行了比较。所有模型都使用ImageNet预训练网络进行权重初始化。计算平均精密度（ mAP@all ）和考虑前 100 次检索的精密度（Precision@100），以进行性能评价和比较。如表1所示的结果，尽管我们的框架设计简单，但在所有数据集/数据集分割中，我们提出的方法始终以较大的幅度优于最先进的SB-SBIR方法，例如。，20。使用64位二进制散列代码的具有挑战性的TU-Berlin Extension数据集的mAP@all相对改善9%为了解决大多数作品使用自己的随机参考/测试分裂而不发表实验的详细地，我们使用不同的随机分割在TU-柏林扩展上重复我们的实验三次，并且得到mAP@all等于0。352，0。369，0。359，在64位二进制的情况下，这都优于以前的模型。这证实了我们的SAKE模型的大性能增益不是偶然的，也不是通过分裂偏差。mAP@all Prec@100 mAP@all Prec@100 mAP@200Prec@200[33]第三十三话是的没有10240的情况。1890的情况。2410的情况。2110的情况。3100的情况。0830的情况。169DSH [21]是的没有64†0的情况。1220的情况。1980的情况。1640的情况。2270的情况。0590的情况。153严重不良事件[18]没有是的3000的情况。1610的情况。2100的情况。2100的情况。3020的情况。1360的情况。23864†0的情况。1650的情况。252----[16]第十六话是的是的4096--0的情况。1960的情况。2840的情况。1560的情况。260CVAE [16]是的是的4096----0的情况。2250的情况。3333668表3：TU-Berlin扩展数据集上的ZS-SBIR mAP@all不同的λ1和λ2。对于所有测试，λSAKE= 1由于TU-Berlin和Sketchy中的类别都与ImageNet重叠，因此使用非ImageNet类别测试模型是很重要的，因为我们的SAKE模型在很大程度上依赖于原始领域的知识，即，丰富的视觉功能，以前从ImageNet学到的。因此，在表1中，我们报告了我们的模型结果表明，SAKE仍然大幅优于基线。这一结果表明，SAKE保留的原始领域知识不仅保持了其适应原始领域的能力，而且有助于模型更广泛地推广到未知的目标领域。在表2中，我们使用不同长度的二进制代码进一步比较了我们的模型与两种零次散列方法，ZSIH [41]和ZSIH [35]正如预期的那样，更长的哈希-3669骨干ZS-SBIRPBIR预训练LBB+TLB +L清酒预训练LBB+TLB +L清酒AlexNet0的情况。0740的情况。2670的情况。2750的情况。2750的情况。3860的情况。3930的情况。4270的情况。432ResNet-500的情况。0810的情况。3520的情况。3950的情况。4130的情况。6400的情况。5420的情况。6660的情况。670CSE-ResNet-500的情况。0680的情况。3530的情况。4260的情况。4340的情况。6350的情况。5580的情况。6730的情况。683表4：针对具有不同损耗项的不同骨干模型，TU-Berlin扩展上的M-SBIR和M-PBIR mAP@all。所有模型都使用ImageNet进行了预训练，并通过64维特征向量表示每个图像LB代表L基准。LT代表L老师。λSAKE性能比AlexNet更好，这表明网络具有00。10. 3 1 3更深的架构由于其更大的模块而表现得更好，ZS-SBIR0的情况。353 0. 378 0. 395 0.4340. 429eling能力我们在这里为SAKE报告的结果ESP-PBIR（非IN）0的情况。558 0. 587 0. 612 0.6540. 668使用CSE-ResNet-50网络可能会进一步提高，P-PBIR（IN）0的情况。545 0. 543 0. 615 0.7070. 758如果我们选择使用更深的脊椎。其次我们表5：具有不同λSAKE的TU-Berlin扩展上的mAP@all。减少代码导致更好的检索性能，我们提出的模型在所有情况下都优于这两种方法。这再次证明了所提出的SAKE模型的有效性。在下面的小节中给出了诊断实验，以显示SAKE的优越性能确实来自于用语义约束保存的知识。4.3. 定量分析使用SAKE进行知识保存。我们首先运行一个简单的实验，以显示在模型微调过程中的灾难性遗忘现象，以及SAKE如何帮助减轻它。我们使用从DNN的最后一个全连接层提取的特征来训练ImageNet 1000类的线性分类器，并使用顶部1.预测准确度，衡量特征表示数据的有效性。ImageNet预训练的AlexNet达到了56的top-1准确率。29%，而微调模型（经过训练以分类TU-Berlin Extension参考集中的220个对象类别）仅报告45。百分之五十四最后，我们通过SAKE对AlexNet进行了微调，top- 1的准确率提高到了51。百分之三十九通过将AlexNet更改为更深的模型SE-ResNet-50，我们观察到类似的结果：预训练模型达到77. 43%，微调车型降至59. 56%，SAKE的培训将其提高到67。百分之四十四。结果表明，基准训练确实会导致先前学习的任务的知识消除，SAKE能够有效地减轻它。消融研究。在表3中，我们分析了超参数λ1和λ2的影响。当λ1设置为0时，在没有教师信号的情况下应用语义约束几乎不会影响结果。当λ1= 1时，语义约束提供了在λ 2 = 0处具有峰值的温和提升。3 .第三章。在表4中，我们显示了具有不同主干和损失项的网络的零拍摄图像检索mAP@all。所有网络都在相同的环境中进行训练和测试，即，使用在TU-柏林扩展和64-d特征表示上分割的相同数据集。我们首先观察到ResNet-50达到了更好的-3670发现CSE模块在增强跨模态映射它提供了有关数据类型的附加信息，并允许模型学习更灵活的函数来处理每种模态中的数据，因此它是我们SAKE设计中的重要组件。最后，实验结果表明，采用简单的无约束教师信号进行知识保存可以有效地提高所有骨干网的性能，尤其是容量较大、灵活性较高的骨干网。在此之上，语义感知带来了额外的提升，并最终建立了我们的完整SAKE模型，达到了最佳的检索结果。为什么选择SAKE？为了进一步研究该模型如何从SAKE保留的原始领域知识中受益，我们研究了基于零拍摄照片的图像检索（ZE-PBIR），并使用它来评估SAKE学习的照片图像的表示。在理想的情况下，如果模型能够识别图像中大量对象类别的丰富视觉特征，，ImageNet数据集，它会将它们应用到看不见的照片图像中，并将具有相似视觉内容的图像投影到嵌入空间中的聚类区域中。这将有助于该模型达到良好的ESP-PBIR结果。实际上，如表4所示，预训练的模型具有合理的mAP@all（通过分解输出层中的原始权重矩阵来初始化x1层的权重和权重），这对于简单的基准训练是脆弱的在加入知识保持项LT或LSAKE后，ZS-PBIR有了很大的改进。这意味着SAKE实现的EST-SBIR的改进主要来自于模型在表5中，我们逐渐增加λSAKE，即LSAKE在总损耗中的系数对于 SBIR ，性能先增加后达到峰值，λSAKE=1. 如果我们进一步增加λ1，性能开始下降，可能是因为模型受到教师信号的影响太大，变得不那么关注3671✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔✗✔✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔✔ ✔ ✔ ✔✗✔ ✔ ✔ ✔ ✔✗ ✗ ✗ ✗✗ ✗ ✗ ✗ ✗ ✗✗ ✗ ✗ ✗✗ ✗ ✗ ✗ ✗ ✗图3：SAKE在TU- Berlin Extension数据集上获得的前10名BS-SBIR结果。在64维特征向量上利用余弦距离进行最近邻搜索进行检索绿色标记表示正确检索的候选项，红色标记表示错误检索。这里显示了两个阴性案例，以帮助诊断模型。更多详情请参见第4.4学习新的数据集。在CIB-PBIR的情况下，对于COM，我们专门挑选了ImageNet中不存在的类别，即、目标域和ImageNet中存在的类别，即本文给出了 λSAK E 对它们的不同影响。正如我们所预期的那样，ImageNet照片的性能随着λSAKE的增加而不断上升，而非ImageNet照片的性能则这一结果再次证明，使用SAKE有助于保持模型4.4. 定性分析检索的例子。在图3中，我们展示了SAKE在TU-BerlinExten- sion数据集中获得的前10个检索结果在大多数情况下，SAKE检索照片图像与正确的对象标签，即。，与草图图像具有的标签相同。在所选择的否定情况下，SAKE未能找到与草图类别匹配的照片图像，而是返回来自另一类别的照片，其与草图查询共享一些视觉相似性这意味着照片候选者的特征向量被适当地聚类，如果来自同一类的草图也被投影到同一区域，则这有利于EST-SBIR。学习嵌入的可视化。在图4中，我们展示了我们的SAKE模型与基线模型的t-SNE [23]结果，该基线模型使用TU-Berlin Extension测试集上的64-d特征表示，其中在SAKE中可以找到关于对象类的更清楚的聚类图我们还观察到照片之间的边缘图4：在TU-Berlin Extension测试集上使用64-d特征表示的t-SNE结果。第一行：SAKE学习的功能。第二行：没有LSAKE的基线模型学习的特征。在“草图”图中，“照片”数据点被保留并变亮。这个数字最好用彩色看。和草图数据，这意味着SAKE可以通过学习草图和照片的更多对齐特征来进一步5. 结论本文从一个新的角度研究了基于零镜头草图的图像检索问题，即通过增量学习来缓解灾难性遗忘。关键的观察在于，零射击学习和增量学习都专注于将训练的模型转移到另一个领域，因此我们推测并实证验证了提高后者任务的性能有利于前者。SAKE算法充分利用语义知识，保留了原始领域的知识，因此无需访问原始训练图像。在TU-Berlin和Sketchy数据集上的实验证明了最先进的性能。我们将在未来的工作中对涉及灾难性遗忘的更广泛的任务进行SAKE这项工作最重要的一点是，不同的机器学习任务虽然看起来不同，但可能反映了相同的本质原因，而原因往往指向过度拟合，这是学习中的一场持久战。我们揭示了一个新的想法，它通过处理一个任务来帮助另一个任务。我们强调应朝着这一方向进一步开展研究。本研究得到了NSF资助BCS-1827427的支持。我们感谢刘晨曦帮助设计图1和校对.我们感谢杨成林对知识升华的讨论。份上（图）份上（草基线（照片）基线（草图）3672引用[1] Hessam Bagherinezhad 、 Maxwell Horton 、 MohammadRastegari和Ali Farhadi。标签精炼厂：通过标签进展改进图像基因组分类。arXiv预印本arXiv：1805.02641，2018。2[2] Gert Cauwenberghs和Tomaso Poggio增量和减量支持向量机学习。神经信息处理系统的进展，第409-415页，2001年。2[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。3[4] Anjan Dutta和Zeynep Akata。基于零镜头草图图像检索的语义绑定成对循环一致性 arXiv 预印本 arXiv ：1903.03372，2019。一二三五六[5] Mathias Eitz，James Hays，and Marc Alexa.人类如何ACM事务处理图表（Proc. SIGGRAPH），31（4）：44：1-44：10，2012。二、四、五[6] Mathias Eitz，Kristian Hildebrand，Tamy Boubekeur，and Marc Alexa.从草图特征线检索大规模图像描述符的评价。Computers Graphics，34（5）：482-498，2010.一、二[7] Mathias Eitz，Kristian Hildebrand，Tamy Boubekeur，and Marc Alexa.基于草图的图像检索：基准和特征袋描述符。 IEEE transactions on visualization and computergraphics，17（11）：1624-1636，2011. 一、二[8] 罗伯特·M·弗伦奇连接主义网络中的灾难性遗忘。Trends in cognitive sciences，3（4）：128二、四[9] TommasoFurlanello 、 ZacharyLipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。重生的神经网络。在国际机器学习会议上，第1602-1611页，2018年。二、四[10] 龚云超，斯韦特兰娜·拉泽布尼克，阿尔伯特·戈多，和弗洛-伦特·佩龙宁.迭代量化：一个procrustean的方法来学习二进制代码的大规模图像检索。IEEE transactionson pattern analysis and machine intelligence，35（12）：2916-2929，2013。二、五[11] Ian J Goodfellow ， Mehdi Mirza ， Da Xiao ， AaronCourville，an

下载后可阅读完整内容，剩余1页未读，立即下载