没有合适的资源?快使用搜索试试~ 我知道了~
12056通用跨域检索:跨类和跨域的泛化2* Soka Soka酒店,Soka-马上预订;1印度理工学院,Kharagpur,2印度科学学院,班加罗尔soumava2016@gmail.com,{titird,somabiswas} @ iisc.ac.in摘要在这项工作中,我们第一次解决了通用跨域检索的问题,其中测试数据可以属于在训练过程中看不到的类或域。由于动态增加的类别数量和对每个可能的域的训练的实际约束,这需要大量的数据,所以对看不见的类别和域的泛化是重要的。为了实现这一目标,我们提出了SnMpNet(语义Neighbourhood和混合预测网络),它包括两个新的损失,以占在测试过程中遇到的看不见的类和域。具体来说,我们引入了一种新的语义邻域损失,以弥合可见和不可见类之间的知识差距,并确保潜在的空间嵌入的不可见类是语义上有意义的,相对于其相邻的类。我们还在图像级以及数据的语义级引入了基于混合的监督,用于使用混合预测损失进行训练,这有助于在查询属于看不见的域时进行有效将这些损失并入SE-ResNet 50骨架上以获得SnMpNet。两个大规模的数据集,Sketchy Extended和DomainNet上的广泛实验,并与最先进的国家的彻底比较证明了所提出的模型的有效性1. 介绍由于多媒体中不同领域的海量数据的可用性,跨领域检索得到了极大的关注。它解决了当查询属于不同的域(例如,图像)时从域(例如,图像)检索相关数据的挑战问题。素描、绘画等)。作为我们工作的动力,我们专注于具体的应用基于草图的图像检索(SBIR)[14][34],在电子商务,法医数据匹配等方面有广泛的应用。考虑到动态的现实世界,* 同等贡献。在搜索数据集总是用新的数据类别来扩充的情况下,最近,焦点已经转移到零触发SBIR(ZS-SBIR)或广义 ZS-SBIR ( GZS-SBIR ) [26][32][4][15][5][7] , 其中,查询和搜索集样本属于在训练期间未看到的类。ZS-SBIR(或其他跨域检索应用)的通用架构由两个并行分支组成,每个分支由特征提取器和分类器组成,以学习来自各个域(这里是草图和图像)的数据的潜在空间表示。这个潜在空间中的域间隙通过所看到的类的语义描述[19][22]桥接。在测试期间,查询草图和搜索集图像被投影到该空间,并直接比较检索。但是如果查询属于不同的域,比如绘画,那么这个网络需要重新训练,将绘画和图像作为两个域。这不仅需要对具有足够数据量的每个域对执行训练,而且,查询域需要先验已知在这里,我们尝试了一个更现实和更具挑战性的跨域检索场景,其中查询数据不仅可以属于看不见的类,而且可以属于看不见的域-我们称之为通用跨域检索(UCDR)。它是文献中两个充分研究但独立的问题的组合,即ZS-SBIR,其考虑来自未见过的类的测试数据和域泛化(DG)[28][10],其考虑来自分类中未见过的域的测试数据。为此,我们提出了SnMpNet(语义邻域和混合预测网络),这是一个由特征提取器和分类器组成的单分支网络,用于学习输入数据的域独立嵌入,也可以推广到看不见的类别测试数据。对于gener- alizing看不见的类,我们提出语义邻域损失,代表看不见的类在他们的相对位置与所见的类。此外,我们利用混合技术[33]用通过类间和域间混合创建的样本填充我们的训练集,以在测试期间为查询样本的不可见域做准备为了更好地跨域推广,我们提出了一种新的混合预测损失。的贡献12057≥⊂CCs=1D{}∈{}C∈{}C∩ Cd∈{1,…D}我i=1我这项工作的主要内容概述如下:(1) 我们提出了一个新的框架SnMpNet,以解决通用的跨域检索的情况下,查询数据可能属于看到/看不见的类,以及看到/看不见的域。据我们所知,这是文学中第一部解决这一极具挑战性问题的作品。(2) 我们提出了两个新的损失,即语义Neighbourhood损失和混合预测损失,占在测试过程中看不见的类和看不见的域。(3) 在Sketchy-Extended [24]和DomainNet [21]数据集上对所提出的框架进行了广泛的实验和分析,并报告了针对该应用修改的其他最先进的方法。2. 相关工作我们首先描述了最近的进展ZS-SBIR和DG,因为UCDR可以被认为是这些的组合我们还讨论了最近提出的分类协议的样本从unseen类和域,并解释其与UCDR的差异。Zero-shotSketch-basedImageRetrieval ( ZS-SBIR):最近,很少有工作解决了更现实的ZSDG任务,其目的是在广义域中对看不见的类进行分类[17][18]。在[17]中提出了基于混合的网络。[18]中的工作扩展了域泛化方法,例如。特征评判网络[13],多任务自动编码器[8],通过将语义信息合并到其现有架构中来对未看到的类样本进行分类。最近[27]讨论了从任何源域到任何目标域的检索协议,对每个训练域使用专用的ConvnetUCDR将ZSDG协议扩展到检索框架。与ZSL或ZSDG协议相比,UCDR没有利用看不见的类的语义这使得UCDR协议更加现实和具有挑战性,因为在现实世界中,我们可能没有关于在测试期间将遇到哪些类的先验信息。3. 问题定义首先,我们定义了通用跨域检索(UCDR)的任务,以及使用的不同符号。我们假设来自M个不同(M2)域(图像,剪贴画,绘画等)的标记数据。可用于培训,ZS-SBIR协议首先在[26][32]中提出稍后已经提出了D列车=S{xc,d,c}Nd . 这里xc d是第i个sam-以解决ZS-SBIR及其广义版本GZS-SBIR。这些算法都遵循标准的两个并行分支的体系结构。相比之下,[15]提出了一个网络分支,用于处理来自两个域的数据,以及一个域指示符来嵌入域区分信息。所有这些算法都使用语义信息[19][22]来解释知识差距,这是一个受到零射击学习(ZSL)[29]启发的想法,我们将在后面讨论。UCDR概括了ZS-SBIR的任务,以在检索期间另外处理不可见的域。域泛化(DG):DG指的是对来自未知域的数据进行分类的任务,当网络已经用来自属于相同类的几个其他域的数据进行训练时。这通常通过学习数据的域不变特征表示来解决,使用诸如自我监督[2],三重损失[28],最大平均差异(MMD)[20]损失,对抗损失[11]等技术。最近,元学习[9]和情景训练[10]在DG任务中表现出令人印象深刻的性能。 UCDR概括了DG,以额外的处理,dle在检索框架中看不见的类。零激发域泛化(ZSDG):我们的工作也与经过充分研究的零拍摄学习(ZSL)任务有关,其目标是在测试期间对来自看不见的类的图像进行分类。一些开创 性 的 工 作 已 经 提 出 了 这 个 问 题[23][1][35][25][30][29]。可见和不可见类之间的知识鸿沟使用它们相应的语义信息来桥接。从第d个域中提取,其属于第c类。Nd是第d个域中的示例数。显然,M=2表示用于标准跨域检索的训练集。所有域的类标签c属于所见的类集训练。目标是找到潜在的域独立子空间ΦRm,使得来自所有域上的同一类的样本更接近,并且来自不同类的样本在该空间中被推开。因此,对于查询Xq和搜索集s=XsNs,我们可以使用查询样本的最近邻居来检索相关的搜索集数据,投影在这个学习的Φ空间中。所提出的UCDR协议是两个单独的实验框架的组合,即:1)UcCDR-其中查询Xq属于看不见的类,但是被看见-主要是dl,…D.这意味着traintest=,其中test是xq的可能类的集合; 2)U d CDR-其中xq的域不可见,但类可见,即,d/1,…,D,但test= train。所提出的组合协议,其中类和域的xq可以是看不见的表示为U c,d CDR,或简单地UCDR(以避免符号混乱)。ZS-SBIR是UcCDR的一个特例,其中草图和真实图像是两个域。此外,U d CDR是DG协议向检索的扩展。4. 该方法在这里,我们详细描述了所提出的框架SnMpNet解决UCDR任务。SnMpNet是由特征提取器12058我LLCEL∼∼我=θbb(xc,d)。此嵌入通过我我ijk和分类器。我们的主要贡献是语义邻域损失来解释看不见的类,混合预测损失来解释看不见的域,与基础网络相结合。建议的SnMpNet框架-概述:所提出的SnMpNet架构如图1所示。对于这项工作,我们选择SE-ResNet 50 [16]作为SnMpNet的骨干模块,其动机是其ZS-SBIR任务的最先进性能[15]。此外,我们在这个主干之上引入了一个注意力机制,如[4]所示。对于来自基础网络的输入样本xc,d获得的嵌入表示为c和d我我在随机邻域嵌入[3]、基于记忆的邻域嵌入[12]等中已经报道了嵌入空间。在这里,我们提出了用于该任务的新颖的语义邻域损失,如下所述。我们学习特征fc,d,使得其相对于所见类的距离与其类语义和其他所见类的语义此外,我们引入了一个严格到放松的惩罚条款,强制执行此约束,这取决于语义的距离类-c到其他看到的类。形式上,语义邻域损失由下式给出:LSn=w(c)||D(f c,d)− Dgt(f c,d)||第二章 (一)xic,d∈D列线性混合预测层θMp,确保g,c,d是域不变的。 接下来,这个域不变的fea-其中D(fc,d)∈R| C火车|,使得其第j个元素包含:我ic,d真通过线性语义邻域传递层,θ以获得m维潜在空间rep。得到fi和语义之间第j类的信息,由aj表示。 同样地,SN c和dc,dm对应的地面真实距离的第j个元素表示fi=θSn(gi )∈R. 这个m维的vector(D(fc,d))是ac和a d之间的欧氏距离。空间是潜在空间Φ,我们在其中获得数据的语义上有意义的域独立表示,并在测试期间有效地执行检索。gtiaj. ⊙表示元素乘法。权向量w(c)∈R的第j项|C火车|是这个Φ-空间的学习是由两个目标驱动的。J1)不可见类表示:我们要代表-w(c)j=exp−κDn(a,a)(2)在semanti中从看不见的类(在测试期间)发送数据-cJ其中,Dn(ac,aj)=D(a,a); D(.,. )代表在这个空间里有意义的方式,考虑到邻里信息。 这件事由世...Maxk,k∈C列 D(ac,ak)Mantic Neighborhood Loss(Sn)。2)域独立表示:我们希望Φ空间表示独立于输入数据的域,以便SnMp-Net可以容纳来自未知域的数据。这通过混合预测损失(Mp)来解决。我们还结合了类间和域间混合,以生成混合样本x~,并通过最小化混合分类损失(混合)来仅保持Φ空间中的分类区分接下来,我们描述了各个损失组成部分,以解决上述目标。4.1. 不可见类表示处理不可见类的主要挑战是在没有这些类的任何先验知识的情况下将它们有效且有意义地嵌入潜在特征空间Φ中。在这里,我们建议学习训练样本的Φ空间嵌入,使得它们相对于其他可见类,特别是其邻近类在语义上是有意义的。因此,在测试期间,模型学习根据它们的语义相关性将不可见的类查询样本嵌入Φ空间。这与用于分类的交叉熵损失或标准度量学习损失(如用于检索的三重损失)形成对比,其中目标是使来自同一类的数据更接近并将来自其他类的数据移动得更远。先前尝试将邻域信息包括在两个向量之间的欧几里得距离。K是一个经验-心理超参数,使用验证集准确度设置对于较小的Dn(ac,aj)(语义上相似的类),w(c)j较高,这强制更大的强调以根据需要保留相似类的相对距离对于远距离类,此约束的执行不太严格。4.2. 域无关表示在这里,我们建议通过结合基于混合的监督来学习数据表示,使得SnMpNet仅学习混合样本的类信息并获得域不变嵌入。混合输入数据:受[17]的启发,我们混合来自多个类以及多个域的样本以形成集合Dmixup={x~},使得x~=αxc,d+(1−α)[βxp,d+(1−β)xr,n](3)其中α Beta(λ,λ)和βBernoulli(γ,γ),λ并且γ是超参数。显然,β=1导致域内混合,β=0导致跨域混合。我们使用Dmixup中的样本进行训练。混合预测损失:我们的目标是通过这种跨域混合样本从g~=θb b(x~)中去除任何域相关信息。为此,我们提出了一种新的混合预测损失,其中网络是训练的G12059Σ∈Σj∈图1:所提出的SnMpNet的描述:(a)示出了在基础模型之上使用混合和定制的混合预测层和语义邻域层的训练方法;(b)示出了在所提出的UCDR协议下的测试,其中在检索期间的查询样本可以来自看不见的域和看不见的类别。以预测样本x ~中的组件类别的确切比例,并且for得到关于其组件域的信息。我们在学习Φ-空间表示之前加入该约束,以确保语义邻域索引和零在其他地方,例如,x产生通过在⑶中β=1α,ift=c−损失不会受到任何领域知识的阻碍。为此,我们计算g~的逻辑向量,通过传递它通过混合预测层。softmax activa-单位t=(1 α),如果t=p0,otherwise在θMp(g~)的第j个元素上的作用可以被解释为样本x~属于类别j的概率:因此,网络只记住跨类别混合-的比例,并独立于输入域。exp(θMp(g<$)j)(4)混淆分类损失:最后 我们 判处Prob(x~∈Class−j)=Σt∈C列exp(θMp(g~)t)标准交叉熵损失,以确保保留特征空间的可辨别性为此,我们将其中θMp(g~)j是在第j个ind ex处获得的logit分数。然而,根据混合系数,g~包含来自其分量类别的特性我们建议预测的混合系数,这些组成部分的类通过软交叉熵损失,其被设计为:|Ctrain|潜在Φ-空间表示R(d)的混合到其分量类中,如[33][17]中。此外,我们还希望保持有意义的语义潜在空间的结构,为看不见的类做准备。在这里,我们利用所看到的类的语义信息来解决所述的要求。LMp=x∈D混合Σt=1−~ltlogProb(x~∈Class−t)(5)为了实现这个目标,我们计算特征~f的logit分数作为s(~f) R| CT RAI N|,使得其第j个元素可以表示为其中,t是tth - a的元素|CT RAI N|- 维向量~1,s(f)=exp(cosine-similarity(~f,aj))(6)exp(cosine-similarity(~f,与其相应类别的混合系数t∈C列12060at))12061Σ联系我们我我混合∈|D|∈DCEip,dr,n类似于(4),s(f)j也表示f属于jt h类的概率。现在,如果x~来自一个特定的类,分类可以通过最小化以下来完成|Ctrain|单个GeForce RTX 2080 Ti GPU用于实施。模型最多训练100个历元,根据验证集性能提前停止15个 我们使用SGD,nesterov动量为0。9、LCE (y(x),s(f))=x∈D混合Σt=1−y(x)tlogs(~f)不(七)并且批量大小为60以解决优化问题,初始学习率为1 e-3,在20个时期内指数衰减到1 e-6。使用300-d GloVe [22]-嵌入和L2-归一化word 2 vec嵌入(300-d)[17]其中,y(x~)t是x ~的地面实况类的独热表示的第t个元素。由于输入x~不属于单个类,因此我们不能直接使用这样的计算。相反,我们扩展等式(7)以适应x~的所有分量类,如下所示:Lmix=αLCE(y(xc,d),s(~f))+(1−α)LCE([βy(x)+(1−β)y(x)],s(f))分别作为Sketchy和DomainNet的语义信息。SnMpNet的关键超参数为κ、γ1和γ2,设为κ1、2、γ10的情况。5,1,并且对于两个数据集γ2=15. 实验现在,我们提出的实验评估提出的SnMpNet。据我们所知,这是J4.3. 组合损失函数K(八)第一项工作是解决UCDR,因此没有确定的基线进行直接比较。首先,我们分析SnMp-Net的Uc CDR协议,只有类是看不见的检索过程中。我们特别考虑应用最后,考虑到在检索过程中看不见的类和看不见的域,我们结合了上述表示的优点无缝地在提出的框架。在语义邻域中考虑类间和域间混淆我们计算D(~f)和Dgt(~f),而不是D(fc,d)和(1)中的Dgt(fc,d)。此外,我们将x~的混合语义信息评估为以适当比率的其分量类别的组合,αα=ααc+(1-α)[βap+(1-β)ar](9)这种修正反映在Dgt(αf)作为它的第j分量成为~和之间的欧几里得距离。aj. 通过这种修改,基于混合的监督不仅在图像级,而且在语义信息级引入。结合所有损耗分量,训练模型的最终损耗为L=LCE+γ1LMp+γ2LSn(10)其中γ1和γ2是平衡不同损耗分量的贡献的实验超参数4.4. 检索在检索期间,对于任何查询数据xq,我们使用训练的模型提取潜在空间表示fqRm类似地,我们还提取搜索集样本xss的潜在表示为fs。我们使用fq和fs之间的欧氏距离,s=1,…,s对最终检索列表中的检索集图像进行排序。实现细节:我们使用PyTorch 1.1.0和ZS-SBIR , 其 在 文 献 中 被 充 分 探 索 , 以 直 接 比 较SnMpNet与ZS-SBIR中的当前SOTA。然后,我们将我们的评估扩展到完全通用的UCDR设置。我们首先简要介绍数据集。使用的数据集:我们使用两个数据集进行实验。Sketchy extended [24]包含来自125个类别的75,471个草图和73,002个图像,用于UcCDR。为了获得完全不可见的测试类(如果使用预先训练的主干),我们遵循[32]中的分割,并认为21个类(不是ImageNet-1 K的一部分)是不可见的。在剩下的104个已知类中,以下[4],93个和11个类分别用于训练和验证。DomainNet[21]有来自345个类别的大约600000个样本,收集在六个领域,即剪贴画,草图,真实,快速绘制,信息图和绘画,并用于U-dCDR和UCDR实验。在[17]之后,测试集由45个看不见的类组成。其余245和55类用于训练和验证[17]。此外,我们在训练时留下一个域(随机选择的),以创建看不见的域查询。搜索集由来自可见和/或不可见类的真实图像构造5.1. Uc CDR评估我们首先分析SnMpNet的UC CDR,特别是,ZS-SBIR,其中查询域是草图和搜索集包含图像,都从一组类看不见的模型。在这里,我们使用草图和图像数据训练SnMpNet,遵循与[4][32]相同的训练协议。基线方法:首先,我们讨论了用于公平比较的基线方法及其修改。特别是,我们开发的变体无法访问域标签12062方法骨干网输出调光mAP@200Prec@200CVAE [32](ECCV,2018)VGG-1610240.2250.333现有SOTA涂鸦搜索[4](CVPR,2019)SAKE-512 [15](ICCV,2019)VGG-16SE-ResNet503005120.46060.4970.37040.598SAKE-512(我们的评估)SE-ResNet505120.62460.5518Doodle-SingleNetVGG-163000.37430.3308涂鸦搜索Doodle-SingleNet-w/o Label*VGG-163000.37260.3233变体Doodle-SE-SingleNetDoodle-SE-SingleNet-w/o Label*SE-ResNet50SE-ResNet503003000.40220.39800.35950.3508SAKE变体SAKE-512-不带标签 *SE-ResNet505120.54840.4880SAKE-300-不带标签 *SE-ResNet503000.51920.4605SnMpNetSE-ResNet503000.57810.5155表1:Sketchy extended上ZS-SBIR的比较[32]。标记有“*”的方法培训域查询域方法不可见类搜索集可见+不可见-类搜索集mAP@200Prec@200mAP@200Prec@200真实,快速绘制EISNet检索0.26110.20610.22860.1805信息图,绘画草图CuMix检索0.27360.21680.24280.1935剪贴画SnMpNet0.30070.24320.26240.2134真实、草图EISNet检索0.12730.10160.11010.0870信息图,绘画QuickdrawCuMix检索0.13040.10060.11180.0852剪贴画SnMpNet0.17360.12840.15120.1111真实、草图EISNet检索0.35990.29130.32800.2653信息图,Quickdraw绘画CuMix检索0.37100.30010.34000.2751剪贴画SnMpNet0.40310.33320.36350.3019真实、草图EISNet检索0.18780.15120.16580.1323绘画,快速绘制InfographCuMix检索0.19310.15430.17110.1361剪贴画SnMpNet0.20790.17170.18000.1496真实、草图EISNet检索0.35850.27920.32510.2496绘画,快速绘制剪贴画CuMix检索0.37640.29110.34280.2627InfographSnMpNet0.41980.33230.37650.2959平均EISNet检索0.25890.20590.23150.1829CuMix检索0.26890.21260.24170.1905SnMpNet0.30100.24180.26670.2144表2:当搜索集包含(1)仅不可见类图像样本和(2)可见和不可见类样本时,针对两种不同场景的DomainNet上的UCDR评估结果。培训域查询域方法不可见类搜索集可见+不可见-类搜索集mAP@200Prec@200mAP@200Prec@200真实,快速绘制EISNet检索0.24750.19060.21180.1627信息图,绘画QuickdrawCuMix检索0.25460.19670.21770.1699剪贴画SnMpNet0.28880.23140.23660.1918真实、草图EISNet检索0.37190.31360.33550.2822信息图,绘画草图CuMix检索0.36890.30690.33000.2714剪贴画SnMpNet0.42210.34960.37670.3109表3:当搜索集包含(1)仅不可见类图像样本和(2)可见和不可见类样本时,两种不同情况下DomainNet上的Uc⑶ R评估结果这样它们就可以处理看不见的域查询数据。1. Doodle-to-Search [4]训练了两个并行的VGG-16网络,并使用三元组丢失来生成最终的嵌入以供检索。我们开发了该网络的以下变体:– Doodle-SingleNet。 我们用VGG-16的一个分支替换了[4]中的架构,它可以从任何域获取数据作为输入。– Doodle-SingleNet-w/o Label。我们进一步修改Doodle-SingleNet并从训练过程中移除域鉴别器损失函数,从而可以将其应用于任何看不见的域数据。-2. SAKE [15]有一个单一的网络分支,以SE-ResNet50作为主干。它处理草图和图像数据,并使用二进制域标签进行增强,以及从预先训练的教师网络进行知识转移。为了与SnMpNet进行比较,我们开发了以下SAKE变体:12063– SAKE-w/o标签。在这个变体中,我们从训练过程中删除了二进制域指示符。– 与SAKE [15]一样,我们使用不同维度的嵌入对该变体进行实验。除了Doodle-to-search [4]和SAKE [15]之外,我们还比较 了 SnMpNet 和 CVAE[32] 。 我 们 在 表 1 中 总 结 了mAP@200和Prec@200方面的比较我们观察到最好的性能是通过SAKE模型与域指标(我们的评估)1。请注意,由于do- main指示符,此模型不能用于UCDR协议中的不可见查询域。我们还观察到,当移除域特定的两分支架构或域指示符时,最先进的方法Doodle-to-Search [4]和SAKE [15]的性能急剧下降SnMpNet优于这些变体,CVAE和Doodle-to-Search,这证明了它的有效性。5.2. UCDR评价我们现在扩展我们对DomainNet [21]上的完全广义UCDR协议的由于没有现有的基线,这一点,我们开发了两个变体的非常密切相关的作品在文献中。我们从这些变体的简要描述开始。基线方法:我们考虑了为相关应用开发的两种最先进的方法,即1)EIS-Net [28],其是DG的SOTA和2)CuMix [17],其是解决ZSDG的第一项工作。由于这些已经被开发用于分类,因此我们在网络中进行最小的更改,以解决UCDR中的检索任务。1) EISNet检索:我们在[28]中的分类分支中合并了300-d线性层,其输出用作UCDR的域不变特征。2) CuMix 检 索 : 为 了 公 平 比 较 , 我 们 使 用 SE-ResNet 50作为主干,在其顶部具有300-d线性层在[17]中,并结合图像和特征级混合方法,如CuMix中所提出的。我们将在补充文件中讨论这些修改的细节。对于UCDR,我们使用来自5个域的可见类样本进行训练,留下一个域。来自这个看不见的域的看不见的类我们评估两种配置的搜索集,其中包含的图像:(a)只有看不见的类,和(b)看到和看不见的类。显然,(b)比(a)更具挑战性,因为范围更大的混乱。我们将所有5个域(Real除外)上的单个结果报告为查询,以及表2中的平均检索准确度。我们观察到,对于所有的方法,性能显着下降,当看到和看不见的类都存在于搜索集中。然而,SnMpNet的表现远远优于其他基线。1使用[4]6. 分析我们分析了SnMpNet的不同组件的贡献,以及它在其他检索场景中的性能。在DomainNet上进行CDR评估:我们现在提出的评估SnMpNet的U c CDR域网。这里可以看到查询域Sketch或QuickDraw,但是查询样本属于看不见的类。我们在UCDR中对两种搜索集配置进行了实验。从表3中,我们观察到SnMpNet优于其他方法。在DomainNet上进行CDR评估:在这里,为了完整性,我们评估SnMpNet的Ud CDR,其中查询属于可见的类,但来自不可见的域。为了构建查询集,我们从Sketch域的每个可见类中随机选择25%的样本。搜索集包含来自seen类的图像从表4中,我们观察到SnMpNet显著优于两个强基线。该设置可以被认为是检索任务的域泛化问题的修改。在这里,不存在培训班和测试班之间的知识差距检索模型的主要挑战是解决域的差距,因为看不见的查询域。方法mAP@200Prec@200EISNet检索0.22100.1094CuMix检索0.27030.1224SnMpNet0.35290.1657表4:在DomainNet上对未看见的草图查询域的UdCDR评估。搜索集只包含看到的类真实图像。这些模型在5个域Real,QuickDraw,Infograph,Painting和Clip-art上进行训练。消融术研究:现在,我们分析SnMpNet的不同组件对ZS-SBIR的Sketchy-extended的有效性。我们首先考虑我们的网络的最简单形式(Base N/W),其是SE-ResNet 50,其用交叉熵损失进行训练,该交叉熵损失被评估为模型输出与所见类的语义信息的余弦相似性[22](等式(7))。基本N/W的性能以及每个损耗分量附加到基本模块的性能总结在表5中。我们观察到,每个组件都对整体性能有积极贡献。建议的网络变体mAP@200Prec@200底座N/W碱N/W+LSn(κ= 0)碱N/W+LSn(κ= 2)碱N/W +L混合物CE基础N/W +L混合物+LMpCESnMpNet0.52180.55930.56130.52520.56650.57810.44970.50020.50300.45300.49890.5155表5:在Sketchy 扩展数据集上针对ZS-SBIR提出的SnMpNet框架的消融研究[32]。12064图2:DomainNet上UCDR和Uc CDR协议的前8个检索图像,QuickDraw是未见过的查询域。两个搜索集配置考虑相同的查询绿色和红色边界分别表示正确和(best颜色显示)图3:使用所提出的SnMpNet在特征空间中针对几个随机选择的可见类(货车、笔记本电脑、牛、手、蝙蝠、鲨鱼)和不可见类(救护车、肘部、鹦鹉、海豚)的t-SNE [3]图。在这里,模型看不到Sketch,而可以看到Real。(best颜色显示)6.1. 定性结果图2示出了针对UCDR和Uc CDR的几个查询的前8个检索图像,其中QuickDraw作为不可见域。正如预期的那样,当搜索集中存在可见和不可见的类时,结果会降低我们还观察到,一些不正确的检索是因为形状相似。类别之间的差异,如直升机和风车,而其他一些是由于同一图像中不同类别的共同出现(毛衣和滑板的肘部)。图3中示出了从可见(图像)和不可见(草图)域中随机选择的一些类的特征空间的t-SNE [3]图。我们观察到,看不见的类-即,救护车,海豚,parrot,肘部从看不见的域草图被放置在附近的相关的可见类-面包车,鲨鱼,蝙蝠,和手分别从看不见的域,图像,进一步证明所提出的框架的有效性7. 结论在这项工作中,我们提出了一个新的框架,SnMp-Net通用跨域检索任务。据我们所知,这是第一个工作,可以处理查询数据从看不见的类和看不见的域检索。除了定义实验协议,我们还提出了一个新的框架,SnMpNet,它引入了两个新的损失,语义邻域损失和混合预测损失的UCDR任务。在两个大规模数据集上进行的大量实验和比较证实了所提出的SnMpNet的有效性。致谢这项工作的部分支持来自SERB,科学和技术部,政府的研究资助印度。12065引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特标签嵌入基于属性的分类,2013年。CVPR。[2] F. M. Carlucci,A. DeInnocente,S.布奇湾卡普托,还有T. 托马西通过解决拼图puz- zles的域泛化CVPR。[3] L. Van der Maaten 和 G. 辛 顿 使 用 t-sne 可 视 化 数 据 。JMLR,9:2579[4] S. Dey ,P. Riba,A. Dutta和J. 利亚 多斯Doodle-to-search:基于草图的实用零拍摄图像检索,2019。CVPR。[5] A. Dutta和Z.赤田基于零拍摄草图的图像检索的语义绑定配对循环一致性,2019年。CVPR。[6] T. Dutta,A. Singh和S.比斯瓦斯用于处理零炮SBIR中的数据不平衡的自适应裕度分集正则化器ECCV。[7] T.杜塔A. Singh和S.比斯瓦斯Styleguide:使用样式引导图像生成的基于零拍摄草图的图像检索。IEEE T-MM,2020。[8] M. Ghifary,W. B. Kleinj,M. Zhang和D. Balduzzi Do-main generalization for object recognition with multi-taskauto-encoders,2015. ICCV.[9] D. Li,Y. Yang,Y. Z. Song和T. M.医院学习归纳:领域泛化的元学习,2018。AAAI。[10] D.李健张玉.杨角,澳-地Liu,Y. Z. Song和T. M.医院领域泛化的情景训练,2019年。ICCV.[11] H. Li,S. J. Pan,S. Wang和A. C.科特通过对抗性特征学习进行领域泛化,2018年。CVPR。[12] S. Li,D.陈湾,澳-地Liu,N. Yu和R.赵基于记忆的邻域嵌入视觉识别,2019。ICCV.[13] Y. Li,Y.杨,W. Zhou和T.医院用于异构域泛化的神经网络,2019年。ICML。[14] L. Liu,F.沈,Y. Shen,X. Liu和L.邵深度草图散列:基于快速手绘草图的图像检索,2017年。CVPR。[15] Q.柳湖,加-地Xie,H. Wang和A.尤尔。语义感知知识保存,用于基于零拍摄草图的图像检索,2019年。ICCV.[16] P. Lu,G. Huang,Y.黄氏Y. Fu,G. Guo和H.是林书学习基于草图的图像检索的大欧几里得边缘,2018。https://arxiv.org/abs/1812.04275v1的网站。[17] M. Mancini,Z.Akata、E.Ricci和B.卡普托Towards rec-ognizingunseencategoriesinunseendomains ,2020.ECCV。[18] 联 合 Maniyar , J. KJ , A. A. 德 什 穆 克 湾 Dogan 和 V.Balasubramanian 2020年,零炮域泛化。BMVC。[19] T. Mikolov,K. Chen,G. Corrado,J。Dean.向量空间中 单 词 表 示 的 有 效 估 计 , 2013 年 。https://arxiv.org/abs/1301.3781v3的网站。[20] K. Muandet , D. Balduzzi 和 B. Scholkopf Domaingeneralizationviainvariantfeaturerepresentation ,2013.ICML。[21] X.彭角,澳-地Bai,X.夏,Z. Huang,K. Saenko和B.王.多源域自适应的矩匹配,2019年。ICCV.[22] 彭宁顿河Socher和C。D.曼宁Glove:Global Vectors forWord Representation,2014.EMNLP。[23] B. Romera-Paredes和P. H. S.乇一个令人尴尬的简单方法零射击学习,2015年。ICML。[24] P. Sangkloy,N.伯内尔角Ham和J. Hays。sketchy数据库:学着找回画得很糟糕的兔子ACM TOG,35(4):1[25] E. Schonfeld,S. Embrahimi,S. Sinha,T. Darrell和Z.赤田通过对齐的变分自动编码器进行广义零次和少次学习,2019年。CVPR。[26] Y. 申 湖 , 澳 - 地 Liu , F. Shen 和 L. 邵 Zero-shot sketch-image hashing,2018。CVPR。[27] W. Thong、P.Mettes和C. G. M.斯诺克打开跨域视觉搜索。CVIU,200,2020。[28] S.王湖,加-地Yu,C. Li,C. W. Fu和P.A.衡从外在和内在监督中学习领域一般化,2020年。ECCV。[29] Y. Xian,C. H.兰伯特湾Schiele和Z. 赤田零拍学习:对好的、坏的和丑陋的全面评价。IEEE T-PAMI,41(9):2251[30] G. S. 谢 湖 ,加 - 地 Liu ,F.Zhu , F.Zhao ,Z.Zhang ,Y.Yao,J.Qin和L.邵用于零射击学习的区域图嵌入网络ECCV。[31] X. Xu,M.Yang,Y.Yang和H.王. 渐进域独立特征分解网络用于基于零拍摄草图的图像检索,2020。IJCAI[32] S. K. Yelamarthy,S. K. Reddy,A. Mishra和A.米塔尔基于草图的图像检索的零拍摄框架,2018年。ECCV。[33] H. Zhang,M. Cisse,Y. N. Dauphin和D.洛佩兹-帕斯Mixup : Beyond Empirical Risk Minimization , 2018 。ICLR。[34] R. Zhang,F
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功