没有合适的资源?快使用搜索试试~ 我知道了~
一种基于草图的零镜头图像检索框架。Sasi Kiran Yelamarthi*、Shiva Krishna Reddy*、Ashish Mishra和AnuragMittal印度理工学院马德拉斯,印度{sasikiran1996,shivakrishnam912}@ gmail.com,{mishra,amittal}@cse.iitm.ac.in抽象。基于草图的图像检索(SBIR)是从自然图像数据库中检索对应于给定手绘草图的图像理想情况下,SBIR模型应该学会在草图中关联组件(比如脚、尾巴等) 其中图像中的相应分量具有相似的形状特征。然而,当前的评估方法仅简单地集中在粗粒度评估上,其中,集中在检索属于与草图相同的类但不一定具有与草图中相同的形状特征的图像上。 结果,现有方法简单地学习将草图与在训练期间看到的类相关联,并且因此不能泛化到看不见的类。在本文中,我们提出了一个新的基准为零杆SBIR模型进行评估,在训练过程中看不到的新类 我们通过大量的实验表明,现有的SBIR模型,训练在一个有区别的设置只学习类特定的映射,并未能推广到建议的零杆设置。 为了规避这一点,我们提出了一种生成方法的SBIR任务,提出了深条件生成模型,以草图作为输入,并填补缺失的信息随机。对来自“Sketchy”数据集(这是一个大规模的草图-照片对数据库)的这种新的生成模型的性能进行的实验表明,在粗粒度SBIR任务的所提出的零拍摄框架中,这些生成模型的性能明显优于几种最先进的方法。关键词:图像检索,零样本学习1介绍互联网用户数量的增加,加上存储容量的增加特别地,图像内容已经变得无处不在,并且在吸引社交媒体上的用户以及各种电子商务网站上的客户随着图像内容的增长具体地,现在用户通常通过提供图像的文本描述或通过提供图像的文本描述来搜索图像(而不是文档)。* :等额缴款2Sasi Kiran Yelamarthi等人另一个图像与所需图像相似。前者被称为基于文本的图像检索,后者被称为基于内容的图像检索[18]。基于内容的图像检索的动机可以很容易地理解,从在线时尚的例子。这里,通常难以提供期望产品的文本描述,但更容易以匹配图像的形式提供视觉描述视觉描述/查询不一定是图像,如果没有图像可用,则也可以是期望产品的草图。用户可以简单地在基于触摸的设备上即时绘制草图。表达视觉查询的这种便利性已经导致了基于草图的图像检索(SBIR)作为检索的活动领域的出现[3- 5、9、13、15、17、24、25、26、27、28、30、31、36、38、47、51、54]。这里的主要挑战是图像和草图之间的域间隙第二个挑战是草图中存在的大的类内差异,这是由于人类倾向于绘制具有不同抽象级别的草图理想情况下,为了更好地推广,图1.一、基于草图的图像检索实例SBIR的模型必须学会发现草图的组件和相应图像之间的对齐例如,在图1中,我们希望模型将草图中的奶牛头与图像中的奶牛头相关联。然而,当前的评估方法[7,26,40]仅关注基于类别的检索,而不是基于形状或属性的检索。具体地,在评估期间,如果模型简单地获取与草图属于同一类的图像,则给予模型信用图像中的对象不需要具有与草图中相同的轮廓等。例如,对于图1所示的查询(草图),不能保证模型获取的奶牛图像具有相同数量的可见脚或可见尾巴,即使它具有高评估分数。因此,模型可以通过简单地学习从草图到类标签的类特定映射并检索所有图像来实现良好的一个ZS-SBIR框架3来自与查询草图的类相同的类。当在测试时看到的未看到的草图与在训练期间看到的属于同一组类时,情况尤其如此。此外,现有的方法在一组随机选择的草图上评估它们的模型,这些草图在训练期间被扣留。然而,与保留的草图相对应的图像仍然可以出现在训练集中,这将使任务变得更容易。一种阻止这种类特定学习的方法是采用细粒度评估[30,51]。对于给定的草图,通过将数据库中的图像的估计排名与人类注释的排名列表进行比较来评估检索结果。然而,为大型数据集创建这样的注释,例如“Sketch”[40],这是一个非常简单的方法。此外,这些价值观也会受到人为偏见的影响。在这项工作中,我们提出了粗粒度的评价在零杆设置作为替代品细粒度的评价,以规避这两个缺点。我们的想法是测试检索的草图看不见的类,以阻止类特定的学习在训练过程中。评估是自动的,即除了没有偏差之外,它不需要每次检索的人工劳动。模型必须学会将草图和图像中的潜在对齐相关联,以便表现良好。从实践的角度来看,这也是重要的,其中,在某些领域中,所有可能的类在训练时可能都不可用。例如,时尚行业每天都有新的产品类别出现。因此,本文介绍的零镜头草图为基础的图像检索(ZS-SBIR)任务提供了一个更现实的设置草图为基础的检索任务。为此,我们提出了一个新的基准的ZS-SBIR任务,通过创建一个精心分割的草图数据库。我们首先评估了几个现有的SBIR模型在这项任务上,并观察到这些模型的性能显着下降,在零杆设置,从而指向类特定的学习发生在这些模型。我们假设,其中一个原因可能是,现有的方法基本上是制定在歧视性的设置,鼓励类特定的学习。为了规避这些现有模型中的问题,我们从生成模型的角度来处理这个问题具体地,ZS-SBIR可以被认为是生成草图中不存在的附加信息以便检索相似图像的任务。我们提出了基于对抗自动编码器和变分自动编码器的深度条件生成模型我们的实验表明,所提出的生成方法比所有现有的国家的最先进的SBIR模型在零拍设置更好。本文组织如下:在第2节中,我们简要概述了SBIR和ZSL中的最新技术随后,在第3节中,我们介绍了所提出的零触发框架,并描述了所提出的数据集分割。第4节显示了现有的国家的最先进的SBIR模型在此建议的设置的评价第5节介绍了我们提出的ZS-SBIR的生成式建模和三个流行的ZSL模型适应这种设置。最后,在第6节中,我们在Sketchy数据集上提出了这些模型的经验评估。4Sasi Kiran Yelamarthi等人2相关工作由于我们提出了一个零杆框架的SBIR任务,我们简要回顾了基于草图的图像检索以及零杆学习在本节的文献SBIR中的传统流水线涉及将图像和草图投影到公共特征空间中。这些特征或从中提取的二进制代码用于检索任务。手工制作的基于特征的模型包括Hu和Collomose [14]提出的梯度场HOG描述符、Saavendra [37]提出的边缘方向直方图(HELO)、Saavendraet.al [39]提出的学习关键形状(LKS),这些模型在视觉词袋(BoVW)框架中用作SBIR的特征提取器。Yuet.al [52]是第一个使用卷积神经网络(CNN)进行草图分类任务的人。 Qiet.al [7]介绍了将siamese架构用于粗粒度SBIR。Sangkloyet.al[40]使用三元组排名损失来训练粗粒度SBIR的特征。Yuet.al [51]使用三元组网络进行实例级SBIR评估鞋和椅子数据集的性能。它们使用伪细粒度评估,其中它们仅查看检索图像中草图的正确图像的位置。Liuet.al[26]提出了一种半异构的深度架构,用于从草图和图像中提取二进制代码,这些代码可以以端到端的方式进行训练,用于粗粒度SBIR任务。现在我们回顾一下零炮的文献。图像分类中的零次学习[22,23,28]是指学习识别新类别的图像,尽管训练集中不存在来自这些类别的示例。由于收集每个类的示例以训练监督模型的困难,零次学习最近受到了研究界的极大兴趣[1,10,21,23,35,43,46,48,49]。我们建议读者参阅[50],以了解关于这个问题的全面调查。最近,零拍摄学习已经在许多其他计算机视觉任务中获得了越来越多的关注,例如IM。年龄标记[25,53],视觉问题回答[29,33,45]等。据我们所知,零杆框架以前没有在SBIR任务中探索过。3SBIR的零激发设置我们现在提供SBIR中零发射设置的正式定义让S ={(x sketch,x img,y i)|yi ∈Y}是素描、图像和类的三元组我我其中Y是S中所有类标签的集合。 我们划分了类la-将数据分别输入Y序列和Y测试数据相应地,让S tr={(x sketch,x img)|y i∈Y train}和Ste={(x sketch,x img)|y i∈Y test}是我我我将S划分为训练集和测试集。这样,我们就对配对数据进行了分区训练集和测试集,使得来自测试类的草图都不出现在训练集中。由于模型无法访问类标签,因此模型需要学习草图和相应图像之间的潜在对齐,以便在测试数据上表现良好。一个ZS-SBIR框架5设D是所有图像的数据库,gI是从图像到类标签。 我们将D分成D tr={x img∈ D|g I(x img)∈ Y train}和D te=我我{x img∈ D|g I(x img)∈ Y test}。这类似于其他零射击文献[23]中我我图像分类该框架中的检索模型只能进行训练在Str.数据库Dtr可以用于验证检索结果,以便调整超参数。给定一个从Ste的草图中提取的x草图,SBIR中的零拍摄设置的目标是从Dte中检索与查询草图属于同一类的图像。此评估设置确保模型不仅可以学习从草图到类标签的映射,还可以使用标签信息检索所有图像。该模型现在必须学习草图和图像之间的显着的共同特征,并使用它来检索来自未见过的类的查询的图像。3.1基准由于我们引入了基于零拍摄草图的检索任务,因此没有现有的基准来评估此设置。因此,我们首先提出了一个新的基准,用于通过对“Sketchy”数据进行分析来进行评估[ 40 ]。Sketchy是一个由75,471个手绘草图和12,500个图像组成的数据集,属于Sangkloyet.al收集的125个类别。每幅图像大约有6幅手绘草图。原始Sketchy数据集使用与数据库相同的12,500张图像。Liuet.al [26]用Imagenet的60,502张图像扩充数据库,创建一个总共有73,002张图像的检索数据库我们在这项工作中使用了Liuet.al [26]提供的增强数据集接下来,我们将125个类划分为104个训练类和21个测试类。这种特殊的划分不是任意的。我们确保21个测试类不存在于Imagenet的1000个类中[8]。这样做是为了确保研究人员仍然可以在Imagenet的1000个类上预训练他们的模型,而不会违反零射击假设。这种分裂是由西安et.al[50]最近提出的零拍摄图像分类任务中使用的标准数据集的基准激发的。拟定数据集分割的详细信息总结见表1。表1.用于ZS-SBIR任务的Sketchy数据库的建议数据集分割的统计数据集统计数据#培训课程104测试类21火车图像10400列车草图62787Avg.每张图像的6.03848测试草图12694用于培训的62549用于测试的104536Sasi Kiran Yelamarthi等人θ4现有SBIR方法接下来,我们评估是否现有的方法,以草图为基础的图像检索任务推广以及建议零杆设置。为此,我们评估了三个国家的最先进的SBIR方法在上面提出的基准如下所4.1暹罗网络Hadsell提出的暹罗网络将草图和图像映射到一个公共空间中,其中保留了语义距离。et.al设(S,I,Y=1)和(S,I,Y=0)分别是属于相同和不同类别的图像和草图对,Dθ(S,I)是图像和草图特征之间的l2距离,其中θ是映射函数的参数。用于训练的损失函数L(θ)由下式给出L(θ)=(Y)1(D)2+(1−Y)1{max(0,m−D)}2(1)2θ2θ其中m是裕度。Chopraet.al [7]和Qi等人 [32]使用上述损失函数的修改版本来训练暹罗网络,分别用于面部验证和SBIR的任务,如下所示:L(θ)=(Y)αD2+(1−Y)βeγDθ(2)其中α = 2,β = 2 Q,γ = −2。77并且常数Q被设置为上界。Q Q根据数据估计Dθ我们将在建议中探索这两种配方零发射设置。我们称前者为Siamese-1,后者为Siamese-2。4.2三重网络三重损失[40,41]在最大边缘框架中定义,其中,目标是最小化属于同一类的草图和正图像之间的距离对于给定的三元组t(s,p+,p-)的三元组训练损失由下式给出:Lθ(t)=max(0,m+Dθ(s,p+)−Dθ(s,p−))(3)其中m是裕度,Dθ是使用的距离度量。为了在训练期间对负图像进行采样,我们遵循两种策略:(i)我们仅考虑来自不同类别的图像,以及(ii)我们考虑不直接对应于草图的所有图像我们探讨这两种训练方法在建议的零杆设置SBIR。一个ZS-SBIR框架7表2. 通过检索200个图像来估计精度和mAP。- 表明作者没有给出该指标的结果。1:使用128位哈希码方法精密度@200mAP@200传统Zero-Shot 传统Zero-Shot基 线 暹罗 -1 暹罗-2粗晶三重态1DSH--0.6900.761-0.8660.1060.2430.2510.1690.1550.153--0.5180.573-0.7830.0540.1340.1490.0830.0810.0594.3深度草图哈希(DSH)Liuet.al [26]提出了一个用于学习草图和图像的二进制代码的端到端框架,这是SBIR中的当前最先进技术目标函数由以下三项组成:(i)交叉视图成对损失,它试图使同类图像和草图的二进制代码接近(ii)语义因子分解损失,其试图保持二进制代码中的类之间的语义关系,以及(iii)量化损失。4.4实验我们现在呈现上述模型在我们提出的“Sketchy”数据[40]的部分上的结果,以在拍摄设置中进行评估在评估每个模型时,对于给定的测试草图,我们检索顶部K=来自数据库的200个图像,其在学习的特征空间中最接近草图。我们使用余弦相似性的倒数作为距离度量。我们在下面给出了评估方法的实验细节。基线:我们采用在ImageNet-1 K [8]上训练图像分类任务的VGG-16网络[42]给定草图-图像对的分数由它们的VGG特征之间的余弦相似性给出。培训:我们重新实现上述模型,以评估它们的ZS-SBIR任务。对于健全性检查,我们首先成功地再现了[26]中报告的传统SBIR任务的结果我们严格遵循[7,26,40]中我们观察到验证性能饱和后20个历元的情况下,暹罗网络和80个历元后的三重网络。我们还使用数据增强来训练三重网络,因为可用的训练数据不足以进行适当的训练。我们通过网格搜索来探索超参数在DSH的情况下,我们使用Liuet.al [26]提出的CNN进行特征提取。我们对网络进行了500个epoch的训练,每10个epoch后在训练数据库上进行验证我们探索了超参数,发现λ=0的情况。01和γ= 10−5给出了与原始SBIR训练类似的最佳结果。8Sasi Kiran Yelamarthi等人这些模型在ZS-SBIR任务上的性能如表所示2. 出于比较的目的,我们还介绍了传统SBIR设置[26]中的性能,其中模型在所有类别的草图图像对上进行训练。我们观察到,这些模型的性能下降显着,表明现有的SBIR方法的非概括性。在零激发设置中超过50%的这种性能下降可能是由于以下事实:在区别性设置中训练的这些模型可以学习将草图和图像与类别标签相关联。在比较的方法中,我们注意到Siamese网络在零激发设置中是现有SBIR方法中最好的。我们还观察到,三重损失给出了较差的性能相比,暹罗网络。这可以归因于在训练期间仅存在约60,000个图像,这不足以正确训练三重网络,如Schroffet.al所观察到的[41]。我们还观察到,与细粒度三元组相比,粗粒度三元组训练的性能更好这可能是因为细粒度训练将除了直接对应于草图的图像之外的所有图像都视为负样本,使得训练更难。我们的下一个观察结果是,DSH,这是SBIR中的最先进的模型,在ZS-SBIR任务中与Siamese或Triplet网络相比表现不佳这可能是由于以下事实:DSH中的语义因子分解损失仅考虑训练类嵌入并且不减少测试类的语义间隙。因此,人们可以声称,在现有模型中存在基于类的学习固有的问题5ZS-SBIR的生成模型注意到现有方法不能很好地推广到ZS-SBIR任务,我们现在提出使用生成模型用于ZS-SBIR任务。这种方法的动机是,虽然草图给出了图像的基本轮廓这与最近在计算机视觉中类似的图像翻译任务[6,16,34]的工作是一致的。令G θ对以草图特征(x sketch)为条件并由θ参数化的图像特征(ximg)的概率分布进行建模,即P(x img|x草图; θ)。使用来自训练类的草图-图像对的配对数据来训练Gθ由于我们不向模型提供类标签信息,因此希望模型学习将草图的特征(例如,一般轮廓、局部形状等)与图像的特征相我们在这里要强调的是,Gθ被训练来生成图像特征,而不是使用草图生成图像本身。我们考虑两种流行的生成模型:变分自动编码器[20,44]和对抗自动编码器[27],如下所述一个ZS-SBIR框架9φ2图二. CVAE和CAAE的体系结构分别5.1变分自动编码器变分自动编码器(VAE)[20]将隐藏潜在变量p(z)上的先验分布映射到数据分布p(x)。难治性后p(z|x)由变分分布q(z)近似|x),其在本工作中被假设为高斯。变分分布的参数经由编码器从X估计,编码器是由φ参数化的神经网络。条件分布p(x|z)由以θ为参数的解码器网络建模。根据[20]中的符号,p(x)的变分下界可以写为:p(x)≥ L(φ,θ;x)=−D KL(q φ(z|x)||p θ(z))+E q(z|x)[log p θ(x|z)](四)类似地,可以对条件概率p(x|如[44]所述。 在这项工作中,我们的概率分布模型的图像条件的草图,即P(x img|x草图)。现在,边界变为:L(φ,θ;ximg,xsketch)=−D KL(q φ(z|x img,x sketch)||p θ(z|x草图))+(5)E [log p θ(x img|z,x草图)]此外,为了鼓励模型保留草图的潜在对齐,我们将重建正则化添加到目标中换句话说,我们通过具有参数ψ的单层神经网络fNN从生成的图像特征中强制重建草图特征。所有参数θ、θφ都是端到端训练的。正则化损失可以表示为L_rec〇ns=λ。 ||fNN(x^img)−xsketch||2(六)这里,λ是待调谐的超参数。所使用的条件变分自动编码器的架构如图2所示。我们称之为CVAE。10Sasi Kiran Yelamarthi等人GenGenDB我k=1我5.2对抗性自动编码器对抗性自动编码器[27]类似于变分自动编码器,其中KL散度项被对抗性训练过程取代。设E、D分别是自动编码器的编码器和解码器。E将输入x img映射到隐藏潜在向量分布P(z)的参数|x img),而D将采样的z映射到x img(两者都以草图矢量x草图为条件)。我们有一个额外的网络D:鉴别器。网络E_D尝试最小化以下损失:E z[log p θ(x img|z,x sketch)]+ E ximg [log(1-D(E(x img)](7)鉴别器D试图最大化以下类似于原始GAN公式[11]:Ez[log [D(z)]]+Eximg[log [1- D(E(ximg))]](8)我们将上一节中描述的可重构性正则化添加到编码器的损失中。所使用的对抗性自动编码器的架构如图2所示。我们从这里开始叫它CAAE。5.3检索方法在来自所见类的草图-图像特征对上训练Gθ。在测试期间,网络的解码器部分用于生成多幅图像特征向量xI通过对潜在向量进行采样,以测试草图为条件根据先验分布p(z)=N(0,I)。对于对应于测试类的测试草图xS,我们生成由N(超参数)组成的集合IxS,使得样品xI.然后,我们对这些生成的样本IxS进行聚类使用k-均值聚类,得到K个聚类中心C1,C2,. . . ,C k为每个测试草图。我们检索200个图像xI根据以下距离从图像数据库公制:D(xdb,IxK)=最小K余弦θ(xdb),CkΣ(9)其中θ是VGG-16 [42]函数。我们凭经验观察到K=5给出了用于检索的最佳结果。考虑了聚类中通常使用的其他距离度量,但这给出了最佳结果。5.4实验我们进行了评估的生成模型上提出的零拍设置和SBIR与现有的方法的结果进行比较。我们使用相同的指标,即精度和mAP进行评估。我们使用在Imagenet-1 K数据集上预训练的VGG- 16[42]模型来获得图像的4096维特征为了提取草图特征,我们调整网络,只使用训练草图进行草图分类任务我们观察到,这种训练仅在性能上有轻微的改善,因此是可选的。S一个ZS-SBIR框架11我→我 F我FFFSF我SS基线与SBIR任务的最新模型一起,我们考虑了来自零拍摄图像分类文献的三种流行算法[50],这些算法没有明确使用类别标签信息,并且可以很容易地应用于零拍摄SBIR任务。令(XI,XS)∈(RN×dl,RN×dS)分别表示训练数据中的图像和草图特征对。 我们学习一个映射f从草图特征到图像特征,即f:RdRd,其中dI,dS为图像和草图矢量的尺寸。我们在下面描述这些模型直接回归:ZS-SBIR任务被制定为一个简单的回归问题,其中图像特征向量的每个特征都是从草图特征中学习的。这类似于直接属性预测[23],其是广泛使用的零激发图像分类的基线。令人尴尬的简单零射击学习:ESZSL由Romera-Paredes &Torr [35]引入,作为在零炮分类背景下学习图像和属性向量之间的双线性相容性矩阵的方法。在这项工作中,我们通过使用来自训练类的并行训练数据将草图特征映射到图像特征来 目标是估计W ∈ R dS ×dI,使以下损失最小化:||X W−X||2+γ.. X W T.. 2+ λ ||XW||2+ β ||W||2(十)其中γ、λ、β是超参数。语义自动编码器:语义自动编码器(SAE)[21]提出了一个自动编码器框架,以鼓励从生成的图像向量重建草图向量。损失项由下式给出:||X -XW||2+ λ.. X W T−X..(十一)在这里我们要注意的是,SAE虽然简单,但据我们所知,它是目前已发布的零拍摄图像分类任务模型中最先进的。训练我们使用Adam优化器[19],学习率α = 2 × 10 −4,β1= 0。5,β2=0。999,批量大小分别为64和128,用于训练CVAE和CAAE。我们观察到CVAE模型的验证性能在25个历元处饱和,CAAE模型的验证性能在6000次迭代处饱和在训练CAAE时,我们针对编码器和解码器的每个训练迭代训练鉴别器32次迭代。我们发现,N= 200,即为给定的输入草图生成200个图像特征,可以提供最佳性能,然后饱和。可重构性参数λ经由交叉验证来设置。SAE具有单个超参数,并且使用Bartels-Stewart算法求解[2]。ESWL有三个超参数γ,λβ。我们按照作者的方法设置β=γλ我们通过网格搜索将这些超参数从10−6调整到107。2SS我F12Sasi Kiran Yelamarthi等人表3. 在ZS-SBIR中检索的200幅图像上评估了建议分割类型评价方法精密度@200 mAP@200基线0.1060.054暹罗-10.2430.134SBIR方法暹罗-2粗晶三重态0.2510.1690.1490.083细粒三重态0.1550.081DSH0.1530.059直接回归0.0660.022ZSL方法ESPARL0.1870.117SAE0.2380.136我们CAAE0.2600.156CVAE0.3330.225图三. 在建议的零激发设置中使用CVAE检索一些输入草图的前6个图像。请注意,模型在训练期间从未遇到过这些草图类。红色边框指示检索到的图像不符合检索到的类别但是,我们希望保留的正片与草图的轮廓匹配一个ZS-SBIR框架136结果ZS-SBIR的评价方法的结果总结于表1中。3. 如第4.4节所述,现有SBIR模型在ZS-SBIR任务中表现不佳。所提出的生成模型都优于现有的模型,表明在生成方法中更好的潜在对齐学习。定性分析:我们使用ZS-SBIR中的CVAE模型在图3中显示了一些检索到的图像,用于未见过的类的草图输入。我们观察到,检索到的图像密切匹配的草图的轮廓我们还观察到,我们的模型在误报的情况下会出现视觉上合理的错误,其中检索到的图像与草图具有显著的相似性,即使它们属于不同的类。例如,在最后一个示例中,属于类rhinoceros的假阳性具有与草图相似的轮廓。这些可能被认为不是错误,而是作为一个积极的检索,但只能定性评价一个艰巨的手动任务,并可能归因于数据偏差。人体评价:我们的目标是看看如何以及建议零杆评估可以替代细粒度的人的评价。我们随机选择50个测试草图跨越所有看不见的类,然后检索前10名的图像,每个草图从数据库中使用训练的CVAE模型。我们为这些草图中的每一个计算精度@10,以获得50个这样的精度值(此后称为零次得分)。接下来,我们将这些草图图像对呈现给十个人类评估者。他们被要求根据轮廓、纹理和整体形状的关联来评估每一对,给每一对一个主观分数,在0(没有任何关联)到5(完美关联)之间。我们计算每个草图的10个检索到的图像的平均评级,并将其按0-1的比例缩小。我们计算了草图中两个分数之间的Pearson相关系数(PCC),观察到该系数为0.65,表明两个评估分数之间存在强正相关性。50幅草图的平均人类得分为0.547,而零杆得分为0.454。我们使用其中一个基线模型粗粒度三重网络重复上述实验。我们观察到0.69的PCC。人类的平均得分是0.37,而零射击的平均得分是0.238。在研究的两个模型中,我们观察到的分数都很高或都很低,从而进一步加强了ZS-SBIR工作良好的方法在细粒度评估上工作良好的说法。功能可视化:为了理解模型生成的各种特征,我们通过t-sne方法可视化图4中测试草图的生成图像特征。我们做了两个观察,(i)生成的特征在很大程度上接近真实的测试图像特征(ii)我们的模型捕获了分布的多种形式。性能比较:SBIR的零激发设置中的当前最先进模型之间的比较已在第4.4节中完成。从草图到图像特征空间的直接回归给出了0.066的精度值。这是评估其他明确规定的常规-14Sasi Kiran Yelamarthi等人见图4。生成的图像特征的T-SNE可视化。测试数据特征呈现在左侧,预测图像特征呈现在右侧。每种颜色代表一个特定的类ESZSL和SAE中。我们的第一个观察结果是,简单的零拍摄学习模型适用于ZS-SBIR任务的表现优于两个国家的最先进的草图为基础的图像检索模型,即三重网络和DSH。SAE,这是目前的国家的最先进的零拍摄图像分类,实现了最好的性能在所有考虑的现有方法。SAE将草图映射到图像,从而为给定草图生成单个图像。这与我们提出的模型类似,除了我们的模型生成一个数字通过填充潜在分布中缺失的细节来获得单个草图的样本。此外,我们的模型是非线性的,而SAE是一个简单的线性投影。我们相信,这些概括超过SAE在我们的模型导致卓越的性能在提出的两个模型中,我们观察到CVAE模型的性能显着优于CAAE模型。这可能是由于训练对抗模型时的不稳定性问题我们观察到,与CAAE模型相比,CVAE模型的训练误差要平滑得多。我们观察到,使用重建损失导致精度提高3%7结论我们确定了主要的缺点,在目前的评估计划,基于草图的图像检索(SBIR)任务。为此,我们提出的问题,草图为基础的再trieval的零杆评价框架(ZS-SBIR)。 通过在“Sketchy”数据库中进行仔细划分,我们为该数据库提供了一个新的数据库。我们在这个框架中评估了当前最先进的SBIR模型,并表明这些模型的性能显着下降,从而暴露了这些模型所固有的特定于类的学习。然后,我们提出的SBIR问题作为一个生成任务,并提出了两个条件生成模型,实现显着改善现有的方法在ZS-SBIR设置。一个ZS-SBIR框架15引用1. Akata,Z.,Reed,S.E.,Walter,D.李,H.,Schiele,B.:输出实例的评估有助于确定目标类别。 In:CVPR. pp.2927- 2936。IEEEComputerSociety(2015),http://dblp.uni-trier.de/db/conf/cvpr/cvpr2015.html#AkataRWLS1542. Bartels , R.H. , Stewart , G.W. : 矩 阵 方 程 AX+XB=C 的 解 。 Comm.ACM15,8203. 曹,X.,张洪,Liu,S.,郭,X.,Lin,L.:Sym-fish:对称感知的flipinvariantsketchistogramshapeddescriptor 。In : ICCV.pp.313-320IEEEComputerSociety(2013),http://dblp.uni-trier.de/db/conf/iccv/iccv2013.html#CaoZLGL1324. 曹玉,Wang,C.,中国地质大学,张,L.,Zhang,L.:基于草图的大规模图像检索的边索引。 In:CVPR. pp. 761-768 IEEEC〇mputerS〇ciety(2011),http:dblp.uni-trier.de/db/conf/cvpr/cvpr2011.html#CaoWZZ1125. 曹玉,王,H.,Wang,C.,中国地质大学,Li,Z.,张,L.,Zhang,L.:Mindfinder:基于草图的交互式图像搜索。In:Bimbo,A.D.,Chang,S.F.,Smeulders,A. W. M. (eds. ACMMultimedia. pp. 1605 -1608ACM(2010),http://dblp.uni-trier.de/db/conf/mm/mm2010.html#CaoWWLZZ1026. Chidambaram,M.Qi,Y.:风格转移生成对抗网络:学习以不同的方式下棋。CoRRabs/1702.06762(2017),http://dblp.uni-trier.de/db/journals/corr/corr1702.html#ChidambaramQ1787. Chopra,S.,哈德塞尔河LeCun,Y.:学习相似性度量有区别地,与应用到 人 脸 验 证 。 计 算 机 视 觉 与 模 式 识 别 , 2005 年 。 CVPR2005 年 。IComputterS o c ietyConferenceon. vol. 第1页。 539-546 IEEE(2005)2、4、6、78. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:ImageNet:一个大规模层次化图像数据库。载于:CVPR09(2009)5、79. Eitz,M.,Hildebrand,K. Boubekeur,T.,Alexa,M.:基于草图的图像检索:基准和特征袋描述符。IEEE Trans.Vis. 计算机。Graph. 17(11),1624-1636(2011),http://dblp.uni-trier.de/db/journals/tvcg/tvcg17.html#EitzHBA11210. Frome,A.,科罗拉多州科拉多Shlens,J.,Bengio,S.,迪恩J Ranzato,M.,Mikolov,T.:Devise:一个深度视觉语义嵌入模型。In:Burges,C.J.C.,博图湖 GHAHRAMANI,Z., Weinberger,K. Q. (eds. )NIPS。pp. 2121//dblp.uni-trier.de/db/conf/nips/nips2013.html#FromeCSBDRM13411. Goodfellow,I.J. Pouget-Abadie,J. Mirza,M.,徐,B.,沃德-法利,D., Ozair,S.,南卡罗来纳州考维尔Bengio,Y.:生成性对抗网。在:Ghahra-mani, Z. , Welling, M., 科 尔特 斯 角 劳伦 斯 , 北达 科 他 州,Weinberger,K.Q.(编辑)NIPS. pp.2672-2680(2014),http://dblp.uni-trier.de/db/conf/nips/nips2014. html#GoodfellowPMXWOCB141012. 哈德塞尔河Chopra,S.,LeCun,Y.:通过学习一个in-variantmapping进行降 维 。 In : CVPR ( 2 ) 。 pp.1735- 1742 年 。 IEEECommputerSociety(2006),http://dblp.uni-trier.de/db/conf/cvpr/cvpr2006-2.html#HadsellCL06613. 胡河Collomosse,J.P.:梯度场hog描述器在基于草图的图像检索中的性能 评 价 Computer Vision and Image Understanding 117 ( 7 ) , 790-806(2013),http://dblp.uni-trier.de/db/journals/cviu/cviu117.hTmL#HuC13214. 胡河Collomosse,J.P.:梯度场hog描述器在基于草图的图像检索中的性能评价计算机视觉与图像理解16Sasi Kiran Yelamarthi等人117(7),790-806(2013),http://dblp.uni-trier. de/db/journals/cviu/cviu117. html#HuC13415. 胡河王,T.,Collomosse,J.P.:基于草图的图像检索的区域袋方法。In : Macq , B. , Schelkens , P. ( eds. ) ICIP.pp. 3661IEEE ( 2011 ) ,http://dblp.uni-trier.de/db/conf/icip/icip2011.html#HuWC11216. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:图像到图像的翻译与条件对抗性网络02 The Dog(2016)17. 詹姆斯,S.,Fonseca,M.J.,Collomosse,J.P.:重演:基于档案舞蹈镜头的舞蹈设计草图在:Kankanhalli,M.S.,Rueger,S.,Manmatha河Jose , J.M. , van Rijsbergen , K. ( 编 辑 ) ICMR 。 p. 313 号 ACM(2014),http://dblp. uni-trier.de/db/conf/mir/icmr2014.html#JamesFC14218. John Eakins,M.G.:基于内容的图像检索219. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法。CoRR abs/1412.6980(2014),http://dblp.uni-trier.de/db/journals/corr/corr1412。html#KingmaB141120. 金玛,D.P.,Welling,M.:自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114(2013)8,921. Kodirov,E.,Xiang,T.,龚,S.:语义自动编码器零拍摄学习- ING。CoRRabs/1704.08345(2017),http://dblp.uni-trier.de/db/journals/corr/corr1704.html#KodirovXG174,1122. Kumar Verma,V.,阿罗拉G.Mishra,A.Rai,P.:广义零触发学习-通过合成的实施例。在:IEEE计算机视觉和模式识别会议(CVPR)(2018年6月)423. Lampert,C.H., Nickisch,H., Harmeling,S.: 基于属性的分类为零镜头视觉对象分类。IEEE Trans.模式分析马赫内特尔36(3),453-465(2014),http://dblp. uni-trier.org/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功