没有合适的资源?快使用搜索试试~ 我知道了~
R2GAN: 跨模态检索生成对抗网络在食谱检索中的应用
11477R2GAN:使用生成对抗网络的朱斌1,吴宗华1,陈晶晶2,郝彦斌11香港城市大学binzhu4-c@my.cityu.edu.hk,{cscwngo,yanbihao}@cityu.edu.hk2新加坡国立大学chenjingjing@nus.edu.sg摘要表示过程文本,如处方的跨模态检索是一个固有的困难的问题,更不用说从处方生成图像的可视化。本文研究了GAN的一个新版本--配方检索生成对抗网络(R2GAN),以探索从过程文本生成图像来解决检索问题的可行性使用GAN的动机是双重的:以对抗的方式学习兼容的跨模态特征,并通过显示从食谱生成的图像来解释搜索结果R2GAN的新颖性来自于架构设计,具体地说,使用了具有一个生成器和双鉴别器的GANFur,授权所生成的图像,一个两级的排名损失嵌入和图像空间被认为是sidered。这些附加组件不仅导致了出色的检索性能,而且还生成了用于解释食谱排名的接近真实的食物图像。在recipe1M数据集上,R2GAN表现出对数据规模的高度可扩展性,优于现有的所有方法,并生成直观的图像供人类解释搜索结果。1. 介绍食物是健康和社会参与的基础。由于网上有大量的食物图像和食谱,用于医疗保健的食物计算最近引起了许多研究的关注[34,22]。例如,设法检索食物摄入量的配方可以帮助估计营养消耗,从而有利于食物记录[22,5]。过去在食物计算方面的努力包括食物分类[19,20,21],食物属性识别,[3,4,23],零射击食谱检索[3],以食品包装-[36,27]和建议[9,8,39]。本文研究了食物到食谱和食谱到食物的检索,这是跨模态检索的典型问题[38],但仅限于食物计算领域。具体来说,食谱是描述食物材料的准备和烹饪过程 一个典型的食谱包括三个部分:标题、配料和烹饪说明,这些可能与烹饪菜肴的视觉外观一致,也可能不一致。例如,一些成分(例如,糖、盐)在盘中不可见。此外,烹饪指导通常暗示烹饪的因果关系,而不是直观地描绘菜肴的外观。问题的本质与现有的跨模态检索所做的解释相冲突,跨模态检索使用明确涉及视觉内容的文本叙述来训练模型[31,32,18]。对冗长的过程文本(如recipe)进行建模因此可能是跨模态检索的新挑战。在文献中,通过分类[3,4]或跨模态学习[35,2]来解决食物到食谱检索的问题。基于分类的方法注释丰富的食物属性(例如,成分,烹饪和切割方法),然后将这些属性与从食谱中提取的单词进行匹配以进行检索[4]。一个主要的缺点是在食品属性的标签中需要大量的工作,这不仅成本昂贵而且劳动密集。跨模态学习巧妙地满足了这一要求,通过训练潜在空间,可以容纳图像和文本模态的相似性测量。标签工作通过只需要食谱图像对而显着减少,这很容易收集,而不是煞费苦心地注释视觉食物属性[4]。为了对食谱中的文本描述进行建模,在[35,5]中研究了不同复杂度的神经网络,以学习食谱不同部分的嵌入。虽然有效,但与基于分类的方法相比,跨模态学习本质上是一种无法解释的模型,基于分类的方法能够列出匹配的属性作为重新分类的证据11478(a) 自制披萨(b) 泰国烤鸡搜索结果的解释。据我们所知,提出的一个生成器和两个鉴别器的R2GAN虽然D2 GAN [26]最近研究了双鉴别 器 的 设 计 , 但 其 目 的 是 通 过 将 Kullback-Leibler(KL)和逆KL发散组合成优化中的统一目标函数来解决模式崩溃问题,这与本文完全不同(c) Tater Tot砂锅(d)蘑菇萨拉米烧烤图1. R2GAN生成的缩略图示例.从左到右是原始图像,以及分别从图像和食谱嵌入生成的两个缩略图统计检索结果。本文讨论了跨模态学习的食谱检索的局限性具体而言,设计了一种新颖的深度架构来解释跨模态匹配,通过从食谱合成缩略图来辅助搜索结果的浏览。机器生成的缩略图表示系统如何感知烹饪的效果,并在视觉上提供线索来解释食谱的排名图1显示了从菜谱生成的缩略图示例。如所观察到的,这些缩略图(右)不仅类似于从图像嵌入生成的示例(中),而且类似于原始图像(左)。所提出的架构建立在跨模态嵌入[35]和生成对抗网络(GAN)[10]的基础上。请注意,GAN尚未针对此问题进行研究。由于GAN用于食谱检索,我们将所提出的模型命名为R2GAN.由于配方是丰富的过程描述,传统的GAN与一个发电机和一个发电机被证明是无效的。因此,R2GAN被设计为具有两个判别器,一个用于猜测真实图像和虚假是否从图像或配方嵌入生成假图像。利用不同模态产生的图像,设计了一种新的两级秩R2GAN的总体设计是包含一组丰富的函数来量化跨模态嵌入,图像重建,食物语义和对抗损失。有了这些,R2GAN能够学习兼容的嵌入,用于图像到食谱的相似性测量,并执行食谱到图像的生成,以解释相似性的原理本文的主要贡献是对GAN用于跨模态食谱检索。尽管GAN在各种问题领域中广泛使用[30,40,37,41],但令人惊讶的是,GAN仍然没有尝试用于配方检索。使用GAN,本文新颖地利用图像生成来可视化在配方嵌入中保存的内容,per. R2GAN旨在进行跨模态学习,与D2GAN相比,其双鉴别器被设计为功能不同,旨在共同学习兼容的嵌入和可解释的缩略图。2. 相关作品跨模态检索的核心问题是确定两个模态之间的相似性。共同特征子空间的学习是目前研究的主流[38].这些方法的范围从规范化分析(CCA)[31,29](其学习子空间以最大化模态之间的相关性)到最新的stacked交叉注意力模型[17](其发现完整的潜在对齐以捕获跨模态的细粒度关系)。本节重点介绍与食品计算相关的工作。2.1. 食谱和食物检索在[6]中首次研究了用于图像到食谱检索的堆叠注意模型。该模型通过将食谱中的成分表示为二进制向量,关注具有显著成分的图像区域,以学习共同的潜在空间。然而,这项工作只探讨了配料,不能消除具有相同配料列表但不同烹饪程序的食谱的歧义。联合神经元嵌入(JNE)通过提出双向LSTM来嵌入稀疏的成分列表和分层LSTM来编码烹饪过程的冗长和复杂的描述来解决这个问题[35]。此外,正则化与语义损失,特别是加强学习嵌入预测食物类别,被发现是至关重要的特征学习。文献[5]的最新工作改进了JNE,引入了标题编码器和烹饪指令从词级到词级的多级注意力建模。新模型能够为“class-sic”和“homemade”等视觉 无 关 词 分 配 较 低 的 权 重 在 JNE [35] 的 基 础 上 ,AdaMine最近在[2]中提出了一个双三元组学习方案和一个自适应的信息三元组挖掘策略,大大超过了[35,5]的性能该自适应策略有效地解决了梯度降维问题,因此也被R2GAN所采用.基于分类的方法也研究了这一点问题. 在[3]中,成分在食品IM上多标签,11479i=1z年龄来匹配食谱以供检索。由于只有有限数量的353种成分被训练用于识别,因此引入零镜头配方检索的思想来检索具有训练模型未知成分的配方。通过构造一个含有已知和未知成分的大型图来解决这个问题。该图 模 型 的 成 分 之 间 的 共 现 关 系 , 和 条 件 随 机 场(CRF)被用来传播的预测分数从已知的配方检索未知的成分。然而,当在图中仅考虑少量未知成分时,这种方法是有效的。 该方法后来在[4]通过预测烹饪和切割属性,使R2GAN能够封装一组丰富的损失函数,并使用两级排名损失来有效学习兼容特性。3. R2 GAN3.1. 预赛问题表述。图像到食谱检索的目标是在给定食物图像作为查询的情况下搜索以文本方式描述菜肴的制备的相关食谱。类似地但在相反方向上,食谱到图像检索是根据基于给定食谱烹饪的可能性来对食物图像进行表示当与从以下内容中提取的关键字匹配时,P={pi=(ri,vi)}N作为一组N个食谱图像对,食谱与跨模态检索相比,分类-的模型是可解释的,因为属性被明确地评估以量化最终的相似性得分。然而,训练分类模型,以充分覆盖各种各样的食物属性检索实际上是棘手的。2.2.交叉模态GANGAN已被应用于生成食物图像[13],但不是在跨模态学习的背景下。在[13]中,分别以食物类别和成分为条件,CGAN [24]用于合成新颖的菜肴图像。然而,食谱信息,包括烹饪风格和过程,尚未被探索。GAN吸引了大量的研究关注[1,25,41,40,15]。虽然GAN还没有被研究用于食谱检索,但跨模态GAN并不是一个新想法。示例包括ACMR [37],GXN [11]和CM-GANS [28],其共同目标是学习用于跨模态检索的嵌入特征。与大多数GAN不同,ACMR [37]没有生成器来重建图像。相反,特征是从图像或文本标题中生成的,用于识别器猜测模态的来源,这类似于R2GAN的第二个特征。GXN [11]有两对生成器-递归,其中生成器合成不同模态的示例,以便递归在真实和虚假样本之间进行猜测。CM-GANS [28]不同于ACMR和GXN,在学习中考虑一整CM-GANS还具有两对生成器,用于图像到图像和文本到文本的生成。与ACMR类似,交叉模态学习是通过具有辨别能力来实现的其中ri∈R是食谱,vi∈V是它的食物图像。的符号R和V表示配方的集合,图像分别。可以为一对pi分配语义标签 ci∈C,其中C∈Rk表示对应于预定义食物组的k个食物类别的集合,例如华夫饼、意大利肉酱面和鸡肉玉米粉饼食谱。 值得注意的是,每一张图片都属于一个唯一的配方,而每个配方允许包含一个以上的图像。此外,图像的状态被假定为由于配方和图像之间的域间隙,来自两个域的与[35,2]的精神类似,本文旨在学习一个公共的潜在子空间,以实现食谱和食物图像之间的跨模态比较具体地,映射函数f(R,V)→(ER,EV)需要学习。给定n个食谱图像对,函数该算法同时产生配方嵌入ER和图像嵌入EV,其中ER∈Rn×d,EV∈Rn×d,d是学习嵌入的维数.生成对抗性网络的vanilla GAN [10]由生成器G和鉴别器D组成,它们可以以对抗的方式同时训练生成器G被训练以捕获真实数据分布p数据并生成假图像以欺骗鉴别器D。另一方面,训练CNOD来区分真实和虚假图像。具体地说,G和D玩一个极大极小博弈来优化以下目标函数:最小值最大值V(D,G)=Ex最大值数据(x)[logD(x)]+以预测嵌入特征的模态。Hav-G D不考虑两对发电机-整流器Ezp(z)[log(1 −D(G(z)],(一)在R2GAN中,因为从图像生成过程描述实际上是不可能的。采用了一个发生器与两个鉴别器配对的设计与ACMR和CM-GAN不同的是,R2GAN的第二个判别器在生成的图像上进行模态源的预测,而不是嵌入。设计en-其中x是具有数据分布p数据的真实图像,并且z是具有先验分布pz的噪声。3.2. 模型架构图2描述了R2GAN的模型架构.该体系结构由两个模块组成,11480FFF食物图像图像嵌入图像嵌入学习模块配方嵌入1.在锅里高温。2.喷上橄榄油。3.鸡肉每面煮3-4分钟。4.橄榄油; 2块鸡胸肉; 1个洋葱;咖喱酱;香米; 1个番茄咖喱鸡番茄肉饭指令标题成分菜谱嵌入学习模块配方CNN语义损失语义学习模块分类器GAN学习模块二级排名损失对抗性损失D2{recipe,image}G重构损失D1{real,fake}对抗性损失vfR(vq或vp)vfI(vq或vp)vnEpEQEn分层LSTMLSTM图2. R2GAN由两个用于食谱和图像嵌入的模块和两个用于GAN学习和语义分类的模块组成。 GAN学习模块被重新设计为一个生成器(G)和两个鉴别器(D1和D2),用于跨模态特征学习。利用所提出的GAN模块,引入了嵌入空间和图像空间的两级排名损失。图像嵌入,以及用于GAN学习和语义分类的两个模块。架构是以端到端的方式学习的。食谱嵌入学习。 本模块遵循第一个BAND1,类似于传统的GAN,是区分真实和虚假图像,即,v实数和vI。 相比之下,第二个ADD2是不同的-在vR和vI之间进行连接,以确定情态的来源f f工作 [35],它采用双向LSTM,一个分层的LSTM,用于ingredi的表示学习,拥有D2的直觉是推动vR与vI一样相似或相容,从f f和烹饪指导分别。 学习代表-表示被连接并被馈送到全连接层中以用于配方嵌入的学习。图像嵌入学习。与跨模态配方检索中的其他工作类似[35,2,5],采用最先进的ResNet-50模型来提取图像特征。我们删除了ResNet-50的最后一个softmax分类器层,使用Ima-geNet ILSVRC 12数据集[33]中预训练的参数初始化其余层。所得到的特征由完全连接的层进一步映射,以产生与配方嵌入相同维度的图像嵌入。GAN学习。本模块是专门设计来学习兼容和可解释的嵌入图像-原始图像为真实图像。生成器G在将文本食谱嵌入转换为D2难以预测来源的图像方面起着特殊的作用。由GAN学习模块玩的这个最小-最大游戏新颖地提供反馈以使学习的配方嵌入可自我解释,特别是通过让G叙述嵌入的视觉外观以供D2做出判断。注意,该过程自然地模拟了可解释的跨模态检索,通过将用户VR示出为系统如何可视地解释和排名食谱的说明。简而言之,通过拥有两个判别器,R2GAN有效地强制vI从真实的食物图像vreal中然后从vI到vr,直到达到一个状态,f f食谱对。 我们重新设计了香草GAN一个属-tor和两个用于跨模态特征学习的鉴别器如图2所示,生成器G被训练为能够从配方或图像嵌入重建图像来自配方和图像嵌入的重建图像分别表示为vR和vI,其中来自不同模态的构造图像与原始图像共享相似或甚至相同的分布。语义学习R2GAN也需要高级语义的优点(即,食物类别),以帮助学习食谱和图像嵌入。直觉,两者都是f f模态应表现出相同的语义解释下标f表示伪图像或重建图像,上标指示配方或图像源。当投影到相同的公共子空间时。114811VE2R2E23.3. 目标制剂其中Φ(·)是输入图像的特征提取器,代表真正的食物图像,图像vI和vR是两级排名损失。 类似于其他跨模态ff检索方法[17,38],采用三重排序损失然而,与这些工作不同的是,R2GAN考虑了由于嵌入和反射而引起的两级损失。令E表示嵌入,V表示重构图像,并且下标q、p和n分别指代查询、正和负候选我们使用基于大边际的排名损失函数,其可以被形式化为如下:L秩= max{d(Eq,Ep)−d(Eq,En)+α1,0} +分别从图像和配方嵌入重建,活泼地在[7]中的实践之后,将最后一层的前一层的输出用作Φ(·)1。术语Φ(v1)−Φ(v2)2是指特征级损失,术语v1−v22是指图像级损失,两者都使用欧几里得距离。 参数β控制相对特征和图像损失之间的重要性。语义损失的特征是交叉熵损失,如下所示:µmax{d(v,v)−d(v,v(二))+α,0},exp(Ec)q p q n2Lsem=−logΩ、(7)其中d(·,·)是测量给定的查询和候选对之间的相似性的距离函数,例如,(Eq,Ep)作为正嵌入对,并且(vq,vp)作为正嵌入对。对应的图像对。注意,一对的元素属于不同的模态。参数α1和α2是裕度,μ是权衡超参数。两级排序损失增强了学习的鲁棒性,通过强制正对之间的距离总是小于负对,不仅在嵌入空间,而且在重建图像的空间。我们使用余弦相似度作为嵌入空间的距离函数[35,2],并使用像素欧氏距离作为图像空间。对抗性损失。R2GAN的三个部分,即,G、D1、D2通过对抗训练交替优化。由于使用了两个鉴别器,D1产生的损失和D2的平均值作为G的训练损失。因此,GAN模块损耗如下:LD1=Ex对数图像[logD1(x)]+iexp(Eci)其中Ec表示配方或图像嵌入类别。整体损失。R2GAN的四个模块是端到端学习的。然而,模块的参数是可操作的,分别使用不同的损失函数进行估计。完全丢失,定义如下,用于更新嵌入和语义模块的参数:Lfull=Lrank+γLrecon+λLsem,(8)其中γ和λ是权衡超参数。另一方面,两个鉴别器的参数由LD1和LD2更新,而生成器G的参数通过如下合并对抗和重建损失来更新:LG满=LG+δLrecon,(9)其中δ平衡了两部分的相对重要性EVp图像 [log(1-D(G(E)],(3)4. 实验LD2=EEV对数图像[logD2(G(EV))]+ERp配方 [log(1-D(G(E)],(4)4.1. 实验设置数据集。 食谱1M [35]是唯 一 的大型食品L=1(EG2EV图像[log(1−D1(G(EV)))])+(五)数据集与英文食谱和图像公开。原始数据集包含超过100万个食谱,EE RRP配方[log(1 −D2(G(ER)],其中,ER和EV分别表示配方和图像的嵌入重建损失,它也考虑了两个层次的损失,在特征和图像水平,鼓励年龄重建图像保留尽可能多的信息,的原始图像。重建损失定义如下:1¨ ¨2将近90万张图片实验是在[35]提供的预处理食谱图像对上进行的,总共有340,922对,其中70%用于训练,15%用于验证,15%用于测试。每一对都是由[35]汇编的1,048个语义食物类别中的一个。评估指标。采用中位数秩(MedR)和前K位召回率(R@K)来评价检索准确率。MedR是指真阳性的中位秩位置L重建=(<$Φ(vreal)−Φ(vI)<$+所有的测试查询。R@K测量的是2f211482I R2¨ ¨<$Φ(vf)− Φ(vf)<$2+β(vreal−vI2+vI−vR2)),(六)1计算Φ(·)的另一种方法是使用VGG网络[14]。然而,在我们的内部实验中,这两种方法之间没有明显的性能差异。f2ff211483大小方法图像到配方配方到图像MedRR@1R@5R@10MedRR@1R@5R@101K随机5000.10.51.05000.10.51.0[35]第三十五话15.714.032.043.024.89.024.035.0JNE [35]5.224.051.065.05.125.052.065.0[5]4.625.653.766.94.625.753.967.1AdaMine [2]2.536.466.276.92.137.466.777.1R2 GAN2.039.171.081.72.040.672.683.310KJNE [35]41.9---39.2---[5]39.87.219.227.638.17.019.427.8AdaMine [2]16.512.531.542.215.613.632.843.4R2 GAN13.913.533.544.912.614.235.046.8表1.跨模态检索性能比较MedR(中位数秩)和R@K(回忆@K)。较低的MedR和较高的R@K表示更好的模型。符号排名在前K的真阳性返回结果。因此,应选择MedR较低、R@K较高的检索模型.实施. 配料和烹饪指令的输出尺寸分别设置为300和1,024同时,配方和图像的嵌入固定为d=1024维,遵循[35]。GAN学习模块的设计由D-CGAN [30]指导。生成器G由上采样层组成,除了最后一层使用Tanh之外,每个层后面都有批量归一化和ReLU我们使用StackGAN [40]采用的3×3步长1卷积后的最近邻上采样对于歧视-对于下采样,采用步幅卷积,除了最后一层使用Sigmoid 之 外 , 每 个 层 后 面 都 有 批 量 归 一 化 和LeakyReLU激活。鉴别器 D1和 D2共享相同的架构。LeakyReLU的斜率设置为0.2。由于R2GAN更强调嵌入兼容性而不是图像质量,因此生成图像的分辨率设置为64×64,是足以用于可视化缩略图的典型大小。对于所有实验,使用具有自适应学习模式的Adam求解器[16,2],批量大小为128。R2GAN的初始学习率为0.0001,当模型达到平台时,会衰减0.5倍GAN学习模块以0.0002的初始学习率进行训练,每20个时期乘以0.1衰减。在端到端训练期间,根据排名损失比其他损失大一个数量级的原则,我们设置µ=0.1(公式2),β=1(公式6),γ=0.01和λ=0.01(公式8)。按照文献中的惯例,公式2中两级排序损失的裕度α1和α2等式9中的平衡因子被设置为δ=1,以便平衡对抗和重建损失。模型训练如下进行在前20个时期,ResNet-50权重被冻结,其他部分-的模型是从头开始训练的。之后,我们释放ResNet-50权重并训练整个模型另一个80 epoch。三重抽样的策略是从小批量中产生样品。给定一批匹配的图像配方对,如果我们从一个模态中选择一个项目作为查询Eq,则来自另一个模态的对应项目被视为正Ep,而其余的被平均为负En。这三个嵌入,即,查询及其正和负对应物随后被用作生成器G的输入,以利用相应的输出vq、vp和vn重构图像(等式2和图2)。最后,选择在验证集上具有最佳MedR性能的模型进行测试。4.2. 检索结果对比将R2GAN与三种最先进的基于深度学习的方法[35,5,2]以及基于随机和CCA的两种基线进行比较[31]。与[35,5]相同,检索是在通过从测试集中随机抽样食谱图像对形成的子集上进行的。一对的配方和图像轮流作为查询从子集中检索其 采样过程重复10次,并报告平均检索结果。注意,与[2]不同,采样过程将不保证没有重叠样本的唯一子集。此外,当计算MedR时,排名位置从1而不是0开始,这被[35,5]使用。在实验中,我们使用[2]提供的预训练嵌入2,并在我们采样的子集上报告其结果表1列出了不同方法在1K和10K子集上的性能。首先,深度学习模型的表现明显优于所有基线。其次,R2GAN在所有的评价指标中表现出最好的性能.与AdaMine [2]相比,它报告了迄今为止最好的性能2 https://github.com/Cadene/recipe1m.bootstrap.网站上的链接。pytorch/tree/pytorch0.2#pretrained-models1148450K40K30K20K10K1K0 10 20 30 40 50 60 70 80 90MedR图3. R2GAN和AdaMine [2]之间的可扩展性测试,用于图像到配方检索。在Recipe1M上,R2GAN在10K设置下,在图像到配方和配方到图像检索中,从图像和食谱嵌入生成的相似缩略图中观察到,我们将改进归因于GAN学习模块的特殊设计,该模块强制嵌入模块学习更多兼容的特征。可扩展性。为了研究R2GAN对超过10K的大数据集的鲁棒性,我们进一步比较了它与AdaMine的MedR性能。对于图像到菜谱的检索,如图3所示,R2GAN和AdaMine之间的差距变得明显,并且随着的子集大小。在50K数据集上,这几乎相当于[35]提供的测试集的原始大小,R2GAN设法将真阳性平均排名在AdaMine之前11.4对于食谱到图像搜索也获得了类似的结果,其中R2GAN在50K数据集上将真阳性排名提前14个位置尽管如此,R2GAN的MedR虽然比AdaMine好得多,但在50K设置下的图像到食谱检索仅达到66,这显示了这项任务的挑战。目视可解释性。其基本思想是显示缩略图沿每个检索到的食谱,使用户可以浏览搜索结果迅速,同时挑选正确的食谱,即使它不是排名在顶部的位置。图-图4示出了实验中搜索的三个典型示例。在第一个示例(顶部)中,地面实况配方成功排名第一。生成的图像明显比其他图像更类似于查询,证明了生成的图像在解释搜索结果时的可解释性。在第二个例子(中间)中,排名在第1和第3位的食谱都属于松饼。然而,从地面实况食谱生成的图像具有与查询更相似的形状和布局,这解释了为什么它比其他松饼食谱排名更高在第三个例子(底部)中,尽管地面实况配方排名查询图像地面实况检索到的配方标题排名vfR圣诞布丁格兰诺拉麦片圣诞布丁格兰诺拉麦片1燕麦卷;葡萄干;苏丹纳;磨碎的多香果;肉桂粉;肉豆蔻粉;蜂蜜...南瓜香料拿铁格兰诺拉麦片21.预热烤箱至325 F,一个大的边缘线2.把燕麦,葡萄干,葡萄干,多香果肉桂3.花生酱和Nutella爆米花3萨斯卡通浆果燕麦松饼萨斯卡通浆果燕麦松饼1燕麦片牛奶;通用面粉;白糖;发酵粉;小苏打;萨斯卡通浆果;鸡蛋.Steinbeck's Johnnycake(英语:21.烤箱预热到3502.给一个12杯的松饼涂上3.把燕麦和牛奶搅拌在一起放在一个小碗4.蓝莓松饼3非洲火鸡炖1Chana Masala(Chickpeas and Tomatoes)洋葱;大蒜;油;鹰嘴豆(鹰嘴豆);辣椒粉;生姜;辣椒粉Chana Masala(Chickpeas andTomatoes)21.在一个6英寸的荷兰锅烤箱或大2.加入大蒜炒3.加香菜,辣椒粉4.桃梨莎莎36677.462.14726.831.6R²GANAdaMine13.916.522.539.952.7子集大小11485图4.示例显示R2GAN的可解释性.通过从配方生成的图像(最后一列)进行判断,可以很容易地猜测查询图像的真实配方。第二,根据生成的图像与查询词的相似性判断,用户仍然可以选择此作为结果。4.3. 消融研究本节研究由于R2GAN的不同模块而导致的改进.图5显示了R2GAN的四种变体,如下所示.为了研究判别器D2的意义,我们导出了两个变量GAN* 和GAN.参考图5(a),GAN* 修改D2以在真实图像和根据配方构造的假图像之间进行猜测,而R2GAN中的D2在生成图像时预测模态的来源。另一方面,GAN (见图5(b))简单地删除了D2,这使得它等同于原始GAN ,除 了还考 虑了语 义损失 。正如 JNE [35]和ATTEN [5]中声称的那样,食品语义学起着重要作用,我们还研究了其他两种没有语义分类的变体的性能(即,图5(c)中的R2GAN-Semantic)和仅具有语义分类(即,图5(d)中仅为语义此外,我们还比较了一个变体,R2 GAN-,它采用传统的一级排名损失没有图像级排名损失。换句话说,等式2被修改如下:L秩= max{d(Eq,Ep)−d(Eq,En)+α1,0},(10)表2列出了消融研究的结果首先,基线GAN已经优于所有以前的模型,包括AdaMine在这个数据集上。然而,GAN*,它使用了一个变种的D2,表现出更差的性能比GAN没有D2。结果并不令人惊讶,因为从配方重建图像非常困难。 直接学习模仿真实的形象可以重新-11486GvfID1v实数分类器方法图像到配方配方到图像10K20K30K40K50K10K20K30K40K50K仅语义16.030.645.760.875.715.128.642.856.870.9R2GAN-语义19.337.855.974.192.918.135.652.769.887.0GAN15.830.745.760.375.214.228.141.955.469.0GAN*19.337.956.174.292.917.234.050.567.183.4R2 GAN-14.628.442.055.269.013.225.237.549.961.9R2 GAN13.926.839.952.766.012.624.235.747.459.0表2.消融研究。结果报告的MedR与不同的子集大小。(a) GAN*(c)R2GAN-语义EREV(b)GANER分类器EV(d)仅语义在从10K到50K的不同大小的子集上表现最佳。比较两级与一级的排名损失,R2GAN也显示出增量改善R2GAN-一致的所有子集。图6比较了通过不同GAN从图像和配方嵌入生成的图像R2GAN设法生成缩略图比其他变体更真实,显然更类似于原始图像。5. 结论图5.用于烧蚀研究的R2GAN查询图像地面实况方法重建图像(vfI,vfR)中国式肉松蟹黄R2 GAN洋葱;鸡蛋;仿蟹肉;水;中国肉汤;片栗子GAN*1.把洋葱切成薄片。2.用手把假螃蟹切成丝3.GANR2 GAN自制披萨面包粉;意大利调味料;糖;盐;玫瑰比萨面团酵母;橄榄油;马苏里拉奶酪GAN*1.把面粉,糖,盐酵母和意大利调味2.加水和油晾干混合物3.GAN图6.R2GAN、GAN* 和GAN生成的图像比较最后一列示出了从图像嵌入vI和配方嵌入vR重构的缩略图。我们提出了一种新的基于GAN的跨模态食谱检索网络架构,该架构在Recipe1M数据集上获得了最新的性能。特别是R2GAN,它对大规模数据集具有鲁棒性,并且与其他模型相比具有更好的可扩展性.通过实验,我们将改进归因于架构设计,该架构使得嵌入学习跨文本和视觉模态兼容。这可以从食物图像的高度相似性得到证明,尽管食物图像是从不同的模态生成的这些生成的图像也极大地方便了搜索结果的自我解释。使用更先进的GAN [1,25]和生成更高分辨率的图像[40]可以进一步提高性能并增强搜索结果的解释。通过烧蚀研究,我们表明双鉴别器的设计对提高检索性能起着重要作用最后,尽管两级排名损失以相对较小的幅度提高了性能,但在不同的领域,这种改善一直被注意到。f f不同大小的子集。 虽然令人鼓舞,R2甘库尔-目前只考虑从配方中生成图像,而不考虑导致对整个端到端学习有害的过拟合。相反,像R2GAN那样间接学习来模仿从图像嵌入生成的假图像,这本质上是一项更容易的任务,似乎更有效。表2中列出的结果也与[35,5]一致,其中,共振损失起关键 作 用 。 Semantic-only , 没 有 GAN , 比 它 的 对 手R2GAN- Semantic,只有GAN但没有语义,性能更好建议的R2GAN成功地折衷了两种信息,即,语义和GAN,并显示consis-反之亦然随着新数据集的发布,例如[12],其中包括处理烹饪指令的每个步骤的图像,潜在地从图像中烹饪是一项值得进一步研究的任务。确认本文所述的工作得到了中国香港特别行政区研究资助局的全力支持(城大11203517)。ERD2GD1EVv实数vfIvfRvfIERD2GD1EVv实数vfIvfRv实数分类器11487引用[1] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein GAN arXiv 预 印 本 arXiv : 1701.07875 ,2017。[2] MicaelCarv alho , Re' miCade' ne , Da vidPicard ,LaureSoulier,Nicolas Thome,and Matthieu Cord.烹饪环境中的跨模态检索:学习语义文本图像嵌入。在第41届国 际 ACM SIGIR 信 息 检 索 研 究 发 展 会 议 上 ,SIGIRACM。[3] 陈晶晶和吴忠华。用于烹饪食谱检索的基于深度的输入识别。2016年ACM多媒体会议论文集,第32-41页。ACM,2016。[4] 陈晶晶,吴忠华,蔡达成具有丰富食物属性的跨模态食谱检索。在2017年ACM多媒体会议上,第1771-1779页ACM,2017。[5] Jingjing Chen,Chong-Wah Ngo,Fuli Feng,and Tat-Seng Chua.深入理解烹饪过程,用于跨模态食谱检索.在2018年ACM多媒体会议论文集,MM'18,纽约,纽约,美国,2018年。[6] 陈晶晶,庞磊,吴忠华。跨模态食谱检索:如何烹饪这道 菜 ? In Laurent Amsaleg , Gylfio'rGumundsson ,CathalGurrin,Bjo' rno'rJo'nsson,andShin施普林格国际出版社.[7] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的S. 神经信息处理系统的进展,第658-666页,2016年[8] 大卫·埃尔斯韦勒,克里斯托夫·特拉特纳,摩根·哈维。利用食物选择偏好推荐更健康的食谱。第40届国际acmsigir信息检索研究与开发会议论文集,第575-584页。ACM,2017。[9] 吉尔·弗蕾恩和什洛莫·伯科夫斯基智能食物规划:个性化食谱推荐。第15届智能用户界面国际会议论文集,第321-324页。ACM,2010年。[10] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。 在神经信息处理系统的进展,第2672[11] Jiuxiang Gu , Jianfei Cai , Shafiq Joty , Li Niu , andGang Wang.看,想象和匹配:用生成模型改进文本视觉跨模态检索。在IEEE计算机视觉和模式识别会议论文集,第7181-7189页,2018年[12] 原岛纯,染谷雄一郎,菊田洋平。Cook- pad图像数据集:图像收集作为食品研究的基础设施。在第40届国际ACM SIGIR信息检索研究与开发会议论文集,第1229-1232页ACM,2017。[13] 伊藤义文下田涉和柳井敬二食物图像生成使用大量的食物图像,有条件的甘:拉门甘和列西佩甘。烹饪和饮食活动多媒体和多媒体辅助饮食管理集,第71-74页。ACM ,2018。[14] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[15] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[17] Kuang-Huei Lee,Xi Chen,Gang Hua,Houdong Hu,and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意arXiv预印本arXiv:1803.08024,2018。[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[19] 尼基·马丁内尔,吉安·卢卡·福雷斯蒂,克里斯蒂安·米凯洛尼。用于食物识别的宽切片残差网络。计算机视觉应用(WACV),2018年IEEE冬季会议,第567-576页。IEEE,2018年。[20] Niki Martinel,Claudio Piciarelli,Christian Micheloni,and Gian Luca Foresti.一个有组织的食品识别委员会。在IEEE计算机视觉研讨会国际会议论文集,第92-100页[21] 闵维清,鲍炳坤,梅淑环,朱耀辉,瑞勇,姜树强。你吃什么就是什么:探索跨区域食品分析的丰富食谱信息。IEEE Transactions on Multimedia,20(4):950[22] Wei Min,Shuqiang Jiang,Linhu Liu,Yong Rui,andRamesh Jain.关于食品计算的调查。arXiv预印本arXiv:1808.07202,2018。[23] Wei Min , Shuqiang Jiang , Jitao Sang , HuayangWang,Xinda Liu,and Luis Herranz.成为超级厨师:联系我们测试食物属性和用于食谱检索和探索的多模态 内 容 建 模 IEEE Transactions on Multimedia , 19(5):1100[24] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。[25] Takeru Miyato,Toshiki Kataoka,Masanori Koyama,and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv:1802.05957,2018。[26] Tu Nguyen
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功