烹饪食谱与菜肴形象的跨模态鸿沟的潜变量模型

27 浏览量更新于2023-10-23 收藏 843KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14570MCEN：用潜变量模型弥合烹饪食谱与菜肴形象之间的跨模态鸿沟Han Fu<$阮瑞武< $Chenghao Liu<$Jianling Sun<$孙建†Zhejiang Uni versity，杭州，中国阿里巴巴-浙江大学前沿技术联合研究所§新加坡管理大学{11821003，tactical，sunjl}@ zju.edu.cn，twinsken@gmail.com摘要如今，随着人们对饮食和健康的日益关注食品再评价是该领域最热门的研究课题之一，因为它对健康导向的应用有着深远的影响在本文中，我们专注于食物图像和烹饪食谱之间的跨模态检索的任务提出了模态一致嵌入网络（MCEN）(a) 先前工作(b) 我们的工作它通过将图像和文本投影到相同的嵌入空间来学习模态不变表示为了捕捉模态之间的潜在对齐，我们将随机潜变量显式地利用文本和视觉特征之间的相互作用。重要的是，我们的方法在训练过程中学习跨模态对齐，但为了效率起见，在推理时独立地计算不同模态的嵌入。大量的实验结果清楚地表明，所提出的MCEN优于所有现有的方法在基准Recipe1M数据集，需要更少的计算成本。1. 介绍食物是人类生活的最高必需品。As the saying goes,we are what we eat, food not only provides energy for lifeactivities, but also plays a significant rolein affectinghuman identity, social formation, history, and cultureinheritance [19].在我们的日常生活中，食物与人们的习俗、生活方式、健康和社会活动有着内在的联系。如今，随着互联网和移动应用程序的发展，在社交平台上分享食谱和食物图像已成为一种普遍趋势[43]。由于网上有大量的数据资源，* 通讯作者：孙建玲。图1. 先前的工作（a）和拟议的MCEN（b）之间的比较。我们通过潜变量捕捉图像和食谱之间的相互作用来虚线表示仅在训练期间使用联合信息在推理时，嵌入独立计算食品计算已经成为一个热门领域，激发了大量的机器学习任务，如成分识别[38，23]，食品图像检索[54]和食谱识别[53，49]。在研究主题中，图像到食谱学习（im2recipe）是最重要的问题之一，因为它对面向健康的应用有着深远的影响[40]。例如，食品健康分析应用程序需要从食品图像中预测详细的营养成分和热量信息，食谱检索系统是这种情况下的必要解决方案。Im2recipe是一项具有挑战性的任务，因为它涉及高度变异的食物图像和详细的文本食谱。典型的食谱包括配料和烹饪说明的列表，其可能不直接与相应食物图像的外观对齐通常，最近的努力已经将im 2 recipe公式化为跨模态检索问题[48，37，6，62]，以使用检索学习方法在共享潜在空间中对齐匹配的recipe-image对具体地说，先前的工作建立了两个独立的网络来编码文本食谱（配料和烹饪说明）RNN材料：3磅鲑鱼排，2勺黄油，1/3杯切碎的。使用说明：在一个大煎锅，加热黄油，炒洋葱，CNN图像嵌入配方嵌入回收损失材料：3磅鲑鱼排，2勺黄油，1/3杯切碎的。使用说明：在一个大煎锅，加热黄油，炒洋葱，CNNRNN跨模态一致性图像嵌入配方嵌入回收损失14571和食物图像分别嵌入。并学习检索损失对象以收集匹配对并区分不相似的项目。虽然现有的方法是表达和强大的，仍然有两个主要的问题。1) 目前的系统用两种不同的网络独立地对图像和文本进行然而，这样的独立性带来的障碍之间的模态，导致障碍，发现潜在的语义对齐跨模态。因此，这种方法可能会受到多种情况的影响[51]。2)配方表示是基于固定的预先训练的跳过思想向量[28]获得的，导致文本和图像特征空间之间的高度差异为了缓解这种限制，我们努力采取一个步骤，捕捉不同模态的联合信息，并将跨模态对齐注入到两侧的嵌入式学习过程中。本文介绍了一种模态一致性嵌入网络MCEN，学习文本食谱和碟形图像。其主要思想是显式地利用视觉和文本特征之间的相互作用，并通过随机潜变量模型将跨模态信息共享到两种模态的嵌入利用随机变量来捕获训练期间模态之间的潜在相关性，而嵌入仍然可以在测试时独立计算，以实现高效率和灵活性。此外，潜变量引入的随机性也有利于处理一个配方对应多个图像的多义实例。简而言之，这项工作的主要贡献有三个方面：• 我们提出了一个新的跨模态检索框架，通过显式捕获食谱和食物之间的相关性来获得模态一致的嵌入带有潜在变量的图像。• 我们利用跨模态注意机制在训练过程中的潜在对齐，并在推理时用先验条件代替它以提高效率。• 我们提出了一个基于分层注意力的文本食谱的特定于任务的编码器，它不仅可以适应与图像的交互，而且简化和加速了训练和推理过程。我们在具有挑战性的基准Recipe1M [48]上进行了实验，结果表明，我们的模型在跨模态食谱检索问题上的表现明显优于所有最先进的方法，并且需要更少的计算开销。2. 相关工作计算机烹饪饮食与烹饪是人类生活的重要组成部分，与健康密切相关[53]、社会活动、食品学、食疗和文化[19]等，深刻地影响着生活质量。因此，涉及烹饪食谱的研究引起了相当大的关注。食物和烹饪在多个频道上提供丰富的内容，包括视觉内容（例如，盘图片）和文本（例如，菜肴描述和烹饪说明）。当前的文献以各种方式利用这些属性。通常，计算机视觉中最近的例子是食物分类和识别[7，34，31，61，23]，以及标题检索[14，9]，在-根据菜肴图像生成菜谱[8，9]或菜谱指令[6，48，41，42]，而来自自然语言处理社区的研究人员通常关注于诸如菜谱推荐[53，49]、将指令与视频和语音对齐[35]、从流程图生成菜谱文本[44]、从菜谱文本生成工作流[58]、烹饪动作跟踪[4]、食谱表示[36]、清单食谱生成[24]和基于食谱的问题回答[57，36]。此外，还有一些工作使用机器学习方法将健康与食物属性联系起来，例如营养[29]或能量[39]的预测所有这些努力都有助于食品计算和理解的繁荣，弥合机器学习应用与人们日常生活之间的差距近年来，大规模食品相关数据集的引入进一步加速了对食品理解的研究进展考虑到应用目的，数据集可以分为两组：食物识别[3，38]和跨模态食谱检索[48，37，41，42，7，48]。我们专注于食谱检索任务，在本文中，旨在检索相关的烹饪食谱相对于图像查询，反之亦然。通常，用于检索的数据集通常包含食物图像和其他信息，例如配料、结构化烹饪说明和风味属性。在这些数据集中，Recipe1M[48]是最好的策划与预处理的英文文本信息的大规模数据集，我们评估了我们的方法在它的有效性。文本图像检索。我们的工作与当前多模态检索任务的研究有关，其中的关键问题是如何度量文本和图像之间的相似性。这一问题的主要挑战在于模态鸿沟，这意味着不同模态的特征空间文本图像检索是计算机视觉和自然语言社区之间的交汇点，几十年来吸引了研究的关注[32]。传统的方法将这个问题表述为语言建模任务[27]或使用规范分析（CCA）[21]的相关性最大化问题[46，18]。最近，已经做出了许多努力来构建利用深度14572学习方法[52，1，16，59，45]。另一种方法是使用硬负挖掘来改善三重态损失[50]，例如[17，55，15]。尽管取得了一定的进展，但上述方法将不同的模态编码到独立的特征空间中，从而遭受异质内容之间的模态间隙。为了解决这个问题，最近的工作结合注意力机制来捕获单词和不同图像区域之间的潜在对齐关系[22，30，33，56]。虽然表达，这些方法需要大量的计算开销在推理过程中，因为跨模态注意力分数之间的查询和每个项目的参考集需要计算，限制了大规模检索场景的可扩展性。在本文中，我们利用潜在变量，将跨通道注意机制纳入检索任务在训练期间，但保持独立的计算，为不同的模态分别在推理时间。图像到食谱是一个新提出的任务，最近的努力[8，48]将其公式化为跨模态学习任务，以基于图像查询检索相关食谱在这些设置下，已经引入了几种鼓舞人心的方法，通过使用附加文本特征[9]，语义信息[6]和对抗学习[62，54]等技术来提高检索性能。3. 模态一致嵌入网络3.1. 概述在本节中，我们介绍了拟议的模态一致嵌入网络（MCEN）的方法。问题表述。提出的框架的目的是衡量食物图像之间的相似性，相关的文本食谱。形式上，记为{vi，ri}N在图2中该系统由三个主要模块组成：配方编码器，图像编码器和模态一致空间建模的嵌入学习组件。通过训练流程，通过将食物图片vi馈送到基于CNN的图像编码器来表现视觉特征。同时，指令和成分的高层表示是通过分层的注意力为基础的RNN编码器。然后将这些表征馈送到跨模态注意组件，以利用图像和文本之间的交互然后利用跨模态相关性来估计神经变分推理嵌入的后验分布[26，47]。通过该方法，我们可以区分训练和推理过程，从而减少预测时的交叉模态计算。为了保持模态一致性，我们通过最小化不同模态的先验知识的KL-发散来对齐潜在表征的分布最后，从后验分布中采样的潜在表示被传递到前馈层，以分别获得图像和配方的最终嵌入。整个模型与检索学习对象进行端到端的训练。MCEN的主要创新之处来自于隐变量的交叉模态相关建模。MCEN在训练过程中捕获图像和文本之间的潜在对齐关系，而在推断时，我们不需要跨模态注意，因为后验分布在测试过程中被先验分布取代。虽然存在专注于模态之间的建模相关性的先前工作[30，33]，但这些方法具有高计算开销，因为查询和每个参考实例之间的对齐分数需要计算参考集大小的次数[51]。相反，MCEN在推理过程中独立地获得不同模态的嵌入，这显著地影响了MCEN的推理能力。作为一组N个图像配方对，其中图像vi=1∈V减少了计算开销。此外，几乎所有和配方ri∈R。符号V和R表示视觉空间和配方空间。应当注意，允许一个食谱ri由一组配料Xing，i和一系列烹饪说明Xins，i组成。图像Vi包含完成的菜的外观。重要的是，并且食谱的烹饪指令可能不直接与匹配图像的外观对准，这与传统的跨模态检索任务相比带来了额外的异质性挑战。Considering the information gap between modalities, wesetour targettolearn themapping functions from observeddata to the embedding distributions as V → Ev and R→其中Ev∈Rd和Er∈Rd表示分布的d维图像嵌入和配方嵌入现有方法需要固定的预先训练的指令向量而用于图像编码的参数相对于检索对象是最新的。训练过程中的异构性导致了图像特征空间和菜谱特征空间的差异。在这项工作中，MCEN配方编码器的架构与以前的系统完全不同，可以从头开始进行端到端的训练。3.2. 图像编码器给定食物图片v，图像编码器负责提取输入的抽象特征。与之前的方法不同，我们使用ResNet-50 [20]的最后一个残差块（res 5c）的输出，该残差块由7×7=49列2048维卷积输出，由Hv=（hv，hv，· · ·，hv，）表示。获得1 2 49因此，一张图片更接近于对应比任何其他图像在潜在的空间。架构阐述了MCEN的体系结构图像隐藏状态的表示，我们提出了使用注意力层，它估计每个隐藏向量的重要性因为一个盘子图像可能包含多个-14573不我I vi图2. MCEN的体系结构和培训流程。红色虚线表示跨通道注意力组件仅在训练期间起作用，在测试时被忽略。该系统由三个主要部分组成：配方编码器、图像编码器和模态一致嵌入组件。图像和文本之间的相互作用被潜在变量捕获，并被两个潜在空间共享与配方不相关的对象（即，forks and flowers），注意力模型的目的是迫使编码器更多地关注可能对检索对象有贡献的区域利用注意力池机制（等式1-2）来计算最终的单词级表示，其中RNN隐藏状态被用作注意力上下文。表示Hins=（hins· · ·hins）和Hing=（hing· · ·hing）as1m1n形式上，图像表示sv用卷积状态的加权求和计算为：Σ49说明和配料的特征序列重新-其中m和n是食谱的指令和配料的数量，并且每个元素h为/h是指令/成分的抽象表示sv=αvhv，（1）我我i=1其中，αv是位置i处的注意力分数，表示该区域的重要性，计算公式为：为了模拟指令和输入之间的相关性因此，我们采用基于注意力的RNN解码器[2]，它分别将Hins作为顺序输入和Hing作为上下文。RNN解码器的输出是表示为Hc=（hc，· · ·，hc），其中包含联合1mαv= softmax（v tanh（Wvqv+ Uvhv）），（2）其中Wv，Uv和vv是可训练矩阵和向量。qv是注意查询向量。在这里，它是一个从头开始初始化的可训练向量。为了写作的方便，我们把这样的注意力层称为注意力池，把输入注释（Hv）称为注意力上下文。3.3. 配方编码器在食谱分支中，成分和说明使用类似的网络单独编码。由于食谱的说明或说明通常包含多个句子，因此我们使用基于注意力的分层模型来提取文本特征。每个指令/成分首先被馈送到具有门控递归单元（GRU）的单词级双向递归神经网络（bi-RNN） [10]，说明和成分的信息然后，Hc、Hins和Hing被馈送到独立的句子级双RNN和注意力池层，以获得句子级表示，分别表示为sc、sins和sing。配方的最终特征表示是ob-通过将三个句子表示连接为：sr= [sc，sins，sing]。（三）3.4. 模态一致嵌入当使用独立的网络提取特征时，对齐多模态的特征表示是具有挑战性的。为了缓解这个问题，我们将潜在的变量来捕捉模态之间的相互作用。 This methodconverts the embedding computation into a generativeprocess.以图像为例，图像编码器Hvsv*μ*v图像嵌入zveva*vs~N（0，I）SVSR跨模态一致性检索学习Hinss~N（0，I）HCμ*RzR兴a*Rsr*er配方嵌入模态一致嵌入配方编码器4小麦子卷16片新鲜罗勒叶.成分打开面包卷...放上4片罗勒叶...同样的4片...在每个上面指令双回归神经网络关注双回归神经网络关注双回归神经网络字编码器关注双回归神经网络4小麦子辊、轻轻地烤地方4罗勒叶上四的食物图像CNN跨通道注意跨通道注意14574v对于给定图像v，生成特定嵌入的概率Ev被建模为：p（ev|v）= p（ev|zv，v）p（zv|（v）、（4）其中假定潜在向量zv捕获v和相应的配方r之间的相关性。因此，zv的后半部分应当以配方r和图像v两者为条件，表示为p（zv|v，r）。潜变量的先验通常被公式化为标准的高斯分布。这可能会降低发电效率[11]。在这里，我们建议估计先验分布的神经网络模型，共同学习先验知识，并挖掘基于sin的跨模态对齐角模态，表示为p（zv|v）。为了简化生成过程，潜在的先验分布和后验假设变量为高斯分布。具体地说，生成的故事如下。我们取样-其中s（·）e表示两个向量之间的余弦相似性，并且m是误差幅度。下标p、n和a分别表示三元组的正、负和锚在配方方面的情况是类似的，区别在于后验近似q（zr）的交叉模态表示的计算|v，r）。这里，我们以与sr（等式3）类似的方式获得sr，但是用图像特征si替换原始可训练查询向量。形式上，最终的检索学习对象定义为：Lret+αLKL，（14）其中Lret是图像到配方和配方到图像检索的三重损失的总和，α是权衡超参数。LKL是两侧KL偏差的总和：L KL=DKL（q（zv|v，r）p（zv|（五））+根据先验高斯分布的帐篷变量zv为：DKL（q（zr|v，r）p（zr|（r））。（十五）zv|vN（µv，diag（σ2））（5）此外，如前所述，我们的目标是调整分布µv= Wv sv + bv（六）两种模式。为此，我们只需将先验µ µ两种模态的嵌入分布，σv= softplus（Wvsv+ bv），（7）σ σ最小化以下KL发散：其中Wv、Wv和bv、bv是权重矩阵和偏置。v rµ σ µ σ在潜变量zv的条件下，我们生成最终的图像嵌入为：ev=fv（zv），（8）其中fv是实现为具有tanh激活的单层神经网络的映射函数。估计方程4可能具有挑战性，因为分布是难以处理的。我们利用神经变分推理[26，47]来优化证据下限（ELBO）：E q （ zv|v ， r ）（ logp （ ev|zv ， v ）） −DKL （ q（zv|v，r）p（zv|（v）），（九）其中，DKL（·）是Kullback-Leibler微分，q（zv|v，r）是近似后验，估计为：Lcos=DKL（p（z|v）p（z|（r））。（十六）3.5. 交叉模态重建最近的工作[62，54]已经证明了重建损失对跨模态食谱检索的有效性，因为它鼓励一种模态的嵌入覆盖另一种模态的相应信息。然而，这种方法引入了额外的网络参数来重建原始图像和配方，这对于训练检索系统来说在这项工作中，我们提出了一个更简洁的跨模态重构方法我们并没有恢复原始输入的全部信息，而是只使用学习的嵌入来重建潜在表示：′R vvS=fr（e），（17）zvv，r′sv=fv（er），（18）|N（µv，diag（σvµ= Wvs v+ bv））（10）v(11)VVv µ µσ= softplus（Wvsv+ bv），（12）其中fr和fv是映射函数，实现为两层神经网络形式重建损失v σ σ其中Wv，Wv和bv，bv是可训练矩阵，公式为：µ σ µ σ′ ′14575偏差，这是独立于先前的模型。跨模态表示sv_i是利用注意力池化层来获得的，该注意力池化层将配方表示s_r作为查询向量并且将图像区域特征H_v作为注意力上下文。可能性的下限可以是通过最小化三重态损失来优化，形式化为：Lv=[s（ev，ei）-s（ev，ei）+m]+ （13）Lrec=P（sr，sr）+P（sv，sv），（19）其中P（·）计算皮尔逊相关系数。3.6. 训练和推理MCEN的总体培训目标如下：L=Lret+αLKL+βLcos+γLrec，（20）一个一个P14576其中α、β和γ是平衡不同组分的偏好的超参数。整个模型可以通过重新参数化技巧进行端到端的训练[26，47]。在推理过程中，隐变量被固定到先验分布的期望值，以稳定检索性能。4. 实验4.1. 设置数据集。这些实验是在Recipe1M基准上进行的[48]，这是一个用于食谱检索的大规模集合，包括烹饪说明和食物图像。该数据集由超过100万个文本食谱和大约90万个图像组成我们使用[48]提供的相同预处理样本，最终获得238，399对配方和图像的匹配对用于训练，51，119对用于验证，51，303对用于测试。此外，应该注意的是，我们没有纳入先前工作[48，6，62]使用的额外语义标签，例如食品类别和常用成分的标签。指标. 我们使用与先前工作相同的度量[48，6，62]。具体而言，我们计算中位数排名（MedR）和召回率在顶部K（R@K）的样本子集的测试分区，以评估检索性能。取样过程重复10次，并报告平均分数。MedR测量所有测试样本中真阳性的中位数检索排名位置，排名位置从1开始。R@K是指匹配实例在前K个结果中排名的查询的百分比。实施.对于图像编码器，ResNet-50[20]在ImageNet上预训练[12]用作初始化。重量。在配方方面，所有隐藏状态的维度设置为300.与以前的工作不同，我们不使用预训练的词嵌入。整个配方编码器是从头开始训练的，在[-0]之间均匀初始化。02，0。02]。神经推理的最终嵌入和所有隐藏状态的维数误差幅度m为0.3，超参数α、β、γ分别设置为0.1、0.002和0.003。0.08分别梯度的范数被裁剪到[-5，5]之间。我们使用Adam solver [25]，其中β1=0。9，β2=0。999，并且将k=10−8作为优化器，并且将相应的初始学习率设置为10−4。该模型是以batch-size 32进行端到端训练的。为了有效地训练模型，我们使用了两种训练策略。首先，正如其他工作[5]所观察到的那样，序列建模的损失来自KL发散消失。为了解决这个问题，我们将α初始化为10−4，并随着训练进程的运行逐渐将其增加到0.1此外，将两个独立的随机变量，可以降低收敛速度。因此我们要-年龄阶段明智的战略。具体来说，我们将图像侧的潜在表示zr固定为先验μr的平均值，并专注于训练配方部分。然后，我们交替训练后验参数的图像侧后，几个时期。最后，应用早期停止策略，并选择验证集上R@1得分最好的模型进行测试。对比建议的MCEN与几种SOTA方法进行比较：• CCA [21]，典型相关分析方法。结果来自[48]。• JE [48]，一种学习图像和文本的联合嵌入空间的方法，具有成对余弦损失。该方法还将分类任务作为正则化• ATTEN [9]，一个跨模态食谱检索的层次注意力模型.该方法还结合标题信息来提取配方特征。• AdaMine [6]是一种将语义信息嵌入到三元对象中的两级检索方法。• R2 GAN [62]，一种基于GAN的方法，可以学习跨模态检索和多模态生成simulation。• ACME [54]，跨模态食谱检索任务的最先进方法，使用多个GAN组件改进模态对齐。在我们的前-实验中，我们使用发布的预训练模型，并在我们的采样测试集上报告结果。4.2. 主要结果表1列出了跨通道提取任务的主要结果一般来说，建议的MCEN一致地执行所有基线，在所有评估指标和测试集上具有明显的优势。在1K集上，MCEN实现了2.0中位数排名，与SOTA结果相匹配在R@K方面，MCEN实现了令人鼓舞的性能，在图像到配方和配方到图像任务的所有指标上击败了所有基线，包括迄今为止的最佳方法ACME。在10K设置上，所有模型的性能显著下降，因为检索任务变得更加困难。随着子集大小的增加，MCEN和以前的方法之间的差距变得更大。与SOTA ACME方法相比，我们的模型在im2recipe和recipe2im任务上的MedR度量都有近30%的改进，表明MCEN的鲁棒性。4.3. 消融研究为了评估不同部件的贡献，我们对几种不同的结构进行了详细的烧蚀研究。我们在图3. MCEN-vanilla（图3（b））是最简单的架构14577s~N（0，I）μ*RSVSRa*R跨通道注意zR一尺寸方法图像到配方配方到图像表1. 基线的取数结果。用MedR（越低越好）和R@K（越高越好）评价跨模态检索性能。应该注意的是，我们没有包含先前方法使用的预训练嵌入和额外的食物类别标签它不包含任何潜在变量。最终的嵌入er和ev通过下式获得er=gr（sr），（21）ev=gv（sv），（22）sv*SVSR*vzvevev*vs~N（0，I）s~N（0，I）*r其中SRSR是配方编码器的输出（Equa-*sr*rzrererer等式3）和图像编码器（等式1）。的映射 GR和GV 被实现为具有TANH激活的两层神经网络。我们还提出了两个变量模型，它们利用图像（图3（c））或配方侧（图3（d））的潜在变量。此外，还报告了没有重构分量的MCEN的性能（等式17-18）。对于从MCEN导出的所有变体，去除模态一致性损失（等式15）。sv*SV（a）MCEN（b）MCEN-香草evevSVSR尔尔尔sr*表2列出了不同变体模型在1K子集上的检索结果。毫不奇怪，MCEN在所有评估指标上都优于所有变体。可以观察到，MCEN-vanilla的性能类似于ACME（表1），表明所提出的配方编码器架构的有效性此外，一个有趣的发现是，MCEN图像优于MCEN配方。一个可能的原因可能是，与rig- marole指令相比，图像中不同区域的相对语义权重更容易被利用。4.4. 分析参数和速度。我们在表3中列出了不同系统的参数和速度。我们可以观察到，虽然推理网络的任何一方（c）MCEN-image（d）MCEN-recipe图3.衍生自MCEN的架构变体引入了大约10.4M的参数，额外的参数不会显著降低训练和测试速度。与当前的SOTA ACME [54]相比，MCEN包含的参数减少了约30%，并以几乎两倍的速度生成交叉模态嵌入，证明了所提出的架构的高效性。 MCEN 和 ACME 之间存在差距的主要原因是ACME需要额外的对抗学习开销。跨模态注意力的有效性。为了更好地理解跨通道注意力学到了什么，a*vs~N（0，I）SRμ*vzv跨通道注意跨通道注意跨通道注意μ一μMedRR@1R@5R@10MedRR@1R@5R@10随机5000.10.51.05000.10.51.0[第48话]15.714.032.043.024.89.024.035.0[第48话]5.224.051.065.05.125.052.065.01KATTEN [9]4.625.653.766.94.625.753.967.1AdaMine [6]2.039.869.077.42.040.268.178.7R2GAN [62]2.039.171.081.72.040.672.683.3ACME [54]2.044.372.981.72.045.473.482.0MCEN（我们的）2.0±0。048.2±0. 975.8±1。183.6±0. 91.9±0. 348.4±1。076.1±0。983.7±1。1[第48话]41.9---39.2---[9]第十九话39.87.219.227.638.17.019.427.810KAdaMine [6]13.214.935.345.212.214.834.646.1R2GAN [62]13.913.533.544.912.614.235.046.814578方法图像到配方配方到图像表2. 消融研究。用R@K和1 K子集对模型进行了评价。ParaSpeed表3. 参数统计、训练和测试速度（对/秒）。所有型号都在单个Titan XP GPU上使用相同的设置进行评估，批量大小为32。这种比较可能是不公平的，因为所有基线都需要额外的计算开销来预训练跳过思维向量。组件，我们可视化的中间结果与注意力。如图4所示，注意力模型学习更多地关注包含食物的有效区域，而忽略背景。因此，最终的图像嵌入受到更多的约束，并且不太可能受到噪声的影响（即，叉子和桌布）或多义的实例。在食谱方面，如图5所示，注意力模型学习关注可以基于与食物图像的视觉连接来解释的成分。以图5中的第一个子图为例，注意力模型将最高权重赋予三个输入：牛排、番茄酱和法棍面包，几乎构成了整道菜。这些观察表明，拟议的MCEN学习捕捉图像和食谱之间的语义对齐关系。5. 结论和未来工作在本文中，我们提出了一个模态一致的嵌入式网络，即MCEN，用于跨模态的食谱检索。所提出的模型侧重于建模与潜变量的训练过程中的食物图像和文本食谱之间的相互作用。具体地说，在训练过程中，潜变量基于跨通道注意机制建模，而不同通道的嵌入仍然是独立计算的。图4. 采样图像的注意力图。颜色越深，注意力得分越高。图5. 成分注意力的可视化。该模型关注具有高注意力分数的重要成分。推论我们在具有挑战性的Recipe1M数据集上进行了实验，不同指标的评估结果证明了MCEN的效率和有效性。在未来，我们有兴趣将预先训练的语言模型纳入跨模态分析任务。承认我们要感谢审查人员的详细评论和建设性建议。黄油茶包牛排甜牛奶番茄酱水可可烧烤酱甜叶菊粉红糖胡椒香草香草牛至脱脂牛奶甜饼干芹菜籽棉花糖百事椰子红辣椒棍面包芥末苹果汁黑胡椒辣椒片橄榄油R@1R@5R@10R@1R@5R@10MCEN-香草44.572.380.744.972.880.9MCEN配方45.873.181.346.173.381.5MCEN-image47.675.183.047.875.483.3MCEN（不含重建）46.475.483.147.875.783.3MCEN48.275.883.648.476.183.7火车测试AdaMine [6]46.3M117.8197.9R2GAN [62]89.9M30.3195.4ACME [54]98.6M30.7111.7MCEN-香草48.9M57.6194.9MCEN配方59.3M45.0189.1MCEN-image59.3M45.2188.7MCEN69.6M42.7185.814579引用[1] Galen Andrew，Raman Arora，Jeff Bilmes，and KarenLivescu.深度典型相关分析。在机器学习国际会议上，第1247-1255页，2013年。[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[3] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101-用随机森林挖掘判别成分。欧洲计算机视觉会议，第446-461页Springer，2014.[4] Antoine Bosselut ， Omer Levy ， Ari Holtzman ， CorinEnnis，Dieter Fox和Yejin Choi。用神经过程网络模拟动作动力学。在国际会议上学习表示（ICLR），2018年。[5] Samuel R Bowman ， Luke Vilnis ， Oriol Vinyals ，Andrew Dai，Rafal Jozefowicz和Samy Bengio。从连续空间生成句子。第20届SIGNLL计算自然语言学习会议论文集，第10-21页[6] MicaelCarv alho ， Re' miCade' ne ， Da vidPicard ，LaureSoulier，Nicolas Thome，and Matthieu Cord.烹饪环境中的跨模态检索：学习语义文本图像嵌入。第41届国际 ACM SIGIR 信息检索研究发展会议，第 35-44 页ACM，2018。[7] 陈晶晶和吴忠华。用于烹饪食谱检索的基于深度的输入识别。2016年ACM多媒体会议论文集，第32-41页。ACM，2016。[8] Jing-jing Chen，Chong-Wah Ngo，and Tat-Seng Chua.具有丰富食物属性的跨模态食谱检索。在2017年ACM多媒体会议上，第1771-1779页ACM，2017。[9] Jing-Jing Chen，Chong-Wah Ngo，Fu-Li Feng，and Tat-Seng Chua.深入理解烹饪过程，用于跨模态食谱检索.在2018 年 ACM 多媒体会议上，第 1020-1028 页 ACM ，2018。[10] KyunghyunCho，BartVanMerrieünboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。[11] Bin Dai和David Wipf。诊断和增强可重构模型。arXiv预印本arXiv：1903.05789，2019。[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[13] 大卫·埃尔斯韦勒，克里斯托夫·特拉特纳，摩根·哈维。利用食物选择偏好推荐更健康的食谱。第40届国际acmsigir信息检索研究与开发会议论文集，第575-584页。ACM，2017。[14] 马丁·恩吉尔贝、路易斯·谢弗·阿利耶、帕特里克·佩雷斯和马蒂厄·科德。在汉堡里发现豆子：深层语义-具有定位的视觉嵌入。在IEEE计算机视觉和模式识别会议集，第3984-3993页[15] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。[16] Fangxiang Feng，Xiaojie Wang，and Ruifan Li.具有对应自动编码器的跨模态检索。第22届ACM多媒体国际会议论文集，第7-16页。ACM，2014年。[17] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise：一个深度视觉语义嵌入模型。神经信息处理系统的进展，第2121-2129页，2013年[18] 龚云超，柯启发，迈克尔·伊萨德，斯韦特兰娜·拉泽布尼克.一个多视图嵌入空间，用于建模互联网图像，标签及其语义。国际计算机视觉杂志，106（2）：210[19] 马文·哈里斯。好吃：食物和文化之谜。北京：人民出版社，1998.[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[21] 哈罗德·霍特林两组变量之间的关系Biometrika，28（3-4）：321[22] 炎黄、魏王、梁王。基于选择性多模态lstm的实例感知在IEEE计算机视觉和模式识别会议论文集，第2310-2318页[23] 贺谷北斗相泽清春小川诚利用卷积神经网络进行食品检测和识别。第22届ACM多媒体国际会议论文集，第1085-1088页。ACM，2014年。[24] Chloe 'Kiddon，Luke Zettlemoyer和Yejin Choi。使用神经检查表模型进行全局连贯文本生成。2016年自然语言处理经验方法会议论文集，第329-339页，2016年[25] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[26] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[27] Ryan Kiros，Ruslan Salakhutdinov，and Rich Zemel.多模态神经语言模型。国际机器学习会议，第595-603页，2014年[28] Ryan Kiros 、 Yukun Zhu 、 Ruslan R Salakhutdinov 、Richard Zemel 、 Raquel Urtasun 、 Antonio Torralba 和Sanja Fidler。跳过思维向量。神经信息处理系统的进展，第3294-3302页，2015年[29] TomaszKusmierczykandKjetilNør vapought.在线食品配方标题语义：结合营养事实和主题。在第25届ACM国际信息与知识管理会议上，第2013-2016页。ACM，2016。14580[30] Kuang-Huei Lee，Xi Chen，Gang Hua，Houdong Hu，and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意在欧洲计算机视觉会议（ECCV）的会议记录中，第201-216页[31] Kuang-Huei Lee，Xiaodong He，Lei Zhang，and Linju

下载后可阅读完整内容，剩余1页未读，立即下载