食谱与食物图像的联合嵌入：一个大规模的数据集和神经网络模型的研究

118 浏览量更新于2023-10-15 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习烹饪食谱和食物图像Amaia Salvador1尼古拉斯·海因斯2优素福·艾塔尔2 哈维尔·马林2费尔达·奥夫利3英格玛·韦伯3安东尼奥·托拉尔巴21Uni versitat Polite` cnica de Catalun ya2麻省理工学院卡塔尔计算研究所，HBKUamaia. upc.edu，nhynes@mit.edu，{yusuf，jmarin，torralba} @ csail.mit.edu，{fofli，iweber} @ qf.org.qa摘要在本文中，我们介绍了Recipe1M，一个新的大规模，结构化的语料库超过1M烹饪食谱和800K食物图像。作为最大的公开可用的配方数据集合使用这些数据，我们训练一个神经网络来找到食谱和图像的联合嵌入，在图像食谱检索任务中产生令人印象深刻的结果此外，我们证明，通过增加一个高层次的分类目标的正则化，既提高了检索性能的竞争对手的人类，使语义向量运算。我们假设这些嵌入将为进一步探索Recipe1M数据集以及食物和烹饪提供基础代码、数据和模型是公开的1.1. 介绍很少有东西像食物一样对人类的生活如此重要。它的消费与我们的健康，我们的感受和我们的文化密切相关。即使是在外国开始新生活的移民，也往往比他们的母语更长时间地坚持他们的民族食物。尽管食物对我们的生活至关重要，但它也为计算机视觉中的局部挑战提供了新的视角，例如找到对遮挡和变形（如在配料加工过程中发生的）具有鲁棒性的表示。大量的在线食谱集合与用户提交的照片提出了培训机器的可能性，通过联合分析配料表，烹饪说明和食物图像来自动理解食物制备。远远超出仅在烹饪艺术领域的应用，这种工具也可以应用于社交媒体上分享的过多食物图像，以深入了解食物的重要性及其在公共场所的准备。同样的贡献。1http://im2recipe.csail.mit.edu图1：从在线资源中收集的食谱-图像对中学习跨模态嵌入。这些使我们能够深入了解食物从它的入口到它的准备。健康[4]和文化遗产[14]。开发自动化分析工具需要大型且精心策划的数据集。大规模标记数据集[19，26]和深度学习表示[10，20，5]的出现重新定义了对象识别和场景分类的最新技术此外，同样的技术已经在新的领域取得了进展，如密集标记和图像分割。也许引入一个新的大规模食物数据集--例如，对成分的状态进行分类（例如，切片、切丁、生的、烤的、烤的或煮的）在属性识别中提供了独特的挑战此外，食物的自由形式的性质表明，从具体的分类任务出发，一个目标，它整合了配方结构中的变化然而，现有的工作主要集中在使用中等规模的数据集进行分类[1，8，16，13]。例如，Bossard et al. [1]引入了Food-101视觉分类数据集，并将基线设置为50。8%的准确率。即使有食物图像分类的动力，[13]，[16]和[17]的后续工作也只能将该结果提高到77。4%，79%和80%。9%，30203021图2：数据集统计。课程类别的普及率以及每个食谱的说明和配料数量。分区#食谱图像数量培训720,639619,508验证155,036133,860测试154,045134,338总1,029,720887,706表1：Recipe1M数据集。训练集、验证集和测试集中的样本数。这表明数据集的大小可能是限制因素。Myers et al.[16]在Food-101的基础上，为了解决估计膳食能量含量的新挑战，他们工作中使用的分割和深度信息无法用于进一步探索。在这项工作中，我们通过引入包含一百万个结构化烹饪食谱及其图像的大规模Recipe1M数据集来此外，为了证明其实用性，我们提出了im2recipe检索任务，它利用完整为此，我们开发了一个多模态神经模型，该模型联合学习将图像和食谱嵌入到一个公共空间中，该公共空间通过添加高级分类任务进行语义正则化。所得到的嵌入的性能进行了彻底的评估，对基线和人类，显示出显着的改善，前者，而faring到后者。随着Recipe1M的发布，我们希望不仅能促进im2recipe任务的发展，而且还能促进迄今为止无法想象的目标的发展，这些目标需要对该领域有深刻的理解及其模式。2. 数据集考虑到理解食谱的相关性，令人惊讶的是我们估计，这是由于缺乏一个大的，一般的食谱数据收集。据我们所知，几乎所有现成的食品相关数据集要么只包含分类图像[16，1，8，24]或简单的食谱文本[11]。直到最近才发布了一些包括食谱和图像的数据集其中第一个[23]有101 k张图像，平均分为101个类别;然而，每种方法的配方都是原始的HTML。在后来的工作中，Chen和Ngo [6]展示了一个包含110，241张图像的数据集，其中标注了353个成分标签和65，284个食谱，每个都有简介，成分列表和制备说明。值得注意的是，数据集只包含中国菜的食谱。虽然上述数据集构成了学习更丰富的食谱表示的一大步，但它们在通用性或大小方面仍然受到限制。由于学习有效表示的能力在很大程度上取决于可用数据的数量和质量，因此我们创建并公开发布了一个新的大规模结构化食谱数据语料库，其中包括超过100万份与该领域目前最大的数据集相比，Recipe1M包含的食谱是[11]的两倍，图像是[6]的八倍。在以下小节中，我们概述了数据集的收集和组织方式，并对其内容进行了分析。2.1. 数据收集这些食谱是从二十多个流行的烹饪网站上抓取的，并通过一个管道进行处理，该管道从原始HTML中提取相关文本，下载链接的图像，并将数据组装成一个紧凑的JSON模式，其中每个数据都是唯一标识的。作为提取过程的一部分，从配方文本中删除了过多的空格、2.2. 数据结构Recipe1M数据集的内容在逻辑上可以分为两层。第一个包含基本信息，包括标题、配料列表和准备菜肴的一系列说明;所有这些数据都以自由文本形式提供第二层建立在第一层的基础上，包括与配方相关联的任何图像此外，3022食谱用课程标签注释（例如，开胃菜、配菜、甜点），其流行率总结在图2中。2.3. 分析数据集中的平均配方由九个ingre-taste组成，这些ingre-taste在十个指令的过程中被转换。大约有一半的食谱有图像，由于数据源的性质，描绘了完全的预烹饪。Recipe1M包括大约0.4%的重复配方和2%的重复图像（不同配方可以共享相同的图像）。除去这0.4%的食谱，20%的食谱有非唯一的标题，但对称地相差16种成分。0.2%的食谱共享相同的成分但相对简单（例如，意大利面、格兰诺拉麦片），具有六种成分的中值。关于我们的实验，我们仔细地删除了共享同一图像的任何精确的如表1所示，大约70%的数据被标记为训练数据，其余数据在验证集和测试集之间平分在图2中，可以很容易地观察到数据的分布是重尾的。例如，在已经识别的16k个唯一传入中，只有4，000个占出现次数的95%在低端的指令计数，特别是那些与一个步骤，人们会发现可怕的另一端是冗长的食谱和与包括子食谱的食谱相关联的收入列表。图像也存在类似的离群值问题：由于所包括的食谱集合中的几个精选用户提交的图像，所以像巧克力曲奇饼这样的流行食谱具有比平均多几个数量级的图像。值得注意的是，25%的图像与1%的食谱相关联，而所有图像的一半属于10%的食谱;第二层的大小是333 k。3. 学习嵌入在本节中，我们将介绍我们的神经联合嵌入模型。在这里，我们利用配对的（配方和图像）数据来学习一个公共的嵌入空间，如图1所示。接下来，我们讨论配方和图像表示，然后介绍我们的神经联合嵌入模型，该模型建立在配方和图像表示的基础上。3.1. 食谱的表示食谱有两个主要组成部分：它的成分和烹饪说明。我们为这些组件中的每一个开发了合适的表示。成分. 每个配方都包含一组成分文本，如图1所示。对于每个成分，我们学习一个成分级word2vec [15]表示。为了做到这一点从每个成分文本中提取实际成分名称。例如，在“2tbsp of olive oil”中初始成分名称提取任务由双向LSTM解决，该双向LSTM对成分文本中的每个单词执行逻辑回归训练是在我们训练集的一个子集上进行的，我们对实际成分名称进行了注释。组件名称提取模块与99.5%的准确度测试的一个举行了一套。烹饪指导每个食谱都有一个烹饪说明列表。由于指令相当长（平均208个单词），单个LSTM并不适合它们的表示，因为梯度在许多时间步长上会减少。相反，我们提出了一个两阶段的LSTM模型，该模型被设计用于对序列的序列进行编码。首先，每个指令/语句被表示为跳过指令向量，然后在这些向量的序列上训练LSTM以获得所有指令的表示。得到的固定长度表示被馈送到我们的联合嵌入模型中（参见图3中的预编码器）。跳过指令。我们的烹饪指令表示，称为跳过指令，是序列到序列模型的产物[21]。具体来说，我们建立在skip-thoughts [9]技术的基础上，该技术对句子进行编码，并在解码/预测前一个和下一个句子时使用该编码作为上下文我们对此方法的修改包括添加配方开始和结束在任何一种情况下，单个指令的表示都是编码器的最终输出。和以前一样，这被用作我们嵌入模型的指令输入。3.2. 食物意象对于图像表示，我们采用了两种主要的最先进的深度卷积网络，即VGG-16 [20]和Resnet-50 [5]模型。特别是，深度残差网络在各种基准上都有成功的证明记录[5]。虽然[20]建议用小卷积滤波器训练非常深的网络，但深度残差网络使用无处不在的身份映射将其提升到另一个层次，从而能够训练更深的架构（例如，具有50、101、152层）具有更好的性能。我们通过删除最后一个softmax classi- fication层并将其余部分连接到我们的联合嵌入模型来合并这些模型，如图3右侧所示。4. 联合神经嵌入在前面描述的配方和图像表示的基础上，我们现在介绍我们的联合嵌入方法。如图3所示的配方模型包括两个编码器：一个是配料，一个是说明，3023KK表示k图3：具有语义正则化的联合神经嵌入模型。我们的模型学习了食物图像和烹饪食谱的联合嵌入空间。其组合被设计为学习配方级表示。成分编码器组合成分词向量的序列。由于成分列表是一个无序集合，因此我们选择使用双向LSTM模型，该模型同时考虑向前和向后矩阵也是学习的。最后，使用余弦相似性损失和如下定义的余量，使用正和负配方图像对（φR，φv）端到端地训练完整模型，1 −cos（φR，φv），如果y=1订单指令编码器被实现为跳过指令向量上的前向LSTM模型。的Lcos（（φR，φv），y）=max（0，cos（φR，φv）−α），如果y=−1两个编码器的输出被连接并嵌入到食谱-图像联合空间中。图像表示通过线性变换被简单地投影到该空间中。我们的目标是学习转换，使给定的食谱图像对的嵌入形式上，假设我们给出一组配方-图像对（Rk，vk），其中Rk是第k个配方，vk是相关的图像。进一步地，令Rk=（{st}nk，{gt}mk，vk），其中{st}nk是其中cos（. ）是归一化余弦相似度，α是边缘。5. 语义正则化我们通过在具有共享高级别权重的多个模态中解决相同的高级别分类我们把这种方法称为语义正则化。关键k t=1k t=1k t=1nk烹饪说明，{gt}mk是mk的序列想法是如果共享高级判别权重，k t=1梯度代币。目标是最大化正配方图像对之间的余弦相似性，并且最小化所有非匹配配方图像对之间的余弦相似性，直到指定的余量。配料编码器使用双向LSTM实现：在每个时间步，它取gt和gm−t+1的两个成分- w ord 2 v ec 表示，并且最终它为ingredi产生固定长度的k khg耳朵。指令编码器通过常规LSTM实现。在每个时间步，它从跳过指令编码器接收指令表示，最后它产生固定长度的表示hs。hg和hs然后这两种形式（配方和图像嵌入）应该以类似的方式利用这些权重，这带来了基于区分的另一个对齐级别。我们将这个目标与我们的联合嵌入损失一起优化。本质上，该模型还学习将任何图像或食谱嵌入到与食物相关的语义类别中。我们限制了语义正则化的效果，因为它不是我们要解决的主要问题。语义分类。我们首先将Food-101 catories分配给那些在标题中包含它们的食谱。然而，在这个过程之后，我们只能注释13%的数据集，我们认为这是不够的标记数据k k k以获得配方表示哈河然后，配方和图像表示被映射到联合嵌入空间中，如下所示：φ R=WRhR+bR和φ v= Wvvk+ bv。WR和Wv是嵌入的一个好的正则化。因此，我们组成了一个更大的集合，纯粹从菜谱标题中提取的语义类别。我们首先从训练集中获得食谱标题中最常见的2,000个二元组。我们手动删除那些3024im2recipe recipe2immedRR@1R@5R@10medRR@1R@5R@10随机排序5000.0010.0050.015000.0010.0050.01CCAw/ skip-thoughts + word 2 vec（GoogleNews）+图像功能25.20.110.260.3537.00.070.200.29CCAw/ skip-instructions +配料word 2 vec+图像特征15.70.140.320.4324.80.090.240.35联合酋长国只7.20.200.450.586.90.200.460.58联合酋长国+语义5.20.240.510.655.10.250.520.65表2：im2recipe检索比较。报告了基线和我们的方法的中位数排名和前K的召回率。请注意，联合神经嵌入模型始终优于所有基线方法。联合酋长国方法im2recipeRecipe2immedR-1KmedR-5KmedR-10KmedR-1KmedR-5KmedR-10K固定视力15.371.8143.616.476.8152.8VGG-16微调（英尺）12.156.1111.410.551.0101.4ft +语义寄存器。8.236.472.47.333.464.9固定视力7.935.771.29.341.983.1ResNet-50微调（英尺）7.231.562.86.929.858.8ft +语义寄存器。5.221.241.95.120.239.2表3：消融研究。不同模型组分对中位数秩的影响（越低越好）。包含不需要的字符（例如，不！，？或）和那些不具有区别性食物特性的（例如，最好的比萨饼，超级简单或5分钟）。然后，我们将剩下的每个二元组作为语义类别分配给所有在标题中包含它的食谱。通过使用二元组和Food-101类别，我们总共获得了1，047个类别，覆盖了数据集的50%。鸡肉沙拉、烤蔬菜、巧克力蛋糕和炸鱼是我们使用该程序收集的类别中的一些示例。所有那些没有语义类别的食谱都被分配到一个额外的背景类。虽然在生成的类别中有一些重叠，但我们数据集中73%的食谱（不包括背景类别中的食谱）属于单一类别（即，在它们的标题中仅出现所生成的类中的一个）。对于标题中出现两个或更多类别的配方，选择数据集中频率最高的类别。分类. 为了将语义正则化结合到联合嵌入中，我们使用单个全连接层。给定嵌入φv和φr，类概率通过pr=Wcφr和pv=Wc φv以及softmax激活获得。Wc是学习的权重矩阵，在图像和食谱嵌入之间共享，以促进它们之间的语义对齐形式上，我们将语义正则化损失表示为Lreg（φr，φv，cr，cv），其中cr，cv是食谱和图像的语义类别标签，L（φr，φv，cr，cv，y）=Lcos（（φr，φv），y）+λLreg（φr，φv，cr，cv）优化.我们遵循两阶段优化过程，同时学习模型。如果我们同时更新配方编码和图像网络，优化就会变得振荡甚至发散。以前关于跨模态训练的工作[2]建议分别为不同的模态训练模型，然后联合微调它们以实现对齐。根据这一认识，我们在训练模型时采用了类似的过程。我们首先固定图像网络的权重，这些权重是在ImageNet对象分类任务的预训练中找到的通过这种方式，配方网络学习将其自身与图像表示对齐，并且还学习语义正则化参数（Wc）。然后我们冻结配方编码和语义正则化权重，并学习图像网络。这两个阶段的过程是至关重要的成功优化的目标函数。在这个初始对齐阶段之后，我们释放所有要学习的权重。然而，在最终的联合优化中，结果没有太大变化。实现细节所有的神经模型都是使用Torch7框架2实现的。边际α为分别注意，如果（φr，φv）为一对正的然后我们可以将最终目标写为：2http://torch.ch/3025图4：检索示例。从左至右：（1）查询图像，（2）其相关联的配料列表，（3）重新获取的配料，以及（4）与重新获取的食谱相关联的图像。选择0。1在联合神经嵌入模型中。正则化超参数被设置为λ=0。在我们所有的实验中。在优化余弦损失的同时，我们从训练集中挑选出具有20%概率的正配方-图像对和具有80%概率的随机负配方-图像对。这些模型在4台配备12GB内存的NVIDIA Titan X上训练了三天。6. 实验我们从评估im2recipe检索任务的学习嵌入开始然后，我们研究模型中每个组件的效果，并将最终系统与人类性能进行比较我们还通过嵌入空间中的单位可视化和向量运算来分析我们学习的嵌入的6.1. im2recipe检索我们评估im2recipe检索的所有配方表示。给定一个食物图像，任务是从测试食谱集合中检索其我们还使用相同的设置执行报告测试集的所有结果。与基线的比较。典型相关分析（CCA）是在提供成对数据时学习不同特征空间的联合嵌入的最强统计模型之一我们使用CCA在许多高级别的食谱和图像表示作为我们的基线。这些CCA嵌入是使用来自训练数据的食谱图像对来学习的在每个食谱中，成分都是代表性的-[12][13][14][15][16][17][烹饪指令用跨烹饪指令的平均跳过思想向量[9然后，配方被表示为这两个特征的级联。我们还评估了CCA的平均影响word2vec和跳过指令功能作为另一个基线。CCA基线中使用的图像特征是softmax层之前的ResNet-50特征。尽管它们是针对ImageNet数据集上的视觉对象分类任务学习的，但这些特征被计算机视觉社区广泛采用，并且它们已被证明可以很好地推广到不同的视觉识别任务[3]。对于评估，给定一个测试查询图像，我们使用余弦相似性在公共空间中的排名相关的食谱，并执行im2recipe检索。recipe2im检索设置也以同样的方式进行评估。我们采用image2caption检索任务的测试程序[7，22]。我们从测试集中随机选择1,000个配方图像对的子集报告结果我们重复实验10次并报告平均结果。我们报告中位数排名（MedR），并召回率在顶部K（R@K）的所有检索实验。为了澄清，im2recipe任务中的R@5表示在前5个中检索到相应配方的所有图像查询的百分比，因此越高越好。im2recipe检索的定量结果如表2所示。我们的模型在所有指标上都大大优于CCA基线。正如预期的那样，成分word 2 vec和skip-instructions上的CCA比在GoogleNews [15]上训练的word 2 vec和在大规模图书语料库[9]上学习在65%的所有评估查询中，我们的方法可以在给定的食物图像中检索到正确语义正则化显著提高了im2recipe任务的嵌入质量，该任务通过medR从7下降来量化。2到5 表2中的2个。recipe2im任务的结果也类似于im2recipe检索设置中的结果。图4针对不同的图像查询，将来自原始食谱（真实食谱）的成分与检索到的食谱（以及它们对应的图像）进行了比较。从图4中可以看出，我们的嵌入具有很好的通用性，并允许总体上令人满意的配方检索结果。然而，在配料级别，可以发现在某些情况下，我们的模型会检索缺少配料的食谱。这通常是由于缺乏细粒度特征（例如，虾和鲑鱼之间的混淆）或仅仅因为在查询图像中成分不可见（例如，在奶昔中的蓝莓或在千层面中的牛肉）。消融研究。我们还分析了在我们的模型中的每个组件在几个优化阶段的效果。结果报告于表3中。请注意，这里我们还报告了medR与1K，5K和10K随机选择，以显示结果如何在更大的检索问题中扩展。不出所料3026图5：局部单元激活。我们发现，成分检测器出现在我们的嵌入中的不同单元中，这些单元在模态之间对齐（例如，第352单元：“奶油”，第22单元：“海绵蛋糕”或单元571：“牛排”）。与VGG-16特征相比，来自ResNet-50模型的视觉特征在检索性能上显示出实质性的改进。即使使用“固定视觉”网络，联合嵌入也实现了7. 9medR使用ResNet-50架构（见表3）。进一步虽然在小的数量下减少medR变得困难得多，但是额外的“语义正则化”在两种情况下都6.2. 与人类性能的为了更好地评估嵌入的质量，我们还评估了人类在im2recipe任务中的表现。实验通过Amazon MachanicalTurk（AMT）服务3执行。为了保证质量，我们要求每个AMT工人至少有97%的认可率，并且在我们的实验之前至少完成了500项任务在单个评估批次中，我们首先随机选择10个食谱及其相应的图像。然后，我们要求AMT工作人员为给定的食物图像从10个提供的食谱中选择正确的食谱对于批次中的每个食物图像，该多选选择任务被执行10评估批次的准确性定义为正确分配给相应配方的图像查询的百分比。针对三个难度水平进行评价。从所有测试配方（简单）、共享相同课程的配方（例如，汤、沙拉或饮料;介质），或共享菜肴名称的食谱（例如，三文鱼、比萨饼或意大利饺子;硬）。正如3http://mturk.com特定.在粗粒度和细粒度的测试中，我们的方法的性能优于AMT工人。正如假设的那样，语义正则化进一步改善了结果（见表4）。在“所有配方”条件下联合嵌入与语义正则化-灰执行最好的3。比人类平均准确率提高2个对于特定于过程的测试，在每个给定的膳食过程中随机选择5个虽然，平均而言，我们的联合嵌入tic正则化我们的联合嵌入超过人类的性能6。8个百分点。在菜肴特定测试中，如果五个随机批次具有菜肴名称，则选择它们（例如，比萨饼在标题中。一般来说，精度略低，特定于菜肴的结果也显示出类似的行为。特别是对于“饮料”和“思慕雪”结果，人的表现优于我们的方法，这可能是因为需要详细的分析来引出饮料中的均质化杂质。对于“寿司”结果也观察到类似的行为6.3. 学习嵌入为了进一步了解我们的神经嵌入，我们进行了一系列定性分析实验。我们探讨是否有任何语义概念出现在神经元激活和嵌入空间是否有一定的算术属性。神经元可视化。通过神经激活视觉化，我们调查是否有任何语义概念出现在3027-+=-+=-+=-+=-+=-+=-+=-+=-+=所有食谱课程特定食谱菜肴特定食谱甜点沙拉面包饮料炖汤过程平均意大利面披萨牛排鲑鱼冰沙汉堡馄饨寿司碟平均人81.6 ±8.952.070.034.058.056.054.0±13.054.048.058.052.048.046.054.058.052.204.6±联合酋长国仅83.6 ±3.076.068.038.024.062.053.6±21.858.058.058.064.038.058.062.042.054.809.4±联系我们语义84.8 ±2.774.082.056.030.062.060.8±20.052.060.062.068.042.068.062.044.057.2±10.1表4：与人类在im2recipe任务上的表现的比较。为了更好的可视化，平均结果以粗体突出显示。请注意，平均而言，我们使用语义正则化的方法比平均AMT工作者执行得更好(a) 图像(b) 配方(c) 交叉模态图6：使用图像嵌入（左），配方嵌入（中）和图像和配方嵌入之间的交叉模态算法（右）的算法我们用来自其4个最近邻居的图像表示查询的平均向量在算术结果的情况下，我们只显示最近的邻居。我们的嵌入向量中的神经元，尽管没有为此目的进行我们为一个给定的神经元挑选最活跃的图像、配料列表和烹饪说明然后，我们使用的方法介绍了周等人。[25]可视化图像区域，这些区域对我们学习的视觉嵌入中的特定单元我们在配方方面应用相同的程序，以获得某些单位反应最大的成分和配方说明。图5显示了图像和配方嵌入中相同单元的结果我们发现，某些单位显示本地化的语义对齐之间的嵌入的两种方式。语义向量算法文学中的不同作品[15，18]使用简单的算术运算来证明其学习表示的能力。在食物食谱的上下文中，人们会期望v（我们调查我们的学习嵌入是否有这样的属性，通过应用前面的公式模板的平均向量的食谱，包含查询的话，在他们的标题。我们在图像和配方嵌入空间中应用此过程，并分别在图6（a）和6（b）我们的研究结果表明，学习的嵌入具有语义属性，可以在学习空间中转换为最后，我们将相同的算术运算应用于跨模态的嵌入。特别是，我们探讨的情况下，修改的配方，线性结合其图像嵌入与各种文本起源的嵌入。为例如，给定巧克力蛋糕的图像，我们尝试通过分别移除和添加蛋糕和纸杯蛋糕的平均配方嵌入来将其转换为巧克力纸杯蛋糕图6（c）显示了结果，我们发现其与在相同模态中使用嵌入的结果可比较。这表明在我们的模型中学习的配方和图像嵌入在语义上是一致的，这就提出了在配方修改中应用的可能性（例如，成分替代、卡路里调节）或甚至跨模态生成。7. 结论在本文中，我们介绍了Recipe1M，迄今为止最大的结构化食谱数据集，im2recipe问题，以及具有语义正则化的神经嵌入模型，这些模型在im2recipe任务中取得了令人印象深刻的结果。更一般地说，这里提出的方法可以有效地应用于其他“配方”，如汇编指令，教程和工业过程。此外，我们希望我们的贡献将支持创建用于食品和食谱理解的自动化工具，并为学习的许多较少探索的方面打开大门，例如组合创造力和预测动作序列的视觉结果。8. 确认这项工作得到了CSAIL-QCRI合作项目和项目TEC2013 - 43935-R和TEC 2016 -75976-R框架的支持，由西班牙经济与竞争部和欧洲区域发展基金（ERDF）资助。3028引用[1] L. Bossard，M. Guillaumin和L.范古尔Food-101-用随机森林挖掘判别成分。欧洲计算机视觉会议，第446Springer，2014. 一、二[2] L. Castrejon，Y.艾塔尔角Vondrick，H.Pirsiavash和A.托拉尔巴。从弱对齐数据中学习对齐的跨模态表示。在计算机视觉和模式识别（CVPR），2016年IEEE会议上。IEEE，2016. 5[3] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。Decaf：用于通用视觉识别的深度卷积激活功能。arXiv预印本arXiv：1310.1531，2013。6[4] V.R.的值K. Garimella、A.阿尔法亚德和我韦伯公共卫生的社交媒体图像分析。在CHI中，第5543-5547页1[5] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。arXiv预印本arXiv：1512.03385，2015。第1、3条[6] C.- W. N.陈晶晶用于烹饪食谱检索的深层成分识别。ACM Multimedia，2016. 2[7] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义在IEEE计算机视觉和模式识别会议论文集，第3128-3137页6[8] Y. Kawano和K.柳井Foodcam：智能手机上的实时食物识别系统。多媒体工具和应用， 74（14 ）： 5263-5287，2015。一、二[9] R. Kiros，Y.朱河，巴西-地萨拉胡季诺夫河Zemel，A.托拉尔巴R. Urtasun和S.菲德勒跳过思维向量。在NIPS，第3294-3302页，2015年。三、六[10] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。1[11] T.库斯米尔奇克角Trattner和K.诺沃格了解和预测在线食品配方生产模式。在HyperText，2016. 2[12] Q. V.Le和T.米科洛夫句子和文档的分布式表示arXiv预印本arXiv：1405.4053，2014年。6[13] C. Liu，Y. Cao，Y. Luo，G. Chen，V. Vokkarane，andY. MA. Deepfood：基于深度学习的食物图像识别，用于计算机辅助饮食评估。在智能家居和健康电信国际会议上，第37施普林格，2016年。1[14] Y. Mejova，S. Abbar和H.哈达迪数字时代的美食：#foodporn在世界各地在ICWSM，第250-258页，2016年。1[15] T. Mikolov，K. Chen，G. Corrado，J。Dean.向量空间中词表示的有效估计。CoRR，abs/1301.3781，2013。三六八[16]A. Myers，N.约翰斯顿河Rathod，A.Korattikara、A.戈尔班，N. Silberman，S.瓜达拉马湾Papandreou，J.Huang和K. 墨菲Im2calories：Towards an automated mobile visionfood diary.在ICCV，第1233-1241页，2015年。一、二[17] F. Ofli，Y.艾塔尔岛韦伯河Hammouri和A.托拉尔巴saki好吃吗？Instagram上的食物认知差距及其3029与健康的关系。第26届万维网国际会议论文集。国际万维网大会指导委员会，2017年。1[18] A. 拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。8[19] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨特伊什妈，Z. Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein等人ima-genet大规模视觉识别挑战赛。InternationalJournal of Computer Vision，115（3）：211-252，2015.1[20] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。第1、3条[21] I. Sutskever，O.Vinyals和Q.诉乐用神经网络进行序列到在NIPS，第3104-3112页3[22] O. Vinyals ， A.Toshev ， S.Bengio 和 D. 二汉 Show andtell：A neural image caption generator.在IEEE计算机视觉和模式识别会议论文集，第3156-3164页6[23] X. Wang，中国山杨D.库马尔，北托梅，M. Cord和F.太好了大型多模态食物数据集的食谱识别。在ICME研讨会，第1-6页，2015年。2[24] R.许湖，加-地Herranz，S. Jiang，S. Wang，X. Song和R. 贾恩。地理定位模型在菜肴识别中的应用。IEEETrans.Multimedia，17（8）：1187-1199，2015. 2[25] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴目标检测器出现在深场景cnn中。2015年国际学习表征会议。8[26] B. Zhou ，中国古柏 A. Lapedriza ， J. Xiao 、肖氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。神经信息处理系统的进展，第487-495页，2014年。1

下载后可阅读完整内容，剩余1页未读，立即下载