多模态食谱嵌入：基于图神经网络的多模态食谱表征学习

162 浏览量更新于2023-11-04 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文Recipe2Vec：基于图神经网络的田怡君1，张初旭2，郭志春1，马义红1，Ronald Metoyer1，Nitesh V. Chawla1小时1美国圣母大学计算机科学系2美国布兰迪斯大学计算机科学系1{yijun.tian，zguo5，yma5，rmetoyer，nchawla}@nd.edu，2chuxuzhang@brandeis.edu摘要学习有效的食谱表征在食品研究中至关重要。与针对基于图像的食谱检索或学习结构化文本嵌入所开发的不同，多模态信息的组合效果（即，配方图像、文本和关系数据）受到较少关注。在本文中，我们形式化的多模态食谱表示学习的问题，整合视觉，文本和关系信息到食谱嵌入。特别是，我们首先介绍了Large-RG，这是一个新的配方图数据，拥有超过50万个节点，使其成为迄今为止最大的配方图。然后，我们提出了Recipe2Vec，一种新的基于图神经网络的食谱嵌入模型来捕获多模态信息。此外，我们还引入了一种对抗性攻击策略，以确保稳定的学习和提高性能。最后，我们设计了一个节点分类和对抗学习的联合目标函数来优化模型。大量的实验表明，Recipe2Vec在两个经典的食物研究任务上优于最先进的基线，即，菜系分类和区域预测。数据集和代码可在www.example.com上获得https://github.com/meettyj/Recipe2Vec。1介绍大规模的食物数据提供了丰富的食物信息，可以帮助解决许多关键的社会问题[Minet al. ，2019]。特别是，食谱表示学习将食谱嵌入潜在空间中，允许从大量食物数据集中提取隐藏信息，并促进依赖于强大的食物空间表示的各种应用任务，例如烹饪习惯分析[Minet al. ，2018]，食谱健康评估[Rokickietal. ，2018]，配方推荐[Tianet al. ，2022]和配方分类[Li和Zaki，2020]。现有的食谱表示学习方法完全依赖于文本内容[Li和Zaki，2020]。他们*通讯作者图1：Large-RG的图示。我们将视觉和文本信息与食谱节点相关联，并提取用户，食谱和成分节点之间的各种类型的关系。利用食谱的成分和说明，但忽略了食谱和食物之间的关系。除了利用文本信息之外，rn2vec [Tianetal. ，2021]提出了一种食谱网络嵌入模型来捕获关系信息。然而，rn2vec忽略了与每个配方相关联的大量图像，从而导致次优性能。虽然一些研究考虑了食谱图像，但它们通常集中在基于图像的应用上，例如从图像中识别和检索食谱[Pandeyet al. ，2017;Chenet al. ，2018]。这些作品试图将图像和文本对齐在一个共享的嵌入空间中，用于特定的下游任务，但忽略了每个模态中包含的独特信息。在本文中，我们提出了多模态食谱表示学习的问题，它利用不同的模态，如图像，文本和关系来学习食谱嵌入。为了解决这个问题，我们首先创建并发布了一个新的配方图Large-RG，它包含超过50万个节点，是迄今为止最大的配方图。如图1所示，我们提取每个配方的视觉，文本和关系信息来构建Large-RG，它由三种类型的节点和四种类型的边组成然后，我们提出了Recipe2Vec，一种新的基于图神经网络（GNN）的多模态食谱表示模型arXiv：2205.12396v1 [cs.LG] 2022年5月+v：mala2277获取更多论文E ∈F学习具体来说，我们首先使用各种预先训练的神经网络对节点属性进行编码，包括两阶段LSTM [Marinet al. ，2019]的说明和ResNet [Heet al. ，2016]的图像。接下来介绍多视图邻居采样器，用于分别从基于图形模式的邻居和基于Meta路径的邻居捕获局部和高阶信息。我们还设计了几个基于神经网络的模块来融合来自不同节点、模态和关系的信息。此外，我们还引入了一种基于特征的对抗性攻击策略，以确保稳定的学习和提高模型性能。最后，我们设计了一种新的节点分类和对抗学习的组合目标函数来优化模型。概括而言，我们的主要贡献如下：• 作为研究多模态食谱表征学习问题的第一次尝试，我们创建并发布了表1图2：大- RG、菜系和地区类别的统计数据组件名称Number用户38,624节点配方成分472,51522,186用户配方1,193,179边缘食谱-食谱配方成分644,2564,440,820配料-配料170,642学习向量化节点嵌入。它们利用节点属性和关系信息来学习不同图挖掘任务的比如说，大RG，一个新的配方图数据超过一半，G A T[Veli cko vi c'etal. 、 201 8]empl o ysself-attention这是迄今为止最大的食谱图。• 我们提出了一种新的基于GNN的食谱嵌入模型Recipe2Vec来解决这个问题。Recipe2Vec能够捕获视觉、文本和关系信息，并通过几个神经网络模块学习有效的表示。我们进一步引入了一个新的目标函数来优化模型。• 我们进行了大量的实验来评估我们的模型的性能。结果表明，Recipe2Vec的优越性，通过比较它与国家的最先进的基线上的两个经典的食物研究任务：美食类别分类和区域预测。2相关工作这项工作与食谱数据集、食谱表示学习和图神经网络密切相关。配方数据集。现有的数据集只关注食谱图像、文本或成分之间的简单关系 [Marinet al. ， 2019; Haussmannetal. ，2019; Tianet al. ，2021;Park等人，2021]，但未能包含所有这些信息，并进一步忽略了复杂的结构和用户信息，导致通用性和完整性差。与现有的工作不同，我们创建和发布一个食谱图数据，其中包含广泛的关系信息和多模态信息，包括图像和文本。Recipe Representation Learning. 现有的工作集中在使用文本内容来学习食谱表示 [Li 和 Zaki ， 2020;Tianetal. ，2021]。他们利用与食谱相关的说明和配料，但忽略了大量的食谱图像。其他几个作品考虑的图像，[卡瓦略等人。， 2018;Marinetal. ， 2019;Wanget al. ，2019a;Salvadoret al. ，2021]，但是它们通常集中在食谱图像检索任务上，并试图在共享空间中将图像和文本对齐在一起，从而导致两种模态的信息丢失。相反，我们专注于使用从图像，文本和关系中提取的多模态信息来学习食谱表示。机制来衡量不同邻居的影响，并结合它们的影响，以获得节点嵌入。HAN [Wanget al. ，2019 b]使用分层注意力通过聚合来自节点级和语义级结构的信息来学习嵌入。受这些研究的启发，我们构建了一个基于GNN的模型来学习食谱嵌入。此外，对抗性学习在训练神经网络方面表现出很好的性能[Jianget al. ，2020; Xieet al. ，2020]。因此，我们引入了一种基于特征的对抗性攻击策略，以确保稳定的学习并进一步提高性能。3初步在本节中，我们描述了异构配方图的概念，并正式定义了多模态配方表示学习的问题。我们进一步介绍了我们在这项工作中创建的大RG定义3.1.异构配方图。异构配方图被定义为具有多种类型的节点V（即，用户、配方、成分）和边E（例如，图中的U-R、R-R、R-I、I-I1）。此外，节点与属性X相关联，例如，图像、说明和营养。问题1.多模态食谱表示学习。给定配方图G=（V，E，X），任务是设计具有参数Θ的学习模型Θ以学习d维配方嵌入Rd，同时编码多模态信息（即，视觉，文本和关系信息）。所学习的食谱表示可以用于各种下游任务，例如烹饪类别分类和区域预测。大型RG数据。为了解决这个问题，我们首先创建Large-RG数据。在表1中报告了Large-RG的统计数据。图1和图2。具体来说，我们首先从Recipe1M [Marinet al. ，2019年]，并从www.example.com抓取每个食谱的用户评分food.com。然后，我们将每种成分与USDA营养数据库[USDA，2019]进行匹配，以确定其营养价值。之后，我们构建Large-RG图神经网络工作。Ma n yGNNs[Veli cko vi c'et通过将用户、食谱和配料表示为节点，al. ，2018;Schlichtkrullet al. ，2018;Wanget al. ，2019b;Zhanget al. ，2019a;Zhanget al. ，2019b]建议将它们与四种类型的关系联系起来。特别是，我们通过连接每个+v：mala2277获取更多论文∈我图3：（a）Recipe2Vec的总体框架：我们首先对节点属性进行编码，并提出了一个多模态异构GNN，其中包含各种模块来编码视觉，文本和关系信息，用于学习食谱嵌入。然后，我们引入了一种基于特征的对抗性攻击策略，以确保稳定的学习，并设计了一个节点分类和对抗性学习的联合损失，以优化模型;（b）自适应节点聚合器：编码来自特定关系下节点的信息;（c）跨模态聚合器：融合来自不同模态的信息;（d）注意关系聚合器：使用注意机制融合不同关系上的嵌入;（e）基于特征的对抗性攻击：通过生成输入特征的对抗性扰动来学习对抗性特征。食谱及其成分。我们构建的用户食谱关系的基础上，用户评级。我们还通过FoodKG确定的相似性连接食谱节点[Haussmannet al. ，2019]并基于共现概率连接成分节点[Parket al. ，2021]。此外，我们从food.com抓取食谱标签来创建两个新类别，并为每个食谱分配一个烹饪类和一个地区类。4模型在本节中，我们将介绍Recipe2Vec的详细信息。如图3所示，我们首先对节点属性进行编码，并开发一个多模态异构GNN来学习配方嵌入。所提出的GNN包含多个模块，包括多视图邻居采样器、自适应节点聚合器（图3（b））、跨模态聚合器（图3（c））和注意力关系聚合器（图3（d））。我们还引入了基于特征的对抗性攻击策略（图3（e）），以确保稳定的学习。最后，我们设计了一个新的目标函数来优化模型。4.1编码节点属性我们预先训练一个ResNet [Heet al. ，2016]来编码食谱图像和两阶段LSTM [Marinet al. 2019年]，对指令进行编码。接下来，我们将预训练的图像嵌入（ximg）和指令嵌入（xins）与配方节点关联起来作为节点属性。类似地，我们将营养素视为成分节点（xing）的属性，将随机向量视为用户节点（xuser）的属性由于针对不同模态的属性，我们引入了一个特定于模态的输入投影，将节点属性投影到一个共享的嵌入空间中：hi，m=Wm·xi，m，（1）其中WmRdm×d是模态m，xi，m的投影是节点vi与维度dm的关联属性，并且hi，m是具有维度d的节点vi的投影特征。4.2多模态异构GNN对于具有输入特征hi，m的每个配方节点vi，我们首先引入多视图邻居采样器以从图模式视图和元路径视图中采样节点。然后，我们使用一个自适应的节点聚合器编码的信息下的一个特定的关系。接下来，我们提出了一个跨模态聚合器，融合来自不同模态的信息。在此基础上，我们设计了一个注意力关系聚合器，将来自不同关系的信息组合起来，得到最终的食谱嵌入。多视图相邻采样器。我们引入了多视图邻居采样器，以同时通过图模式视图捕获本地信息和通过元路径视图捕获高阶信息[Donget al. ，2017]。在图模式视图中，节点聚合来自其直接邻居的信息，我们将其表示为基于图模式的邻居NS。在元路径视图中，通过高阶信息的元路径行走来确定邻居。特别地，给定元路径P，+v：mala2277获取更多论文我∈∈∈∈Σǁ∈ΣΣ∈∈Y∈ⓈΣ∈Ni和Ni，记为Ni。此外，由于配方节点与不同的模态相关联（例如，视觉|Vr|Rik，mAdvє∈S我我从vi开始，而不是把所有出现的节点在作为邻居的元路径中，我们定义了重要性池以选择最重要的p个节点。我们首先从vi开始模拟多个元路径行走，并计算每个节点的L1然后，我们通过选择具有最高归一化访问计数的前p个节点来确定重要的邻居我们将这些选择的重要邻居表示为基于元路径的邻居NP。注意力关系聚合器。我们进一步引入注意关系聚合器来学习每个关系的重要性并相应地融合它们。具体来说，我们首先应用权重矩阵WRRd×d来变换hi，r，并使用关系级向量qRd来计算相似度。然后，我们对连接到关系r的所有节点的相似性得分进行平均，以获得节点vi的重要性得分wi，r。该过程的公式如下：最后，v的邻居节点是一组我S Pw=1qT·tanh（W·hi∈Vr+b）、（6）和文本），我们将图拆分为特定于模态的图以单独说明每种模式。自适应节点聚合器。给定一个节点v i及其其中Vr表示连接到的节点的集合，关系r，bRd是偏置向量。接下来，我们规范化wi，r，以获得最终的关系级注意力权重βi，r：相邻节点N1，我们首先对特定关系进行邻居Ni，r<$Ni通过选择连接到i，rexp（wi，r）exp（wi，r）（七）vi通过关系R. 然后，我们计算未归一化β=β、r∈Ri在给定模态m的情况下，在vi和vj Ni，r之间的注意力得分eij，m，并且使用softmax函数来归一化e ij，m以使系数容易比较：eij，m=LeakyReLU[Wij·（hi，m<$hj，m）]，其中Ri表示vi的关联关系。之后，我们将交叉模态嵌入hi，r与βi，r融合，以获得最终的配方嵌入hi：Rihi=β i，r·hi，r.（八）αij，m=αexp（eij，m），经验（二）r=1其中，表示级联，W ijR2d×d是共享权重向量，α ij，m是模态m的v i和v j之间的注意力权重。然后，我们使用α ij，m作为系数来线性组合相互作用，并为每个模态m产生联合的相互作用依赖亲和力A m：所学习的食谱嵌入h1可以用于各种下游任务，诸如烹饪类别分类、区域预测或食谱推荐。具体来说，在这项工作中，我们可以引入监督节点分类损失（例如，交叉熵）来对烹饪类别进行分类（或预测食谱区域）：Am=j∈Ni，rαij，m·Wa·（hi，m<$hj，m），（3）Lsup=−Yilog（FC（hi）），（9）i∈YT其中WaRd×d是一个共享的可训练权重，表示元素乘积。然后，我们根据GIN [Xu et al. ，2019]，同时包括两个共享的变换矩阵W iRd×d和W jRd×d以增强学习能力。我们进一步通过结合依赖于交互的亲和度Am使其适应特定的下游任务，这使得消息依赖于v i和v j之间的亲和度：其中T是训练数据集，FC表示全连接层，Yi是vi的独热标签。4.4 基于知识的对抗性学习由于上述目标函数仅考虑与每个节点相关的具体来说，我们选择投影梯度下降[Madryet al. ，2018年]，2019 - 05 - 25 01：01 02：02：03 02：04 03 02：03 02：040302：03 04：04 05 03 04：0503 04：04 0504：05：050j∈Ni，rWj·hj）+Am]，（4）默认攻击者在运行中生成对抗特征。与我们发送原始输入特征hi，m（等式1）的普通训练相比，1）进入GNN以获得学习的其中h i，r，m是v i通过模态m的关系r的编码嵌入，WoRd×d是共享权重向量。跨模态聚合器。为了更好地利用不同模态中的信息并学习联合嵌入，我们设计了跨模态聚合器来融合来自视觉配方嵌入hi（等式8），对抗训练将恶意扰动的特征h′i，m作为输入，并获得扰动的配方嵌入h′i，其进一步用于计算对抗学习损失L adv：h′i，m=hi，m+m;h′i=GNN（h′i，m），和文本形式。具体来说，我们首先将图像和文本，然后引入一个节点L=最大值[−Ylog（FC（h′））]，（10）类型特异投影W φi∈ R变换为2d×d其中，i∈YT是模态m和S的对抗扰动级联嵌入，其中φi是vi的节点类型：hi，r=Wφi·（hi，r，imagehi，r，text），（5）i，ri，rk∈Ni，r4.3目标函数M+v：mala2277获取更多论文其中hi，r是节点vi的学习跨模态嵌入关系R。M是允许的扰动范围。最终目标函数L被定义为Lsup和Ladv的加权组合：其中λ是用于平衡两个损失的权衡权重+v：mala2277获取更多论文P表2：菜系分类结果。尺度法开胃菜饮料面包汤沙拉甜点蔬菜主菜其他总F1TextCNNResNetmp2vecRGCNGATGINHANHGTReciptorrn2vec50.4 85.9 73.8 62.3 68.9 86.9 49.1 75.9 42.4 73.541.9 88.5 74.3 75.9 76.8 88.7 64.3 83.4 55.6 78.750.0 83.2 67.3 57.7 63.2 85.9 54.9 75.7 43.0 72.452.6 81.8 65.3 52.5 60.1 84.0 49.4 73.7 43.5 70.753.2 84.7 60.7 51.2 64.9 84.468.491.9 82.4 81.2 81.4 91.4 70.9 86.1 70.3 83.967.0 90.4 78.3 79.1 78.9 89.4 66.1 84.6 67.3 81.849.1 89.3 75.1 79.1 78.0 88.4 63.5 82.8 55.3 79.268.2 89.1 79.3 77.4 71.4 90.2 59.9 84.1 57.4 80.976.891.484.4 83.7 83.9 91.5 76.8 86.9 73.5 85.9Recipe2Vec82.3 95.5 89.0 87.9 87.2 94.5 82.3 89.4 78.2 89.4ACCTextCNNResNetmp2vecRGCNGATGINHANHGTReciptorrn2vec45.5 86.3 74.2 61.0 70.9 90.8 41.8 85.8 35.2 69.332.0 89.8 72.9 67.9 72.9 92.1 59.9 90.3 56.6 74.940.7 87.8 61.3 68.4 61.8 90.1 50.4 86.4 34.7 68.647.3 78.7 57.8 43.8 58.0 92.1 44.6 83.7 37.1 66.944.4 81.4 47.6 39.6 70.3 94.6 26.0 84.1 40.0 66.466.093.8 79.7 78.3 81.4 92.0 65.6 89.7 69.5 81.762.0 91.7 75.2 75.1 80.4 92.2 61.6 89.1 64.3 79.540.7 89.4 70.4 75.7 75.9 93.4 54.6 90.8 53.2 75.562.7 86.2 76.2 75.4 71.3 93.6 55.0 91.2 52.7 77.472.590.481.3 80.3 82.7 94.3 72.9 91.4 70.5 84.0Recipe2Vec80.1 95.8 87.5 87.5 88.8 95.5 80.1 91.6 76.0 87.6表3：区域预测结果。尺度法美国欧洲亚洲墨西哥合计F1TextCNNResNetmp2vecRGCNGATGINHANHGT受体rn2vec67.8 56.7 64.3 37.8 62.269.7 58.1 66.7 40.170.2 64.081.4 20.1 67.770.3 64.1 70.769.4 63.6 80.3 24.3 67.073.7 65.5 75.7 55.4 70.271.8 66.8 78.7 58.3 70.271.8 65.5 78.1 50.5 69.573.2 66.8 76.2 57.275.6 68.579.659.8 73.0Recipe2Vec78.7 73.8 85.3 68.9 77.5ACCTextCNNResNetmp2vecRGCNGATGINHANHGT受体rn2vec72.3 57.0 60.0 28.0 62.275.8 55.8 63.2 30.175.4 65.9 77.5 11.576.7 68.6 57.1 18.8 66.473.5 68.2 73.0 14.3 67.077.1 66.2 69.3 48.2 70.271.7 73.0 70.7 50.775.2 68.5 70.5 38.972.669.4 77.8 49.7 70.678.167.477.8 55.0 73.0Recipe2Vec78.6 74.0 83.8 71.0 77.55实验在本节中，我们进行了大量的实验来评估Recipe2Vec的性能并显示相关分析。5.1基线方法我们比较了10个基线，包括经典分类器TextCNN[Kim，2014]，ResNet[Heetal.，2016]，homogeneousgraphembeddingmodelsG A T[Veli cko vi c′etal. ，2018]，GIN[Xuet al. ，2019]，异构图嵌入模型mp2vec[Donget al. ，2017]，RGCN[Schlichtkrullet al. ，2018]，HAN [Wanget al. ，2019 b]，HGT[Huet al. ，2020]，以及食谱表示学习模型Reciptor [Li和Zaki，2020]和rn2vec [Tianet al. ，2021]。5.2实现细节我们将数据分为70/15/15的训练/验证/测试集对于建议的Recipe 2 Vec，我们将学习率设置为0.005，隐藏大小设置为128，指令和图像嵌入的输入维度设置为512，成分嵌入的输入维度设置为46，批量大小设置为4096，配方-用户-配方的元路径，元路径邻居的数量p设置为10，训练时期设置为100，权衡因子λ设置为0.1，扰动范围S设置为0.02，攻击迭代次数设置为5，攻击步长设置为0.005。5.3性能比较我们使用Micro-F1和准确度（Acc）作为评估指标，并在Tab中报告了菜肴类别分类和区域预测任务2、Tab。3，分别。最佳值和次佳值用粗体和下划线突出显示根据这些表，我们可以发现Recipe2Vec在所有情况下都优于这两个任务的所有基线。具体而言，经典分类器（即，TextCNN和ResNet）表现不佳，因为忽略了关系信息和多模态信息。图嵌入方法（例如，GIN和HAN）在引入复杂关系信息后获得了不错的性能。类似地，食谱表示学习模型（例如，rn2vec）取得了令人满意的结果，但它们未能编码不同模态的影响。最后，与所有基线相比，Recipe2Vec实现了最佳性能，在美食类别分类方面提高了+3.5%（F1）和+3.6%（Acc），在区域预测方面提高了+4.5%（F1和Acc）。这表明，与其他模型相比，Recipe2Vec5.4消融研究由于Recipe2Vec包含各种基本组件（即，多视图邻居采样器（NS），自适应节点聚合器（NA），交叉模态聚合器（CA），注意力+v：mala2277获取更多论文表5：烹饪类别分类的错误案例配方标题成分地面实况TextCNN HAN rn2vecRecipe2Vec玉米香菜汤玉米辣椒洋葱香菜汤主菜汤类香草番茄西红柿香草洋葱迷迭香蔬菜主菜主菜蔬菜蔬菜西葫芦勺面包西葫芦鸡蛋牛奶杏仁面包蔬菜主菜蔬菜面包豌豆汁意大利意大利面，黄油，葱，豌豆，.主菜开胃菜沙拉沙拉主菜表4：不同模型变体的F1评分。任务类别–––––Recipe2Vec开胃菜饮料面包汤沙拉甜点蔬菜主菜其他合计81.979.078.581.581.282.395.494.494.095.095.195.588.687.486.988.688.389.0美食87.586.186.087.887.787.986.585.685.786.586.587.2类别94.193.292.994.294.194.5分类81.378.278.681.981.182.389.187.687.789.389.089.477.375.275.978.178.078.288.987.487.389.188.889.4美洲欧洲亚洲78.577.378.278.478.578.7区域73.072.066.773.773.373.884.383.182.984.483.785.3预测65.664.464.567.267.168.976.875.775.177.176.977.5关系聚合器（ RA ）和基于特征的对抗性学习（AL）），我们进行消融研究，通过独立地移除每个组件来分析不同组件的贡献（见表1）。4）。具体来说，删除NA和CA显着影响性能，表明NA和CA都对Recipe2Vec有很大的贡献。此外，我们从我们的模型中删除NS，RA和AL，分别。这些模型变体的性能下降证明了NS、RA和AL在增强模型方面的有效性最后，Recipe2Vec在所有情况下都取得了最好的结果，表明我们模型中不同组件的强大功能5.5为例为了用具体的例子来展示不同模型的性能，我们分析了烹饪类别分类任务中的错误分类案例，如Tab. 5. 具体来说，TextCNN错误地分类了所有这四种配方，这表明文本特征不能完全表示配方，忽略关系信息可能会导致次优性能。韩寒成功地对玉米香菜汤进行了分类，但未能对其他配方进行分类。一个潜在的原因是，仅仅依赖于基于元路径的邻居可能会导致信息丢失。rn2vec成功地对食谱玉米香菜汤和香草番茄进行了分类，但未能对其他两种进行分类。这可能这是因为该模型不能完全捕获的多模态信息，仅使用一个简单的基于GNN的结构。然而，我们的模型Recipe2Vec通过几个神经网络模块考虑了视觉，文本和关系信息，它清楚地区分了类别之间的差异，并正确地对这些食谱进行分类。图4：嵌入可视化的食谱。5.6嵌入可视化为了更直观地理解和比较，我们使用t-SNE可视化不同模型的嵌入。如图4所示，TextCNN表现不佳。只有饮料，沙拉，甜点和面包是分开的，而其他类别是混合的。HAN能区分大部分种类，但不能区分开胃菜、蔬菜和主菜。虽然rn2vec可以成功地分离所有类别，但它们的区别是模糊的，即，不同类别的点彼此接近。然而，我们的模型Recipe2Vec可以清楚地识别每个类别，并将它们区分开来。这再次证明了Recipe2Vec可以学习有区别的配方嵌入。6结论在本文中，我们提出并形式化的多模态食谱推荐学习的问题。为了解决这个问题，我们创建并发布了Large-RG，这是一种新的大规模食谱图形数据，以促进基于图形的食品研究。此外，我们开发了Recipe2Vec，一种新的基于GNN的配方嵌入模型。Recipe2Vec能够通过各种精心设计的神经网络模块捕获视觉，文本和关系信息。我们还设计了一个节点分类和对抗学习的联合目标函数大量的实验表明，Recipe2Vec在两个经典的食物研究任务上的表现优于最先进的基线+v：mala2277获取更多论文确认这项工作得到了美国农业部国家食品和农业研究所农业和食品研究计划资助号2021-67022-33447/项目登记号1024822的支持引用[Carvalho et al. Micael Carvalho ，Rémi Cadène，DavidPicard，Laure Soulier，Nicolas Thome，and MatthieuCord.烹饪环境中的跨模态检索：学习语义文本图像嵌入。在SIGIR，2018年。[Chen et al. 陈晶晶，吴忠华，冯富丽，蔡达生深入理解烹饪过程，用于跨模态食谱检索。在MM，2018年。[Dong et al. ， 2017] 董玉晓， NiteshVChawla 和Ananthram Swami。metapath2vec：面向异构网络的可扩展表示学习。InKDD，2017.[Haussmann et al. ， 2019] Steven Haussmann ， OshaniSeneviratne ， Yu Chen ， Yarden Ne'eman ， JamesCodella，Ching-Hua Chen，Deborah L. McGuinness，and Mohammed J. Zaki. Foodkg：语义驱动的食物推荐知识图谱。在ISWC，2019年。[He et al. 何开明，张翔宇，任少卿，孙健。深度残差学习用于图像识别。在CVPR，2016年。[Hu et al. 胡紫牛，董玉晓，王宽三，孙一舟。异构图形Transformer。在WWW上，2020年。[Jiang et al. 姜子玉，陈天龙，陈婷，王张扬。通过对抗性对比学习进行鲁棒的预训练。在NeurIPS，2020年。[Kim，2014] Yoon Kim.用于句子分类的卷积神经网络。在EMNLP，2014年。[Li 和 Zaki ， 2020] Diya Li 和 Mohammed J. Zaki 。Reciptor：一个有效的食谱表示学习的预训练模型。在KDD，2020。[Madry et al. Aleksander Madry，Aleksandar Makelov，Ludwig Schmidt，Dimitris Tsipras，and Adrian Vladu.深度学习模型抵抗对抗性攻击。在ICLR，2018年。[Marin et al. Javier Marin，Aritro Biswas，Ferda Ofli，Nicholas Hynes ， Amaia Salvador ， Yusuf Aytar ，Ingmar Weber，and Antonio Torralba. Recipe1m+：用于学习烹饪食谱和食物图像的跨模态嵌入的数据集。TPAMI，2019年。[Min et al. Wei Min ， Bing-Kun Bao ， Shuhuan Mei ，Yaohui Zhu，Yong Rui，and Shuqiang Jiang.你吃什么就是什么：探索跨区域食品分析的丰富食谱信息。IEEE Trans. Multimed. ，2018年。[Min et al. ， 2019] Wei Min ， Shuqiang Jiang ， LinhuLiu，Yong Rui，and Ramesh Jain.关于食品计算的调查arXiv预印本arXiv：1808.07202，2019。[Pandey et al. Paritosh Pandey ， Akella Deepthi ，Bappaditya Mandal，and Niladri B.普涵。Foodnet：使用深度网络的集合识别食物。IEEE Signal ProcessingLetters，2017。[Park et al. Donghyeon Park ， Keonwoo Kim ， SeoyoonKim和Michael Spranger。Flavorgraph：一个大规模的食品化学图表，用于生成食物表示和推荐食物搭配。科学报告，2021年。[Rokicki et al. ，2018] M.罗基基，C.特拉特纳，和E. 赫尔德食谱功能的影响，社会线索和人口统计学上估计健康的在线食谱。在ICWSM，2018年。[Salvador et al. Amaia Salvador，Erhan Gundogdu，LorisBazzani，and Michael Donoser.用层次变换器和自监督学习改进跨模态配方检索。在CVPR，2021年。[Schlichtkrulletal.MichaelSchlichtkrull ，ThomasN.Kipf ， Peter Bloem ， Rianne van den Berg ， IvanTitov，and Max Welling.使用图卷积网络建模关系数据。在ESWC，2018年。[Tian et al. Yijun Tian，Chuxu Zhang，Ronald Metoyer，and Nitesh V. Chawla.用网络进行配方表示学习。在CIKM，2021年。[Tian et al. Yijun Tian，Chuxu Zhang，Ronald Metoyer，and Nitesh V. Chawla.基于层次图注意力网络的菜谱推荐。大数据前沿，2022年。[USDA，2019] USDA.国家标准参考营养数据库，第27版。2019年。[Velickovic 'etal.，2018]PetarVelickovic，GuillemCucurull， ArantxaCasanova ， AdrianaRomero，Pietro Lijiang，and Yoongly Bengio.图注意力网络。在ICLR，2018年。[Wang et al. ， 2019a] Hao Wang ， Doyen Sahoo ，Chenghao Liu，Ee-Peng Lim，and Steven C. H.海利用对抗网络学习烹饪食谱和食物图像的跨模态嵌入。在CVPR，2019年。[Wang et al. 王晓，季厚业，石传，白旺，崔鹏，菲利普S. Yu和Yanfang Ye。异构图注意力网络。在WWW上，2019年。[Xie et al. 谢慈航，谭明星，龚伯庆，王江，Alan LYuille和Quoc V Le。对抗性示例可以提高图像识别能力。在CVPR，2020年。[Xu et al. Keyulu Xu，Weihua Hu，Jure Leskovec，andStefanie Jegelka.图神经网络有多强大？在ICLR，2019年。[Zhang et al. Chuxu Zhang ， Dongjin Song ， ChaoHuang，Ananthram Swami，and Nitesh V Chawla.异构图神经网络在KDD，2019年。[Zhang et al. Chuxu Zhang ， Ananthram Swami ， andNitesh V Chawla. Shne：语义相关异构网络的表示学习。在WSDM，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载