深度学习驱动系统-食谱2视频：将食谱文档转换为多模态说明性视频

32 浏览量更新于2023-10-16 收藏 804KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2268Recipe2视频：从食谱文本合成个性化视频2*Ritz Carlton酒店，莫斯科-这里De v Chauhan4*，Darshan Khandelw al5*，Stef ano Petrangeli1，and BalajiVasan Srinivasan11 Adobe Research;2名先锋研究员;3摩根士丹利;4 Graviton Research Capital LLP;5 Goldman Sachsudhayana@adobe.com，suryateja@avantifellows.org，dev. gravitontrading.comparthlaturia@gmail.com，darshankhandelwal1218@gmail.com，{petrange，balsrini}@adobe.com摘要程序文本是一种特殊类型的文档，包含用于执行一系列指令的复杂文本描述。由于缺乏视觉线索，人们往往很难有效地消费文本信息。在本文中，我们专注于食谱-一种特殊类型的程序文档，并介绍了一种新型的深度学习驱动系统-Recipe 2 Video，它可以自动将食谱文档转换为多模态说明性视频。我们的方法采用新颖的检索和重新排名的方法来选择最好的一组图像和视频，可以提供所需的说明。我们制定了一个基于维特比的优化算法来拼接一个连贯的视频，结合视觉线索，文本和画外音，以呈现一个增强的消费模式。我们设计了自动化的指标，并在两个食谱数据集（RecipeQA，Tasty Videos）上比较了几个基线的性能。我们对下游任务和人类研究的结果表明，Recipe2Video在生成的视频中捕获了输入的语义和序列信息。1. 介绍文档是丰富的信息来源，我们在日常生活中会接触到大量的文档-小说、技术报告、手册等。程序文档是一种特殊类型的文档，用作执行一系列指令的参考（例如，提供朝向组装的逐步指南的宜家复杂的文字描述和缺乏适当的插图的存在可能会使这些文件的消费困难。例如，在食谱中，用户可能发现难以识别某些食材或可视化复杂的烹饪过程。Edgar Dale的“经验锥”（“学习金字塔”）和其他研究[37]表明，视觉内容可以提高对信息的认知。受这些*在Adobe Research工作研究中，我们提出了Recipe2Video，它通过自动将这些文档转换为说明性视频来消除消费中的挑战。虽然我们的算法在设计上是通用的，但我们特别关注食谱作为域，并将食谱文本转换为说明性视频。给定食谱文档，我们合成根据用户的专业知识定制的食谱视频，从而增强消费体验。我们的说明性视频不仅为用户提供了独特的信息模式，而且还提供了一个通过与生成的视频中的视觉结果进行比较来进行自我纠正的机会。我们的主要贡献是：（2）检索、重新排序和有效地选择用于给定过程指令的资产（文本、图像和视频）的正确组合的新颖机制;（3）一种基于Viterbi算法的优化框架，用于创建一个无缝过渡的视频，该框架可以考虑跨多帧的整体相关性和连贯性;（4）基于过程性文本理解的认知模型的评估指标。本文的其余部分组织如下。第2节介绍了这一领域的相关工作。第3节从系统和算法的角度详细介绍了我们的Recipe2Video框架。大量的定量结果见第4节。第5节对人类研究进行了深入分析，第6节提出了局限性和未来的工作。2. 相关工作通过将复杂文本转换为可消费的多模态组合来从过程文本合成视频是一个尚未完全解决的新问题。因此，我们概述了先前的工作，解决我们感兴趣的一般问题的组成部分。Url2Video[10]将输入的网页转换为表示该网页内容的短视频。该解决方案通过利用网页中的CSS元素来关注视觉显示，并使用关键字和CSS属性的组合来再-2269cent work [21]使用来自输入文本的硬编码单词具体性来合成视听幻灯片。相反，我们学习通过理解语义来处理输入文本，并合成增强信息消费的连贯的多模态组合。一些视频创作初创公司[4，2]从输入文章中挑选文本，并从预定义的库中添加视听组件来合成视频。然而，没有试图决定什么是正确的模式组合，以显示特定的背景下，这是我们的核心贡献之一。DOC 2 PPT[14]将文档转换为幻灯片/PPT。他们的方法结合了文档摘要、图像和文本检索、幻灯片结构和布局预测，以适合演示的形式排列关键元素。但是，输出幻灯片不支持图像和文本以外的模式。此外，幻灯片没有针对端到端的视觉连贯性进行优化，这是我们问题的一个关键方面。此外，Doc2PPT依赖于来自研究论文语料库和相应幻灯片的监督，因此仅限于学术论文。CookGan[43]专注于根据输入的成分列表合成烹饪菜肴的图像。它说明了由于不同的烹饪方法而导致的菜肴外观的变化然而，我们更感兴趣的是生成视频，而不是单个的多模态组件。Li等人[22]通过训练一个连续生成模型来从文本中生成视频，以使用混合框架[22]从文本中提取静态和动态信息他们的方法侧重于一般的文本描述，生成仅限于自然场景，因此不能自然地扩展到程序文档。然而，它们确实提供了关于文本到视频转换的几种模型的我们在工作中利用了这一点。另一个相关的工作是B-Script[17]，它确定了B卷的正确内容和位置，并将其插入到主镜头中。多模态摘要的最新作品生成摘要文本以及最相关的图像[44，37]。虽然这些工作并不直接适用于我们的问题，但它们为生成多模态输出和评估生成提供了关键见解。3. Recipe2视频：系统架构给定一个配方文档，Recipe2Video首先检索不同的资产，包括每个指令的剪辑和图像，并获得最佳描述该指令中每个组件和动作的资产组合我们对检索到的资产进行评分和重新排序，以捕捉它们覆盖指令中所提供信息的能力。排序还考虑了指令中的组件或动作的时间方面。接下来，我们为每个指令执行模态选择（剪辑或图像），以生成最小化用户认知负荷的帧。图图1.Recipe2Video系统的示意图给定一个程序化的食谱文本和一个沟通的目标，我们的框架合成了一个迎合目标的定制视频。1显示了Recipe2Video架构的示意图。我们考虑视频的细粒度变化，以满足不同的用户需求。在我们的工作中，我们考虑了两种可能的变体-精心制作的变体，为用户谁喜欢在输入文档中的内容详细的多模态描述。这样的用户可能是新手或谨慎的用户，他们不想错过任何细节并使用视频进行自我校正。这通常包含大量持续时间较长的视觉资产。简洁的变体迎合了喜欢更快地解释文档中内容的用户。这些用户可能是想要快速参考的专家这种变体包含较少数量的资产，在短时间内覆盖较大的信息块。3.1. 多模态检索：任何程序文本，包括配方，通常包含所使用的不同组件的枚举，随后是一系列指令。作为第一步，我们从一个大的语料库中检索视觉效果（从这里开始称为资产），如图像和剪辑，说明组件和动作。在Recipe2Video中，语料库是通过组合RecipeQA [41]，TastyVideos [38，39]和YouCook2 [42]数据集的图像和视频构建的。我们提取和存储短剪辑（从完整的食谱视频）的基础上可用的地面真相时间戳注释。我们的目标是达到单一的剪辑，说明了一个特定的过程，可以独立于完整的视频使用对于每条指令，我们通过组合从三种不同机制获得的检索来收集一组相关资产，以提高鲁棒性并保证所选资产的足够丰富性以供进一步处理。(1) 基于文本索引的检索：我们使用与资产相关联的索引，基于权重的模型集合[25，31]。我们使用2270||我K∼K超几何发散随机加权模型[6]评分，排名和检索指数资产。(2)基于文本嵌入的检索：我们计算预训练的word2vec嵌入和到这样一个，a= argmin a∈KL（Pc（a））||P U）[27]资产描述和资产排名的指示(3) 基于语义的跨模态检索=argmax a∈Ak=1PC （a，k）log（PC（a，k））log（PU（k））（一）前2种方法不关注检索到的模态的语义，我们使用最近提出的用于多模态表示的深度网络[32，26]来将资产和文本指令投影到公共表示中空间，并使用该空间中的相似性来对资产进行排名。对于图像，我们使用CLIP（对比图像预训练）嵌入[32]在4亿个图像-文本对上进行预训练。我们从我们的语料库中检索图像的嵌入文本指令嵌入具有最大余弦相似度。对于视频，我们使用[26]中的模型，该模型通过利用视频剪辑-字幕对来学习联合文本-视频嵌入。由于该模型是在HowTo100M数据集上预训练的[26]，我们在我们的数据集上对其进行微调，并使用它来提取视频和文本嵌入。3.2. 排名资产及其组合：为了修剪所检索的资产集，至关重要的是考虑每个资产的相关性和价值，以说明给定的指令，而不是如前一小节所述的语义。通常，指令可能需要图像和剪辑的因此，我们评估每个检索到的资产描述指令的能力，并得出一个组合（如果需要），以最好地覆盖整个指令。我们的系统使用以下计算来对资产及其组合进行排名。(1) 使用信息覆盖率评分进行排名：在这一步中，我们重点关注根据资产描述说明的关键方面的程度对资产进行评分和排名。我们提取指令的关键短语[36]，然后使用从CLIP [32]模型扩展的Zero-shot Classifier计算一组分数，这些分数指示每个关键短语与检索到的资产的亲和力对于视频，我们计算并聚合代表性关键帧列表的亲和力。更正式地说，令t1，t2，. . . ，t K是从指令中提取的关键短语。对于每个图像I（或关键帧的聚合），我们计算分布exp，eITet，K其中KL（Pc（a）PU）用作信息覆盖率的度量。补充材料中提供了该方法的示例解释(2) 时间方面分数排名：找到与配方文本很好地集成的视觉资产是困难的，因为这些文本描述了几个时间方面，如组件状态的变化等。为了解决这个问题，我们利用CITE（图像-文本关系语料库）数据集[5]，其中包含来自RecipeQA [41]的图像-文本对时间问题的人工注释答案。我们使用CITE中的以下问题子集：（1）图像是否显示了在执行指令之前如何准备(2)图像是否显示说明中描述的操作的（3）图像是否我们认为，资产回答这些问题的能力有助于提供有关指令的执行、执行或结果的信息，从而嵌入指令的时间方面。我们使用资产和文本的CLIP嵌入[32]作为输入，在这个数据集上训练一个前馈神经网络，称为时间分类器训练模型在所有检索到的资产上运行，以获得前面介绍的每个时间方面的置信度分数对于视频，我们取所有关键帧上计算的分数的平均值。类似于信息覆盖，我们对所有资产及其组合进行评分，以获得表示其捕获不同时间方面的能力的总分数。对于每个（指令，检索到的资产）对，我们计算sbef，saft，sdur，其指示对应于三个时间方面的分数将时间方面的表征分为3类-egories也我们合成一个视频强调不同的-程序的几个方面。默认情况下，我们在排名中对所有3个问题给予相同的权重。我们使用sbef，saft，sdur得分为每个精心设计和简洁的变量组成2资产和3资产组合。在简洁的情况下，我们选择前k（k=2，3）个资产，关键词PC由PC（I，k）=Ki=1 exp（eITet），在3个分数的平均值上排名最高，其中， et=CLIP_TEXT （ tk ）， eI=CLIP_IMAGE（I），使用CLIP_TEXT（. ）和CLIP_IMAGE（. ）作为文本[33][12]图像编码器。我们假设一个理想资产（组合）应统一覆盖该指令的所有方面，并计算上面获得的覆盖率分布与统一分布之间的KL散度，并使用它来对资产进行排名。令PUUnif（K）是K个关键短语上的均匀分布排名最高的资产（从而最大化信息覆盖范围）对应于较高等级的资产包含所有3个时间方面，以更少的资产和更广泛的信息范围。在3资产组合的复杂情况下，我们首先选择在每个时间方面排名最高的前n（n=5然后，我们考虑资产的所有n3个在2资产组合的复杂情况下，我们再次选择前n（n=5）个资产，它们在两个资产组合ΣΣ2271−方面（[sbef，saft]或[sdur，saft]），并在所有n2个组合上进行排序，挑选在其联合得分的总和上排名最高的一个(3) 使用模态适当性评分进行排名：虽然信息覆盖率和基于时间方面的排名为我们提供了一个资产组合列表，涵盖了程序上的信息和关键时间问题，但它们并没有解决这些组合是否是代表指令的理想模式。为了确定每个指令的适当模式，我们利用弱监督的概念[20，29]，它捕获监督信号，例如小样本上的约束，约束或数据分布，并将其扩展到更大的语料库。给定一个未标记的数据集，类似于配方指令，弱监督允许通过标记函数为该数据集编程创建标签。我们设计了基于认知模型的多标签函数（LF），用于过程文本理解[15]，捕获人类注释者行为的领域经验和简单直觉。每个LF标记数据的一个子集，并且多个LF确保大部分数据被标记，从而导致高覆盖率。单个数据点可以由多个LF标记，作为基于资产组合yi的Mod（yi）。3.3. 序列生成视频合成：在自动视频编辑/生成中的现有工作[28，24，23]指出，输出视频的视觉和语义一致性是用户消费的关键必要条件我们在指令级做出决定，以确保视频连贯。我们从每个资产组合的CLIP嵌入开始，并使用它们之间的余弦相似性作为其过渡连贯性的度量，类似于计算文本连贯性的工作[40]。除了视觉和语义的连贯性，每个指令的资产组合的选择还应该优化信息覆盖，时间覆盖和模态适当性。我们通过制定Viterbi风格的动态规划问题[19]来解决这个问题，该问题用于序列预测任务，以生成最大化局部独立得分（覆盖模态适当性）和连续元素之间的过渡得分（视觉语义一致性）的输出对于每个步骤中选择的资产，我们为序列y'分配一个分数，如下所示：F（y<$）=S（yi）+T（yi，yi+1）（2）从而降低噪声并使该过程稳健。我们在我们的系统中使用以下LF来计算模型，yi∈y<$yi，yi+1计算模态适当性：a.动作类型：我们从指令中识别动词（动作）[9]，并根据我们的归纳偏见和认知研究[7，15]将其分类。然后将这些类别映射到其适当的模态。例如，一次性动作->图像模态：例如，烤箱中烘烤;一般动作->文本模态-例如，停留5分钟;重复动作->短片：例如，在一个实施例中，搅拌b高于阈值的动作计数->视频模态：包含多个动词的指令不能用单个图像来说明，因此视频应该是优选的。C.具有数值模式的指令->文本模态：定量信息，例如，3勺糖，食谱中的一些小麦粉，通过文本更好地说明，因为它提供了要收集的材料的准确和立即可操作的知识[7]。我们通过[34]提供的覆盖度量来验证我们的LF覆盖整个指令数据集。我们使用多数标签共识来解决冲突时，不同的LF标记不同的指令，这也作为我们的弱标记降噪因此，我们得到一个弱标记数据集，它包含映射到四个标签（文本，图像，图像列表，视频）之一的文本指令，这确定了每个指令的适当模态我们使用具有交叉熵损失的CLIP指令嵌入在该数据集上训练多类分类器。在推理时，训练的分类器为每个指令预测4维向量，每个维度表示每个标签的得分我们用其中一个乐谱其中S（yi）= weighted_sum（Rel（yi），IC（yi），TC（yi），Mod（yi）），所有三个分数被归一化并被赋予相等的权重，Rel（yi）=文本嵌入和资产嵌入之间的相似性分数，IC（yi）是信息覆盖分数（由1σ（kld（yi）给出），σ（. 是S形函数），TC（yi）是时间覆盖分数，Mod（yi）是模态适当性分数，并且T（yi，yi+1）是yi和yi+1之间的语义相似性。利用这种方法，最大化F（y<$）将输出序列，使得帧的互相干性高，使用户能够流畅地跟随视频。我们的新颖之处不是维特比算法本身，而是在多模态内容的背景下使用它与我们的措施和过渡，这在以前的工作中还没有完成。在[28]中，跨均匀帧和音频片段计算转移概率，然后将其用于推断（类似于Viterbi）以拼接最佳帧。我们使用类似的过渡方案T（. ）与多模式资产。虽然[28]使用嵌入相似性，但我们在S（. ），这增加了我们方法的新颖性最后，为了从我们选择的视觉效果中生成可消费的视频，我们从帧的一组预定义模板。我们利用[3]为输入指令生成画外音，将其与相应的帧叠加，并将所有此类剪辑合并到我们的最终视频中[45，1]。4. 实验结果考虑到整体用户体验，大规模评估我们的合成视频2272|t=1不t=1..Σ−因此，我们设计指标来捕捉Recipe2Video的特定方面。我们考虑两个数据集进行评估- （1）RecipeQA [41]（测试集），包含960个食谱文本以及特定任务的问答对;（2）美味视频[39]，包含1000个食谱文本以及食谱类别。对于每个食谱文本，我们从Recipe2Video合成了精心制作和简洁的视频变体。鉴于我们的端到端系统的新颖性，将我们的系统与不同的基线进行比较并不简单。此外，我们没有地面实况帧序列来比较我们的输出。因此，我们调整了以下与我们的工作密切相关的基线，以确保公平和详尽的比较。视听幻灯片[21]使用单词具体性的概念从输入文本中获取搜索查询，并使用它来检索资产。我们独立地测试我们的检索模块来复制这个基线。多模态摘要[44]旨在生成多模态文档的多模态（文本-图像）摘要，同时确保对输入文档的忠实性它相当于我们的系统，其中包含检索模块和Ranking模块的信息覆盖组件。这也是我们的排名模块在时间方面和模态适当性评分方面的一个改进。Doc2PPT[14]旨在通过使用带有进度跟踪器（PT）的分层RNN，从学术文档中顺序生成幻灯片。然而，它并没有说明连贯性。由于代码不是公开的，我们考虑我们的模型的一个变体，它用不考虑优化帧间转换的贪婪解码方法代替维特比解码（第3.3节）我们完全保留了我们的排名模块，以匹配他们的分层RNN模型的强度。最后，随机采样是一个简单的基线，我们使用随机生成的查询对每一步的资产进行采样，并使用贪婪解码组合成视频，删除所有其他模块。请注意，据我们所知，以前的工作没有考虑语义视频变体（在我们的情况下是精心制作的/简洁的），以满足不同用户因此，我们报告每个基线的标准视频输出上的值我们相信，所有拟议的基线都是对现有方法的相关和有竞争力的调整，以更好地解决手头的问题。我们重申，与我们提议的制度不同，这些基线中没有一条能完全解决问题。我们采用标准度量来捕获我们所提出的系统的不同模块的性能[15]。注意：所有指标（如视觉相关性）都可以为文本文档计算我们在这些场景中放置一个空白符号（-）。我们在下文中描述所考虑的度量。视觉相关性衡量视觉上如何接近作为-合成视频中的集合对应于相应的输入文本。我们采用资产和输入文档图像的ViT表示[12]的成对余弦相似度，并对所有视频进行平均。请注意，文档图像由Recipe2Video使用，仅用于评估。由于Tasty Videos食谱在输入文档中没有图像，因此我们仅对RecipeQA文档使用此度量。文本相关性测量合成视频中的as集与输入文档在口头上的接近程度。我们采用视频文本和输入文档文本的句子BERT [35]的成对余弦相似度，并对所有视频进行平均。视频文本使用提取的关键帧的密集字幕[18]获得。高值表示我们的方法保留了过程的语言信息，并且资产没有混淆此信息。动作覆盖率测量输入文档中在最终视频中视觉编码我们使用密集字幕计算最终视频中动词的数量，并计算与输入文档动词的比率高值表明我们的方法将动词行为编码到视觉效果中[15]。视频质量通过Inception Score（IS）[30]衡量合成大小视频的视觉质量我们使用预训练的Inception-v3网络来计算IS分数，IS分数由条件p（y x）和边缘p（y）概率分布之间的平均KL散度的指数给出。高视频质量分数表明我们的视频帧是多样化的，并且在视觉上令用户愉悦。“突然信息增益”测量视频中每帧后获得的信息的连续性我们计算每个帧的连续编码表示之间的距离，并对整个视频的距离进行平均。这些距离的高标准偏差指示在视频的整个持续时间上传达给用户的信息是不平滑的，2即可. 突变由下式给出：ΣNd t−d /N其中d t=1fTf t−1和dt=<$Nd t/N，其中N是帧的数量，f t是在时间t的帧的编码表示。摘要得分衡量我们的视频传达与文档相同的总体摘要的能力。我们计算输入文档和视频文本的句子嵌入（从提取的关键帧的密集字幕），并在每个域中获取所有可能的句子组合的余弦相似度然后我们使用LexRank[13]找到代表前摘要的最中心的句子将输入文档的摘要与生成的视频进行比较，得到所需的分数。此外，我们还评估了我们的合成视频在各种下游任务上的能力请注意，Recipe2Video并没有经过明确的训练来很好地执行这些任务。相反，我们假设Recipe2Video2273↑表1.在RecipeQA和TastyVideos上对各种基线与Recipe2Video的性能比较。所有值均为食谱QA的962个输入文本和美味视频的1000个输入文本的平均值第一行对应于输入文本文档。（）箭头表示指标得分越高越好。有些列保留为空（-），因为我们考虑的输入文本文档没有视觉效果/类别。第一列是指视觉连贯性的下游任务，仅限于配方QA评估。第二列是从系统输出编码的上下文预测类别的任务，并且仅限于美味视频。变系统视觉相关性（↑）分类预测（↑）文本相关性（↑）行动覆盖率（↑）视频质量（↑）突然信息增益（↓）Summ评分（↑）配方QA文本文件- - 1.00 - - 0.52（± 0.13）1.00详细说明（配方QA）简洁（配方QA）随机采样音频幻灯片MSMODoc2PPTRecipe2Video（我们的）随机采样音频幻灯片MSMODoc2PPTRecipe2Video（我们的）0.360.520.780.810.800.230.420.560.550.78––––––––––0.250.510.560.630.720.250.510.560.630.684.24（±0.54）4.09（±0.50）4.04（±0.51）4.31（±0.18）4.16（±0.46）4.14（±0.35）4.28（±0.44）4.16（±0.37）4.25（±0.12）4.24（±0.23）0.86（±0.22）0.38（±0.11）0.41（±0.16）0.41（±0.10）0.26（±0.04）0.96（±0.34）0.59（±0.18）0.53（±0.24）0.47（±0.21）0.34（±0.05）0.490.620.730.710.700.360.580.650.650.73Tasty Videos文本文件- 0.52 1.00 - - 0.58（± 0.18）1.00精心制作（美味的视频）简洁（美味的视频）随机抽样奥迪奥维斯幻灯片文档2 PPTRecipe 2 Video（我们的）随机抽样奥迪奥维斯幻灯片文档2 PPTRecipe 2 Video（我们的）0.450.580.620.630.650.320.380.490.500.630.440.660.720.770.810.420.470.550.550.720.260.550.620.710.880.250.540.530.680.824.40（±0.33）4.58（±0.60）4.69（±0.59）4.91（±0.58）4.78（±0.68）4.34（±0.28）4.19（±0.44）4.72（±0.25）4.88（±0.52）4.75（±0.61）0.58（±0.19）0.48（±0.13）0.42（±0.20）0.44（±0.23）0.25（±0.05）0.64（±0.28）0.55（±0.18）0.46（±0.17）0.47（±0.18）0.31（±0.08）0.470.580.720.710.680.450.580.620.610.71表示足够强大，可以有效地解决这些任务，不像其他文本或基线表示。给定上下文和一组问题图像，视觉连贯性任务（RecipeQA中）预测与问题图像最相关的最佳图像（四个可用选项中）。我们改变背景来比较我们的基线。对于视频，我们计算帧表示的平均值，并将它们连接到问题图像和选项图像的ViT表示[12]。然后，我们使用奇异值分解（SVD）降低这些表示的维数，并计算余弦相似度。我们预测与问题图像集具有最高余弦相似度的选项作为最终图像。在视觉完形填空任务（用于RecipeQA）中，给定上下文和具有占位符的图像序列，任务是预测四个可用选项中的哪一个图像适合占位符位置。我们再次改变基线之间的上下文，并计算SVD表示，如前所述。然后，我们用每个选项图像替换占位符位置，并预测导致整个排序中信息增益最低的选项在文本完形填空任务（RecipeQA）中，给定一个上下文和一系列带有占位符的文本，任务是预测四个可用选项中的哪一个文本适合占位符位置。我们遵循前面的计算，用BERT表示替换帧表示。请注意，这两个完形填空任务不仅捕捉视频的代表性强度，而且捕捉编码在其中的顺序信息的强度2274在类别预测任务中（对于美味视频），我们使用每个食谱附带的类别集，并从上下文（在基线上不同）预测类别。我们使用多标签准确性来测量性能，通过取真实标签和具有最高相似性分数的前10个标签的集合交集。我们将51个可用的独特标签减少到10个常见的标签，并为其余41个类别添加基于度量的评估：我们查看 RecipeQA 和TastyVideos数据集的不同统计数据。RecipeQA有更长的指令（平均475。48个单词（每个食谱）更少的步骤（6. 平均62步），检索的框架和资产。美味的视频有较短的指令（139. 每个食谱70个单词），几乎是步骤数量的两倍（12。每个配方60步），导致更多的帧。Recipe 2 Video可以轻松快速地消费-通过合成不到一分钟长的简洁视频，在这些长文本中进行合成（39. 04 s for RecipeQA and 44. 36秒的 TastyVideos ）和精心制作的视频约两分钟（ 100 。 08 s 用于配方 QA 和 109. 17s forTastyVideos）简洁视频的平均时长不到一半精心制作的视频的持续时间，使其适合输入文档的快速简洁消费。表 1 比较了 Recipe2Video 在不同指标下与RecipeQA和Tasty Videos数据集上的基线的性能。第一行计算文本文档的分数，并作为参考来验证我们的假设，即呈现替代视频模态来消费程序文本。我们观察2275↑表2.在RecipeQA测试集上，针对我们的Recipe2Video（精心制作的变体）的各种基线的下游任务性能。（）箭头表示分数越高越好。我们使用从任务的系统输出编码的上下文。在RecipeQA数据集上使用Recipe2Video对我们的表现达到了+0。08与输入文本的表示相比，视觉一致性任务的准确性有所系统目视视觉文本（计算方法是取基于伯特的句子代表的平均值连贯性（↑）完形填空（↑）完形填空（↑）文本文档0.710.360.58随机抽样0.280.290.24奥迪奥维斯幻灯片0.730.280.35MSMO0.750.29034Doc2PPT0.780.450.54Recipe2Video（我们的）0.790.560.53Recipe2Video在平滑视频观看量体验方面表现得明显更好，如突变信息增益所指示的。这可以归因于Recipe2Video在选择相关资产时赋予Recipe2Video在Action Coverage指标中的得分也非常高，这是因为它具有很强的时间方面排名。我们的变体在所有其他指标上表现良好，其值接近最佳基线。视觉相关度和文本相关度都很高，说明我们的检索具有很好的准确性。然而，这些值以及视频质量低于Doc2PPT基线，可能是由于Doc2PPT中执行的每帧优化。简洁变体在汇总分数上得分最高，同时具有多模式汇总基线。与精心制作的变体相比，该变体还具有更高的视觉质量。然而，由于快速变化的信息量大的帧，消费的容易性较低。文本相关性和摘要得分在基线之间是相似的，因为它们是文本相关的，并且所有基线都以类似的方式处理文本（除了视听幻灯片基线，其使用单词具体性，因此得分较低）。文本相关性和摘要得分默认为文本文档的最高值，因为未对文本进行然而，输入文档不包含说明性视觉并且对于消费而言非常突然，导致潜在的次优用户体验。我们的两种变体在所有其他指标上的得分证实了我们的假设，即视频模态是一种更好的方式来连接程序文档，提供视觉效果以供参考和自我校正，并实现平稳的消费。表1报告了Recipe2Video和Tasty Videos上其他基线在前面描述的各种评估指标上的性能。如表1所示，Tasty Videos数据集总体上遵循类似的趋势，加强了我们工作的好处。这些结果表明，与RecipeQA相比，我们的方法在所有步骤中实现了很强的一致性值，并检索高度相关的资产，尽管每一步可用的查询词较少然而，我们注意到，这两个数据集的域都是处方，并为将来的工作保留对其他域的扩展。下游任务的性能：表2com-c每一步的表现[35]）。这可以通过被选择来生成视频的视觉资产的更高质量来解释我们在视觉完形填空任务中取得了显著的进步（+0。（20）与文本文件相比。值得强调的是，这是一项具有挑战性的任务，因为它也需要了解视觉效果的确切顺序。我们的编码视频表示包含这样的顺序信息，尽管没有明确地训练过。虽然我们在文本完形填空任务中没有击败文本文档表示，但我们达到了类似的性能。由于该任务不需要视觉效果（输入文本不包含任何视觉效果），因此我们检索的视觉资产可能会混淆并降低视频中文本的区分强度。这些结果证实了我们的方法在准备更丰富的表示和取代标准的BERT为基础的句子表示程序文本的承诺。5. 人工评价虽然前一节中的自动化指标和任务提供了对系统性能的深入了解因此，我们通过MTurk进行了广泛的人类研究，以捕捉用户在各种维度上的消费体验，如享受性，保留性等。我们的评估包括三个实验，回答问题：（1）消费来自RecipeQA测试集的食谱作为程序文本;（2）消费来自RecipeQA测试集的食谱作为由我们的系统或来自Doc 2 PPT系统合成的视频。由于Doc 2 PPT系统是我们定量评估中最具竞争力的基线，因此我们在人体评估中使用它进行所有实验;（3）以文本和视频形式查看和比较食谱。每个文本/视频和相应的调查问卷（HIT或MTurk上的人类智力任务我们还添加了一些健全性检查问题，以确保注释者实际上已经浏览了显示的内容，并在注释者对三个健全性问题中的任何两个错误时拒绝HIT。这里有一个示例问题。[重申; 1，2]现在你能记住多少食谱而不用再看一遍？（a）什么都记不住;（b）记得很少;（c）记住其中一些;（d）记得最清楚。在这里，问题格式指示其在实验中的用法(1)以及（2）测量所显示的模态的可保持性实验（1）和（2）的目的是让注释者不知道不同形式的消费，并独立地得出定性分数。我们使用RecipeQA测试集的配方，因为它已经包含任务的图像2276↑×−×表3. RecipeQA测试集上提取物（1）和（2）的人体评价结果。（）表示值越大越好。R 2V代表Recipe2Video。变系统享受（↑）回复（↑）震动（↓）任务绩效（↑）愉快（↑）帧内相干性（↑）帧间相干（↑）例如视觉连贯性，其充当由消费模式提供的信息性的代理。让N表示每个实验的任务（数据点）的数量。我们考虑（N=15）RecipeQA文本作为Expt（1）的任务，（N=15 4= 60）视频作为Expt（2）的任务。请注意，每个配方都有两个由基线合成的视频变体和两个由Recipe2Video合成的变体每个选项对应一个李克特量表[1-4]值。表3显示了两个实验的结果。所有值均为HIT的平均值，注释者之间的一致性介于[0. 480（使用Cohen的κ评分计算实验（3）允许直接比较两种消费形式，文本与视频。我们使用来自 RecipeQA（ 23 ）和 Tasty Videos （ 25 ）的食谱，总计 N=（23+25）4= 192个视频，从而得到稳健的结果。由于每个注释者与一个视频交互，因此我们的研究是受试者之间的。我们选择这种模式是因为观看和分析多个视频会增加注释者的认知负荷，导致响应质量降低。表3比较了从基线和Recipe2Video生成的视频在各种人类注释指标上的性能。我们发现，受访者认为我们的视频更令人愉快，更令人愉快，与传统的程序文本相比，不那么刺耳。在大多数测试中，视频的基线得分比文本差，这表明我们的系统生成的视频更好。有趣的是，基线视频在[不和谐]指标上得分更高（不和谐相关问题对应于突然信息增益指标）。这可能表明，尽管基线视频不那么令人愉快或令人反感，但信息流更流畅。我们发现，与基线视频相比，Recipe2Video合成的视频具有更高的帧内和帧间相干性，从而证实了我们系统的强大序列生成和优化部分。此外，简洁变体的收益比详细变体的收益更这是预期的，因为Recipe2Video的简洁变体不是加速的视频或基线中具有更少帧的视频，而是具有最佳资产的全新视频。这种制备语义不同变体的主要新颖性在人类研究中得到了充分反映。作为实验（3）的一部分，我们要求受访者评价各种模式是否有助于更好地理解食谱文本。图2显示了该分析的结果，其中图2.条形图显示了每个（模态、变量、系统）三元组的所有响应的平均值。值还在所有模态和变量之间进行平均，以获得系统级响应，如虚线所示。在所有响应中对值进行平均。我们还对所有模态的响应进行平均，并显示每个系统的水平线。总的来说，Recipe2Video合成的视频是中等有帮助的（平均2。28为美味的视频，2。04对于RecipeQA），并且显著优于基线（平均值= 1. 22个是美味视频1 .一、26对于RecipeQA）。Tasty Videos的得分高于RecipeQA，这可能是因为Tasty Videos中的指令更短，更关键，从而导致更好的检索和更短的生成时间。过时的视频受访者发现简洁变体中的图像比复杂变体中的图像更有这表明了我们的排名模块的强大之处。6. 结论我们介绍了Recipe2Video，这是一种基于深度学习的新型系统，可以将程序性食谱文本转换为说明性视频，以增强用户Recipe2Video使用各种技术来检索相关的多模态资产，并根据不同的维度（如时间性、信息覆盖率和模态适当性）对其进行排名。然后，它使用Viterbi启发的优化方案将它们缝合成一个在这样做的同时，Recipe 2 Video也迎合了用户的偏好-导致语义上不同的变体（快速和简洁）。我们的定量和人工评估表明，来自Recipe 2 Video的视频变体：（i）与输入的食谱文本在视觉上和文本上相关(ii) （iii）提供流畅的资讯流;（iv）有效地捕捉不同用户的需要。与两个数据集上的几个基线的比较显示了我们的系统在产生相干输出视频方面的显着今后&的工作：我们的许多系统模块依赖于配方域中可用的特定数据集的存在。在其他领域中几乎没有可用的等效数据集。我们打算考虑像Tut-VQA数据集[11]这样的数据集，将所提出的框架扩展到其他领域。我们还希望优化Url2Video [10]中包含的帧内布局，以提高视频质量。对于未来的工作，我们打算更详细地分析模态及其组合，以改进我们的模态适当性模块[16，8]。美味视频RecipeQA文本文档3.022.552.270.58–––阐述基线2.732,181.650.562.792.231.47R2v3.152.851.390.682.773.252.40简洁基线2.772.211.730.532.362.351.60R2v3.112.841.640.682.813.282.442277引用[1] FFmpeg：一个完整的，跨平台的解决方案，记录，转换和流音频和视频。[2] 胶凝云https：//gliacloud.com.访问时间：2021- 01-28。[3] 谷歌文字转语音https：//gtts.readthedocs.io/en/latest

下载后可阅读完整内容，剩余1页未读，立即下载