没有合适的资源?快使用搜索试试~ 我知道了~
Jinhui Yang*Xianyu Chen*Ming JiangShi ChenLouis WangQi ZhaoUniversity of Minnesota{yang7004, chen6582, mjiang, chen4595, wangx723}@umn.edu, qzhao@cs.umn.edu156270VisualHow:多模态问题解决0摘要0计算机视觉(CV)和自然语言处理(NLP)跨学科研究的最新进展使得能够开发智能系统,可以描述所见并相应地回答问题。然而,尽管这些视觉语言任务显示出在执行这些任务方面的有用性,现有方法在理解现实生活中的问题(即如何做某事)并提供逐步指导以解决这些问题方面仍然存在困难。为了开发能够帮助人类进行各种日常活动的智能系统,我们提出了VisualHow,这是一个自由形式和开放式的研究,重点是理解现实生活中的问题,并通过整合多个模态的关键组件来推导其解决方案。我们开发了一个新的数据集,包含20,028个现实生活中的问题和102,933个构成其解决方案的步骤,其中每个步骤都包括一个视觉说明和一个文字描述,用于指导问题解决。为了更好地理解问题和解决方案,我们还提供了多模态注意力的注释,该注释定位跨模态的重要组件,以及封装结构化表示中的不同步骤的解决方案图。这些数据和注释使得可以解决现实生活中的问题的一系列新的视觉语言任务成为可能。通过对代表性模型的广泛实验,我们展示了它们在训练和测试新任务的模型上的有效性,并且通过学习有效的注意机制有很大的改进空间。我们的数据集和模型可在https://github.com/formidify/VisualHow上获得。01. 引言0在视觉语言研究中取得的显著进展已经开发出具有理解和生成自然语言信息能力的视觉系统。现有的视觉语言模型主要关注于对视觉输入进行理解。0* 平等贡献。0制作一个带有他们照片的装饰品。0剪下你宠物以前的照片,制作一个拼贴画。0在假期期间与你的宠物一起玩耍。给你的宠物一个礼物。0问题:如何让宠物参与圣诞节。0解决方案:0图1.VisualHow是一个视觉语言任务,旨在推断解决现实生活中问题的解决方案。解决方案由多个步骤组成,每个步骤都用一张图片和一段标题描述。0在无任务的情况下(即图像字幕[3, 12,17]和视觉叙事[28])或问题导向的情况下(即视觉问答[2,24]和视觉对话[18]),视觉输入的研究取得了显著进展。换句话说,它们的目标是开发可以“看和说”的视觉系统,通过描述或回答关于场景中所观察到的内容的问题。在大规模的视觉语言数据集[1, 2, 12, 14, 18, 24, 28, 37, 39,62]上,最先进的模型在理解和预测视觉和文字信息方面取得了有希望的成果。尽管取得了显著的进展,这些方法只在标准化的视觉语言推理基准上表现良好,并且不能推广到解决现实生活中的问题,这使得它们的应用范围相对有限。0我们相信下一代视觉智能系统需要开发帮助人类的能力。156280更直接地解决现实生活中的问题。实现这个目标需要他们提供逐步解决方案,既有文字描述又有视觉说明。这种系统的应用可能包括:1.教人们日常生活和/或领域特定的技能,比如打领带、做三明治或换自行车轮胎。2.帮助人们将抽象目标分解为可行动的项目,比如改善社交技能、睡眠质量或成为一名足球运动员。为此,我们引入了一个新颖的研究问题——VisualHow,以及一个大规模的数据集和各种建模方法的系统性评估。VisualHow的主要目标是生成一个关于如何解决问题的逐步视觉语言描述,其中每个步骤都用一张图片和一段文字描述。图1展示了VisualHow数据的一个示例。要“让宠物参与圣诞节”,可能需要采取一系列不同的行动。虽然人们可能仍然很难通过阅读文字描述来理解如何让宠物参与圣诞节,但通过观察视觉说明将在这个过程中提供很大的帮助。因此,根据问题的描述和之前的步骤,VisualHow的具体目标是预测一对匹配度高且互补的图像和标题,描述下一步应该做什么。实现这个目标需要理解三种类型的关系:问题和解决方案之间的关系,解决方案不同步骤之间的关系,以及视觉和文字信息之间的关系。我们的目标是实现智能系统来解决各种现实生活中的问题。与传统的视觉语言任务相比,我们提出的VisualHow任务具有以下不同的特点:1.真实生活中的问题和多模态解决方案。与专注于特定视觉语言任务的研究[2, 13, 18, 24, 28,37]不同,我们的数据集包含18个类别和317个子类别的真实生活问题。这些问题的解决方案由多个步骤描述,每个步骤都有一个图像-标题对,可以理解问题解决过程中的决策过程。2.细粒度的注释。我们的VisualHow数据集提供了两种类型的注释,这些注释在现有研究中是缺失的:描述不同步骤之间的依赖关系的解决方案图和突出显示和关联重要关键词和感兴趣区域的多模态注意力。它们在开发结构化的问题解决过程理解和弥合视觉和语言之间的语义差距方面起着重要作用。3.新的视觉语言任务。我们的数据集为解决问题的各个方面提供了几个新的视觉语言任务。我们的实验得出了一些有趣的观察和改进模型性能的建议。总结起来,本研究的贡献有:1. 一个旨在提供VisualHow基础的新的研究。0为开发新的视觉语言方法和推动对现实问题和解决方案的多模态理解的边界提供了基础;2.一个由多样化的问题类别、解决方案的多模态描述和细粒度注释组成的新数据集;3.在VisualHow问题的不同方面上进行多个新任务的实验和各种基线模型的广泛分析。02. 相关工作0本文与一系列研究相关,包括视觉字幕和故事讲述、视觉问答和对话、多模态指令和多模态表示学习。02.1. 视觉字幕和故事讲述0围绕生成视觉输入的文本描述有大量的研究。例如,图像字幕任务[13, 26, 37, 44,61]侧重于用自然语言描述单个图像,而视觉故事讲述[28]旨在生成关于多个图像的一系列句子的叙述。这些研究的共同目标是开发有效地将输入图像编码为代表性特征,并将其转化为一系列自然流畅地描述图像的单词序列。因此,在它们的标准配置中,图像字幕和视觉故事讲述是将图像转化为序列预测任务,其输入是像素,输出是根据给定词汇表解码的一系列单词。虽然它们侧重于被动地描述视觉输入而不受特定目的的指导,但VisualHow任务是不同的:首先,它联合预测互补描述解决方案的图像和标题,其次,预测是基于要解决的问题进行条件化的。这些差异使得VisualHow成为一个独特且具有挑战性的研究问题。02.2. 视觉问答和对话0以前的研究尝试解决简单的问题。例如,视觉问答[2,24]和视觉对话[18, 40,45]旨在根据对多模态输入的理解回答关于视觉信息的问题。最近的一些研究提出了大规模的数据集[2, 18, 24,29]和神经网络模型[16, 23, 30, 51,55]用于自由形式和开放式的视觉问答和视觉对话。然而,这些研究通常只涉及有限的问题类别,它们的答案是简化形式的(即类别或短语)[18]。相反,我们的VisualHow任务的目标是为各种类型的现实生活问题提供逐步描述的解决方案。它不仅需要理解视觉和文本信息的能力,还涉及构建合理的解决方案结构来表示不同步骤之间的关系。156290图2.VisualHow数据集的概述。我们提供了一个分层结构,将我们的数据组织成类别、子类别、问题、解决方案图、带有图像标题对的步骤和多模态注意力。解决方案图中突出显示了示例步骤。没有依赖关系的步骤连接到一个空节点。0构建合理的解决方案结构以表示不同步骤之间的关系。02.3. 多模态指令0我们的工作还与现有的多模态指令研究相关。教学图像[7,58]和视频[49, 50, 63, 65,66]的数据集提供了关于特定任务的逐步指导。这些数据集要么专注于特定任务,要么不考虑解决方案中的复杂注意力或结构。然而,理解问题的文本描述并提供逐步解决方案,每个解决方案都有一对配对良好的标题和图像,这种情况尚未被考虑。我们的工作通过考虑多样化的内容、多模态注意力和解决方案结构而与众不同,其中标题和图像共同描述解决方案而不是彼此之间。它提供了一个包含多样化和具有挑战性的问题、多模态注意力注释和非顺序解决方案的大型数据集。02.4. 多模态表示学习0已经有很多研究致力于学习视觉-语言表示[10, 20, 35, 46,53,56]。它们使用先进的注意机制[59]、更好的多模态融合方法[31, 48]、多步推理[11, 22]、对象关系的融合[35, 46,64]和组合推理模型[27,47]来改进表示学习。我们的研究与视觉语义嵌入(VSE)[10, 20, 21, 32, 34, 56,57]最相关,它是一类学习视觉和语言表示的方法。通过VSE,可以计算视觉特征和语言特征的兼容性分数,这是一个简单的内积。具体而言,DeViSE[21]学习匹配视觉嵌入和语义嵌入,用于零样本图像识别[9]。0LSTM-SCNLM[32]通过双向LSTM将句子编码为语义嵌入。VSE++[20]是一种基本的VSE方法,使用平均池化作为特征聚合器,并进行在线困难负样本挖掘。VSRN[34]捕捉场景的关键对象和语义概念,生成视觉表示。全局池化操作(GPO)[10]学习自动适应不同特征的最佳池化策略,同时保持有效和高效。这些研究为提出的VisualHow任务提供了合适的基线,并启发了在真实生活场景中进行问题解决的计算模型的发展。03. VisualHow数据集0本工作的目标是向视觉-语言理解社区介绍一个以真实生活问题和高质量注释为重点的新基准。它包括18个类别的真实生活问题和用图像和标题描述的逐步解决方案。问题和解决方案的多样性和普遍性也使得VisualHow成为一个更具挑战性的数据集。除了图像-标题对之外,VisualHow还提供了解决方案图和多模态注意力的注释,这对于理解问题-解决方案关系和对齐视觉和语言之间的语义是至关重要的。图2展示了VisualHow数据的一个示例。在本节中,我们将描述数据收集方法、注释和数据统计。附加的分析和可视化材料将在补充材料中提供。03.1. 问题和解决方案0构建一个通用的问题解决数据集带来了一系列前所未有的挑战。首先,由于现实生活问题的多样性和普遍性,手动定义和3.2. Data Annotation156300对问题进行分类是不切实际的。其次,由于许多问题需要领域专业知识(例如健康或金融问题),一般的在线内容或非专业工作者很难生成高质量的解决方案。为了解决这些挑战,我们从wikiHow [5, 33,60]知识库中收集真实生活问题和解决方案,该知识库以其高质量的指导文章而闻名。wikiHow文章由一群经验丰富的专家在严格的质量筛选过程的帮助下生成。所有文章都附有详细的逐步描述和非常相关的高分辨率视觉插图。具体而言,每个问题都包括一个语言描述(例如以“Howto”开头的问题)并提供了一个逐步解决方法的步骤。解决方案由多个步骤组成,每个步骤都有一个图像和一个标题。为了控制数据质量,VisualHow关注具有较高用户评级和受欢迎程度的wikiHow数据的比例。与其他基于wikiHow的数据集不同的是,对于VisualHow,我们只选择由领域专家创建并且超过50%的用户投票并认为其有帮助的内容,以确保VisualHow内容的质量。对于具有多种解决方法的问题,我们将每种方法视为一个唯一的样本,并将方法标题附加到问题描述中。0学习解决一般问题是一项具有挑战性的任务,它需要从各种视觉和文本信息中学习知识,并以结构化的表示形式进行组织。为了应对这些挑战并促进未来视觉语言理解方法的发展,VisualHow提供了关于解决方案的细粒度注释。如表1所示,与相关研究不同,我们通过众包收集这些注释,并实施了有效的质量控制机制。众包。注释是在亚马逊机械土耳其(AMT)上进行的,采用自定义的注释范式和用户界面(见图3)。首先,向工作者呈现问题和解决方案的概述(即wikiHow文章)。接下来,他们逐个浏览所有步骤。在每个步骤中,他们从标题中选择重要的短语,并注释相应的图像区域,这反映了他们在执行不同动作时对多模态信息的关注。最后,他们被要求注释每对步骤之间的依赖关系,这将构成一个有向解决方案图,以提供问题解决过程的结构化表示。该研究不会从众包工作者那里收集个人数据,因此免除了IRB审查。质量控制。我们的数据集需要一个有效的质量控制机制,以便众包工作者能够生成高质量的注释。收集高质量的多模态注释03.2. 数据注释0数据来源 wikiHow Snapguide; instructables YouTube 多模态注意力 是 否 否解决方案图 是 否 否 解决方案类型 各种类型 过程 过程0VisualHow ViPT [7] COIN [49, 50]0wikiHow文章0表1. VisualHow与相关数据集的比较。0图3.VisualHow任务的众包界面,包括1)wikiHow文章的概述,2)多模态注意力的注释,以及3)解决方案图的注释。0多模态注意力解决方案图03.3. 数据统计00102110030 030156310问题数量0食物和娱乐0计算机和电子0家居和园艺0健康0金融和商业0个人护理和风格0爱好和手工艺0教育和交流0宠物和动物0艺术和娱乐0家庭生活0旅行0节日和传统0运动和健身0人际关系0汽车和其他车辆0工作世界0青少年0顺序并行其他0图4. 每个类别中的问题数量和三种类型的解决方案图。0步骤数量02k04k06k08k0短语数量0区域数量0图5. 解决方案步骤和注意力注释的分布。0细粒度注释。在本节中,我们进行了深入分析并报告了数据集的关键统计信息。问题。VisualHow包含20,028个问题,按照18个类别和317个子类别的层次结构进行分组。我们的一些主要类别,如家庭生活、计算机和电子、健康、金融和商业,在以前的视觉语言研究中很少被探索。如图4所示,每个类别中的问题数量从405到2,952不等,反映了wikiHow数据的自然偏斜分布。尽管如此,VisualHow仍然比相关数据集(如ViPT [7]和COIN[49])更加多样化,这些数据集中绝大多数样本都是烹饪或其他家务问题。解决方案。如图5所示,每个解决方案由3到10个用图像和标题描述的步骤组成。平均而言,每个解决方案由5.14个步骤组成。由于wikiHow数据的多样性,图像和标题比现有数据集更加多样化。所有图像中,36.5%是真实照片,58.6%是抽象图像,如卡通、绘画、手写、图表等。其余的4.9%是既包含真实又包含抽象内容的混合图像。标题还具有3万个词汇。表2显示了注释短语中的词汇。0名词 动词 其他词性(POS)0水 图标 点击 想要 新的 右边 分钟 账户 点击 打开 周围第一次 时间 头发 使用 拿取 一个 小的 按钮 区域 制作选择 确定 远离 应用程序 油 添加 移除 下一个 干燥0表2.在标题中最常见的词汇:1)名词;2)动词;3)其他词性(POS)。0名词 动词 其他词性(POS)0水 烤箱 点击 移除 在线 过夜 医生 碗 点击 选择 好的 舒适 头发孩子 打开 选择 一起 里面 设置 油 添加 检查 定期 每天 食材 食物使用 制作 外面 温暖0表3.在标注短语中最常见的词汇:1)名词;2)动词;3)其他词性(POS)。0在标题中最常见的名词(52.3%)、动词(30.0%)和其他词性(17.7%)。多模态注意力。我们收集了关于重要图像区域和短语的丰富多模态注释,这使得对视觉语义对齐进行了细粒度的学习。如图5所示,每个解决方案平均注释了9.13个图像区域和11.69个短语。超过98%的步骤在图像和标题中至少有一个多模态注意力实例,约99.5%的步骤至少有一个注释短语。对于解决方案的每个步骤,平均注释了1.56个图像和标题中的多模态注意力实例。此外,每个步骤平均注释了0.72个重要短语,这些短语没有特定的图像区域,并且注释了0.13个图像区域,这些区域没有对应的短语。在表3中,注释短语中的词汇包括名词(60.8%)、动词(31.6%)和其他词性(7.6%)。与标题中的分布相比(参见表2),注释中包含更多的名词,对应于图像中的各种对象实例。动词和其他词性的丰富性可以推断出两种模态中的各种语义。平均而言,每个注释的图像区域占图像大小的约36.0%,而没有文本对应关系的图像区域占图像大小的约30.7%。对于不完整的注释,我们为它们分配了一个空的占位符,以便在模型训练中使用或在数据集的后续版本中完成。解决方案图。解决方案图多样、复杂且对于描述解决方案步骤之间的关系非常重要。它们大致分为三种类型,基于它们的结构,包括顺序(图2b,所有步骤按顺序执行)、并行(图2d,步骤可以独立地以任何顺序执行)和其他(图2a和图2c,某些步骤依赖于其他步骤)。如图4所示,三种类型的分布情况。GAP0.49528.58362.31377.8823.7580.53534.44964.78579.2843.558GPO0.50129.44162.24978.6763.6950.54935.69567.16581.2033.392ATT0.50529.58963.42079.5793.6490.57238.56369.24083.2133.186156320图像标题0方法 MRR R@1 R@3 R@5 平均MRR R@1 R@3 R@5 平均0表4. 任务1的定量结果:解决步骤预测。0解决方案图的类型在不同类别之间有所不同。对于某些类别(例如食品和娱乐、计算机和电子产品、爱好和手工艺),大多数图是顺序的,因为它们需要按照一定的步骤进行。对于其他类别(例如健康、宠物和动物、人际关系),解决方案通常包含解决问题的不同方面的多个步骤(即并行),或者步骤之间存在复杂的依赖关系。这些数据和注释使得能够对问题解决中的多模态信息进行细粒度的研究。04. 实验0我们的VisualHow数据集使得能够开发能够理解和生成解决实际问题的智能问题解决模型。在本节中,我们系统地分析了一系列基线模型,这些模型基于VisualHow数据集解决了新的视觉-语言任务:1)预测成对图像和标题的解决步骤;2)预测不同解决步骤之间的依赖关系;3)根据给定的解决方案描述问题;4)生成解决步骤中图像的标题。这些实验展示了在提出的VisualHow数据集上基准模型的成功。它们还提供了有趣的分析和观察,并为多模态理解和实际问题解决中的新研究领域提供了启示。04.1. 基线模型0在我们的实验中,我们采用最先进的预训练模型从视觉和语言模态中提取特征。具体来说,视觉特征是从在Instagram(WSL)上预训练的ResNeXT-101(32×8d)[25]中提取的,而语言特征是使用预训练的BERT模型[19]获得的。我们探索了三种基线方法来转换这些特征用于下游任务:1)GAP-一种全局平均池化方法,独立地处理不同区域和单词的特征,而不考虑它们的重要性;2)GPO-一种广义池化算子[10],对齐视觉和语言特征,并在特征聚合过程中共同考虑它们;3)ATT-一种注意机制,用于突出显示每个模态的重要语义区域,然后通过学习的权重将它们聚合起来。这些方法的实现细节在补充材料中介绍。0基于这些方法,我们为我们的四个实验任务开发了基线模型。04.2. 任务1:解决步骤预测0我们的工作的主要研究目标是使得能够学习能够同时预测具有视觉插图和语言描述的实际问题的逐步解决方案的智能模型。现有的视觉-语言研究尚未充分探索多模态描述的联合预测。我们通过在提出的VisualHow数据集上进行演示性实验,并使用同时生成多模态解决方案的基线模型来实现这一目标。具体而言,给定问题描述和先前的解决步骤,模型被要求通过对两组候选图像和标题进行排序来预测下一个解决步骤的图像和标题。我们使用三个编码器对问题、图像和标题进行编码。编码特征与双向GRU [15,54]动态集成。为了预测解决方案的下一步,我们开发了一个三元组网络[10,20],通过最大化正候选特征与从所有先前步骤集成的GRU特征之间的余弦相似度,并最小化负候选特征之间的余弦相似度来实现。评估时,候选项从验证集中按照[18]的方法进行采样,其中包括三组正确或错误的解决步骤:1)地面真实解决方案的正确下一步;2)来自与问题最相似的10个解决方案的“困难负面”步骤;3)来自相同问题类别的随机解决步骤。为了捕捉这一点,所有问题都通过将问题描述中所有单词的平均GloVe[42]嵌入连接到一个向量空间中。为了生成20个候选项,我们首先找到正确和困难负面步骤的并集,并包括其他随机步骤,直到找到一个唯一的20个步骤集合。模型使用三个指标进行评估:1)正确步骤的平均倒数排名(MRR);2)在前K个排名步骤中存在正确步骤的召回率(Recall@K);3)正确步骤的平均排名。结果:表4显示了该任务的评估结果。首先,我们观察到传统的视觉-语言方法,如GPO[10],取得了中等性能,虽然比GAP基线更好,这表明解决实际问题比现有的视觉-语言任务更具挑战性。此外,结果表明注意机制的性能优于其他方法,这进一步验证了注意机制在多模态问题解决中的有效性。GAP0.4840.3770.268GPO0.4680.3800.302ATT0.4730.3890.319ATT+CE0.4940.4340.376156330图像标题0方法 MRR SIM KLD MRR SIM KLD0ATT 0.505 0.293 1.937 0.572 0.371 1.586 ATT+CE 0.5070.520 0.852 0.580 0.665 0.5430表5. 任务1的定量结果:解决步骤预测(带有注意力监督)。0注意机制(ATT)可以在没有明确监督的情况下有效提高模型性能,这表明专注于理解和解决现实问题的重要性。最后,值得注意的是,所有评估指标的性能排名是一致的,这表明我们的数据集为评估解决步骤预测模型提供了一个公平的基准。注意力分析。VisualHow数据集的丰富多模态注意力注释可以作为两种模态之间语义对齐的指导,这使我们能够通过明确的监督学习更准确的注意力,并改进解决方案的预测。为了证明这一点,我们引入了辅助的交叉熵(CE)损失来监督模型的视觉注意力和语言注意力,并分析注意力准确性的提高以及任务性能。我们使用两个常用的评估指标相似度(SIM)和KL散度(KLD)[6]来衡量注意力准确性。表5显示了学习了注意力监督(即ATT+CE)或没有注意力监督(即ATT)的模型的定量结果。与过去的观察结果一致[11],我们发现在训练过程中明确的注意力监督可以帮助模型关注重要的视觉和语言特征,从而提高SIM和KLD得分。它还改善了它们的图像和标题预测性能(即MRR)。图6进一步比较了两个模型在有和没有明确监督的情况下的注意力输出。它们表明明确的注意力监督不仅帮助模型定位多模态解决方案中的重要区域和单词,而且在相关联的两种模态之间(例如鱼油、牛排)起到了关键作用,并得出了更准确的解决方案。这些观察结果突出了多模态注意力在推导现实问题的全面解决方案中的重要作用。04.3. 任务2:解决方案图预测0接下来,根据问题和解决方案的描述,我们开发模型来预测解决方案图。这个实验旨在展示解决方案图作为细粒度注释,以便更好地理解不同解决步骤的顺序和依赖关系。实现。为了捕捉不同步骤之间的关系,我们将从图像、标题和问题描述中提取的特征连接起来,并学习一个带有sigmoid激活函数的单一线性层来预测解决方案。0真实情况 ATT ATT+CE0问题:煮火腿牛排0给您的火腿牛排上上釉0和0将它们放在上面0在托盘上。0将火腿放入烤箱中0将牛排烤20到25分钟。0在它们仍然热的时候上菜您的火腿牛排0刚出炉的。0在它们仍然热的时候上菜您的火腿牛排0刚出炉的。0烤牛腰尖。0问题:提高HDL0胆固醇水平0作为胆固醇检查0推荐的0咨询您的医生。0与您的医生讨论处方药物以提高HDL。0咨询您的0与您的医生讨论服用鱼油补充剂。0咨询您的0与您的医生讨论服用鱼油补充剂。0咨询您的0咨询医生是否服用鱼油补充剂。0图6.注意力监督的定性结果。重要区域和关键词用红色和黑色突出显示。0方法 IoU@0.25 IoU@0.5 IoU@0.750表6. 任务2的定量结果:解决方案图预测。0预测依赖矩阵,指示每两个步骤之间的依赖关系。评估。解决方案图预测的评估是一个开放性问题。在这项工作中,我们计算交并比(IoU)[8,43],给定特定的阈值来比较预测的概率矩阵与真实解决方案图之间的相似性。具体而言,我们将一个阈值(例如0.25、0.5、0.75)应用于模型输出,以确定图的边缘,并计算图与真实解决方案图之间的交集和并集的边缘,以计算IoU分数。结果。如表6所示,理解和预测解决方案步骤之间的依赖关系对于基线模型来说是一项具有挑战性的任务,而不同模型的排名与任务1保持相似。类似地,通过注意机制和显式监督可以提高IoU性能。这些结果表明,基于对视觉和语言描述的理解,学习细粒度的解决方案结构具有潜力。04.4. 任务3:问题描述生成0为了进一步展示我们的VisualHow作为一个通用的视觉-语言基准的用法,我们提出了一个演示性实验,用于根据解决方案的视觉和文本描述生成问题描述。这个实验类似于传统的视觉-语言任务(例如图像字幕和视觉问答),但是更加注重解决问题的目标与实现这些目标的不同步骤之间的上下文关系。ATT (I)16.78.54.72.96.716.522.9ATT (C)22.111.46.33.99.822.144.5ATT (I+C)22.712.06.84.49.922.446.7ATT+CE (I)16.99.55.33.77.318.524.6ATT+CE (C)22.811.76.33.89.922.347.0ATT+CE (I+C)24.113.17.74.810.723.250.8GAP28.213.07.34.523.224.112.7GPO33.015.77.45.627.026.423.0ATT33.616.47.45.827.227.123.4ATT+CE33.817.09.96.228.128.224.3156340方法 B-1 B-2 B-3 B-4 M. R. C.0表7. 任务3的定量结果:问题描述生成。0任务2的定量结果:解决方案图预测。04.5. 任务4:解决方案标题生成0我们提出的VisualHow数据集还可以作为评估模型同时考虑多个图像并生成流畅故事能力的有用测试平台。在我们的实验中的最后一个任务中,我们考虑根据输入的问题描述和解决方案图像生成解决方案标题。它可以被视为一个视觉叙事任务,但是还强调了问题目标与实现目标的不同步骤之间的上下文关系。实施。我们采用在ViST[28]数据集上取得最先进性能的AREL[54]模型。我们将解决方案图像和问题描述的BERT嵌入输入模型,以获得与图像相对应的标题序列[28,54]。评估。模型的训练和评估遵循标准的视觉叙事范式。使用BLEU[41]、METEOR [4]、ROUGE-L [36]和CIDEr[52]作为评估指标,将生成的标题与真实标题进行比较。0方法 B-1 B-2 B-3 B-4 M. R. C.0表8. 任务4的定量结果:解决方案标题生成。0基准结果。该任务的定量结果如表8所示。从结果中,我们观察到生成标题比预测问题描述更容易,这与更高的BLEU[41]、METEOR [4]和ROUGE-L[36]分数所示。然而,CIDEr[52]分数明显低于任务3的分数。这是因为解决方案标题的长度比问题描述的长度长得多,模型容易预测常见词汇,而CIDEr会对其进行折扣。比较不同的模型,我们观察到ATT+CE获得了最佳性能,而ATT和GPO稍逊,GAP的性能最低。这表明学习关注重要特征有助于理解解决方案图像并生成相应的标题。这些观察结果表明VisualHow是一个具有挑战性的视觉叙事模型基准,准确的注意力对于生成流畅的描述很重要。05. 结论0解决现实世界问题的能力是迈向人类智能的重要一步。在本文中,我们介绍了VisualHow,一个用于解决现实生活问题的大规模数据集。利用专家生成的互联网内容和众包,我们收集和注释了20,028个问题和解决方案。数据集统计数据表明,问题、解决方案和注释包含了丰富的多模态解决方案,适用于各种现实生活场景中的问题。理解和预测现实生活问题的解决方案是一个困难的问题。这些数据和注释为理解和解决问题的新视觉语言任务和计算方法提供了基础。我们的结果表明,有很大的改进空间。我们希望这项工作能促进未来的研究,更好地理解现实生活问题解决中的多模态信息。我们设想,这项工作将推动创新,并鼓励在问题解决系统方面的发展,这将对各种应用产生积极影响。0致谢0本工作得到NSF Grant 1908711的支持。[13] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedan-tam, Saurabh Gupta, Piotr Dollar, and C. Lawrence Zitnick.[17] Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, andRita Cucchiara. M2: Meshed-memory transformer for im-age captioning. 2020.[19] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: Pre-training of deep bidirectional trans-formers for language understanding.In North AmericanChapter of the Association for Computational Linguistics(NAACL), 2019.[21] Andrea Frome, Greg S. Corrado, Jon Shlens, Samy Bengio,Jeff Dean, Marc’Aurelio Ranzato, and Tomas Mikolov. De-ViSE: A deep visual-semantic embedding model. 2013.156350参考文献0[1] Aishwarya Agrawal,Dhruv Batra,DeviParikh和AniruddhaKembhavi。不要假设,要看并回答:克服视觉问题回答的先验知识。在IEEE计算机视觉和模式识别会议(CVPR)的论文集中,2018年。0[2] Aishwarya Agrawal,Jiasen Lu,StanislawAntol,Margaret Mitchell,C. Lawrence Zitnick,DhruvBatra和DeviParikh。VQA:视觉问答。在IEEE国际计算机视觉会议(ICCV)的论文集中,2015年。0[3] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould和LeiZhang。自底向上和自顶向下的注意力用于图像字幕生成和视觉问题回答。在IEEE计算机视觉和模式识别会议(CVPR)的论文集中,2018年。0[4] Satanjeev Banerjee和AlonLavie。METEOR:一种自动评估机器翻译的指标,与人类判断的相关性有所提高。在年度计算语言学协会研讨会(ACLW)中,2005年。0[5] Irshad Bhat,Talita Anthonio和MichaelRoth。面向wikiHow指南中修订要求的建模。在自然语言处理的经验方法会议(EMNLP)中,2020年。0[6] Zoya Bylinskii, Tilke Judd, Aude Oliva, Antonio Torralba,and Fr´edo Durand.不同评估指标对显著性模型的解释。IEEE模式分析与机器智能交易(IEEE TPAMI),2018年。0[7] Khyathi Raghavi Chandu, Ruo-Ping Dong, and Alan Black.读图说话之间的空白:探索视觉叙事中的填充。在自然语言处理的经验方法会议(EMNLP)中,2020年。0[8] Chien-Yi Chang, De-An Huang, Danfei Xu, Ehsan Adeli, LiFei-Fei, and Juan Carlos Niebles.指导视频中的过程规划。在欧洲计算机视觉会议(ECCV)论文集中,2020年。0[9] Soravit Changpinyo, Wei-Lun Chao, Boqing Gong, andFei Sha.合成分类器用于零样本学习。在计算机视觉和模式识别(CVPR)IEEE会议论文集中,2016年。0[10] Jiacheng Chen, Hexiang Hu, Hao Wu, Yuning Jiang, andChanghu Wang.学习视觉语义嵌入的最佳池化策略。在计算机视觉和模式识别(CVPR)IEEE会议论文集中,2021年。0[11] Shi Chen, Ming Jiang, Jinhui Yang, and Qi Zhao.AiR:具有推理能力的注意力。在欧洲计算机视觉会议(ECCV)论文集中,2020年。0[12] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedan- tam,Saurabh Gupta, Piotr Dollar, and C. Lawrence Zitnick. MicrosoftCOCO字幕:数据收集和评估服务器。arXiv预印本arXiv:1504.00325,2015年。0MicrosoftCOCO字幕:数据收集和评估服务器。arXiv预印本arXiv:1504.00325v2,2015年。0[14] Zhenfang Chen, Peng Wang, Lin Ma, Kwan-Yee K. Wong,and Qi Wu.Cops-Ref:关于组合参考表达理解的新数据集和任务。在计算机视觉和模式识别(CVPR)IEEE会议论文集中,2020年。0[15] Kyunghyun Cho, Bart van Merri¨enboer, Caglar Gulcehre,Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, andYoshua Bengio.使用RNN编码器-解码器学习短语表示以进行统计机器翻译。在自然语言处理的经验方法会议(EMNLP)中,2014年。0[16] Michael Cogswell, Jiasen Lu, Rishabh Jain, Stefan Lee,Devi Parikh, and Dhruv Batra.无对话数据的对话:从VQA数据中学习视觉对话代理。在神经信息处理系统(NeurIPS)会议中,2020年。0[18] Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh,Deshraj Yadav, Jos´e M. F. Moura, Devi Parikh, and DhruvBatra.视觉对话。在计算机视觉和模式识别(CVPR)IEEE会议论文集中,2017年。0[20] Fartash Faghri, David J. Fleet, Jamie Ryan Kiros, and SanjaFidler.VSE++:通过困难负例改进视觉-语义嵌入。在英国机器视觉会议(BMVC)中,2018年。0[22] Zhe Gan, Yu Cheng, Ahmed El Kholy, Linjie Li1, JingjingLiu, and Jianfeng Gao.通过循环双重注意力进行多步
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功