神经模块网络在视觉对话中解决可见共指解析的探索

113 浏览量更新于2024-06-20 收藏 1.29MB PDF 举报

"这篇论文探讨了在视觉对话中基于神经模块网络的可见共指解析技术，旨在解决对话历史中的名词短语和代词与图像中实体的对应问题。作者提出了一种新的神经模块网络架构，包含参考和排除模块，以在更细粒度的词汇级别上进行明确、定位和共指解析。实验结果显示，该模型在MNIST对话框和VisDial数据集上表现出色，提高了可解释性、定位能力和定性一致性。" 在视觉对话任务中，系统需要理解并回答基于图像的一系列问题，同时考虑对话历史提供的上下文信息。传统的可视问答（VQA）仅处理单轮问题，而视觉对话则需要处理多轮交互，这增加了识别和解析共指表达的复杂性。共指解析是理解对话的关键，特别是对于代词如“它”，因为它们的指代对象需要依赖于之前的对话内容。神经模块网络（Neural Module Networks, NMNs）是一种灵活的深度学习框架，允许构建模块化的解决方案来处理不同的任务部分。在本文中，作者引入了两个新的模块：参考模块和排除模块，以执行更精细粒度的共指解析。参考模块负责找出可能的指代对象，而排除模块则用于消除不正确的候选对象，从而确保解析的准确性。在MNIST对话框数据集上，该模型展示了近乎完美的性能，证明了其在简单场景中的有效性。MNIST对话框是一个专门为共指解析设计的简单视觉环境，其中包含了复杂的相互参照情况。而在VisDial，一个大型且具有挑战性的真实图像视觉对话数据集上，该模型的表现优于其他方法，显示出其在复杂现实场景中的优越性。此外，作者强调了模型的可解释性、定位能力和定性一致性的重要性。在视觉对话中，能够清晰解释模型的决策过程对于理解和信任人工智能至关重要。通过提供这些特性，该模型更接近于人类的推理方式，有助于提升系统的实用性和接受度。总结起来，这篇研究为解决视觉对话中的共指解析问题提供了一个有效的方法，通过神经模块网络的新架构，提高了对话理解的准确性和解释性。这一进展对于推动视觉对话系统的发展，特别是在现实世界的交互式应用中，如辅助视力障碍者和智能家居控制，具有重要的意义。

S. Kottur，J. M F. Moura，D. Parikh，D.巴特拉湾

Rohrbach

整个问题和答案的文本表示以及历史。相比之下，在每个问题中以更

精细的单词级粒度操作，我们的模型可以解决问题的不同短语，并将

它们与图像的不同部分联系起来，这是正确理解和接地的核心组件。

例如，在一个示例中，”

一个男人和一个女人在车里。问：他或她开车

吗

，这需要分别解析

在图像和视频中扎根语言。这一领域的大多数作品都专注于在图像

[19，22，29，32，35，41，46]或视频[34，24，45，5]中定位文本参

考表达的特定任务类似于这些作品，我们的模型的一个组成部分，旨

在本地化的图像中的单词和短语然而，关键的

‘it’

我们的模型首先将

其显式地解析为已知实体，然后

通过

或沿着该已知实体的v i s u al g u

nd i

n g来生成它

。

共指消解。语言学界将共指消解定义为对短语进行聚类的任务，

例如名词短语和代词，它们指的是世界上的同一实体（例如，参

见[8]）。视觉共指消解的任务是将共指链接到视觉数据中的实体

例如，[33]将电视节目描述中提到的人物与他们在视频中的出现联

系起来，而[22]将文本短语与3D场景中的对象联系起来。与这些作

品不同的是，我们预测了一个给定的自然语言问题的图像，然后

试图解决任何现有的共指，然后回答这个问题的程序。正交方向

是在联合接地和解析共指的同时生成语言[36]探索这部电影的描

述。虽然超出了这项工作的范围，但它是可视化对话框未来工作

的一个有趣方向，特别是在生成问题时。

神经模块网络

[4]是一类优雅的模型，其中

实例的具体实现由在时间上具

有具体实现的随机模块（或构建块）组成

。

在

分层RL中，高级别的任务是

通过操作或子任务来实现的

。他们已经被证明是成功的视觉问题回答在真

实图像和语言数据库[3]和更复杂的推理任务在合成数据集[21，18]。为

此，[21，18]端到端联合学习程序预测和模块参数。在此背景下，我们

的工作通过引入一个新的模块来执行显式视觉共指消解，将[18]中的公

式从VQA推广到视觉对话。

方法

回想一下，可视对话[11]涉及在当前回合

回答问题

，给定图像

和

对话历史（包括图像标题）

（

Ω x

，

（

，

）

，

···

，

（

−

，

−

））

，通过一

个100c的

列表和一

个-

` 联系我们

联系我们

−

swe

{

⑴

，

···

，

（

100

）

}

。

作为

一个

关键的组件，用于

构建更

好

的

服务

t t

对话代理，我们的模型显式地解决了当前

问题，如果有的话。

剩余16页未读，继续阅读

cpongm

粉丝: 6

神经模块网络在视觉对话中解决可见共指解析的探索

Neurocoref：spa通过神经网络在空间中实现快速共指解析

corefnmn:使用神经模块网络的视觉对话框中的视觉共指解析

人工智能AI源码-基于视觉体验的会话代理

Python-在Pytorch中回答视觉问题

解析人工智能发展史.pdf

智能对话系统研究综述.pdf

弱监督神经符号模块网络：提升数值推理精度

虚拟数字人实时对话技术演示与源码解析

人工智能开发的聊天机器人技术解析

深度神经网络中的自注意力机制

最新资源