解决人工智能视觉推理与记忆挑战的深度学习方法

41 浏览量更新于2024-06-20 收藏 966KB PDF 举报

"人工智能视觉推理和记忆的工作中问题的解决方案" 本文主要探讨了人工智能在处理复杂的视觉推理和记忆任务时面临的挑战，并提出了一个新的数据集和深度学习架构来解决这些问题。作者们受到认知心理学和神经科学的启发，创建了一个名为COG（Configurable Open-Ended Grounded）的数据集，专门用于测试人工智能在视觉推理和记忆方面的能力。 COG数据集的设计旨在模拟人类和动物在处理视觉刺激时的推理过程，尽管它比视频分析等实际问题更简化，但它包含了一系列涉及视觉识别、逻辑推理和记忆的任务。这个数据集不仅用于评估模型的性能，还能帮助研究人员理解现有深度学习架构的局限性。COG数据集的逐步复杂化设计允许模型在训练过程中逐渐适应更具挑战性的任务，实现零样本泛化到新任务的能力。为了处理COG数据集，作者提出了一种深度学习架构，它利用了递归网络和工作记忆的概念。递归网络因其在处理序列数据和递归结构方面的优势而被广泛应用，而工作记忆则在人工智能系统中模拟了人类短期存储和处理信息的能力。通过这样的设计，网络能够处理动态场景中的连续信息流，同时执行逻辑推理。在实验中，该模型在现有的视觉问答数据集如CLEVR上表现出色，并在COG的简单设置下也取得了良好的效果。然而，当面对COG的复杂设置时，尽管模型能完成任务，但其学习过程和决策策略仍需要进一步分析，以确保它们能以人类可解释的方式来解决问题。关键词：视觉推理、视觉问答、递归网络、工作记忆文章指出，虽然在VQA数据集上取得的进步显著，但这些数据集揭示了当前方法的局限性，比如模型可能过度依赖特定的模式而不是真正的理解。因此，未来的挑战在于如何使模型具备真正的理解能力，能够处理更复杂、更动态的视觉场景，同时保持解释性，这将有助于推动人工智能在视觉推理和记忆领域的进一步发展。

G.R. 扬岛，智-地Ganichev，X.J. Wang，J.Shlens，D.苏

西略

潜在的故障模式，并突出逻辑理解（例如，属性识别、计数、比较、多重注

意和逻辑运算）

[10

，

44]

。此外，已经提出了许多专注于多任

务学习的专用神经网络架构，通过利用注意力

[45]

、外部存储器

[35

，

36]

、

一系列特征变换

[46

，

、将任务显式解析为可执行子任务

，

以及推断对

象对之间的关系

[4]

来解决这个问题。

我们的贡献直接来自于之前对单个图像的工作，但重点是时间和记忆方

面。灵感的第二个来源是一长串认知神经科学文献，这些文献专注于开发一

系列顺序视觉任务，以锻炼和测量视觉工作记忆的特定属性

[21

，

26]

。

认知心理学和神经科学的几条线已经开发了大量的视觉任务，这些任务及时

地锻炼了属性识别、计数、比较、多重注意和逻辑运算

[32

，

28-31]

（参见其中的参考文献）。这项工作强调了任务生成中的组合性

这是

推广到看不见的任务的关键因素

[48]

。重要的是，该文献提供了人类和动物

对这些任务的测量，并讨论了可能构成和解释性能变化

COG数据集

我们设计了一系列需要广泛认知技能的任务尤其是工作记忆。这个数据

集的一个主要目标是建立一个合成的任务集，包括许多认知任务的变体研究

在人类和其他动物

[32

，

数据集包含任务指令的三元组、合成图像的序列和目标响应的序列

（参见图

的示例）。每个图像由许多颜色、形状和位置不同的简单对象

组成。有

种可能的颜色和

种可能的形状（

种几何形状和

个小写英

文字母）。网络需要为每个图像生成口头或指向响应。

为了构建一个大的任务集，我们首先使用一个通用的统一框架来描述所

有潜在的任务。数据集中的每个任务都是抽象定义的，并从基本构建块（即

操作符）

组成。操作员执行基本计算，例如基于属性（颜色、形状等）选择

对象。或者比较两个属性（图

）。操作符是抽象定义的，没有指定所涉

及的确切属性。任务由运算符的有向非循环图形成（图

）。最后，我们

通过在任务图中指定所有相关属性来实例化任务（图第

段）。任务实

例用于生成口头任务指令和最小偏差图像序列两者。可以从同一任务实例生

成许多图像序列。

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

解决人工智能视觉推理与记忆挑战的深度学习方法

Python-inferringandexecuting用于视觉推理的推断和执行程序

基于视觉推理的视频理解技术.pptx

基于视觉推理的视频理解技术.pdf

计算机视觉在案例推理系统中的应用.pdf

AI推理和高级优化训令营

【通用人工智能】基于python的人工智能推理系统

基于云边协同的计算机视觉推理机制.docx

人工智能搜索推理技术解析

视觉推理与仿真诊断在二进制逻辑回归中的应用

高级人工智能中的不确定性推理方法探究

最新资源