文本视觉互补：深化多模态机器学习的理解

103 浏览量更新于2024-06-16 收藏 4.63MB PDF 举报

多模态机器学习是一种前沿的AI技术，它结合了文本和视觉信息，探索了这两个模态之间深刻的互补性。本文由埃洛伊·扎布洛克基撰写，他在索邦大学完成的研究论文探讨了语言与视觉的相互作用，并于2019年发表。论文的核心观点是，虽然语言和图像在表达信息上各有侧重，语言能够传达高级语义但可能存在偏见，而图像则提供了直观的现实世界描述，但层次较低。作者指出，通过将视觉信息融入自然语言处理，可以显著提升语言理解能力，特别是在理解复杂的场景和上下文中，如视觉环境和空间布局。研究者提出了两种模型，旨在学习如何将单词或句子的语义与视觉内容紧密结合。这些模型利用了视觉信息来丰富和精确化语言表征，例如，通过识别图像中的物体和场景元素，帮助机器更好地理解文本中的概念。这种方法有助于解决自然语言处理中的挑战，比如视觉辅助下的语义解析和图像描述生成。论文的评审团由来自不同领域的专家组成，包括来自Facebook的审查员、索邦大学-Criteo的主管、IRISA的研究员以及来自卢汶大学的代表，他们在多模态学习领域提供了专业指导。扎布洛克基的研究不仅对理论发展有所贡献，也为实际应用提供了新的视角，如智能搜索、图像标注、虚拟助手等领域，展示了文本与视觉数据的协同潜力。这篇论文强调了多模态机器学习作为一种有力工具，它通过融合文本和视觉信息，提升了人工智能的理解能力和表达能力，对于推动跨模态知识的理解和应用具有重要意义。随着技术的进步，这种互补性的利用将越来越广泛，有助于构建更加智能化和全面的交互系统。

I N T R O D U C T I O N

内容

1.1

上下文1

1.2

研究问题2

1.3

论文的贡献和提纲

1.1

上下文

在过去的三十年中，数字服务有了很大的发展，包括数据共享平台、论坛、点

播流媒体网站、社交网络。. .随着存储1G数据的成本在40年内从50万美元下降到

0.2

美元，这些行业现在积累了大量的数据，通常是文本和图像。例如，据估计，

每天约有10亿张照片上传到Facebook上，约有6.5亿条推文发布在Twitter上。因

此，处理如此大量的数据已经成为一个重大挑战，通常由

机器学习

方法来解决，

这些方法可以从原始数据中提取有意义的知识并与用户进行交互。

机器学习最突出的应用案例之一是自然语言处理（NLP），这是一个处理自然语

言数据的研究领域。NLP涵盖了各种子领域，如语法和语义分析（

。

Bengio

等

人，2003年; Petrov等人，2012）、信息检索（IR）（Salton et al.1975），情感

分析（Pang et al.2007），自动翻译（Bahdanau et al.2015）。. .这些问题传统上

是用启发式模型来解决的，启发式模型本身是基于简单的统计数据，例如计算文

档中的单词出现次数和共现次数（Hristea2011）。在过去的三十年里，一个新的

想法出现了 NLP ：

表征学习

范式（

Deerwester et al.1990; Y.Bengio

等

2003;

Y.Bengio

等人，

2013

年）。表征学习的核心思想是学习一个文本单元（一个词，

一个句子或一个文档）的

表征

。

. .

）

通常，这些表示对文本单元的

语义

（

即

，含

义）进行编码：在表示所在的空间中，两个文本单元之间的语义相似性可以被测

量为表示之间的空间接近度。然后提出了几种方法来学习文本单元的表示

TER

在生产中，

基于监督（

Conneau et al.2017

）或无监督目标（

Mikolov et al.2013

年）。一旦

学习了表示空间，通常的做法是将其用于下游NLP任务，因为它应该包含丰富的语

法和语义信息（Devlin et al.2018）。学习高质量的文本表示是NLP社区的一个关

键挑战。

机器学习应用的另一个重要领域是提供自动理解图像和相关媒体（如视频）的

方法。这就是

计算机视觉

领域的目的特别是，它的目的是从丰富的低级别信息

（像素值）中提取有意义的高级别信息它包含各种挑战，例如检测图像中的对象

（定位，分类，分割）（Ratan et al.1998年; Borenstein等人2006），估计人体姿

势（Parameswaran等人，2004），识别手写字符（Kae等人，2010）。. .传统

上，没有（或很少）学习涉及提取图像特征（Lowe2004; Dalal et al.2005），在

第二阶段，这些手动设计的特征被馈送到机器学习算法，该算法学习执行感兴趣

的任务。在

20102012

年）由于三个因素：（

）理论的进步，（

）不断增长的计

算能力，（

）大规模公共数据集的发展。卷积神经网络（ConvNet），其发明于

世纪

801982; LeCun

等人，

1989

年），已经看到他们的使用和性能广泛增加。

这些

深度

网络由连续的层组成，这些层学习图像的分层视觉表示。例如，给定一

个人的面部图像因此，我们认为，通过提取中间激活值，ConvNet架构可以为图

像生成学习的分布式表示。

除了对NLP或计算机视觉的机器学习的独立研究之外，语言和图像的交互仍然相

对不足，尽管人们的兴趣越来越大。探索处理这两种模态的机器学习方法是本文

的重点。

1.2

研究问题

文本和视觉形式在信息编码的方式上有很大的不同：语言是一种离散的信号--由

单词、句子和段落组成

- ，而图像是连续的并且由空间布置的像素组成。这导致图像或语言的表征学习技

术是特定于模态的，并且嵌入在不同空间中的所产生的表征也是特定于模态的。

基于这种观察，一些作品试图学习语言和图像之间的简单联系

一、

贡献的

乌特林内的

THESI S

基于语言和图像之间的根本差异，我们区分了两种正交方法，其中语言可以被利

用来使视觉模态受益（如图1中的蓝色所示）。1）、

语言可以起到增强模型的视觉理解能力的作用。事实上，假设语言语义表征

包含视觉信息，这些语义表征可以帮助识别对象或推理与视觉情况。这是特

别有趣的，因为传统的视觉识别系统依赖于大量的监督数据，而它是可能的

学习语义表示与无监督机器学习方法的文本。通常情况下，当视觉监督稀缺

时，利用语言表示显示出很大的好处（

Frome et al.2013; R. Yu et

al.2017）。在极端情况下，当缺乏视觉监督并且在训练期间根本看不到某些

对象时，可以使用语义表示来识别看不见的对象。这个场景对应于

零拍摄

对

象识别，我们将在第5中处理。

语言可以作为评估视觉模型的一种方式。可以用自然语言表达图像内容的模

型可以证明它们从图像中提取高级语义的能力，以及它们对视觉内容进行推

理的能力。这是一个基本的假设，动机的需要，以评估视觉系统的自然语

言，它导致了发展的图像

字幕

，和视觉问题问答（VQA）的任务。虽然第二

章对此进行了讨论，但这不是本文的重点。

1.3

论文贡献及提纲

本文的主要贡献如下：

在第2章中，我们介绍了文本和图像的背景多模态机器学习方法。我们首先

回顾单峰机器学习方法，无论是在文本还是图像的情况下，然后提出利用文

本和视觉模态的动机。我们详细介绍了第一行的作品，试图将视觉语义纳入

自然语言处理，例如地面的单词或句子的含义，或学习常识。相反，我们提出

了相反的方法，其目标是使用自然语言来帮助视觉理解和推理，或者应对大

多数视觉学习系统依赖于强监督信号的事实。

剩余160页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

文本视觉互补：深化多模态机器学习的理解

多模态情感分析：文本与图像的融合

多模态学习实践：融合文本与图像信息的深度学习模型

多模态学习：视觉与语音的融合

多模态深度学习：跨领域信息融合的新兴方向

TensorFlow 多模态模型设计：融合图像与文本信息

多模态深度学习综述.pdf

多模态视觉语言表征学习：深度解析与关键方法

深度解析：多模态学习的现状与未来趋势

人工智能工具库：支持多模态学习与跨平台机器人构建

多模态数据增强：融合不同类型数据的强大技术与实践指南

最新资源