多模态机器学习：文本与视觉的互补性

27 浏览量更新于2024-02-04 收藏 4.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

多模态机器学习：文本和视觉上下文的互补性埃洛伊·扎布洛克基引用此版本：埃洛伊·扎布洛克多模态机器学习：文本和视觉上下文的互补性。机器学习[cs.LG]. 索邦大学，2019年。英语NNT：2019SORUS409.电话：03951535v2HAL Id：tel-03951535https://hal.sorbonne-universite.fr/tel-03951535v22023年2月14日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire信息、电信和电子博士学校（巴黎）博士论文多模态机器学习：文本和视觉上下文的埃洛伊·扎布洛克基为满足计算机科学暂定答辩日期：2019年评审团由以下人员组成：安托万·博尔德Facebook审查员先生PatrickGAllI nARI索邦大学- Criteo主管 Mr.GuillaumeGRAVIERIRISA记者夫人Marie-Francine MoEns Benjamin PIwow arskIMrs. Laure SOlIERXavier TAnnIERKU Leuven Reporter索邦大学联合导师索邦大学联合导师索邦大学考官埃洛伊·扎布洛克：多模态机器学习：文本和视觉上下文的互补性2019A B标准研究语言和视觉之间的相互作用，尽管兴趣越来越大，但相对来说还不够深入。除了文本和图像之间的细微差异，这两种模态具有不重叠的语义。一方面，语言可以表达关于世界的高级语义，但它是有偏见的，因为它的大部分内容是隐含的（常识或隐含知识）。另一方面，图像是较低层次信息的集合，但它们可以更直接地描述真实世界的统计数据，并可用于确定对象的含义。在这篇论文中，我们利用语言和视觉之间的联系和互补性。首先，自然语言理解能力可以在视觉模态的帮助下得到增强，因为语言是建立在视觉世界的基础上的。特别是，表示语言语义是自然语言处理社区的一个长期问题，为了进一步改进实现该目标的传统方法，利用视觉信息至关重要。我们发现，语义语言表征可以丰富的视觉信息，我们特别关注的视觉环境和空间组织的场景。我们提出了两个模型来学习接地的单词或句子的语义表征分别与图像的帮助。相反，将语言与视觉相结合，可以扩大视觉社区的视野和任务假设语言包含关于对象的视觉信息，并且这可以在语言语义表示中捕获，我们专注于零拍摄对象识别任务，该任务包括识别由于预先获得的关于对象的语言知识而从未见过的对象。特别是，我们认为，语言表征不仅包含视觉信息的视觉外观的对象，但他们的典型的视觉环境和视觉出现频率。因此，我们提出了一个模型，利用一个对象的视觉环境，其视觉发生的可能性，除了在传统的方法中所做的感兴趣的区域的最后，我们提出了前瞻性的研究方向，以进一步利用语言和图像之间的联系，更好地理解这两种方式之间的语义差距III公司简介摘要第三版CONTENnTsvl是图six的T表1中的测试项为XiACROnYMsxiii1第1节介绍1.一、1背景。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11.一、2研究问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . .21.一、3、论文的贡献和提纲。 . . . . . . . . . . . . . . . .52穆勒蒂莫达勒马吉涅我听到了WITH图像s的ndtexT：BAC k-第9组2.1机器学习与语言和视觉102.1.1自然语言处理（NLP）102.1.2计算机视觉的表现2.1.3从单模态到多模态表示212.1.4超越传统的多式联运办法2.2在视觉世界中建立自然语言基础252.2.1动机：人类报告偏倚2.2.2学习接地语言表征292.3自然语言的视觉理解2.3.1用自然语言评估视觉模型382.3.2用自然语言增强视觉理解系统402.4定位443地面上的语言维斯瓦河世界：加西埃的禾路南 45 3 .第三章。1.导言.463.2视觉背景和研究问题3.2.1使用和建模视觉环境473.2.2研究问题483.3模型：学习多模态上下文驱动的单词表示493.3.1视觉情境的表征学习3.3.2多模态模型中的集成3.4评价方案543.4.1数据543.4.2设想方案和基线3.4.3任务573.4.4实施细节3.5实验与结果57vviconTEN nT s3.6结论613.6.1捐款摘要3.6.2前景614地面测量 In 的维斯瓦河世界：加西埃的SE N-TEncE s634.1导言. 644.2在中间接地空间65内解释视觉语义4.2.1建模动机654.2.2模型概述664.2.3接地空间和目标664.3评价方案694.3.1数据集694.3.2基线和设想694.3.3评价任务和衡量标准4.3.4实施细节4.4实验与结果714.4.1对接地空间的研究714.4.2下游评价：转移任务754.5结论764.5.1捐款摘要4.5.2前景765lEVERAGING nG语言FORVIsUA lU ndER sTA ndI nG795.1一、导言. 805.1.1零发射识别805.1.2利用视觉环境进行零次学习（Zero-Shot Learning，ZRL）815.2情境感知零触发学习835.2.1模型概述835.2.2模型组件描述.......................................................................................5.2.3学习875.2.4推论895.3实验方案905.3.1数据905.3.2评价方法和衡量标准5.3.3设想方案和基线.925.3.4实施细节.945.4结果945.4.1环境的重要性5.4.2建模上下文信息965.4.3定性实验985.5结论1015.5.1捐款摘要.第七部分5.5.2观点1016第103号会议6.1捐款摘要6.2开放性问题和观点1056.2.1我们的方法的扩展和前景6.2.2研究展望1066.2.3长期研究方向BIBlIOGRApHY109L I S T O F I G U R E S第一章：第1节介绍图1. 1多模态机器学习与语言和图像。 . . . . . . . . . . . . . . . . . . . . . . . . . . .4第二章：穆勒蒂莫达勒马吉涅我听到了与IM-年龄s 第9组：BACk GROU nd9图2. 1在单词表示空间中观察到的算术关系15图2. 2SkipThought架构17图2. 图3视觉词汇袋（Bag of Visual Words，BoVW）方法。19图2。图4...... 卷积神经网络（ConvNet）。20图2。.............................................................................. 5视觉基础任务22图2. 6三重态损失的图解图2. 第7章利用文本和视觉资源来推理常见物体的尺寸图2. 8多模态融合技术概述29图2. 9用于学习接地词表示的多模态融合技术的示例31图2.第10章学习基于视觉的句子表征34图2.11需要语言知识的视觉任务39图2.12视觉关系检测（VRD）任务，具有语言先验41图2.13没有上下文的经典CNOL模型第三章：集团语言 In 的我们的世界：的荃湾南路东s45号图3.1方法和基本研究问题的说明49图3. 2模型概述第四章：集团语言 In 的我们的世界：的CAsEOF sE nTEN ncE s63图4. 1模型概述67图4. 2接地对句子表征的影响的可视化73图4. 3定性研究74第五章：我经常使用一种语言来描述79年的视觉效果图5. 1上下文感知的XML方法的直觉81IXx图表列表图5. 2模型概述83图5. 3上下文模型的介绍图5. 4非标准化对数概率的3D可视化图5. 5随机分割源域和目标域中的对象。91图5. 6第一个相关分数的说明92图5. 7定性分析：正确等级的分布98图5. 8定性分析：正面例子99图5. 9定性分析：反面例子100图6. 1语言和视觉偏见108L I S T O F TA B L E S第一章：在生产中，1表1.1语言和图像的区别。 . . . . . . . . .3第二章：穆勒蒂莫达勒马吉涅我听到了与IM-年龄s和TExT：BACkGROU nd9表2.1NLP任务和应用程序 . . . . . . . . . . . . . . . . . .11表2.2人类报告偏倚 . . . . . . . . . . . . . . . . . . . . .26表2.3字评价基准。 . . . . . . . . . . . . . . . .32表2.4语言常识任务 . . . . . . . . . . . . . . . .36第三章：案例集团语言In的我们的世界：E 关于我们45表3.1空间信息建模与集成。 . . . . . . .53表3.2设想方案和基线摘要 . . . . . . . . . . . . .56表3.3RQ1结果-相似性评价 . . . . . . . . . . . . .58表3.4RQ1结果-特征范数预测。 . . . . . . . . . .58表3.5RQ2实验结果--词相似度评价。.59表3.6RQ2实验结果-特征规范和具体-ness评价 . . . . . . . . . . . . . . . . . . . . . . . . .60第四章：集团语言In的我们的世界：第六十三号电子科技的例子表4.1内在评价。 . . . . . . . . . . . . . . . . . . . . . .72表4.2定性研究。 . . . . . . . . . . . . . . . . . . . . . . .73表4.3使用SentEval进行外部评估。 . . . . . . . . . . . . .75第五章：我经常使用一种语言来描述79年的视觉效果表5.1表5.2数据集统计。 . . . . . . . . . . . . . . . . . . . . . . . .评价各种信息来源，90监督水平。 . . . . . . . . . . . . . . . . . . . . . .95表5.3广义CSCL中的平均第一相关（MFR）评分设置. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .96表5.4前k和平均倒数秩（MRR）得分 . . . . . . .96表5.5评估基线、设想方案和预言。 . . . . . . .97XiA C R O N Y M SBag-of-WordsBoVW视觉词汇BLEU双语言评估替代研究BPE字节对编码CBOW连续词袋CCA典型相关分析ConvNet卷积神经网络CLEVR组合语言和基本视觉推理诊断CMPlaces跨模式地点CR客户评论CRF条件随机场CV计算机视觉DSM分布式语义模型GAN生成对抗网络GPU图形处理单元GRU门控经常性装置HOG方向梯度红外信息检索知识库知识LDA潜在Dirichlet分配潜在语义分析LSTM长短期记忆mNNO平均最近邻重叠基于显式排序的翻译评价METEORMFR首次相关平均值MSRP微软研究释义MR电影评论平均倒数秩MLP多层感知器XIIIxivACROnYM sMPQA多视角问题分类 MS COCOMicrosoftCommon Objects in ContextNER 命名实体识别NLP自然语言处理NMT神经机器翻译PCA主成分分析PMI逐点互信息POS词性QA问题分类ReLU校正线性单元RBF径向基函数RNN递归神经网络RQ研究问题SGD随机梯度下降包含成分知识的SICKSIFT尺度不变特征变换SNLI斯坦福自然语言推理SST斯坦福情感树库STS语义文本相似度奇异值分解SVM支持向量机t-SNEt分布随机邻域嵌入TF-IDF词频-逆文档频率VRD视觉关系检测VQA可视问题分类Zero-Shot Learning1I N T R O D U C T I O N内容1.1上下文11.2研究问题21.3论文的贡献和提纲1.1上下文在过去的三十年中，数字服务有了很大的发展，包括数据共享平台、论坛、点播流媒体网站、社交网络。. .随着存储1G数据的成本在40年内从50万美元下降到0.2美元，这些行业现在积累了大量的数据，通常是文本和图像。例如，据估计，每天约有10亿张照片上传到Facebook上，约有6.5亿条推文发布在Twitter上。因此，处理如此大量的数据已经成为一个重大挑战，通常由机器学习方法来解决，这些方法可以从原始数据中提取有意义的知识并与用户进行交互。机器学习最突出的应用案例之一是自然语言处理（NLP），这是一个处理自然语言数据的研究领域。NLP涵盖了各种子领域，如语法和语义分析（Y。Bengio等人，2003年; Petrov等人，2012）、信息检索（IR）（Salton et al.1975），情感分析（Pang et al.2007），自动翻译（Bahdanau et al.2015）。. .这些问题传统上是用启发式模型来解决的，启发式模型本身是基于简单的统计数据，例如计算文档中的单词出现次数和共现次数（Hristea2011）。在过去的三十年里，一个新的想法出现了 NLP ：表征学习范式（ Deerwester et al.1990; Y.Bengio 等 2003;Y.Bengio等人，2013年）。表征学习的核心思想是学习一个文本单元（一个词，一个句子或一个文档）的表征。. .）.通常，这些表示对文本单元的语义（即，含义）进行编码：在表示所在的空间中，两个文本单元之间的语义相似性可以被测量为表示之间的空间接近度。然后提出了几种方法来学习文本单元的表示1CAPTER2在生产中，基于监督（Conneau et al.2017）或无监督目标（Mikolov et al.2013年）。一旦学习了表示空间，通常的做法是将其用于下游NLP任务，因为它应该包含丰富的语法和语义信息（Devlin et al.2018）。学习高质量的文本表示是NLP社区的一个关键挑战。机器学习应用的另一个重要领域是提供自动理解图像和相关媒体（如视频）的方法。这就是计算机视觉领域的目的特别是，它的目的是从丰富的低级别信息（像素值）中提取有意义的高级别信息它包含各种挑战，例如检测图像中的对象（定位，分类，分割）（Ratan et al.1998年; Borenstein等人2006），估计人体姿势（Parameswaran等人，2004），识别手写字符（Kae等人，2010）。. .传统上，没有（或很少）学习涉及提取图像特征（Lowe2004; Dalal et al.2005），在第二阶段，这些手动设计的特征被馈送到机器学习算法，该算法学习执行感兴趣的任务。在20102012年）由于三个因素：（1）理论的进步，（2）不断增长的计算能力，（3）大规模公共数据集的发展。卷积神经网络（ConvNet），其发明于20世纪801982; LeCun等人，1989年），已经看到他们的使用和性能广泛增加。这些深度网络由连续的层组成，这些层学习图像的分层视觉表示。例如，给定一个人的面部图像因此，我们认为，通过提取中间激活值，ConvNet架构可以为图像生成学习的分布式表示。除了对NLP或计算机视觉的机器学习的独立研究之外，语言和图像的交互仍然相对不足，尽管人们的兴趣越来越大。探索处理这两种模态的机器学习方法是本文的重点。1.2研究问题文本和视觉形式在信息编码的方式上有很大的不同：语言是一种离散的信号--由单词、句子和段落组成- ，而图像是连续的并且由空间布置的像素组成。这导致图像或语言的表征学习技术是特定于模态的，并且嵌入在不同空间中的所产生的表征也是特定于模态的。基于这种观察，一些作品试图学习语言和图像之间的简单联系1.2 第3条原子值结构需要监督语言人类定义的离散（单词）顺序高电平偏置低电平图像原始信号连续（像素）空间低准高表1. 1这包括学习结合语言和视觉表示的作品，以及联合学习多模态表示空间以嵌入两种模态的作品。除了信息编码方式上的细微差异，我们现在强调语言和图像之间更根本的差异（见表1）。①的人。视觉数据是对现实的直接描述，并且不受解释的影响：图像中对象的视图和场景的空间组织是明确的，因此图像报告了真实世界的统计数据。然而，这是因为图像中表达的语义只是低级的。它的后果是，从图像中学习语义表示需要大量的监督与当前的方法。另一方面，语言可能是模糊的，依赖于上下文和背景知识（例如常识），因此不是对现实的公正转录，例如，人类倾向于不提及不令人惊讶的事实。后者被称为报告偏倚（Gordon et al.2013）。然而，与图像不同的是，语言可以指代高层次的概念.此外，有几种方法可以在没有监督的情况下学习语言语义表示。语言和图像之间的这些根本差异暗示了两种形式的互补性。这是论文的核心问题，我们将其分解为两个互补的研究问题，如图1所示。1 .一、我们在论文中探索的第一个轴解决了以下研究问题：语言能在视觉世界中扎根吗？报告偏倚的问题，即：语言包含有偏见的真实世界统计数据并且缺乏常识的事实可以通过利用来自其他资源的信息（通常是不受这种偏见影响的图像）来缓解。第一个轴在图1中用绿色表示。1 .一、有几种方法对此进行了探讨··4在生产中，文本Lorem ipsumdolor sit amet，consecteturadipisicingelit，sed doeiusmod temor文本Lorem ipsumdolor sit amet，consecteturadipisicingelit，sed doeiusmod temor评价视觉推理字幕视觉问题回答处理稀缺的视觉监督语言先验zero-shot学习语言愿景语义图像文本Lorem ipsumdolor sit amet，consecteturadipisicing elit，sed do eiusmodtemorNTn接地不机器翻译文本挖掘问答情感分析学习常识三元组断言分类多模态表示学习词嵌入句子嵌入对象分类语义分割人体姿态估计关系检测图1. 1-在这篇论文中，我们解决了两个互补的研究问题。(1) 语言能在视觉世界中扎根吗？（绿色显示），我们在第3章和第4中给出了响应元素。(2) 语言能帮助视觉识别吗？（图中蓝色部分），第5讨论的问题。他们通常专注于将视觉信息整合到分布式语言表示中，即学习多模态通用表示。使用图像-通常提供常识知识-允许我们丰富对象的语义表示，例如通过提供有关这些对象的颜色，形状或典型环境的信息在这篇论文中，一些贡献是针对这一目标，我们提出了两个模型来学习单词（第3章）和句子（第4）的接地表示。第二个轴采取相反的观点，并解决以下研究问题：语言可以帮助计算机视觉吗？1.一、3贡献的nd乌特林内的THESI S5基于语言和图像之间的根本差异，我们区分了两种正交方法，其中语言可以被利用来使视觉模态受益（如图1中的蓝色所示）。1）、语言可以起到增强模型的视觉理解能力的作用。事实上，假设语言语义表征包含视觉信息，这些语义表征可以帮助识别对象或推理与视觉情况。这是特别有趣的，因为传统的视觉识别系统依赖于大量的监督数据，而它是可能的学习语义表示与无监督机器学习方法的文本。通常情况下，当视觉监督稀缺时，利用语言表示显示出很大的好处（ Frome et al.2013; R. Yu etal.2017）。在极端情况下，当缺乏视觉监督并且在训练期间根本看不到某些对象时，可以使用语义表示来识别看不见的对象。这个场景对应于零拍摄对象识别，我们将在第5中处理。语言可以作为评估视觉模型的一种方式。可以用自然语言表达图像内容的模型可以证明它们从图像中提取高级语义的能力，以及它们对视觉内容进行推理的能力。这是一个基本的假设，动机的需要，以评估视觉系统的自然语言，它导致了发展的图像字幕，和视觉问题问答（VQA）的任务。虽然第二章对此进行了讨论，但这不是本文的重点。1.3论文贡献及提纲本文的主要贡献如下：在第2章中，我们介绍了文本和图像的背景多模态机器学习方法。我们首先回顾单峰机器学习方法，无论是在文本还是图像的情况下，然后提出利用文本和视觉模态的动机。我们详细介绍了第一行的作品，试图将视觉语义纳入自然语言处理，例如地面的单词或句子的含义，或学习常识。相反，我们提出了相反的方法，其目标是使用自然语言来帮助视觉理解和推理，或者应对大多数视觉学习系统依赖于强监督信号的事实。···

下载后可阅读完整内容，剩余1页未读，立即下载