VisualCommonsenseR-CNN：无监督特征学习方法在视觉区域编码中的应用

177 浏览量更新于2023-10-23 收藏 14.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

LegPersonFrisbeeFrisbeeDogDogLegGround107600Visual Commonsense R-CNN0谭旺1,3，黄建强2,3，张汉旺3，孙倩茹401中国电子科技大学 2阿里巴巴集团达摩院03新加坡南洋理工大学4新加坡管理大学0wangt97@hotmail.com, jianqiang.jqh@gmail.com, hanwangzhang@ntu.edu.sg, qianrusun@smu.edu.sg0摘要0我们提出了一种新颖的无监督特征表示学习方法，VisualCommonsense Region-based Convolutional NeuralNetwork（VCR-CNN），用作高级任务（如图像描述和VQA）的改进视觉区域编码器。给定一组在图像中检测到的对象区域（例如，使用FasterR-CNN），与其他无监督特征学习方法（例如，word2vec）一样，VCR-CNN的代理训练目标是预测区域的上下文对象。然而，它们在根本上是不同的：VCR-CNN的预测是通过使用因果干预：P(Y |do(X))，而其他方法是通过使用传统的似然性：P(Y |X)。这也是为什么VCR-CNN可以学习“有意义”的知识，例如椅子可以坐，而不仅仅是“常见”的共现，例如如果观察到桌子，则很可能存在椅子。我们广泛应用VCR-CNN特征在三个流行任务的流行模型中：图像描述、VQA和VCR，并观察到它们在这些任务中始终提升性能，达到了许多新的最先进水平。01. 引言0“相反，沃森，你可以看到一切。然而，你未能从你所看到的推理出结论。”0“相反，沃森，你可以看到一切。然而，你未能从你所看到的推理出结论。”0如今的计算机视觉系统擅长告诉我们“什么”（例如，分类[23, 31]，分割[22, 39]）和“在哪里”（例如，检测[54,38]，跟踪[30,34]），但是不擅长知道“为什么”，例如，为什么是狗？请注意，这里的“为什么”不仅仅是指通过询问视觉原因，例如毛茸茸和四条腿这样的属性，这些属性已经被机器很好地解决；此外，它还指的是通过询问高级常识原因，例如狗会叫[17]，这对于我们人类哲学家[56, 21,58]来说仍然是难以捉摸的，更不用说对于机器来说了。01https://github.com/Wangt-CN/VC-R-CNN0问：这个人滑雪好吗？答：不好。0“人+滑雪”/“滑雪”：8.4%“腿+滑雪”/“滑雪”：0.2%0“飞盘+狗”/“狗”：7.9%“跳跃+狗”/“狗”：0.8%0图像描述VQA0Faster R-CNN我们的：VC R-CNN Faster R-CNN我们的：VC R-CNN0一只狗拿着一个飞盘。0一只狗跳起来接住一个飞盘。0图1.由于数据集偏差导致图像描述和VQA中的“认知错误”示例。比率./.表示在地面真实文本中的共现百分比（图像描述：字幕，VQA：问题）。与基于Faster R-CNN [54]的特征[2]相比，我们的VCR-CNN特征可以通过更具有常识意识来纠正错误，例如更准确的视觉关系和视觉注意力。0由于缺乏常识，机器很容易犯下“认知错误”。如图1所示，仅使用视觉特征（例如，基于流行的Faster R-CNN[54]的Up-Down[2]），机器通常无法准确描述视觉关系（图像描述示例），即使预测是正确的，底层的视觉注意力也是不合理的（VQA示例）。以前的研究将此归咎于数据集偏差，但没有进一步的解释[24, 44, 53,7]，例如，图1中的概念共现差距；但是我们通过欣赏“视觉”和“常识”特征之间的差异来更仔细地研究它。仅“视觉”只告诉我们关于人或腿本身的“什么”/“在哪里”，它只是比其对应的英文单词更具描述性的符号；当存在偏差时，例如，与“滑雪”一词共现的人比腿区域更多，因此视觉注意力更有可能集中在人的区域。另一方面，如果我们可以使用“常识”特征，由于常识，滑雪的动作可以集中在腿的区域，因为我们是用腿滑雪的。我们当然不是第一个相信视觉特征应该包含更多常识知识的人。PersonToiletsinkSinkpersontoilethandbagchair？given0.5 60.3 90.1 10.29107610P（人|厕所）0P（人| do（厕所））0观察偏差0干预：借用和放置0如果我看到厕所，我看到人的可能性有多大？0为什么看到厕所最终会导致看到人？0图2.说明为什么P（Y | do（X））学习常识而P（Y |X）不学习。通过干预，P（Y |do（X））可以从其他图像中“借用”对象并将其“放置”到本地图像中，以进一步证明X是否真正导致Y，而不考虑未观察到的混淆因素，从而减轻观察偏差。0不仅仅是视觉外观。我们的社区有一个趋势，即从大规模的视觉语言语料库[41，60，61]中学习弱监督的特征。然而，尽管在注释成本和噪声多模态对之间存在主要挑战，但由于报告偏差[66，37]，常识并不总是记录在文本中，例如，大多数人可能会说“人们在路上行走”，但很少有人会指出“人们用腿行走”。实际上，我们人类通过探索物理世界以无监督的方式自然地学习常识，我们希望机器也可以以这种方式模仿。一个成功的例子是我们姐妹NLP社区中的无监督学习词向量[45，12，51]：通过预测其上下文词Y，即P（Y |X）在邻域窗口中学习词表示X。然而，我们自己的社区中的对应物，例如通过预测周围对象或部件[13，43]进行学习，远未能在下游任务中发挥作用。原因是以语言句子形式的常识知识已经记录在话语中；相反，一旦拍摄了一张图像，将永远无法观察到对象被情境化的明确知识，因此导致对象X和Y存在的真正常识可能会被虚假的观察偏差所混淆，例如，如果键盘和鼠标与桌子一起观察的频率比其他任何对象都要高，那么键盘和鼠标是计算机的一部分的基本常识将错误地归因于桌子。引人入胜的是，我们使用地面实况对象标签进行了一个玩具MS-COCO[36]实验-通过使用一种使我们成为人类的精神装置，即干预[50]，来筛选出混淆因素的存在，然后消除其影响。我们比较关联P（Y | X）和因果干预P（Y |do（X））之间的差异[49]。在我们正式介绍第3.1节之前，您可以直观地理解它，如图2所示的以下有意识的实验：1）从其他图像中“借用”对象Z，2）0Y；X0概率（%）0图3.在MS-COCO中干预之前（即P（Y |X））和干预之后（即P（Y |do（X）））之间的合理差异。对象由80个地面实况类别标签表示。为避免混乱，仅可视化20对。0将它们放在X和Y周围，然后3）测试在给定Z的情况下，X是否仍然导致Y的存在。“借用”和“放置”是干预的精神，意味着Z的机会仅依赖于我们（可能受先验影响），而不依赖于X或Y。通过这样做，如图3所示，P（sink |do（dryer））较低，因为强制将最常见的洗手间上下文（如毛巾）视为与其他物品一样公平。因此，通过使用P（Y |do（X））作为学习目标，可以减轻来自上下文的偏见。更有趣的是，P（person |do（toilet））更高。确实，由于隐私问题，人和厕所很少同时出现。然而，人类的视觉与机器的视觉根本不同，因为我们的本能是寻求任何关联背后的因果关系[50]，这就是常识的作用。与被动观察P（Y |X）：“如果我看到厕所，我看到人的可能性有多大”相反，我们不断询问“为什么看到厕所最终会导致看到人？”通过使用P（Y |do（X））。由于干预，我们可以通过“借用”可能甚至不在此图像中的非局部上下文来增加P（Y |do（X）），例如在图2中的示例中，人可以使用的物品，如椅子和手提包-尽管在洗手间环境中较少见-仍然会被公平地“借用”和“放置”在图像中与常见的水槽一起。我们将在第3.1节正式重新讨论此示例。到目前为止，我们准备介绍我们的无监督区域特征学习方法：Visual CommonsenseR-CNN（VCR-CNN），如图4所示，它使用基于区域的卷积神经网络（R-CNN）[54]作为视觉骨干，并使用因果干预作为训练目标。除了其新颖的学习方式，我们还设计了一种新颖的算法来进行do操作，这是对想象干预的有效近似（参见第3.2节）。VCR-CNN的交付是任何区域提议的区域特征提取器，因此对于许多高级视觉任务（如图像字幕[68]，VQA [3]和VCR[76]）来说是基础和即用即用的。通过第5节的大量实验证明，VC R-CNN…Dx107620人0狗0NWGM注意力+0自我预测器上下文预测器0混淆字典0FC FC0RoI特征卷积特征图0Do0FC0图4. VC R-CNN的概述。任何R-CNN骨干（例如，Faster R-CNN[54]）都可以用来在特征图上提取感兴趣区域（RoI）。然后，每个RoI都被送入两个兄弟分支：一个自我预测器用于预测自己的类别，例如xc，一个上下文预测器用于预测其上下文标签，例如yc，使用我们的Do计算。该架构使用多任务损失进行训练。0显示在每个任务中相对于强基线方法都有显著且一致的改进。与最近的“类似Bert”的方法[41,60]不同，这些方法需要巨大的GPU计算资源来进行预训练特征和微调任务，VCR-CNN轻量且非侵入性。所谓“轻量”，我们指的是它与Faster R-CNN[54]一样快速和内存高效；所谓“非侵入性”，我们指的是不需要重新编写任务网络，只需要numpy.concatenate，然后准备好开始。我们谦卑地声明，VCR-CNN提供了“视觉常识”的哲学上正确的定义。我们只是试图朝着两个直观的方向迈进：1）共同点：从观察到的对象中进行无监督学习，2）意义：追求观察到的对象中隐藏的因果关系。VCR-CNN不仅重新思考了我们计算机视觉社区中传统的基于似然的学习，而且通过实际实验提供了一个有前途的方向-因果推断[50]。02. 相关工作0多模态特征学习。随着最近在自然语言处理中预训练语言模型（LM）[12, 10, 51]的成功，一些方法[41, 60, 61,9]寻求从大规模的未标记多模态数据中进行弱监督学习，以编码视觉语义知识。然而，所有这些方法都受到语言的报告偏差[66,37]和下游微调的巨大内存成本的影响。相比之下，我们的VCR-CNN仅从图像中进行无监督学习，并且学到的特征可以简单地与原始表示连接起来。非自我监督视觉特征学习[14,63, 43, 29,77]。它们旨在通过一个精心设计的代理任务（如去噪自编码器[6, 67]、上下文和旋转预测[13,18]和数据增强[33]）来学习视觉特征。上下文预测是通过相关性学习的。0虽然图像旋转和增强可以被视为应用随机对照试验[50]，这是主动和非观察性（物理）的；相比之下，我们的VCR-CNN从被动和观察性（想象力）的因果推断中学习。视觉常识。以往的方法主要分为两类：1）从带有常识知识库的图像中学习[66, 74, 57, 59, 69,78]和2）从视频中学习动作[19]。然而，第一种方法将常识限制在人工注释的知识上，而后者本质上又是从相关性中学习。视觉中的因果关系。在深度学习和因果推理[49,48]的相互补充优势方面，已经有了越来越多的努力，并在图像分类[8, 40]、强化学习[46, 11, 5]和对抗学习[28,26]等几个方面进行了探索。最近，我们注意到一些关于视觉因果性的当代作品，如视觉对话[52]、图像字幕[73]和场景图生成[62]。与它们的任务特定因果推断不同，VCR-CNN提供了一个通用的特征提取器。03. 通过干预进行意义生成0我们详细介绍了VCR-CNN的核心技术贡献：因果干预及其实现。03.1. 因果干预0D o表达式0图5.因果干预P(Y|do(X))。节点表示变量，箭头表示直接因果效应。0如图5（左）所示，我们的视觉世界存在许多混淆因素z∈Z，这些因素影响（或导致）X或Y，从而通过仅从似然P(Y|X)学习产生虚假相关性。为了看到这一点，我们使用贝叶斯定理：0P(Y|X) = �0z P(Y|X,z) P(z|X)，(1)0其中混淆因素Z通过P(z|X)引入观察偏差。例如，如图6所示，当P(z=sink|X=toilet)较大而P(z=chair|X=toilet)较小时，公式(1)中的大部分似然和将归因于P(Y=person|X=toilet,z=sink)，而不是P(Y=person|X=toilet,z=chair)，因此，从toilet到person的预测最终将集中在sink而不是toilet本身上，例如，区域toilet的学习特征仅仅是其周围类似sink的特征。如图5（右）所示，如果我们干预X，例如do(X=toilet)，则Z和X之间的因果关系被切断。在新图上应用贝叶斯定理，我们有：H air S h irt Window L eg T able Man Peop leleg / legsski / skissnowleg / legssnowski / skis107630概率（%）0图6.P(z|Toilet)和P(z)之间差异的案例研究，来自MS-COCO的真实对象标签。为避免混乱，只显示了Z的29个标签。0P(Y|do(X)) = �0z P(Y|X,z) P(z)。(2)0与公式(1)相比，z不再受X的影响，因此干预有意地强制X公平地将每个z（满足其先验概率P(z)）纳入对Y的预测中。图6显示了先验概率P(z)和P(z|toilet)之间的差距，其中z∈Z是MS-COCO标签集。我们可以使用这个图来清楚地解释通过干预进行的两个有趣的关键结果。请注意，在公式(1)和公式(2)中，P(Y|X,z)保持不变。请回顾图3，了解P(Y|X)和P(Y|do(X))之间的明显差异。首先，P(person|do(toilet)) >P(person|toilet)可能是因为满足P(z|toilet) >P(z)的类别z的数量小于满足P(z|toilet)

下载后可阅读完整内容，剩余1页未读，立即下载