自然环境中的图像分割任务：VGPHRASECUT数据集与PhraseCut方法

37 浏览量更新于2023-10-25 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10216PhraseCut：基于图像分割的自然环境吴晨云1林哲2斯科特·科恩2仲培2苏布兰苏·玛吉11马萨诸塞大学阿默斯特2Adobe研究{chenyun，smaji}@ cs.umass.edu，{zlin，scohen，bui}@ adobe.com摘要“输出我们考虑了给定自然语言短语的图像区域分割问题，并在一个包含77，262幅图像和345，486个短语区域对的新数据集上进行了研究。我们的数据集是在Visual Genome数据集之上收集的，并使用现有的注释来生成一组具有挑战性的参考短语，这些短语的相应区域是手动注释的。我们数据集中的短语对应于多个区域，描述了大量的对象和物品类别以及它们的属性，如颜色、形状、部件以及与图像中其他实体的关系我们的实验表明，我们数据集中的概念对现有的最先进技术提出了重大挑战。我们系统地处理这些概念的长尾性质，并提出了一个模块化的方法来结合类别，属性和关系线索，优于现有的方法。1. 介绍对语言和视觉的相互作用进行建模对于诸如视觉问答、自动图像编辑、人机交互等任务以及更广泛地实现通用人工智能的目标非常重要。现有的将语言描述与图像结合起来的努力已经在Flickr30Entities[30]和Google Referencing Expressions[26]等数据集上取得了可喜的成果。然而，这些数据集缺乏现实世界应用中出现的概念的规模和多样性。为了弥合这一差距，我们提出了VGPHRASE CUT数据集和一个相关的任务，即将自然语言短语与称为PhraseCut的图像区域相结合（图1和图2）。我们的数据集利用Visual Genome（VG）数据集[18]中的注释为每个图像生成大量的参考短语对于每个短语，我们注释了与该短语对应的区域和实例级边界框我们的数据集包含77，262个图像和345，486个短语区域对，图2中显示了一些示例。VGPHRASE CUT包含一个明显更长的概念尾部，并对stuff和object cat进行了统一处理图1. 我们的任务和方法。PhraseCut是给定自然语言短语的分割图像区域的任务。每个短语都被模板化为与类别、属性和关系相对应的词。我们的方法以模块化的方式结合这些线索来估计最终的输出。与以前的数据集不同。这些短语被构造成描述类别、属性和关系的单词，提供了一种系统的方式来理解个体线索及其组合的表现。PhraseCut任务是分割给定模板短语的图像区域。如图1所示，这需要将自然语言概念连接到图像区域。我们的实验表明，该任务对于最先进的引用方法（如MattNet[40]和RMI[21]）具有挑战性。我们发现，整体性能受到稀有类别和属性性能的限制。为了解决这些挑战，我们提出了（i）一个模块化的ap-proach相结合的视觉线索的类别，属性和关系，和（ii）一个系统的方法来提高性能的稀有类别和属性，利用预测更频繁的。我们的cat-egory和属性模块是基于检测模型，其实例级别的分数被投射回图像，并进一步处理使用基于注意力的模型驱动的查询短语。最后，这些都与大蛋糕平板属性模块类别模块关系模块输入模块化热图10217矮鹿行走的人火车上的雨刷躺在稀树草原的斑马黑色衬衫鸡玻璃瓶上的两厢车标记金发人行横道图2. 来自VGPHRASECUT数据集的注释示例。输入短语的颜色（蓝色、红色、绿色）分别对应于指示属性、类别和关系的词。关系分数来估计分割掩码（见图1）。对象和材料类别以统一的方式处理，并且在处理稀有类别之后，模块化设计优于在相同数据集上训练的现有端到端模型。使用数据集，我们提出了一个系统的分析模型的性能在不同的数据子集。主要结论如下：（i）对象和属性检测在稀有和小尺寸类别上仍然很差，（ii）对于图像基础的任务，稀有概念受益于相关但频繁的概念（例如，如果存在其他区分属性，例如衬衫的颜色，则概念在这个数据集上的表现数据集和代码可从以下网址获得：https://people.cs.umass.edu/.2. 相关工作语言和视觉社区在将文字和图像联系起来方面我们的数据集是密切相关的数据集的视觉基础的参考ex-tech。我们还介绍了最近的方法，地面- ING自然语言图像区域。视觉基础数据集表1显示了与图像基础参考表达相关的各种数据集的比较。ReferIt数据集[17]是使用两个玩家之间的ReferItGame从 ImageCLEF中Mao等人[26]使用相同的策略收集了一个更大的数据集，称为GoogleRefExp，来自MS COCO数据集的图像[20]。指代短语描述了对象，并指代图像中80个类别的盒子，但描述很长，可能是重复的。多余的Yu等人[41]相反，使用语用设置来收集指称表达，其中玩家之间存在有限的交互时间以生成和推断指称对象。他们收集了两个版本的数据：RefCOCO允许位置描述，如“左边的人”，RefCOCO+禁止位置线索迫使焦点集中在其他视觉线索上。一个缺点是，GoogleRefExp、RefCOCO和RefCOCO+都收集在MS-COCO对象上，将它们的引用目标限制在80个对象类别。此外，目标总是一个单一的实例，没有处理的东西类别。另一个相关的数据集是Flickr30K实体[30]。首先通过连接描述同一实体的短语从标题中挖掘和分组（共指分辨）实体，然后收集相应的边界框通常需要句子上下文来将实体短语接地到图像区域。虽然有大量的类别（44，518），但其中大多数都只有很少的例子（平均每个类别6.2个例子），对人类相关的类别有明显的偏见（他们的前7个类别是数据集也不包含分割掩码。也不是描述多个实例的短语。我们的数据集基于Visual Genome（VG）数据集[18]。VG将每个图像注释为一个数据集是多样的，捕获各种对象和内容类别，以及属性和关系类型。然而，大多数解扰器不能将场景中的一个对象与其他对象区分开，即，它们不是指称的表达。此外，VG对象盒非常嘈杂。我们提出了一个程序来挖掘描述的场景图，唯一地识别的对象，从而生成更适合于指的任务的短语。最后，我们收集这些短语的相应区域的分割注释10218数据集参考文献[17][26]第二十六话[41]第四十一话[30]第三十话[18]第十八话VGPHRASE CUT图片数量19,89426,71119,99431,783108,07777,262实例数96,65454,82250,000275,7751,366,673345,486#类别-808044,51880,1383103多实例没有没有没有没有没有是的分割是的是的是的没有没有是的指称短语短语冗长的描述短语标题中的实体区域描述模板短语表1. 视觉基础数据集的比较。拟议的VGPHRASE CUT数据集的类别数量明显高于RefCOCO和Google RefExp，同时还包含多个实例。用于在给定自然语言短语的情况下定位图像中的区域的技术可以大致分为两组：基于单级分割的技术和基于两级检测和排序的技术。单阶段方法[6，15，19，21，27，33，38，39]通过利用语义分割中使用的技术来预测给定自然语言短语的分割掩码。这些方法根据自然语言的编码（例如，LSTM over words）。其优点是，这些方法可以直接优化分割性能，并可以很容易地处理的东西类别以及不同数量的目标区域。然而，它们在小尺寸物体上没有那么有竞争力我们在我们的数据集上比较了RMI [21]的强基线。更先进的方法是基于区域建议和排名的两阶段框架。技术上的重大革新是由于用于对象检测的改进的技术（例如，Mask R-CNN [11]）以及语言理解。一些早期的作品[7，16，23，25，26，28，29，31，34，41]采用联合图像语言嵌入模型，根据它们与输入表达式的匹配分数对对象建议进行排名。最近的作品改进了提案生成[7，42]，引入了注意力机制[1，9，39]以实现准确的基础，或者利用字幕的周监督[8，36]。两阶段框架也被进一步扩展到受神经模块网络启发的模块理解[2]。例如，Huet al. [14]介绍了一种组合模块化网络，用于更好地处理属性和关系。Yu等人[40]提出了一个模块化注意力网络（MattNet），将指称任务分解为名词短语、位置和关系的单独任务。Liu等[24]通过删除容易和占主导地位的单词和区域来学习更具挑战性的对齐来改进MattNet。最近的一些作品[3，4，10，22，35，37，43]也将图或树的推理应用于更复杂的短语。这些方法有几个吸引人的特性，如语言描述的不同方面的更详细的建模。然而，这些技术主要在具有封闭类别集的数据集上进行评估，并且通常提供地面实况实例。Sadhu等人[32]提出零镜头接地处理短语与看不见的名词。我们的工作进一步强调大量的类别，属性和关系，提供监督这些长尾概念和更详细和直接的评估。3. VGPHRASE CUT数据集在本节中，我们将介绍如何收集VGPHRASECUT数据集、最终注释的统计信息以及评估指标。我们的注释基于Visual Genome（VG）数据集的图像和场景图注释。我们简要描述了图3中所示的数据收集管道中的每个步骤，更多细节请参见补充材料第1.1节。第1步：盒子采样VG数据集中的每个图像平均包含35个盒子，但它们是高度冗余的。我们以分层的方式从每个图像中平均采样5个框，避免高度重叠的框或来自已经具有大量选定框的类别的框。我们还删除小于图像大小的2%或大于90%的框步骤2：短语生成每个采样框都有几个类别名称的注释（例如，“man” and “person”), attributes “next to a tree”and我们一次为一个盒子生成一个短语，通过添加类别，属性和关系，允许通过以下一组语法来区分其他VG盒子：1. 我们首先检查所选框的一个类别是否是唯一的。如果是这样，我们将其添加到短语中，并在其上添加随机采样的属性或框的关系描述。类别名称唯一标识此图像中的框。2. 如果盒子在任何类别名称方面都不是唯一的，我们会寻找盒子的唯一属性，将其与同一类别的盒子区分开来。如果存在这样的属性，我们将其与类别名称组合为生成的短语。3. 如果不存在这样的属性，我们寻找一个区别关系描述（一个关系谓词加上支持对象的类别名称如果存在这样的关系，我们将其与类别名称结合作为生成的短语。10219Nttt蓝色|彩色汽车上路“蓝色汽车”（有很多但其中只有一个是“车牌在车上““红色车辆”“白色建筑”值得信赖的员工被排除在外的工人59-16盒步骤1：框采样步骤2：短语生成步骤3：区域标注步骤4：工人验证步骤5：实例标注图3. 我们的VGPHRASECUT数据集收集管道的插图。第一步：蓝框为采样结果;红框被忽略。第2步：上一张图片中的短语生成示例。步骤3：用于收集区域掩码的用户界面。步骤4：来自受信任和排除的注释器的示例注释。步骤5：实例标签细化示例。蓝色框是最终实例框，红色框是来自Visual Genome注释的相应框。4. 如果以上都失败了，我们将组合目标框上的所有属性和关系，并从提供的框类别列表中随机选择一个类别来构建短语。在这种情况下，所生成的短语更可能对应于图像内的多于一个实例。如果原始框没有任何属性和关系信息，则可能会丢失这些信息，但每个框都有一个类别名称。以这种方式生成的短语往往是简洁的，但并不总是指图像中的唯一实例。第3步：区域标注我们在Amazon Mechanical Turk上向人工标注员展示前面步骤中生成的图像和短语，并要求他们在与提供的短语对应的区域周围绘制多边形。大约10%的短语被工人跳过时，短语是模糊的。第4步：自动注释者验证基于对注释者子集的手动检查，我们设计了一种自动机制来基于独特属性短语和126个频率超过20的关系短语，如词云所见。在短语的分布中（左下条形图），可以看到68.2%的实例可以单独通过类别区分（类别+），而11.8%的短语需要一些属性处理来区分实例（属性+）。物体的大小和频率变化很大。虽然大多数注释指的是单个实例，但17.6%的短语指的是两个或更多个实例。数据集的这些方面使得PhraseCut任务具有挑战性。在补充章节1.2中，我们进一步展示了概念的长尾分布以及属性和关系在不同类别中的3.2. 评估指标PhraseCut任务是在给定参考短语的情况下生成输入图像的二进制分割我们假设输入短语被解析为属性、类别和关系描述。为了进行评估，我们使用以下相交于联合（IoU）指标：他们的注释与VG的总体一致性P• 2016年10月20日，中国人民解放军第一炮兵连（tIt）/（PtUt），以及箱. 只有来自可信注释者的注释才在-包含在我们的数据集中。9.27%的短语-区域对被去除。第5步：自动实例标记作为最后一步，我们生成实例级别的框和遮罩。在大多数情况下，注释器绘制的每个多边形都被认为是一个实例。它进一步改进了一组算法，将多个多边形合并到一个实例中，并利用短语和VG框将一个多边形拆分为多个实例3.1.数据集统计数据我们的最终数据集由77，262张图像中的345，486个短语组成。这大约涵盖了Visual Genome中70%的图像。我们将数据集分为310，816个短语（71，746张图像）用于训练，20，316个短语（2，971张图像）用于验证，14，354个短语（2，545张图像）用于测试。COCO训练图像与我们的测试分割没有重叠，因此可以公平地使用和评估在COCO上预训练的模型。图4展示了数据集的几个统计数据。我们的数据集包含1，272个独特的类别短语，593个• 平均IoU：平均-IoU = 1P I/U。这里，t是评估集中短语-区域对的索引，It和Ut是预测区域和地面实况区域之间的交集和并集面积，N是评估集的大小。请注意，与cum-IoU不同，mean-IoU会对所有图像区域对的性能进行平均，从而平衡小对象和大对象的性能。我们还报告了如果IoU高于阈值，则每个短语区域任务被认为是正确的时的精度。我们将IoU阈值为0.5、0.7、0.9的结果分别报告为Pr@0.5、Pr@0.7、Pr@0.9。所有这些指标都可以在不同的数据子集上计算，以更好地理解模型的优势和失效模式。4. 短语切分的模块化方法我们提出了用于PhraseCut任务的层次模型注意力网络（HULANet），如图5所示。该方法基于两个设计原则。第一、10220实例：属性模块嵌入：裸类别模块树LSTM编码器之外窗口关系模块联合预测相关属性猫短语内容按频率排列的类别靶区大小#引用实例类型的类别0 0.2 0.4 0.6 0.8 1图4. VGPHRASECUT数据集的统计数据。顶行：数据集中类别（左）、属性（中）和关系描述（右）的词云。每个短语的大小与其在数据集中的频率的平方根成比例。底行：将数据集分解为不同的子集，包括短语中的内容（第一），类别频率（第二），目标区域相对于图像大小的大小（第三），每个查询短语的目标实例数量（第四）以及类别类型（最后）。最左边的条形图显示了短语的细分，分为具有类别注释的短语（cat）和仅通过类别信息区分的短语（cat+），属性和关系也是如此。掩模RCNN“图5. HULANet的架构。该架构由模块来获得属性，类别和关系预测给定的短语和图像。属性和类别得分从Mask-RCNN检测中获得，并投影回图像。使用特定于模块的注意力模型将类别和属性之间的分数进行组合。关系模块是一个卷积网络，它将相关类别的预测掩码作为输入，并在给定关系谓词的情况下输出空间掩码模块基于它们在查询短语中的存在而被激活，并且使用由短语引导的注意机制来组合。我们为类别、属性和关系子短语设计了单独的模块。每个模块通过使用特定于模块的注意力机制学习跨概念聚合信息来处理概念的长尾分布。其次，实例特定的预测投影到图像空间，并结合使用的atten- tion机制驱动的输入短语。这允许模型处理东西和对象类别，以及多个以统一的方式处理多个实例。接下来描述每个模块的细节骨干编码器我们使用Mask-RCNN [11]检测器和双向LSTM [13]分别作为图像和短语的骨干编码器。Mask-RCNN（具有ResNet 101 [12]主干）被训练来检测实例并预测我们数据集中频率超过20的1，272个类别的与标准基准上的实例检测任务不同，我们通过对对象分数设置低阈值并允许每个图像最多100次检测来获得高召回率，从而允许相对嘈杂的实例检测。对于短语编码，我们训练三个独立的双向LSTM来生成类别，属性和关系短语的嵌入它们共享从FastText初始化的相同单词嵌入[5]作为LSTM的输入，并在相应单词的LSTM输出上应用均值池作为编码输出。类别模块类别模块将类别的短语嵌入和来自Mask-RCNN的检测到的实例框（具有掩码）作为输入，并输出图像中相应区域的得分图。我们首先通过将Mask-RCNN 预测投影回图像来构建类别通道C2RN×H ×W这里，N = 1272是类别的数量，H W被设置为输入图像大小的1/4倍。具体地说，对于每一个实例，由Mask R-CNN检测为类别ci，得分为si，我们将其预测的分割掩码作为二进制掩码mi，H× W投影到图像，并将对应位置处的类别通道分数更新为C[ci，mi]：= max（si，C[ci，mi]）。最后，每个类别通道通过一个500+，百分之十二点九101~500名，前100名，55.0%小（2%），百分之二十点二二大（20%以24.64%中等（2%~20%），2~5（多次）：16.4%>5（很多）：1.2%1例（单例）：82.4%东西，对象，+ATT+cat+68.2%百分之四百分之十百分之十二点七厘10221为了计算类别通道上的注意力，短语嵌入猫穿过几个线性层f，并在末端进行S形激活，以预测类别通道A=σ（f（ecat））上的注意力权重。我们计算猫狗通道的加权和在注意力权重SH×W=cAc·Cc的指导下，并将学习的仿射变换加上sigmoid应用于得到类别模块预测热图PH×W=σ（a·SH×W+b）。这种注意力模式使类别模块能够利用来自好的类别检测器的预测来提高对更困难类别的性能我们在第5节中介绍了消融研究中合并类别评分的其他基线。属性模块属性模块类似于类别模块，除了一个额外的属性分类器。在来自Mask- RCNN的池化ResNet实例特征之上，我们训练了一个两层多标签属性分类器。为了解决显著的标签不平衡，我们在训练属性分类器时使用二进制交叉熵损失来更多地加权正实例。为了获得属性得分通道，我们采用前100个检测并将其前20个预测属性投影回图像。与类别模块相同，我们使用来自Mask-RCNN的实例掩码，用预测的属性得分更新相应的通道，最后应用由短语的属性嵌入引导的注意力方案来获得最终的属性预测得分热图。关系模块我们的简单关系模块使用类别模块来预测支持对象的位置支持对象的缩小（32<$32）分数与报告的嵌入连接在一起关系谓词随后是两个扩张的卷积层，在顶部应用核尺寸7，实现大的感受野，而不需要许多参数。最后，我们应用仿射变换，然后使用sigmoid来获得关系预测分数。卷积网络可以通过学习对应于每个空间关系的滤波器来对粗略的空间关系进行建模。例如，通过扩大掩模，可以对“附近”的关系进行建模，组合模块从各个模块获得的类别、属性和关系得分Pc、Pa、Pr各自表示为HPLOW图像，图像大小为1/4为此，我们为每对通道（包括i=j）添加了二次相互作用Pi<$Pj的通道，这些通道是使用逐元素乘积和归一化获得的，以及偏差变化。所有1的nel，以获得10通道分数图F（3+6+1通道）。类别、属性和关系的短语嵌入当输入表2. 在VGP HRASE C UT的整个测试集上比较各种方法。我们比较了我们的方法（HULANet）中模块的不同组合与基线方法：Mask-RCNN，RMI和MattNet。短语，相应的注意力权重被设置为零，并且注意力权重被重新归一化以总计为一个. 总体预测是线性和二次特征交互的注意力加权总和：O=tFtwt.我们的实验表明，略有改善0。05%的验证平均IoU与二次特征。训练细节Mask-RCNN使用在MS-COCO数据集[20]上预先训练的权重进行初始化，并在我们的数据集上进行微调然后对所有实验进行固定属性分类器是在地面实况实例及其从Mask-RCNN池化的框特征上训练的，其具有根据属性频率特别加权的二元交叉熵损失。这些也是在参考模块培训期间固定的在固定的Mask-RCNN和属性分类器之上，我们分别训练各个类别和属性模块。当组合模块时，我们从各个模块初始化权重，并端到端地微调整个模型。我们在每个模块的预测得分热图上以及最终的预测热图上应用逐像素的二进制交叉熵损失。为了考虑评估度量（平均IoU），我们增加了正像素的权重，并对引用短语-图像对而不是像素的损失进行平均。我们所有的模型都是在训练集上训练的。为了进行评估，我们需要一个二进制分割掩码，这是通过对预测分数进行阈值处理而获得的。这些阈值是基于验证集上的平均IoU分数设置的。在下一节中，我们将报告测试集的结果。5. 结果和分析5.1. 与基线的比较表2显示了我们的模型及其消融版本的总体性能，具有两个基线：[21]和Mat-tNet [40]。它们在RefCOCO等数据集上产生了接近最先进的性能[17]。RMI是一种单阶段视觉接地方法。它通过卷积编码器提取空间图像特征，引入卷积多模态LSTM对瓶颈中的视觉和语言线索进行联合建模，并通过上采样预测分割模型mean-IoU cum-IoU Pr@0.5 Pr@0.7 Pr@0.9HULANet猫39.948.840.825.95.5cat+att41.350.842.927.85.9cat+rel41.149.942.326.65.6cat+att+rel41.350.242.427.05.7Mask-RCNNself36.245.937.222.94.1Mask-RCNN顶部39.447.440.925.84.8RMI21.142.522.011.61.5MattNet20.222.719.713.53.010222模型所有Coco1-100101-500超过500人HULANet猫39.946.546.831.825.2cat+att41.348.348.233.626.6cat+rel41.147.947.833.626.6cat+att+rel41.347.847.833.827.1Mask-RCNNself36.244.945.527.910.1Mask-RCNN顶部39.446.146.431.623.2RMI21.123.728.412.75.5MattNet20.219.324.914.810.6表3. VGPHRASECUT测试集上各种类别子集的平均IoU。列coco指的是对应于80个coco类别的数据子集，而其余列显示了按频率排序的数据集中前100，101-500和500+类别的表现模型所有attATT+relrel+东西objHULANet猫39.937.637.432.333.047.233.9cat+att41.339.138.833.733.848.435.5cat+rel41.138.838.433.834.048.135.4cat+att+rel41.339.038.534.133.948.335.6Mask-RCNNself36.234.534.729.030.844.429.5Mask-RCNN顶部39.437.336.631.932.646.433.6RMI21.119.021.011.612.231.113.0MattNet20.219.018.915.615.125.516.0模型所有单个多许多小中期大HULANet猫39.941.237.034.315.140.367.6cat+att41.342.638.635.917.142.068.0cat+rel41.142.538.235.517.141.568.2cat+att+rel41.342.638.435.717.341.768.2Mask-RCNNself36.237.234.129.917.035.759.4Mask-RCNN顶部39.440.636.833.418.539.363.6RMI21.123.116.912.71.218.649.5MattNet20.222.215.912.66.118.939.5表4. 附加子集的VGPHRASECUT测试集上的平均IoU。att/rel：具有属性/关系符号的子集; att +/rel+：需要属性或关系来将目标与相同类别的其他实例区分开的子集 ;single/multi/many：包含由短语引用的不同数量的实例的子集;小/中/大：具有不同大小的目标区域的子集。译码器我们使用带有ResNet101 [12]的RMI模型作为图像编码器。我们使用在COCO [20]上预训练的权重初始化ResNet，在我们的图像区域训练数据上训练整个RMI模型，并按照公共存储库中的默认设置引用短语对，最后在我们的测试集上对其进行评估。RMI获得了高cum-IoU但低mean-IoU分数，因为它处理大目标很好，但在小目标上失败（见表4cum-IoU由大目标支配，而我们的数据集有许多小目标：我们的数据中有20.2%的目标区域小于图像面积的2%，而RefCOCO中的最小目标是图像的2.4%。图6还显示了RMI在具有挑战性的短语和小目标上预测空掩码。MattNet的重点是在可访问的框中对引用的框进行排名给定一个框和一个短语，它计算主题、位置和关系匹配分数，三个单独的模块，并基于输入短语预测三个模块上的注意力权重。最后，将这三个分数与权重组合以产生总体匹配分数，并且具有最高分数的框被挑选为所引用的框。我们遵循他们论文中描述的培训和评估设置。我们在数据集上训练Mask-RCNN检测器，并训练MattNet在图像中的地面实况实例框中选择目标实例框。请注意，MattNet训练依赖于图像中对象实例的完整注释，这些注释不仅用作候选框，还用作进一步推理的上下文。我们数据集中的对象只有稀疏的注释，因此我们利用Visual Genome框作为上下文框。在测试时，来自所有类别的前50个Mask-RCNN检测被用作MattNet模型的输入。虽然此设置在RefCOCO上运行良好，但在VGPHRASE CUT上存在问题，因为检测在存在数千个对象类别的情况下更具挑战性。当在评估中提供地面实况实例框时，MattNet能够实现平均IoU= 42.4%，但当提供Mask-RCNN检测时，其性能下降到平均IoU=20.2%。如果我们只将参考类别的检测输入到MattNet，平均IoU提高到34.7%，接近Mask的性能。RCNN自我，但它仍然表现不佳的罕见类别。我们的模块化方法计算强大的类别分数，从嘈杂的检测（HULANet猫）超过了两个基线的显着保证金。使用各种方法的示例结果如图6所示。子模块的热图和失效案例分析见补充第3节。5.2. 消融研究和分析表3显示，稀有类别的性能较低检测成千上万的类别是具有挑战性的，但需要支持开放词汇的自然语言描述。自然语言也是多余的。在本节中，我们将探讨一个类别是否可以利用相关类别的分数来提高性能，特别是当它很少见时。首先，我们将Mask-RCNN作为检测器进行评估，使用来自所引用类别的前1个检测实例的掩码作为预测区域。结果显示为表3中的行“Mask- RCNN top”下面的一行例如，如果人检测器更可靠，则类别“行人”可以与“人”匹配。补充部分2显示了源和目标类别之间的完全匹配血淋淋的从表3中可以看出，尾部类别的性能大幅提升（10.1%！ 23.2%的500+子集。一般来说，尾类别检测器较差10223红黑冲浪板穿制服的足球运动员空玻璃游戏控制器黄伞建筑物后的树木建筑图6. VGPHRASECUT数据集上的预测结果。从上到下依次为：（1）输入图像;（2）Ground-Truth Segmentation和实例框;（3）MattNet基线;（4）RMI基线;（5）HULANet（cat + att + rel）。查看补充材料中的更多结果很少使用。这也指出了一个奇怪的现象，在指称表达任务中，即使命名的类别是特定的，人们也可以通过粗略的类别检测器来逃脱例如，如果不同的动物物种从未在图像中一起出现，则可以使用通用动物检测器来分辨任何动物物种。这也解释了具有类别级注意机制的类别模块的性能与Mask-RCNN顶部模型选择的单个类别相同，使用注意力模型聚合多个类别分数的能力为尾部类别提供了进一步的改进。虽然没有包括在这里，我们发现一个类似的现象与属性，其中少量的基本属性可以支持一个更大的，重尾分布的属性短语。令人放心的是，要学习的视觉概念的数量与语言概念的数量呈次线性增长。然而，问题远未解决，因为尾部类别的性能仍然明显较低。表4显示了测试数据的其他子集的结果一些高级别的意见是：（i）对象范畴比物质范畴更难。(ii)小物体是非常困难的。(iii)属性和关系在不同的子集之间提供一致的改进值得注意的是，从属性和重新-关系在罕见类别和类别模块不太准确的小目标区域上更显著6. 结论我们提出了一个新的数据集，VGPHRASE CUT，研究自然语言短语的接地图像区域的问题。通过缩放类别、属性和关系的数量，我们发现依赖于高质量对象检测的现有方法在性能上显示出显著的降低。我们提出的HULANet表现明显更好，这表明通过建模它们与其他类别，属性和空间关系的关系来处理长尾对象类别是一个有前途的研究方向。另一个好处是，解耦表示学习和建模长尾可能使我们能够将对象检测器扩展到罕见的类别，而不需要大量的标记视觉数据。尽管如此，所提出的方法的性能仍然显着低于人类的表现，这应该鼓励更好的语言和视觉建模。鸣谢本项目部分得到了美国国家科学基金会资助1749833和1617917，以及Adobe的教师奖的支持。我们的实验是在麻省理工学院GPU集群上进行的，该集群是在马萨诸塞州技术合作组织管理的合作基金下获得的。我们RMI地面实况MattNet输入10224引用[1] Hassan Akbari、Svebor Karaman 、Surabhi Bhargava 、Brian Chen、Carl Vondrick和Shih-Fu Chang。多层次多模态公共语义空间，用于图像短语的基础。在计算机视觉和模式识别（CVPR），2019年。[2] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在计算机视觉和模式识别（CVPR），2016年。[3] MohitBajaj，LanjunWang，andLeonidSigal.GraphGround：基于图形的语言基础在国际计算机视觉会议（ICCV），2019年。[4] MohitBajaj，LanjunWang，andLeonidSigal.GraphGround：基于图形的语言基础在国际计算机视觉会议（ICCV），2019年。[5] Piotr Bojanowski，Edouard Grave，Armand Joulin，andTomas Mikolov.用子词信息丰富词向量Transactions ofthe Association for Computational Linguistics，5：135[6] Ding-Jie Chen ， Songhao Jia ， Yi-Chen Lo ， Hwann-Tzong Chen，and Tyng-Luh Liu.用于参考图像分割的透视文本分组。在2019年计算机视觉国际会议（ICCV）[7] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。2017年国际计算机视觉会议（ICCV）。[8] Samyak Datta 、 Karan Sikka 、 Anirban Roy 、 KarunaAhuja、Devi Parikh和Ajay Divakaran。Align2接地：弱监督短语接地引导图像标题对齐。在2019年计算机视觉国际会议（ICCV）[9] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在计算机视觉和模式识别（CVPR），2018年。[10] Pelin Dogan，Leonid Sigal，and Markus Gross.神经序列短语基础（ Sequential Phrase Grounding ，简称Sequential）。在计算机视觉和模式识别（CVPR），2019年。[11] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。2017年国际计算机视觉会议ICCV[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在计算机视觉和模式识别会议（CVPR），2016年。[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[14] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对引用表达式中的关系进行建模。在计算机视觉和模式识别会议（CVPR），2017年。[15] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。欧洲计算机视觉会议（ECCV），2016。[16] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索计算机视觉与模式识别（CVPR），2016年。[17] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在自然语言处理的经验方法（EMNLP），2014年。[18] Ranjay Krishna 、 Yuke Zhu 、 Oliver Groth 、 JustinJohnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalantidis 、 Li-Jia Li 、 David A Shamma 、Michael Bernstein和Li Fei-Fei。可视化基因组：使用众包密集图像注释连接语言和视觉。2016年。[19] Ruiyu Li，Kai-Can Li，Yi-Chun Kuo，Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在计算机视觉和模式识别（CVPR），2018年。[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。欧洲计算机视觉会议（ECCV），2014。[21] Chenxi Liu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，and Alan Yuille.用于参考图像分割的递归多模态交互。在2017年的国际计算机视觉会议（ICCV）上[22] 刘大庆，张汉旺，冯武，查正军。学习组装用于视觉基础的神经模块树网络在2019年计算机视觉国际会议（ICCV）[23] Jingyu Liu，Liang Wang，Ming-Hsuan Yang.通过属性引用表达式生成和理解。2017年国际计算机视觉会议（ICCV）[24] Xihui Liu，Zihao Wang，Jing Shao，Xiaogang

下载后可阅读完整内容，剩余1页未读，立即下载