全景叙事基础：视觉与语言互动的细粒度分割任务

118 浏览量更新于2023-10-14 收藏 3.31MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1364全景叙事基础Cristina Gonza' lez1Nicola'sA yobi1Isabela Herna´ndez1Jose'Herna' ndez1Jordi Pont-Tuset2Pablo Arbela' ez11哥伦比亚安第斯大学人工智能研究与培训中心2谷歌研究，瑞士摘要本文提出了全景叙事接地，自然语言的视觉接地问题的空间精细和一般配方。我们为这项新任务的研究建立了一个实验框架，包括新的地面实况和指标，我们提出了一个强大的基线方法，作为未来工作的垫脚石。我们利用内在的语义丰富的图像，包括全景类别，我们接近视觉接地在细粒度的水平，通过使用分割。在地面实况方面，我们提出了一种算法，以自动转移本地化的叙述annotations到特定区域中的全景分割的MS COCO数据集。为了保证我们的注释的质量，我们利用WordNet中包含的语义结构专门将接地到有意义的相关panoptic segment区域的名词短语。所提出的基线实现了55的性能。4个绝对平均召回点。这一结果是一个合适的基础，进一步推动信封在泛光叙事接地的方法1. 介绍视觉和语言技能在人类认识世界的过程中起着关键作用他们的互动对于完成高级任务至关重要，例如描述对象，叙述视觉场景或基于视觉线索回答问题。启发通过人类智能的这些能力，研究人员已经在计算机视觉和自然语言处理的交叉点制定了任务，例如图像captioning [5，18，25，40]，涉及表达理解。和分割[15，19，31，32]，视觉问题回答[2]，以及许多其他。目前的实验框架在不同的粒度水平上处理视觉和语言任务。图像帽-图1：全景叙事基础。给定一个输入图像（左）和一个相关的标题（右），我们的目标是产生一个全景分割，使其视觉对象密集（左）。分级是最粗糙的，其目的是将图像与其内容的文本描述配对。随着粒度的增加，有一些框架旨在将图像中的特定区域分配给简短描述，例如参考表达理解和分割，以及Visual Genome [19]数据集中的区域描述。最好的方法是在单词级别处理视觉基础，图像中的边界框链接到标题中的名词短语，如Flickr30k实体[49，35]数据集。考虑到计算机视觉任务中事物（可数对象）和东西（类似纹理的无定形区域）之间的一般二分法，这些数据集主要关注事物类别。然而，一些作品[8，1，10，17]强调了共同考虑事物和物质类对现实世界应用的重要性基里洛夫等人[17]将全景分割任务定义为语义分割和实例分割的统一公式，语义分割识别内容，实例分割检测和分割事物。最近，Pont-Tusetet al.[36]提出了本地化叙述，一种基于描述图像的自然人类任务的视觉基础的多模态数据集，同时用鼠标指向被描述的区域。他们的接地注释具有当前数据集的最密集此外，委员会认为，1365该数据集自然包含每个图像的内容（包括填充区域）的全景描述。尽管上面的一些实验框架包含了足够密集的语言注释，但视觉注释仍然非常稀疏和粗糙。本文提出了全景叙事接地（图1），自然语言视觉接地问题的空间更精细和更一般的任务制定，其中（i）我们提出了一个空间详细的视觉接地，使用分割而不是边界框，（ii）我们包括所有全景类别，以充分利用视觉场景中的内在语义丰富性。我们为这项任务的研究建立了一个实验框架，包括新的地面实况注释和指标，我们提出了一个强大的基线，作为未来工作的垫脚石。考虑到收集逐像素注释具有显著的成本，我们设计了一种方法来将局部化叙述注释转移到由MS COCO[5，25]数据集提供的区域中的全景分割注释。我们为每个名词短语选择一个特定的区域，考虑到与之相关的痕迹段。由于人类使用不同的风格指向对象（圈，涂鸦，和下划线），我们评估的质量的一个符号，通过确定名词短语是否接地有意义的相关panoptic分割区域。为此，我们利用WordNet本体中的底层语义信息[34]。为了处理迹线段与对象描述不完全同步，我们考虑图像中的所有区域按与视觉基础的相对距离进行排名，并分配具有强烈意义关系的最近区域最后，对于复数名词短语，我们选择（i）在鼠标轨迹周围的最紧密边界框内并且（ii）来自与主选择区域相同的类别的所有区域。在评估方面，与短语接地任务中使用的传统度量相比因此，测量识别精度和分割质量两者。我们提出了一个强有力的基线，该基线建立在最先进的方法，跨模态相关性[52]（CMR），为语言和视觉的推理任务而开发具体地，该方法被设计为执行两个分类任务：视觉问题回答[2]和用于视觉推理的自然语言[43，44]。我们推广的模型进行全景叙事接地。因此，我们的基线是第一个自然语言视觉接地方法，能够将多个名词短语与图像内的全景区域分割对齐。我们的主要贡献可概括如下：(1) 我们提出了全景叙事接地，自然语言视觉接地问题的新公式，通过使用全景分割区域作为视觉背景在空间上更密集，并且在语义方面更一般。(2) 我们建立了一个实验框架，这个问题的研究，注释来自本地化的叙述注释转移到全景分割的MSCOCO数据集。(3) 我们介绍了第一个视觉接地方法，匹配分割区域的标题中的特定名词短语，这是一个强大的基准任务的全景叙事接地。为了确保我们的结果的可重复性并促进对PanopticNarrative Grounding的进一步研究，我们在我们的项目网页1中公开了本文的所有资源：我们在MS COCO中的训练和验证分割的基准数据集注释，评估指标的实现，以及我们基线的预训练模型和源代码。2. 相关工作2.1. 视觉和语言数据集视觉和语言交叉点的第一个数据集将图像与描述相匹配，而没有任何形式的视觉基础[5，18，25，40]。MS COCO Captions [5，25]包含123，287张用于训练，验证和测试的图像;每个图像有五个人工注释的标题。然而，一些研究表明，为这项任务开发的模型并不是基于图像中包含的视觉信息，而是基于更容易学习的语言先验[39]。引用表达式理解（ REC ）和引用表达式分割（RES）是旨在分别检测和分割由自然语言表达式描述的目标对象实例的任务。这些任务有三个数据集，构建在MS COCO 数据集： RefCOCO [15] 、RefCOCO+ [15] 和 RefCOCOg [32] 。 RefCOCO+ 的描述，与RefCOCO上的描述相反，专注于外观属性而不是所指对象的位置。RefCOCOg是在非交互式设置中收集的，包含较长的描述，包括目标实例的外观和位置这些数据集虽然具有像素级注释，但在单词级上不基于语言，并且它们的注释Visual Genome [19]是一个通用数据集，旨在连接视觉和语言，同时不限于特定任务。它包含108，077幅图像，50个区域每个图像平均有35个对象每个简短描述在图像内以边界进行本地化ing框，使研究视觉接地在短语水平。之间没有明确的关系1https://github.com/BCV-Uniandes/PNG1366本地化叙事[36]每一个字都能追溯事物+东西[19]第十九话边界框东西+东西----定位在图像内的对象和视觉实体。语言粒度视觉粒度语义共性包括在文本描述中的领带具有多区域描述允许对场景有更完整的理解，包括事物和物品类别。Flickr30k 实体 [35] 扩展了原始的 Flickr30k 数据集[49]，其中手动注释的边界框将标题中的每个名词短语尽管它的粒度超过了语言，但这个数据集并不提供像素级的注释，而是主要关注事物。Localized Narratives [36]是一个大型数据集，为整个MS COCO、Flickr30k [50]和ADE20K [53]数据集以及来自Open Images [20]的671 K图像它的注释包括同步的语音记录、文本转录和由人类注释者制作的鼠标轨迹。他们描述了图像的内容，鼠标轨迹在视觉上为叙述中的每个单词打下了基础，这使得他们成为迄今为止可用的语言中最密集的符号。接地超越了名词，包括视觉关系指示符，动词等。注释者被要求做出尽可能多的图像内容的描述，这通常需要场景的高语义覆盖然而，使用鼠标轨迹段的视觉基础在空间上非常粗糙。表1总结了视觉和语言交叉处的现有数据集的特征，并在以下方面对它们进行了比较：（i）语言粒度，（ii）视觉粒度，和（iii）语义通用性。我们的基准数据集旨在填补所有先前数据集之间的空白：（i）它通过将叙述中的特定单词作为基础来保持语言上的最细粒度，作为最新开发的自然语言基础数据集。(ii)它使用分割提供细粒度的视觉基础注释，如在引用表达分割数据集中。这允许用更严格的实验框架来研究问题，其中对象上的位置不像在对象检测任务中那样近似。(iii)我们的注释包括全景类别[17]，而不仅仅是关注事物类别，这为场景的全局分析让路，这与推理我们周围的世界有关。2.2. 自然语言视觉基础方法针对语言上最粗糙的自然语言视觉基础任务，特别是针对REC和RES任务开发的方法可以分为两种一般方法：自上而下和自下而上。前一个范例[6，27，51]从通过对象检测或分割的一般方法提取的区域建议开始。方法从这组对象中选择在更大程度上由自然语言表达来描述。这种范例的优势在于，它们可以利用一般对象检测和分割的优势。MS COCO字幕[5，25]字幕概念字幕[40]字幕斯坦福视觉标准[18]标题参考文献[15，32]短短语细分事物[31]第31话分割事物Flickr30k实体[49，35]名词短语边界框主要的东西泛光叙事基础（我们的）名词短语分割东西+东西表1：全景叙事基础与主要字幕和自然语言基础数据集的比较。对于这些一般任务，分割方法已经从现有的大规模数据集学习，而不是直接学习如何检测图像内的对象。然而，由于这些方法不更新区域提议，因此这些方法的上限受到基本方法的性能的显著影响。相比之下，后一种方法通过将像素[4，11，12，13，14，23，24，26，29，30，33，37，38，3938、41、47、48]。这些方法使用单个网络，其利用高级和低级特征来沿着其架构的级别然而，遵守比其自上而下对应物更大的搜索空间导致更高的假阳性分割率。一些现有方法通过视觉和语言信息的基础网络的组合来接近短语基础。为此，使用卷积神经网络（CNN）和递归神经网络（RNN）[11，33]，并且利用它们的特征来实现单词到图像的交互。其他作品应用Transformer at-tension [45]来生成两种模态的上下文化表示。后者的架构也用于跨模态分析，以聚合和对齐视觉线索和语言意义[21，22，28，42，52]。3. 全景叙事基础基准本节描述我们提出的基准。我们描述了如何生成地面实况注释（Sec. 3.1）并报告一些统计数据（第3.2）。最后，我们解释了建议的指标，以评估我们的基准测试结果（第二节）。3.3）。3.1. 基本真相注释我们将本地化叙述[36]注释到MS COCO全景分割通过同步定时字幕和跟踪点。我们考虑一个集的utterances U=u1 ， . . . ， un 和一组轨迹点 T =t1，. . . ，其中u，i和t，j是分别构成字幕和鼠标轨迹的加时间戳的言语和空间单元。通过选择跟踪段数据集1367∈------图2：地面实况注释结果。由所提出的注释转移算法（c）产生的不同全景叙事基础地面实况的示例我们示出了输入图像（a）和局部化叙述轨迹（b）以及具有匹配的全景分割区域的字幕（d）。轨迹中的颜色梯度、全景分割和标题指示语言上的时间根据最后相关联的口语单词，分割区域用其对应的名词短语的颜色来可视化更多定性结果见补充材料。在包含名词短语（u_in）的话语或连续话语的子集的开始和结束时间之间的图像上绘制。因此，每个u_in与迹线点的子集T’= t_a，. . .，t b（其中t a和t b在u i的时间戳内）。T′通过它们的点坐标为每个话语提供空间参考。我们对这些坐标求平均以获得图像平面中的单个点p，我们将其称为质心（CoM）。在补充材料中，我们举例说明这种总结注释者基础的策略如何为了识别名词短语，我们使用Python的自然语言工具包（NLTK）[3]执行分块解析，并选择可能有或可能没有前一个形容词或基数的连续名词序列这些名词短语被认为是一个单一的基础单位。设S = s1，. . . ，s，k是来自相同图像的MS COCO全景分割的区域，具有对应的事物或材料类别标签C=c1，. . .，c k.我们选择包含鼠标轨迹的CoMp的位置的区域si S，并将其建立为名词短语uin的地面真值的候选者。但是，这种匹配并不保证正确，因为Localized Narrative鼠标轨迹可能不会完全落在地面上object.因此，我们通过将标题中的名词短语（u_in）与和s_i（c_i）相关联的MS COCO对象类别进行比较来过滤这些匹配，这应该是一致的。直观地说，如果注释者说uin=ci=ci=此外，如果标题多次引用视觉场景中的同一对象，则我们的基准将其与所有相关的名词短语相关联。图2显示了我们的视觉基础注释的一些示例。为了评估字幕话语u in或其组成名词是否对应于匹配的全景类别ci，我们考虑以下标准：（1）精确匹配（u_in严格等于c_i），（2）同义词（u_in是c_i的同义词），（3）层次关系（u_in是c_i的上位词或下位词），以及（4）部分词（u_in是c_i的部分词）。我们通过简单的字符串比较来评估（1），以及（2），（3）和（4）使用NLTK [3]访问WordNet [34]。此外，（5）我们手动将特定单词与WordNet本体省略的某些MS COCO类别相关联。这些词的例子包括衣服、身体部位和女性人物，作为MS COCO“人”类别的成员我们认为（1）为1368⊆“我...... 几只彩色的风筝““有很多人……“图3：接地复数名词短语的例子。我们匹配种子区域（紫色）之外的多个区域（红色）。增加我们的注释的空间范围与复数名词短语的多实例性质最好用彩色观看。匹配中的最高等级，给定该等级中的词之间的相似性，其次是（2）、（3）、（4）和（5）。补充材料中报告了标记云，作为标准（2）-（4）的示例。我们发现两个特殊的情况下，需要额外的措施时，转移注释。首先，有一种可能性是时间偏移[36]：注释者在描述对象之前或之后稍微移动鼠标。为了解决这个问题，我们考虑通过p（鼠标轨迹的CoM）所选择的一个的相邻分割区域，作为与中的每个名词短语u的潜在匹配。如果没有与中心区域的匹配发生，则我们继续选择与具有上面定义的任何语义关系的u匹配的最接近的候选，作为名词短语的基础注释我们考虑分割区域之间的最小距离作为其接近程度的度量（遵循单链接概念）。在补充材料中可以找到邻近区域分析的示例。第二，我们考虑在叙事复数名词短语的含义。这些短语固有地与对象的各种实例相关，这些实例在话语期间全部被全局地指向这激发了复数名词短语到S′S的映射，S ′ S包含具有共同类别的几个区域，而不是单个分割si。使用p和邻近区域分析来定义公共类别，从中我们选择种子区域。然后，我们用包含在鼠标轨迹T’周围的最紧密边界框中的相同类别的所有区域来扩充该集合。S′中的所有区域都被认为是复数名词短语uin的基础。图3示出了多个接地的示例3.2. 数据集统计数据我们完整的注释转移方法匹配平均值5。每个叙述1个名词短语，整个本地化叙述注释中有726，445个名词短语-MS COCO数据集。本地化叙述平均包含11个。每个叙述3个名词短语。这占了45。1%的名词短语覆盖率，我们通过全景分割注释接地。在视觉域中，这转化为总共741，697个匹配的片段，其中659，298个是唯一的。因此，我们的基准涵盖了47。在MS COCO全景图中注释的所有片段的5%与至少一个名词短语匹配。而这一覆盖面占 58 。 5% 的所有像素在 123 ， 287 MSCOCO图像和65。4%，相对于MS COCO全景注释中的所有注释像素。提出的Panoptic Narrative Grounding数据集将事物和材料类别都具体来说，57。0%的名词短语接地是东西和43。0%是东西。六十四接地名词短语和MS COCO全景类别之间的7%的匹配是类别名称和短语中的名词之间的精确匹配。因此，使用同义词、手动匹配、以及层级关系和命名关系显著地扩展了基础范围（35.3%），并使我们能够更好地捕捉本地化叙事中自然语言表达最后，29。3%的匹配名词短语对应复数和44。6%的匹配归因于邻近区域分析。因此，所提出的匹配步骤中的每一个在改善视觉基础注释方面起着重要作用。这些统计数字的详细报告见补充材料。此外，我们进行了最终的手动策展，以验证我们的注释的完整性，在1%的注释。3.3. 度量与传统上用于短语基础的召回度量相反，我们建议计算平均召回。该度量通过考虑每个名词短语的全景分割建议和地面实况之间的不同交集（IoU）阈值来因此，分割的质量影响方法的性能，因为IoU度量确定检测是否被认为是真阳性。我们得到一条曲线，在非常低的IoU值召回接近1，并在较高的IoU值召回下降。最后一个指标名为Average Recall，是上述曲线下的面积。对于复数名词短语，我们不显式地匹配地面实况实例和预测建议以计算平均召回率。相反，我们将地面实况注释的所有实例聚合到单个分割中，并且相对于由所有预测建议组成的分割来计算IoU。通过这种策略，我们避免了注释和预测之间的匹配过程中的错误或变化，同时评估整体分割质量。1369×个（a）输入（b）特征提取（c）联合处理（d）相关性计算名词短语这是一张在户外拍摄的照片。公共汽车停在马路上。公共汽车里有一个人在握着方向盘。巴士是白色的颜色.公共汽车旁边有一个人站在小路上。在巴士后面有车辆，建筑物和一群人站在路上，还有一片云彩。令牌化单模态Transformer矩阵跨模态Transformer全景分割建议最大单模态Transformer全景分割建议提取每个名词短语的相关区域全景叙事基础图4：全景叙事基础基线。我们的模型将图像和相应的标题作为输入（a），然后通过使用主干分割器提取全景分割建议来进行自上而下的方法。然后，我们使用单模态变换器来独立地处理分割建议和来自字幕的标记（b），并与跨模态变换器联合处理信息（c）。最后，我们计算视觉和文本信息之间的亲和矩阵，并为每个名词短语（d）选择更相关的全景分割建议。4. 全景叙事基础我们建立在跨模态相关性（CMR）[52]模型的基础上，该模型是为语言和视觉推理任务开发的。该方法在视觉和语言的交叉处的两个分类任务中具有竞争性结果：视觉问答[2]和用于视觉推理的自然语言[43，44]。CMR模型引入了实体相关性表示，明确表达了文本实体相对于视觉实体的相关性。该模型使用该亲和矩阵作为最终任务的中间表示。他们的研究结果表明，使用单词与图像中的区域对齐我们调整了模型并优化了我们任务的架构。图4描述了我们的基线方法的概述。给定图像及其标题（a），我们从每个全景分割区域提议中提取特征，并使用单模态变换器处理每个提议和单词。（b）.然后，我们将来自视觉模态Transformer和文本模态变换器的输出连接起来，并将其用作交叉模态变换器的输入，该交叉模态变换器不仅考虑相同模态的表示，而且还考虑其他模态的表示来之后，我们从每个词的表示和区域提议之间的矩阵乘法最后，我们对每个名词短语中包含的所有单词的语言维度进行平均池化。该亲和度矩阵明确地指示哪个是针对字幕（d）中的每个名词短语的最相关的全景实施细节：我们使用全景功能Pyra-mid Network [17]（FPN），具有在MS COCO [ 5，25 ]上预训练的ResNet-101 [ 9 ]骨干，其中3安排我们-正式实施[46]。Panop- tic FPN中的参数是固定的。对于填充建议，特征对应于在组合从每个FPN级别提取的特征之后并且在最终上采样之前从语义分割分支提取的特征对于事物类别，它们是实例分段分支中的掩码特征。视觉单模态Transformer具有3个注意层。我们使用预训练的BERT跨模态Transformer具有5个注意力层。在训练过程中，我们执行了多标签分类任务，当名词短语是复数时，包括几个区域。另外，对于最终预测中的复数，我们考虑具有大于0的匹配分数的所有全景分割区域提议。1.一、我们在NVIDIA QuadroRTX 8000 GPU上训练我们的方法25个epoch，初始学习率为0。000，01，每批60个图像，并使用具有标准参数的Adam [165. 实验实验设置：我们使用我们的 Panoptic NarrativeGrounding基准，以及MS COCO数据集的标准训练和验证分割。我们只包括我们的注释转移过程将本地化叙事字幕的至少一个名词短语分配给全景分割区域的图像。最终的分割有133个，103个用于训练的本地化叙述和8533个用于验证。定量结果：表2和图5a示出了使用所提出的平均值的我们的方法的定量结果。1370Oracle我们我们的（事Oracle（Things）MCN [30]（Things）Oracle（东西）甲骨文（单数）我们的（单数）Oracle（复数）我们的（复数）1.9.8.7.6.5.4.3.2.10个0个.1.2.3.4.5.6.7.8.9一个IOU(a) 整体性能1.9.8.7.6.5.4.3.2.10个0个.1.2.3.4.5.6.7.8.9一个IOU(b) 事物和东西类别1.9.8.7.6.5.4.3.2.10个0个.1.2.3.4.5.6.7.8.9一个IOU(c) 单数和复数图5：我们的基线方法性能的平均召回曲线（a）与oracle相比，并分解为（b）事物和东西类别，以及（c）单数和复数名词短语。方法平均召回率(a) 东西和东西的分类。方法平均召回率(b) 单数和复数名词短语。表2：我们的方法用于全景叙事基础任务的结果与甲骨文表现相比，分解为（a）事物和材料类别，以及（b）单数和复数名词短语。召回评估指标（第3.3）。我们的方法的相对性能为86。0%，降幅仅为9。0绝对平均召回点相对于由基本全景分割方法给出的oracle性能（55. 4对六十四4）.我们通过选择具有最高IoU和地面实况注释的全景分割建议作为预测来计算这个预言。因此，我们的方法的oracle这些结果表明，我们提出的基线是非常强大的，一个很好的起点，以促进研究在全景叙事接地。然而，我们提出的基线方法受到提案分割的质量和基础全景分割方法的召回的限制此外，为了将我们的全景窄带接地基线与最先进的视觉接地方法多任务协作网络[30]（MCN）进行比较。我们推广了我们的任务，并对RES任务进行了自然扩展。为此，我们将标题分割成短语，并将与每个句子中的名词短语匹配的所有分割区域作为地面实况由于该方法是在RES任务范围内开发的，因此我们只包括事物类别。这种最先进的RES方法遵循自下而上的方法，并通过使用REC和RES任务的属性来使其他任务受益，从而利用REC和RES任务之间的互补关系。MCN的性能达到48。2平均召回率。这一结果与我们的分解方法在仅事物上的性能相当，这表明我们的基线方法更好地解决了自然语言视觉基础的问题。我们假设，从细粒度的制定接近这个任务，使模型可以很容易地抽象信息，使用每个单词的语义。通过将我们的基线方法的性能分解为事物和东西（Tab.图2a， 5b），可以观察到，即使我们的方法对于物品类别的性能更高，但是相对于对于物品类别的oracle性能的下降是5。0绝对平均召回点更高。我们假设这是由于（i）在事物类别中位置和外观的变化这些结果表明，对齐名词短语和泛视区域建议变得更加困难，因为类内视觉变化增加。此外，（ii）在事物的情况下，在同一对象类别的图像中可以存在多个实例，而不是东西类别，因此召回@IoU召回@IoU召回@IoU东西+东西事情东西Oracle64.467.360.4我们55.456.254.3MCN[30]-48.2-单数+复数单数复数Oracle64.464.860.7我们55.456.248.81371图6：全景叙事基础的定性结果。在我们的基准测试的验证分割中我们的基线的示例预测。输入是图像（a）和没有突出显示的名词短语的标题（b）。输出是字幕（b）中的一组名词短语，每个名词短语在预测的分割（c）中具有对应的区域。(d)显示了地面实况全景分割。更多定性结果见补充材料。模型无法消除该类别的实例之间的歧义，并且无法选择名词短语在标题的上下文中所指我们还分解了单数和复数名词短语的性能（表。图2b，图5c）。复数名词短语的性能下降表明我们的模型不能检索语言所指对象的所有实例我们将此限制归因于在许多情况下迹线没有穷尽地与所有实例相交，这传播到我们的注释并最终影响结果。图6示出了与我们的基准的地面实况全景分割相比，我们的基线方法的一些定性结果。可以得到更多定性结果在补充材料中找到。6. 结论在这项工作中，我们提出了全景叙事接地，一个新的自然语言的视觉地面制定该问题旨在产生一个全景分割，该分割密集地将字幕中的每个名词短语接地。这个版本的问题（i）通过视觉上接地名词短语来保持语言上的最细粒度，而(ii) 包括具有分段的空间上详细的视觉基础，以及（iii）合并所有全景类别以利用视觉场景中的固有语义信息我们建立了一个强有力的实验框架，这项任务的研究，包括新的注释和评价met-rics。我们设计了一种算法来将局部化叙述的视觉基础转移到MS COCO数据集的全景分割中的特定区域。此外，我们提出了一个强大的基线方法，作为今后工作的垫脚石。泛光叙述性背景的提出、基准和实验框架将进一步推动精细和通用自然语言视觉背景方法的发展。反过来，这一任务的进展将影响视觉和语言交叉点上其他问题的解决方案。1372引用[1] 爱德华·H·阿德尔森。看东西：人类和机器对材料的感知。人类视觉和电子成像VI，第4299卷，第1-12页。国际光学与光子学学会，2001年。一个[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.VQA：可视化问答。在ICCV，2015年。一、二、六[3] Steven Bird，Ewan Klein，and Edward Loper. 用Python实现自然语言处理。四个[4] Ding-Jie Chen ， Songhao Jia ， Yi-Chen Lo ， Hwann-Tzong Chen，and Tyng-Luh Liu.用于参考图像分割的透视文本分组。在ICCV，2019年。三个[5] XinleiChen ， Hao Fang ， Tsung-Yi Lin ， RamakrishnaVedan-tam ， SaurabhGupta ， PiotrDol la´r ， andCL awrenceZitnick. Microsoft COCO字幕：数据收集和评估服务器。arXiv：1504.00325，2015。一、二、三、六[6] Yi-Wen Chen，Yi-Hsuan Tsai，Tiantian Wang，Yen-YuLin，and Ming-Hsuan Yang.具有字幕感知一致性的引用表达式对象arXiv：1910.04748，2019。三个[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。arXiv：1810.04805，2018。六个[8] David A Forsyth、Jitendra Malik、Margaret M Fleck、Hayit Greenspan、Thomas Leung、Serge Belongie、ChadCarson和Chris Bregler。在大量图像集合中查找对象的图片。计算机视觉中的对象表示国际研讨会，1996年。一个[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。六个[10] 格雷米·海茨和达芙妮·科勒。学习空间背景：用东西来找东西。ECCV，2008年。一个[11] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在ECCV，2016年。三个[12] Zhiwei Hu，Guang Feng，Jiayu Sun，Lihe Zhang，andHuchuan Lu.用于参考图像分割的双向关系推断网络。在CVPR，2020年。三个[13] Shaofei Huang ， Tianrui Hui ， Si Liu ， Guanbin Li ，Yunchao Wei，Jizhong Han，Luoqi Liu，and Bo Li.通过跨模态渐进式理解进行参考图像分割。在CVPR，2020年。三个[14] Tianrui Hui，Si Liu，Shaofei Huang，Guanbin Li，SansiYu，Faxi Zhang，and Jizhong Han.语言结构引导的上下文建模在参考图像分割中的应用。在ECCV，2020年。三个[15] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在EMNLP，第787一、二、三[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv：1412.6980，2014。六个[17] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDo l l a'r 。全视节段在CVPR，2019年。一、三、六[18] 乔纳森·克劳斯、贾斯汀·约翰逊、兰杰·克里希纳和李飞飞。一种用于生成描述性图像段落的分层方法。arXiv：1611.06607，2016。一、二、三[19] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。IJCV，123（1）：32-73，2017。一、二、三[20] Alina Kuznetsova ， Hassan Rom， Neil Alldrin ， JasperUijlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali ， Stefan Popov ， Matteo Malloci ， AlexanderKolesnikov，et al. Open Images Dataset V4。IJCV，第1-26页，2020年。三个[21] Liunian Harold Li ， Mark Yatskar ， Da Yin ， Cho-JuiHsieh，and Kai-Wei Chang.VisualBERT：视觉和语言的简单而arXiv：1908.03557，2019。3[22] Liunian Harold Li ， Mark Yatskar ， Da Yin ， Cho-JuiHsieh，and Kai-Wei Chang.有视觉的伯特在看什么？在ACL，2020年。三个[23] Ruiyu Li ，Kaican Li ，Yi-Chun Kuo， Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在CVPR，2018年。 3[24] Zhenyang Li ， Ran Tao ， Efstratios Gavves ， Cees GMSnoek，and Arnold WM Smeulders.通过自然语言规范进行跟踪。在CVPR，2017年。三个[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV。一、二、三、六[26] Chenxi Liu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，and Alan Yuille.用于参考图像分割的递归多模态交互。InICCV，2017. 三个[27] 刘大庆，张汉旺，冯武，查正军。学习组装用于视觉基础的神经模块树网络在ICCV，2019年。三个[28] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.ViL-BERT：用于视觉和语言任务的预训练任务不可知的视觉语言表示。arXiv1908.02265，2019。3[29] Gen Luo ，Yiyi Zhou，Rongrong Ji，Xiaoshuai Sun，Jinsong Su，Chia-Wen Lin，and Qi Tian.基于级联分组注意网络的指代表情分割。在ACM多媒体，2020年。三个[30] Gen Luo，Yiyi Zhou，Xiaoshuai Sun，Liujuan Cao，Chenglin Wu，Cheng Deng，and Rongrong Ji.多任务协作网络联合指称表达理解与切分。在CVPR，2020年。三、七[31] 毛俊华，黄强，亚历山大·托舍夫，Oana Camburu，Alan L. Yuille和Kevin Murphy 生成和理解明确的对象描述。arXiv：1511.02283，2015。第1、3条[32] Junhua Mao，Jonathan Huang，Alexander Toshev，OanaCamburu，Alan L Yuille，and Kevin Murphy. 一代1373以及对明确的对象描述的理解。在CVPR，2016年。一、二、三[33] Ed garMa r g f o y-Tua y，JuanCP e´ rez，EmilioBotero，and PabloArbel a´ ez. 由自然语言查询引导的动态多模态实例分割在ECCV，2018。三个[34] 乔治·A·米勒 WordNet：一个电子词汇数据库。MIT Press，1998. 二、四[35] 布莱恩A.放大图片作者：Christopher M.胡安·塞万提斯Caicedo ， Julia Hockenmaier ，和 Svetlana Lazebnik.Flickr 30k实体：收集区域到短语的对应关系，以获得更丰富的图像到句子模型。IJCV，123（1）：74-93，2017。第1、3条[36] Jordi Pont-Tuset、Jasper Uijlings、Soravit Changpinyo、Radu Soricut和Vittorio Ferrari。将视觉和语言与本地化的叙事联系起来。在ECCV，2020年。一、三、五[37] 秋爽、赵耀、焦建波、魏云超、魏世奎。通过生成对抗学习的参考图像分割。 IEEE Transactions onMultimedia，22（5）：1333-1344，2019。三个[38] Xuejian Rong，Chucai Yi，and Yingli Tian.基于指称表达的无模糊场景文本分割。29：591-601，2019. 三个[39] Ramprasaath R Selvaraju ， Stefan Lee ， Yilin Shen ，Hongxia Jin ， Shalini Ghosh ， Larry Heck ， DhruvBatra，and Devi Parikh.我明白了利用解释使视觉和

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

全景叙事基础：视觉与语言互动的细粒度分割任务

语义分割与实例分割和全景分割的区别？

机器视觉分割任务是什么

语义分割相对于实力分割和全景分割的优点

机器视觉 行业全景图

基于深度学习的全景分割开源源码

六、 全景图像拼接：要求使用OpenCV将在同一位置拍摄的两张不同角度的图像合成为全景图像。

在maskformer出现后，可不可以帮我想几个关于语义分割或实例分割或全景分割或视频方向的分割的论文题目以及创新点研究方向

deterctron2框架使用自己的coco格式的全景分割的数据集

unity 全景图扭曲

全景拼接算法都有哪些？各自的优缺点

春哥技术博客——720vr全景视觉源码系统

使用 krpano 实现全景视频

全景分割怎么确定label数据的像素值对应类别

CVPR2023实例分割

利用pytorch实现全景图像拼接

推荐一个好用的全景拼接软件

360全景漫游技术实验思考

yolov8图像分割

基于全景图的深度估计方法研究与实现

最新资源

机器视觉行业全景图

六、全景图像拼接：要求使用OpenCV将在同一位置拍摄的两张不同角度的图像合成为全景图像。