没有合适的资源?快使用搜索试试~ 我知道了~
Claire Yuqing Cui1∗ Apoorv Khandelwal1∗ Yoav Artzi1,2 Noah Snavely1,2 Hadar Averbuch-Elor1,2{yc2296, ak2254, yoavartzi, snavely, hadarelor}@cornell.edu13740谁是沃尔多?链接文本和图像中的人物01 康奈尔大学 2 康奈尔科技0摘要0我们提出了一个以人为中心的视觉基础任务和基准数据集,用于将字幕中提到的人物与图像中的人物进行链接。与以物体为基础的视觉基础的先前工作相比,我们的新任务在字幕中掩盖了人名,以鼓励在这种图像-字幕对上训练的方法专注于上下文线索,例如多个人之间的丰富互动,而不是学习名称和外观之间的关联。为了促进这个任务,我们引入了一个新的数据集“谁是沃尔多”,该数据集是从维基共享资源的图像-字幕数据中自动挖掘得到的。我们提出了一种基于Transformer的方法,在这个任务上优于几个强基线,并将我们的数据发布给研究社区,以促进同时考虑视觉和语言的上下文模型的工作。代码和数据可在以下网址获取:https://whoswaldo.github.io01. 引言0图像中观察到的人物与文本中提到的人物之间的对应关系不仅仅取决于他们的身份和我们对他们外貌的了解。考虑图1中的图像和字幕。我们经常在报纸上看到这样的图像-字幕对,作为人类,我们擅长恢复图像中所描绘的人物与字幕中所提到的人物之间的关联,即使我们对具体提到的人物不熟悉。这种能力需要复杂的视觉推理能力。对于图1中的示例,我们必须理解一个潜在的活动(“传球”),并确定谁在传球,谁被传球,以及图像中哪些人根本没有被提到。在本文中,我们提出了一个以人为中心的视觉和语言基础任务和基准。将文本描述与图像区域之间的一般问题被称为视觉基础,并且是一个基本的问题。0� 相等的贡献0图1.通过研究这张图片和字幕,我们可以使用上下文线索将文本中提到的人物与他们的视觉对应物联系起来,即使我们对具体的个体不熟悉。这种能力需要理解广泛的互动(例如“传球”)和预期的行为(例如,球员传球给队友)。我们提出了以人为中心的视觉基础任务,其中抽象了身份名称(例如,用[NAME]标记掩盖了SamSchulz和Curtly Hampton),以鼓励算法模拟这种上下文推理。0在视觉语义任务中的能力,包括图像字幕[66, 41,3]、视觉问答[19, 20, 26]和指令跟随[4, 43,7]。我们的任务和数据在两个方面与大多数现有工作不同。首先,我们的任务抽象出身份信息,而是专注于图像和文本中指定的关系和属性。其次,我们不使用由众包工人注释的数据,而是利用来自现实数据源的字幕。虽然视觉基础传统上集中在根据指代表达式定位对象,但我们观察到根据人物中心样本中的表达式推断关联可能会导致问题偏见(例如,与性别相关)。因此,我们制定了使用掩盖人名的字幕的任务。这允许更加强调对上下文的关注-无论是在图像中还是在文本中-人物出现的地方,要求模型理解复杂的非对称人际互动和预期行为。例如,在图1的示例中,我们可能期望玩家将球传给自己队伍中的某个人。13750为了探索这个问题,我们创建了“Who'sWaldo”:一个包含近30万张人物图像的集合,配有文本描述,并自动注释了人物名称的提及与相应的视觉区域之间的对齐。 “Who'sWaldo”是从维基共享资源中的大规模公共目录中构建的,其中包含免费许可的图像和描述。我们利用这个独特的数据源自动提取了超过20万人的图像-文本对应关系。我们还提供了使用Amazon MechanicalTurk验证的评估集,并证明了我们的注释方案非常准确。为了将文本和图像中的人物联系起来,我们提出了一种基于Transformer的模型,借鉴了最近关于学习联合上下文化图像-文本表示的工作。我们使用联合嵌入空间中人物提及和描绘人物的图像区域之间的相似度度量来估计这些链接。上下文化的基于Transformer的表示特别适合处理被掩盖的名称,通过将推理转移到周围的上下文线索,如表示动作的动词和描述视觉特征的形容词。我们的结果表明,我们的模型在捕捉复杂交互的各种场景中有效区分不同的个体,明显优于强基线模型。02. 相关工作0视觉基础。视觉基础的目标是根据文本描述在图像中定位对象。任务通常被制定为恢复对象区域提议和文本之间的对应关系,或者计算整个图像上的注意力图。指代表达理解(REC)是这个问题的一个常见变体,其目标是识别与句子描述相对应的图像区域(例如[51, 17, 14, 67,37])。Sadhu等人[52]最近将这个任务扩展到了一个考虑到未见名词表达式的零样本设置。Qiao等人[49]对REC进行了全面的调查。然而,这一系列工作在描述对象之间的关系方面的使用有限。Flickr30KEntities数据集[47]通过包含图像、完整标题和几乎一百个对象类别的区域和短语之间的真实链接,开辟了建模这种依赖关系的新途径。此后,已经提出了几种方法来从描述多个对象的文本描述中进行视觉基础[61, 46,38]。弱监督设置假设区域和短语之间的真实链接不可用,已经引起了注意,使用判别和对比目标[64, 62,24]、视觉和语言一致性[8]和多级聚合策略[70, 1,13]来对齐图像和语言空间。然而,视觉基础中的大多数现有任务允许模型直接推理指代表达式(允许-0我们提出的任务要求模型仅通过上下文和对象之间的交互进行推理,因为指代表达式(即名称)被掩盖。与视觉基础相关的大多数数据集的创建涉及耗时、昂贵的注释过程,包括(i)为给定图像生成指代表达式或完整的文本描述,以及(ii)注释图像中相应的区域(例如[36, 28, 47,68])。我们通过受Conceptual Captions[56]启发的自动方法构建了“Who'sWaldo”。虽然那项工作使用来自HTML的alt-text图像描述(噪声较大,必须进行积极过滤),但我们使用从维基共享资源中的标题中获得的原始描述。0以人为中心的任务。人物识别[6, 32,71]是与我们提出的任务相关的一个任务,它被制定为在参考图像和目标图像之间进行比较,旨在确定这些图像是否属于同一身份。我们的工作则侧重于学习图像区域与描述人物及其描绘的交互的文本标题之间的上下文对应关系。出于伦理原因(请参见第4节中的伦理考虑),我们发布的数据集不包含身份信息,因此不能轻易修改以训练此类模型。另一个相关的以人为中心的任务是为图像中的每个人选择一组属性,以区分该个体与图像中的其他人[53]。最后,Aneja等人使用从新闻和事实核查网站收集的数据检测超出上下文的图像和标题对。他们的数据(具体来说,捕捉人物的子集)可以用来增强我们的数据集。0任务无关的图像-文本联合表示。最近的进展引起了人们对任务无关的联合视觉和文本表示的兴趣[39, 59, 34, 57, 10,58, 72, 40, 35, 21]。一些工作,如LXMERT [59]和ViLBERT[39],使用两个流的transformers[60](每个模态一个)。其他工作,包括VisualBERT[34]、VL-BERT [57]和UNITER[10],使用统一的架构。在我们的工作中,我们利用这些任务无关的特征来学习将文本中描述的个体与其视觉对应物之间的链接。03. 以人为中心的视觉定位0给定一张包含m≥1个人物检测的图像I和对应的n≥1个人物的标题xs(每个人物可能被提及一次或多次),我们希望找到从被提及的人物到视觉检测的映射。我们期望产生一个部分的、单射(一对一)的映射,因为并非所有被提及的人物都会出现在图像中,而且没有两个被提及的人物应该映射到同一个检测结果。我们还发现这种映射不一定是满射(到),因为图像中可能出现未被命名的人物。13760标题中提到的人物可能存在未被映射的检测结果。在野外的人物标题通常会用名字来指代他们。然而,使用实际人名进行视觉定位涉及到两个挑战:名字的多样性导致数据稀疏性显著,而名字的表面形式(即文本本身)会引发强烈的偏见,例如与性别有关。因此,我们通过用占位符标记[NAME]来抽象名字的表面形式。这鼓励模型关注名字的文本上下文,包括暗示人物视觉外貌的形容词和副词,以及指示他们参与的动作的动词。换句话说,通过屏蔽名字,我们寻求不会记住具体人物长相或基于特定名字形成刻板印象的模型,而是必须学习更丰富的上下文线索。作为我们数据集的一部分,我们提供了从被提及的人物到他们各自的[NAME]标记集的映射。虽然视觉定位传统上集中在物体的定位上(包括未命名的人物),但我们发现在以人为中心的视觉定位背景下,视觉定位提供了额外的机会。在以物体为中心的视觉定位中,指代表达式不被屏蔽,使得模型也可以通过匹配图像和物体类别来学习,而不仅仅依靠上下文。此外,我们任务的数据(即带标题的人物图像)在网络上很容易获取,并且与现实分布更接近,而不像物体数据集,其配对是由工人为了视觉定位任务而注释的。0评估。给定算法对于一个输入示例产生的映射,我们通过计算与参考人物和检测结果的真实链接的准确性来进行评估。这与以往的方法不同,以往的方法提取了数百个候选框,并使用交并比或指向游戏来近似正确匹配,这要求模型预测每个短语的单个点。我们还要求测试图像和标题中的人物在训练过程中没有出现。04. 《Who's Waldo》数据集0在本节中,我们描述了“Who's Waldo1”这个新数据集,它包含了来自维基共享资源的27万个图像-标题对。我们首先描述了构建和注释该数据集的过程,然后对数据集统计进行了分析。我们在图2中展示了我们数据集的样本及其注释。0数据收集。在维基共享资源的更广泛的“按姓名分类的人物”类别中,有407K个类别。01图标由Stefan Spieler从NounProject创建2https://commons.wikimedia.org0以人物命名,每个人物都有自己的子类层次结构。我们将这组人物称为维基媒体身份。我们通过对名称进行分词、使用正则表达式匹配标记和标记词性来识别所有以人为中心的子类(例如“巴拉克∙奥巴马打篮球”或“1983年的萨莉∙赖德在挑战者号上”,而不是“约翰∙肯尼迪国际机场”)。然后,我们下载了350万张图片,整理了重复的图片,并保留了它们来源于维基媒体身份的引用。我们观察到,源自某个身份的图片很可能描绘了该身份。维基共享资源上的许多图片还与人工提供的英文标题相关联,这些标题通过命名出现的人物并详细描述他们的环境和互动。我们收集了这些标题,并通过与正则表达式的模式匹配进行了预处理,以删除维基媒体特定的文本结构。我们还删除了“照片由[摄影师姓名]拍摄”的变体短语,因为标题中经常提到摄影师,但图片中没有他们的照片。0在图像和标题中检测人物。为了检测图像中人物的边界框,我们使用了MMDetection [48, 9]中的Switchable AtrousConvolution模型和CascadeR-CNN和ResNet-50骨干网络,该模型在COCO[36]上进行了训练。然后,我们使用MM-Pose [69,11]中的自顶向下的DarkPose模型(在COCO[36]上进行了训练,并在COCO-WholeBody[27]上进行了微调)估计了133个全身关键点。我们对所有标题应用了预训练的NLTK [29,5]中的Punkt句子分词器,并使用FLAIR[2]对每个句子进行了命名实体识别,以识别人名。我们观察到,在标题中人们可能会被多次提及,并且没有完全匹配(例如,“William”和“Bill”,或者“Barack”和“Obama”)。因此,我们使用了AllenNLP [33,22]中的神经共指解析模型,将多个命名实体聚类为单个被提及的人。0估计地面真实链接。为了为我们的任务提供监督,我们从标题中提到的人物自动生成了地面真实链接到图像中人物的检测结果。正如我们将要描述的那样,维基共享资源为许多提到的人物提供了参考面孔。由于我们还可以通过估计的姿势地标进行面部对齐,从而为我们的图像检测生成面部图像(通过FaceNet嵌入[55, 54])。我们使用FaceNet嵌入[55,54]计算了参考面孔和检测到的面孔之间的相似性矩阵。通过在该矩阵中找到最小权重二分匹配[31]并应用一个阈值(经验设置为0.46),我们恢复了从提到的人物到检测结果的部分映射。我们按照以下方式找到提到的人物的参考面孔。首先,我们通过先前的共指解析步骤将提到的人物与维基媒体身份关联起来。我们还13770左:“Justyna Kowalczyk,Kikkan Randall和Ingvild Flugstad Østberg在皇家宫殿冲刺赛上,这是2012/2013国际滑雪联合会世界杯的一部分,在02013年3月20日在斯德哥尔摩。Kikkan Randall赢得了冲刺杯。”中心:“Cheick Diallo在2015年麦当劳全美男子篮球比赛上挡住AllonzoTrier(#20),路克∙肯纳德(#5)和Carlon Bragg(#31)。”右:“在俄罗斯星城的加加林宇航员训练中心,0远征41/42备份机组成员NASA的斯科特∙凯利(左)、俄罗斯联邦航天局(Roscosmos)的根纳季∙帕达尔卡(中)和0俄罗斯联邦航天局(Roscosmos)的米哈伊尔∙科尔涅廖夫(右)握手合影,他们站在一台联盟号模拟器前开始进行最后的资格认证。”0图2. 《谁是沃尔多》的样本,显示出粗体的检测到的命名实体和与图像区域相关联的实体,对应于图像上的方框。未匹配的方框和实体以黑色着色。0每个名称的提及次数0每个样本的链接0标题长度(单词)图3。《谁是沃尔多》的统计数据,包括标题中提到的人物的次数(出现次数)、每个样本的地面真实框-名称链接、样本分布和标题长度(按单词计算)。0我们发现许多维基媒体身份在维基共享资源上有主要图片,这些图片突出显示他们的面孔。我们将这些图片视为所提到的人物的参考面孔。然而,并非所有所提到的人物都有这样的关联,因此我们的地面真实链接是所有链接的一个子集。0数据集大小和拆分。上述过程产生了271,747个图像-标题对。图3总结了《谁是沃尔多》中注释和身份的分布情况。我们将它们分为179K个训练集、6.7K个验证集和6.7K个测试集的图像-标题对。我们生成验证集和测试集时,没有重叠的身份出现在训练集中。0通过确保示例具有挑战性和正确注释来创建训练集、验证集和测试集。为此,我们首先随机选择了16K个身份,并从包含这些身份的示例中生成了验证集和测试集(同时观察到这些示例中可能还有其他身份)。我们从不包含验证集中身份的所有剩余示例中生成训练集。然后,我们从验证集中删除所有(琐碎的)只有一个人检测和一个所提到的人的示例。我们按照下面描述的方式进一步手动验证这个验证集,并将得到的示例分为验证集和测试集。0使用AMT验证测试图像。虽然我们的方法近似于地面真实映射,但我们希望评估子集只包含正确的地面真实链接。为此,我们使用亚马逊机械土耳其(AMT)删除了具有错误注释的测试集示例。给定一个地面真实链接(即身份名称和检测到的人物的图像裁剪),我们定义了以下是/否AMT任务:“这个[检测裁剪]是否包含[身份名称]?”为了方便比较,我们还为工作者提供了一个参考图像和一个指向该身份的其他照片的链接。我们将每个地面真实链接分配给两个工作者。最后,我们选择两个工作者都回答“是”的所有配对。我们手动检查了400个回答,并考虑到工作者之间的分歧和错误,估计我们的自动技术在超集示例中的链接准确率约为95.5%。然而,在删除任何一个工作者回答“否”的示例之后,我们估计保留示例中的链接准确率超过98.5%。请参阅补充材料以获取有关我们数据集和生成链接的其他可视化信息。0伦理考虑 以人为中心的数据集引发了伦理问题。137802017年6月11日,在墨尔本维多利亚州的埃迪哈德体育场,卡尔顿队和大西洋西部悉尼队之间的澳式足球第十二轮比赛中,Caleb Marchbank在Matt de Boer踢球时。0我们方法的概述。从图像区域和单词中提取特征,并与Transformer结合,学习图像中检测到的人物(用A-C表示的框,用不同的颜色表示)与标题中提到的名称(如上面的Caleb Marchbank和Matt de Boer)之间的相似性。对应关系用匹配的颜色表示。0例如,ImageNet [15]基于从WordNet [12,65]的“人物”类别继承的问题而受到了严格审查。我们的任务和数据集在注意到伦理问题时进行了精心创建,并在整个工作过程中遇到了这些问题。我们仅提供用于研究目的的数据集,并对重新分发设置了限制。此外,由于我们在标题中遮盖了所有的名字,我们的数据集不能轻易地被用于非预期的任务,例如通过名字识别人物。由于我们数据源中的偏见,我们不认为这些数据适合开发非研究系统,除非进行进一步的处理或增强。有关分发和预期用途的更多详细信息,请参阅补充数据表[23]。05. 方法0在本节中,我们提出了一种将文本和图像中的人物进行关联的方法。我们使用多层Transformer[60]来学习联合图像-文本表示,使得被提及的人物及其对应的图像区域高度相似,而不对应的人物则相似度较低。为了简洁起见,我们将被提及的n个人物的名称称为names,检测到的m个人物的图像区域称为boxes。05.1. 模型0我们的方法基于最近的UNITERTransformer模型[10]。正如他们的工作所示,他们的预训练模型可以用于各种下游的视觉和语言任务。在本节中,我们展示了如何修改UNITER以适应我们的任务,并在我们的数据集上进行微调。我们的方法概述如图4所示。我们提取每个人物检测p的视觉特征。0我们使用FasterR-CNN的全卷积变体[3]提取视觉特征。视觉特征与其空间坐标的编码进行拼接,得到空间-视觉特征f(p)。我们将单词标记为WordPieces[63]。根据我们的任务,名称由[NAME]标记表示。对于每个子词w,我们提取由标记嵌入和位置嵌入组成的特征g(w)。我们将这些空间-视觉特征和文本特征输入到Transformer模型中,该模型使用自注意力层学习上下文表示,并在上层隐藏层中捕捉更具上下文特定的表示[18]。我们将空间-视觉特征的最终隐藏层表示记为Pk,文本特征的最终隐藏层表示记为Xl,其中Pk,Xl∈R768。从这些上下文表示中,我们构建了框-名称相似性矩阵S(图4右上角)。该矩阵测量了第i个名称和第j个框之间的余弦相似度Si,j:0S_i,j = P^T_j˜X_i0∥Pj∥2∥˜Xi∥2,(1)0其中,˜X_i是在标题中提到第i个被提及人物的所有[NAME]标记上取平均的嵌入。在推理过程中,对于每个被提及的人物,我们选择其在S中最相似的框作为其对应的检测结果。05.2. 学习0为了训练我们的模型,我们提出以下损失项,这些损失项作用于相似性矩阵S上:(1)在图像内部和图像之间定义的框-名称匹配损失,以及(2)未连接框的分类损失。03 根据[10],这些特征是:[x1, y1, x2, y2, w, h, w × h]。(2)13790图5.选择未连接的框。我们选择小而模糊的框(用红色标记)作为我们提出的分类损失,鼓励模型集中关注较大(且不模糊)的人。0框-名称匹配损失。我们在图像内部定义了框-名称匹配损失(监督估计的与地面真实链接的对应关系),并在图像之间使用了一个判别目标。我们计算了在批次中所有地面真实链接L上的不同框(p = Softmax(Si,:)j)和不同名称(q =Softmax(S:,j)i)的估计概率。我们对所有地面真实链接L计算交叉熵损失:0L intra = -10|L|0空0l ∈ L0计算公式:log p(l)+ log q(l)0因为我们希望在训练过程中利用额外的图像(即没有地面真实链接的图像),我们还计算了包含单个框和名称的图像之间的匹配损失(这些图像很可能代表同一个人)。我们采样正负框-名称对。通过用来自另一张图像的框(且属于不同的人)替换框来生成负对。我们对这些对计算二元交叉熵损失Linter。0未链接的框分类损失。由于图像中并非所有人都在标题中提到,我们使用一个常数空名称˜X�来扩充S。我们通过二元交叉熵分类损失来计算框与˜X�之间的相似度。我们通过sigmoid函数处理这些相似度S_i=�,j以获得归一化值。与名称相关联的框被视为负匹配(即与˜X�的相似度应该较低)。我们不能假设所有其他框都是正匹配(即与˜X�的相似度应该较高),因为我们只能从第4节算法中获得部分地面真实对应关系。相反,我们选择与其他框(1)相比在图像中不重要并且(2)模糊的未链接框。这两者都是使用检测到的人脸(从整个身体的标记点计算)来衡量的:如果面部图像f的面积Area(f) < 0.6 ∙ Area(flargest),则认为面部图像f不重要;如果Var(∆(f)) < 50[45],则认为面部图像f模糊,其中flargest是图像中最大的面部,∆是拉普拉斯算子。图5显示了我们数据集中带有红色未链接框的几个图像。我们最小化一个0方法训练数据准确性0完整名称Gupta等人[24] COCO 36.9 ± 1.04Gupta等人[24] Flickr30K实体 39.3 ± 1.05 SL-CCRF [38]Flickr30K实体 43.5 ± 1.06 MAttNet [67] RefCOCOg43.6 ± 1.06 UNITER [10] 多个[36, 30, 44, 56] 36.3 ±1.030随机Gupta等人[24] COCO 39.3 ± 1.05 Gupta等人[24]Flickr30K实体 41.1 ± 1.06 SL-CCRF [38] Flickr30K实体44.1 ± 1.07 MAttNet [67] RefCOCOg 44.0 ± 1.07UNITER [10] 多个[36, 30, 44, 56] 38.4 ± 1.040常数Gupta等人[24] COCO 35.6 ± 1.03 Gupta等人[24]Flickr30K实体 38.2 ± 1.04 SL-CCRF [38] Flickr30K实体46.4 ± 1.07 MAttNet [67] RefCOCOg 24.1 ± 0.92UNITER [10] 多个[36, 30, 44, 56] 34.2 ± 1.020随机-30.9 ± 0.99 从大到小-48.2 ± 1.07从左到右(全部)-38.4 ± 1.04 从左到右(最大)-57.7 ±1.060我们的Who's Waldo 63.5 ± 1.030表1. 在“Who'sWaldo”测试集上的评估。我们使用多种配置与先前的基于图像定位方法进行比较,根据名称的处理方式进行变化。我们还与几个简单的基准进行比较,详细信息请参阅正文。0二元交叉熵损失L�,用于包含这些正负匹配的图像。0这种损失不仅为我们提供了直接估计给定框是否在标题中提到的手段,还隐含地鼓励将不重要和模糊面部的情境化表示与其他面部区分开来。正如我们在结果中展示的那样,这提高了识别所提到的人的准确性,使模型能够更专注于更相关的框。06. 结果和评估0我们将我们的模型与在各种数据集上训练的其他视觉定位方法进行比较。我们研究了四个关键问题:先前的视觉定位方法在我们提出的任务上表现如何?我们的模型在复杂的多模态信号上推理的程度如何?我们的设计选择的影响如何?我们的模型学到了什么?我们还提供了定性结果(图6和补充材料),突出了我们提出的任务的复杂性和独特挑战。13800Kathryn Hire,一名宇航员和被分配到海军研究办公室的海军后备组成员,向海军后勤部长Nevin Carr将军展示了她带到太空的物品。图6.由我们的模型预测的框-名称对应关系。我们在其关联的框上方显示预测的实体(白色)。匹配颜色表示真实链接。请参阅补充材料以获取其他定性结果。06.1. 与先前工作的比较0我们在“谁是沃尔多”测试集上评估了几种最近的视觉定位模型:Gupta等人的弱监督框架[24]、捕捉实体依赖关系的监督神经链条件随机场(SL-CCRF)[38]和结合来自不同模块的注意力的监督网络(MAttNet)[67]。我们还评估了基于预训练多任务视觉和语言框架UNITER[10]的我们的模型。表1显示了我们的方法和在不同数据集上训练的现有方法的测试集准确率。我们使用这些准确率报告95%的二项比例置信区间(威尔逊得分区间)。对于现有模型,我们在推理过程中改变了如何提供名称,因为这些模型与我们的占位符[NAME]标记不兼容:(a)未修改的全名,(b)随机的热门名字,或者(c)一个固定的“人”字符串,例如“Harrymet Sally”被修改为“person metperson”。我们还评估了几个启发式方法,以说明我们的数据中的挑战和偏差(表1),例如命名个体的潜在从左到右的偏差。特别地,我们按照从左到右的顺序对标题中的名称进行排序,并将它们与按(a)面积递减(从大到小),(b)从左到右的左上坐标(L →R(全部)),或者(c)从左到右的左上坐标与仅最大的d个检测(L →R(最大))进行配对。对于m个检测和n个名称,我们设置d = max(m,n)。我们还与随机猜测进行比较。我们观察到这些启发式方法产生了非平凡甚至强大的性能。这可能是因为现实中的标题往往遵循从左到右的顺序(尤其是对于摆姿的人物,但请参见图6的反例),并且通过检测大小进行过滤可以去除未提及的人物。然而,即使是最强大的启发式方法也还有很大的改进空间。0方法 准确率0无视觉特征的输入特征 55.4 ± 1.07无空间特征的输入特征 58.0 ± 1.06无文本特征的输入特征 51.3 ± 1.07仅空间特征的输入特征 31.2 ± 0.990学习无L内部 31.4 ± 1.00学习无L间部 61.9 ± 1.04 学习无L�61.7 ± 1.04 无预训练学习 50.2 ±1.070表2.割舍研究,评估使用不同输入特征、损失项以及使用预训练模型的影响。0这些启发式方法也有助于衡量预训练视觉定位模型的性能。监督模型(SL-CCRF和MAttNet)的表现与Big →Small类似,说明这些模型可能利用了与大小相关的线索,尤其是MAttNet只处理名称而不是完整句子。我们在补充材料中展示了所有基线模型的定性结果。06.2. 割舍研究0表2显示了割舍结果。我们通过割舍以下特征训练模型:(i)视觉特征:设置为经过1000个随机检测平均的固定表示;(ii)空间特征:固定为图像中心坐标;(iii)文本嵌入:将所有单词屏蔽掉,只保留位置特征和特殊的[NAME]标记;以及(iv)文本和视觉嵌入:只保留空间特征。每种输入模态的影响都是显著的,(ii)的性能下降了5.5%,(iii)的性能下降了12.2%。虽然这些割舍方法会导致性能下降,但是它们仍然可以提供有关模型的重要信息。13810尽管我们的模型在所有情况下都比随机猜测表现得更好,但限制了此任务的可用信息,这表明它学习了一些数据偏差。(i) 和 (iii)都能够学习从左到右的关联。实际上,它们的正确匹配与“L → R(最大)”启发式的匹配显著重叠,对于 (i) 是81.7%,对于 (iii) 是 82.4%。最后,从 (iv)我们推断出仅仅空间特征是不足以学习这种相似性的。0我们还量化了每个提出的目标的重要性。训练时没有估计的对应关系(即Lintra)会导致性能的最显著下降,几乎是随机猜测。这说明了对我们任务的监督数据的重要性。消除其他损失(Linter和L �)只会使性能下降1.7%。Linter的相对较小影响突出了拥有许多捕捉多个人之间互动的样本的重要性,而不仅仅是具有一个检测到的人和被提及人的样本。0我们还报告了从头开始训练我们的完整模型(没有使用UNITER的预训练权重)所获得的性能。这导致性能大幅下降(>13%)。06.3. 结果分析0我们分析了我们的模型在不同测试子集上的性能,以更好地了解模型的学习内容。我们观察到,与L →R(最大)相比,我们的模型对更多人脸的数量更具鲁棒性。例如,在图像中只有一个被提及的人的情况下,我们的模型在面对越来越多的人脸时保持高性能,而启发式方法的性能下降了近20%(从两个检测到的人的准确率为84.5%下降到四个或更多检测到的人的准确率为67.6%)。我们在补充材料中进一步展示了这种情况的详细情况。我们考虑的另一个子集是测试样本的交互子集(即具有至少两个检测和被提及人以及字幕中的动词的样本)。这个潜在更具挑战性的子集占我们测试集的近三分之一。我们的模型的性能下降到52.1%,而基线性能下降到45.0%。0我们还分析了一个人的名字多次提及对性能的影响。测试集中约有3%的被提及人在字幕中被多次提及。对于这些身份,如果提供额外的提及,我们的模型会有适度的提高(2.1%)。这说明我们的模型在某种程度上可以利用字幕中的共现信息。最后,我们还在补充材料中分析了我们的方法在几个身份职业类别上的性能,因为我们观察到这些与我们的数据集捕捉到的不同情况相关。0左:“Butler的Andrew Smith和Siena的RyanRossiter都试图预测篮板,而Butler的ShawnVanzant从后面逼近。”中:“Joe Jonas和Demi Lovato在Jonas BrothersLive In Concert中表演。”0右:“Markus Heikkinen封锁Freddy Guar´ın。”0图7.我们的模型预测错误的示例,粗体显示检测到的命名实体,用唯一颜色链接到图像区域的实体,对应于图像上的框。06.4. 限制0某些互动的复杂性,例如在运动比赛中,球员之间的紧密竞争,不仅对我们的模型构成挑战,也对人物检测器和我们用于估计地面真实链接的方法构成挑战。图7(左)展示了一个篮球比赛的例子,球员的身体重叠,因此有些球员没有被检测到。右边的例子说明了我们的模型的失败,其中交互“blocks”没有被正确解释。此外,一些字幕不足以产生有意义的链接。例如,在图7(中)中,将“JoeJonas”和“DemiLovato”替换为[NAME]之后,无法确定每个表演者对应的是哪个。因此,我们的模型采用了简单的从左到右的启发式方法。07. 结论0我们提出了一个任务、数据集和方法,用于将图像和文本中的人物进行链接。通过屏蔽人名,我们迫使方法不会记忆特定个体的外貌,而是理解上下文线索和多个人之间的互动。我们的方法在这个任务上表现出令人鼓舞的性能,但也表明底层任务非常具有挑战性,因此有很大的改进空间,可以通过未来利用我们的数据的方法来实现。特别是,所有方法的性能都会下降,当涉及到动作的示例(如带有动词字幕的示例)以及字幕中涉及的人数增加时,表明在扩展到复杂场景方面存在未解决的挑战。0致谢。 本工作得到了美国国家科学基金会(IIS-2008313,CAREER- 1750499)、谷歌专项奖、Eric & WendySchmidt基金会的慷慨支持,以及Schmidt Fu-tures计划的推荐,以及ZuckermanSTEM领导力计划的支持。[15] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In CVPR, pages 248–255. Ieee, 2009.13820参考文献0[1] Hassan Akbari, Svebor Karaman, Surabhi Bhargava, BrianChen, Carl Vondrick, and Shih-Fu Chang.多级多模态共同语义空间用于图像短语定位。 In ICCV , pages12476–12486, 2019.0[2] A. Akbik, T. Bergmann, Duncan Blythe, K. Rasul, Stefan Schweter,and Roland Vollgraf. Flair: 用于最先进自然语言处理的易于使用的框架。In NAACL-HLT , 2019.0[3] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.自底向上和自顶向下的注意力用于图像字幕和视觉问答。 InCVPR , 2018.0[4] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, MarkJohnson, Niko S¨underhauf, Ian Reid, Stephen Gould, andAnton van den Hengel.视觉与语言导航:在真实环境中解释基于视觉的导航指令。 In计算机视觉和模式识别IEEE会议论文集 , pages 3674–3683,2018.0[5] Steven Bird. NLTK:自然语言工具包。 ArXiv ,cs.CL/0205028, 2006.0[6] Roberto Brunelli and Daniele Falavigna.使用多个线索进行人员识别。 IEEE模式分析与机器智能交易 ,17(10):955–966, 1995.0[7] Howard Chen, Alane Suhr, Dipendra Misra, Noah Snavely,and Yoav Artzi. Touchdown:自然语言导航和视觉街景环境中的空间推理。 In计算机视觉和模式识别会议 , 2019.0[8] Kan Chen, Jiyang Gao, and Ram Nevatia.知识辅助一致性用于弱监督短语定位。 In计算机视觉和模式识别IEEE会议论文集 , pages 4042–4050,2018.0[9] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, YuXiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu,Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu, Tian-heng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, Yue Wu,Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang,Chen Change Loy, and Dahua Lin. MMDetection:开放的mmlab检测工具箱和基准。 arXiv预印本arXiv:1906.07155 , 2019.0[10] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy,Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. UNITER:通用图像文本表示学习。 In ECCV , 2020.0[11] MMPose贡献者. Openmmlab姿势估计工具箱和基准。https://github.com/ open-mmlab/mmpose , 2020.0[12] Kate Crawford and Trevor Paglen.挖掘AI:机器学习训练集中图像的政治学。 Excavating AI , 2019.0[13] Samyak Datta, Karan Sikka, Anirban Roy, Karuna Ahuja,Devi Parikh, and Ajay Divakaran. Align2ground:弱监督短语定位,由图像字幕对齐引导。 InIEEE国际计算机视觉会议论文集 , pages 2601–2610, 2019.0[14] Chaorui Deng, Qi Wu, Qingy
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功