没有合适的资源?快使用搜索试试~ 我知道了~
12507信息对象注释:说点我不 知 道 的利奥尔·布拉查巴伊兰大学lior. live.biu.ac.il加尔·谢奇克巴伊兰大学,NVIDIA研究院gal. biu.ac.il摘要捕捉图像中感兴趣的部分是图像理解的一个关键方面。当一个发言者annotates一个图像,选择的标签是信息很大程度上取决于一个潜在的听众的先验知识。受分类和通信的认知理论的启发,我们提出了一种新的无监督的方法来建模这种先验知识和量化的描述信息。具体来说,我们计算标签的知识如何减少标签空间的不确定性虽然完整的估计问题是棘手的,我们描述了一个有效的算法来近似熵减少使用树结构的图形模型。我们在开放图像扬声器先验知识“狗”选择对侦听器收听者使用一个新的10K地面真实评分的评估集对数据集进行了测试,发现它与人类评分员的一致率达到了65%,接近评分员间一致性的上限,并且在很大程度上优于其他无监督基线。1. 介绍您将如何标记图1中的照片?如果你回答“一只狗”,你的回答与大多数人的回答一致。事实上,当被要求描述一幅图像的“内容”时,人们的一致性令人惊讶他们凭直觉设法把重点放在什么是相比之下,自动分类器可以产生大量的标签,这些标签在技术上可能是正确的,但通常是不感兴趣的(图10)。1右上)。确定重要性的自然方法在于具体任务的上下文。例如,分类器可以被有效地训练以识别狗的品种或动物物种。更一般地,每个任务通过提供给分类器的监督信号来定义重要性[1,20,14]。在这里,我们感兴趣的是一个更通用的设置,其中没有下游任务规定的场景解释.这代表了人们在向另一个人描述场景时面临的挑战,没有任何具体的任务。图1. 信息标签的问题。 一个图像是-用多个标签进行了tomatically注释。然后,先验知识被假定为说话者和听话者共有的。从语言哲学、语言学到计算机科学,信息交流的原则一直是各个领域的研究课题。在语用学的学科中,格赖斯[9]的文件。但问题仍然是,“关于什么的信息?“我们如何建立一个实用的信息交流理论,可以应用于现实世界的数据的具体问题?在本文中,我们将讨论以下具体的学习设置(图1)。一个发言者收到一组标签预测自动从图像的多类分类器。它还接收分类器分配给每个预测的置信度然后,它的目的是选择一些标签(比如说,一个标签)发送给听众,这样听众会发现这些标签信息。说话者和收听者还以图像数据集中的标签分布的形式共享相同的先验知识。标签,信心黄金猎犬,0.9草0.8动物,1只狗玩具,0.6哺乳动物,0.9皮肤,0.5绿色,0.7草坪,0.7狗,1自然,0.9Goldendoodle,0.6网球0.8多类分类器12508我们提出了一个量化的理论,说话人如何选择术语来描述一个图像。关键的想法是,沟通的术语旨在减少听者对语义空间的不确定性。我们展示了如何使用信息论的措施,可以定量计算这种与以前专注于视觉方面及其重要性的方法相比[8,2,18,13,3],我们的措施专注于有关标签语义的信息。为了计算标签的信息内容,我们建立了全标签空间的概率模型,并使用它来量化发送标签如何减少不确定性。具体来说,我们计算标签分布的熵作为不确定性的度量,并且还量化当标签被设置为真时该熵减少了多少。重要的是,计算这些措施的标签的全部我们展示了如何熵和其他信息理论的措施,可以有效地计算近似的充分联合分布与树结构的图形模型(一个Chow-Liu树)。然后,我们将熵减少视为评分函数,该评分函数允许我们对图像的所有标签进行排名,并选择那些最 能 减 少 熵 的 我 们 将 这 种 方 法 命 名 为 IOTA , 即Informative Object Annotations。我们在一个新的评估数据集上测试这种方法:来自开放图像数据集[ 11 ]的10K图像由三名评分员分别用信息标签进行注释。我们发现,人类注释与不确定性降低措施非常一致(65%),只是差一协议和优于其他4个无监督的基线。我们的主要贡献是:(1)我们描述了一种新的选择重要标签的学习设置,而无需直接监督重要性。(2)我们开发了一个信息理论框架来解决这个问题,并设计了可用于解决这个问题的评分函数(3)我们进一步描述了一种计算这些评分函数的有效算法,通过使用树结构的图形模型来近似标签分布。(4)我们提供了一个新的基于开放图像数据集的10K图像的地面实况重要性评级评估集(5)我们表明IOTA与人类对该数据集的判断高度一致。学习视觉标签空间的重要性度量可能具有广泛的意义,因为它使我们能够自动化迄今为止需要昂贵的人工评估的工作例如,通过关注对人们重要的标签,可以设计更相关的损失函数和评估指标,用于对象识别或引导图像字幕以进行有意义的描述。2. 相关工作图像重要性和物体显著性。确定图像中哪些分量是重要的问题已经被深入研究。主要的方法涉及识别可能有助于重要性的对象和图像的特征,并使用标记数据来预测对象的重要性。Elazary和Itti [8]认为LabelMe数据集[17]中对象命名的顺序是对对象兴趣的衡量,并将其与自下而上注意力计算模型预测的显著位置进行比较。西班牙和佩罗娜[18]的优雅的工作,examined哪些因素可以预测的顺序,对象将被提到给定的图像。Berg等人[2]描述了与语义、成分和属性-对象的可能性相关的因素,并研究了这些因素如何影响重要性的度量。[15]专注于使用监督方法预测入门级课程。这些研究还表明,物体的显着性与其感知的重要性密切相关[13,3]。这些研究在两个重要方面不同于当前的工作首先,它们主要关注图像中对象的视觉属性,而我们目前的方法专注于对标签结构进行建模,并且仅使用分类器预测的标签置信度形式的基于图像的信息。其次,它们主要采用监督方法,使用训练集中的重要性度量来构建标签重要性的预测模型。相比之下,我们的方法是无监督的,因为我们的模型不直接暴露于有关对象重要性的标记信息。信息理论和相关性度量从复杂信号中提取信息成分的问题是通过信息瓶颈原理(IB)从信息理论的角度研究的[19,4,23]。与目前的工作相比,在IB中,信号X被压缩到T中,使得它最大化关于另一个变量Y的信息,该变量可以被视为监督变量。在[12]中,信息增益用于在目标导向的对话设置中选择问题。语用学,关联理论。在语用学中,有效交际的特点是合作原则[9],它将交际视为说话者和听话者之间的合作互动。这些原则在格赖斯的格言中得到了表述我们的方法提供了一个具体的量化实现这些原则。受Grice工作的启发他们强调,说话者向听者提供线索,然后听者在她已经知道的背景下解释这些线索,以及说话者可能打算传达的内容125093. 我们的方法我们的方法的关键思想是量化的相关信息内容的消息,通过建模什么听众不知道,并找到标签,减少这种不确定性。为了说明该想法,考虑在数据集中的大多数图像中出现的标签(例如,自然)。如果说话者选择传输该标签,则它向收听者提供的信息非常少,因为他们已经可以假设给定图像使用该标签进行注释相比之下,如果说话者发送的标签不太常见,只出现在一半的图像中,那么听者多标签不确定性的一个更重要的属性是标签是相互依赖的:传输一个标签可以减少其他标签的不确定性。 当考虑标签层次结构时,此属性是明显的,例如,golden- retriever= true意味着dog= true。因此,传输细粒度的标签比更一般的标签去除更多的熵然而,非常重要的是,这种影响不仅限于等级关系。例如,由于标签街道倾向于与汽车和其他车辆共现,因此发送街道将通过减少相关共现项中的不确定性来减少总体不确定性。超越这些例子,我们的目标是计算如何揭示标签影响听者的不确定性。为此,香农熵是量化不确定性的自然选择,直到我们可以估计标签的先验显然,对听众视觉世界的全部先验知识进行建模超出了我们目前的能力范围。相反,我们展示了如何通过构建一个具有树结构的紧凑图形模型这允许我们有效地计算标签上的联合分布的性质,并且更具体地,估计收听者不确定性和标签条件不确定性。首先,我们描述了一个信息理论的方法来选择信息标签,估计不确定性和标签条件的不确定性。然后,我们描述了一个al-出租m,以有效地计算这些数量在实践中。3.1. 问题设置然而,正如我们在实验部分讨论的那样,许多大规模模型确实会校准它们的分数。说话者的目标是选择k个标签发送给听者,使得它们最“有用”或信息量最大3.2. 信息论重要性测度让我们首先假设,我们可以估计听众心目中的标签的分布。显然,这是一个主要的假设,我们将在下面讨论如何放松这个假设并近似这个分布。鉴于这种分布,我们希望测量它反映的不确定性,以及当说话者透露特定标签时,这种不确定性减少了多少。随机变量的不确定性的一个原则性度量是它们的联合分布H(L1,…,Ld)[6].我们使用一个注释,明确表示熵取决于分布,其中熵定义为ΣH[p(l1,. ,ld)]=− p(l1,. ,ld)logp(l1,.,ld)。( 一)l1...,ld在这里,求和是对d个标签的所有可能的分配,这是一个指数数量的项,在实践中无法计算。下面我们将展示如何近似它。当说话者发送标签的子集L′={l i,l j,l k,. . . },是H(L′)=H[p(l1,.. . ,ld)]−H[p(l1,. . ,ld|L′=true)]、其中L′=true意味着L′中的所有标签都被赋予一个true值。为了简单起见,我们在这里集中于传输单个标签li的情况(也参见[7]),并且定义每标号熵约简H(i)=H[p(11,.,ld)]−H[p(l1,. ,l d|I i=true)]。( 二)这个测度有几个有趣的性质。 它具有与香农互信息类似的形式,MI(X;Y)=H(X)-H(X|Y),它总是正的。然而,第二项上的条件仅在标签的单个值上(li=true)。因此,Eq.(2)可以获得负值和正值。当随机变量相互独立时,由于可以使用随机链法则来分解entrop y,因此,服从H(L1,. ,Ld)−H(L1,... ,L d|L i)=jiH(Lj)>假设我们有一个图像语料库,每个图像都用来自d个术语词汇表的多个标签标注,L=(l1,. ,ld)。由于我们在一个嘈杂的标签设置,我们将标签视为二进制随机变量li∈{true,false}。我们还假设对于每个图像I,标签伴随有反映分类器对该标签的置信度的分数,我们用q(li)表示|I)的第10条。这样的置信度得分可以从分类器预测获得。假设这些置信度分数被校准,即反映正确标签的真实分数。 在实践中-0(第2.5 [6]节)。然而,当变量不独立时,将一个变量压缩为True值实际上会增加其他共同依赖变量的熵作为一个直观的例子,在城市中观察到狮子的基本概率非常低,并且具有低熵。然而,一旦你看到一个标志第二个重要的性质是,它对图像是完全不可知的,并且只依赖于标签分布。为了捕获图像特定的标签相关性,我们注意到注释图像的准确性12510(一)图像库集动物哺乳动物宠物熵对狗同现Pi,jVi,jChow-Liu算法猎犬梗图2. 标签上的不确定性可以通过测量其联合分布的熵来估计,并使用树结构的概率图模型(PGM)有效地计算。(a)使用图像语料库来收集成对标签共现。 然后,使用Chow-Liu算法学习树结构的图形模型 计算近似分布p的熵的运行时间在标签数量上是线性的。(b)为了计算以标签ldog=true为条件的条目,该节点的边界被设置为[0,1]。然后,重定向图边缘,并使用边缘上表示的条件概率表更新分布的其余部分最后,我们计算所得分布的熵。标签可能很大程度上取决于图像。例如,某些图像可能包含对象的关键方面。因此,我们希望根据标签正确的可能性来计算熵q(l i|I)的第10条。当一个不正确的标签被传输时,我们在这里假设没有任何信息被传递给监听器(有在这种情况下,一个关于负面信息价值的有趣研究问题,这超出了本文的范围)。因此,预期的熵减少是E(λ H)= q(l i|I)H+(1 −q(l i|I))·0该期望值等同于置信加权熵减少度量:cw-ωH ( i ) =q ( li|I ) [H ( L ) −H[L|li=true])]、(3)其中q(l i|I)是l i是正确的概率,L是一个随机变量,它包含所有标签的分布。我们认为,这是一个很好的衡量标签信息,语料库的上下文3.3. 信息标签的其他措施置信度加权熵减少,等式(3)是标签信息性的直观量化,但是标签分布的其他属性可以捕获标签重要性的方面。我们现在讨论两个这样的措施:关于图像的信息和概率惊喜。有关图像的信息。 信息标签的背景下,图像参考游戏进行了研究。在这种设置中,说话者提供关于图像的标签,并且听者需要在一组distractor图像中识别目标图像。最近的版本使用了自然语言的字幕,用于相同的目的[1,20]。为这种设置定义熵减少是很自然的。类似于Eq。(2)计算图像上的全熵与发送标签后的熵之间的差。当图像上的分布是均匀的时,形式的熵减少仅仅是log(num.图像)-log(num.匹配图像),其中第二项是由标签注释的图像的数量。考虑到我们得到cw- 图像cwH (i )=q (l i|I )[log (q (li)],⑷其中q(l i|也是l i是正确的概率,q(li)是具有标签i的图像的分数。这项措施与Eq有本质的不同。(3)因为它专注于图像上标签的分布,而不是它们的联合分布。可能是个惊喜。发送标签会改变标签的分布,也就是收听者的“信念”。这种变化可以通过有和没有传输的标签分布的Kullback-Liebler散度来量化cw-D KL(i)=q(l i|I)D KL(p(l1,. ,l d|l i=true)||p(l1,. ,1 d))。(五)我们可以使用这个度量作为评分函数,根据标签对分布的影响程度对标签进行排名。作为在熵减少方法中(等式10),3),在这里,我们探讨了跨标签关系,但提供了一个不同的信息理论测量如何发送标签影响的分布。单点模型中的熵减少。一个有趣的近似方程中使用的联合分布。(1)由单例模型提供,其将联合Q分布建模为均值p(l1,. . ,ld)=ip(li)。在这里,联合熵简单地是每-标 号 熵 当 发 送 标 签 时 减 少 的 熵 简 单 地 是 其 熵 cw-Singleton(i)=q(l i|I)H(II).重要的是,这个模型中的熵减少忽略了标签间的关系。熵是随着p单调增长的函数,对于(p<0。(五)。这意味着如果所有标签都是稀有的(p<0. 5),然后通过它们的经验频率对标签进行排名,产生与通过它们的单例熵减少相同的排名。(b)第(1)款哺乳动物动物宠物条件熵狗猎犬梗125113.4. 大标号空间中的熵约减给定图像的语料库,我们希望计算图像p(l1,. ,ld)。上面描述的评分函数假设我们可以估计和表示标签上的联合分布不幸的是,即使对于适度的词汇量d,由于它具有2d参数,因此在实践中也无法估计分布相反,我们使用称为Chow-Liu树的概率图形模型来近似标签分布[5]。对于单个树可能对数据中的小扰动敏感,我们将分布建模为由bootstrap过程创建的k使用树表示标签的联合分布提供了很大的计算优势,因为可以非常有效地计算分布的许多属性。重要的是,当联合分布在树上分解时,熵可以使用熵链规则精确计算我们首先描述图形模型,然后描述它是如何从数据中学习。与任何概率图模型一样,Chow-Liu树有两个组成部分:第一,具有d个节点的树G(V,EΣH[p(l1,. ,Id)]=HYdi=1Σp(l i|A(li))=Σdi=1H [p(l i|A(Ii))],(八)和d-1条边,其中节点V对应于d标签,边E连接节点以形成完整的连接树树是有向的,并且除了单个根节点之外,每个节点li具有单个父节点lj。作为第二个分量,图中连接节点i和j的每条边都伴随有条件离散p(l i|parent(1 i))。注意,该条件分布仅涉及两个二进制变量,即总共四个参数。因此,完整的模型只有O(d)参数,并可以有效地估计从数据。有了这两个分量,Chow-Liu模型可用于表示所有标签上的联合分布,该联合分布对图进行其中A(li)是标签li的父标签。 我们滥用了-简单地说,根节点没有父节点,因此它的熵不以父节点为条件,而是应该是H[p(lroot)]。此外,在树结构的概率模型中,可以通过选择任何节点作为根来重定向边,并相应地调节所有其他节点[10]。这允许我们使用以下步骤计算标记条件熵。首先,给定一个新的根标签li,迭代地重定向树中的所有边以使所有节点成为其后代。更新边缘上的条件密度表。第二,将边际分布[0,1]分配给节点li,反映标签被分配为真的事实。第三,在整个图中logp(l1,. ,ld)=Σdi=1logP.ΣLi|lparent(i).(六)使用边缘上的条件概率函数最后,使用链式规则计算新分布的熵,如(八)、虽然任何树结构都可以用来表示一个因子的分布,如方程。 (6),Chow-Liu算法找到一个特定的树结构:最接近Kullback-Liebler原始全分布项的分布D iv e r genceDKL(p(pL))||p(L))。该树是通过两个步骤找到的:首先,对于每对标签i,j,计算它们在图像语料库中的2×2联合分布,然后计算mu-1。分布的真实信息3.5. 选择用于传输的标签给定上述模型,我们可以计算给定图像的每个标签的预期熵减少然后,我们从信息检索的角度出发,根据分数对标签进行排名,并发出排名最高的标签。可以重复该过程以传输多个ΣMIij=p(l,l)pij(li,lj)(7)ijijp(l)p(l)标签例如,假设标签li首先被传输,我们计算每个剩余标签减少了多少li=T,F lj=T,F我我JJ熵更进一步。正式地说,决定第二个标签其中,求和是对True和为了传输,我们计算每个标签ljli:对于两个变量的另一个值,pij是联合分布塞拉利昂(j)=H[p(l,. ,l|l = true)] (9)过标签共现,并且pi和pj是i的主要值1DI这个分布。作为第二步,分配MIij作为连接标签i和j的节点的边的权重,并在加权图上找到最大生成树重要的是,模型边缘的特定方向并不重要。形成一致树(每个节点最多有一个父节点)的任何方向集在图上定义相同的分布[5]。在实践中,由于12512-H[p(l1,. ,l d|l i=真,l j=真)]直觉上,选择使该分数最大化的第二标签倾向于选择语义上远离第一发射标签的标签。如果第二个标签(比如,lj=pet)在语义上与第一个标签(比如,li=dog)相似,那么在观察到标签dog之后pet的剩余熵很低,因此说话者将偏好其他标签。12513表1. 通过比较方法对图像标注进行排序。标签根据评 分 函 数 进 行 排 名 。 然后 , 使 用 地 面 真 值 标 签(粗体)的位置(即,k)来计算精确度和召回率。之后,精确度和召回率在图像之间进行平均。4. 实验4.1. 数据我们在开放图像数据集(Open-images dataset)上测试了IOTA [11]。在XML中,每个图像都用标签列表进行注释,并与置信度得分一起。我们在验证集(41,620 张 标 注 了 512 , 093 个 标 签 的 图 像 ) 和 测 试 集(125,436张标注了1,545,835个标签的图像)上近似了联合标签分布地面实况数据(OID-IOTA-10 K)。 我们收集一个新的数据集的地面实况“信息”标签的10K图像:2500例来自OID验证,7500例来自OCT测试,每个图像3名评分员。 评分员被要求关注图像中占主导地位的物体或场景,以避免不具有特别描述性的过于通用的术语(“图片”)。标签以自由文本形式输入,并在可能的情况下与预定义的知识图谱(64%的样本)实时匹配,以便评分员可以验证标签含义。剩下的36%的注释被匹配为后处理,包括词干提取,重新解决歧义(例如,决定球棒是指动物还是指运动设备)和解析同义词(例如,裤子和裤子)。总体而言,在许多情况下,评分员使用完全相同的术语来描述图像。在68%的图像中,至少有两名评分员用相同的标签描述图像,在27%的图像中,三名评分员都同意。这些数据可在https://chechiklab.biu.ac.il/ brachalior/IOTA/上公开获取。标签共现。列出置信度高于0.5的标签。在收集标签分布时,考虑至少出现300次的所有标签,忽略其置信度。这产生了772个标签的词汇表。参见附录。材料进行额外的实验。4.2. 评价方案对于上面(第3.2节)导出的每个重要性评分函数,我们对每个图像的所有预测标签进行了排名。给定这个标签排名,我们将顶级标签与从评分员那里收集的真实标签进行比较,并计算排名前k的标签的精确度和召回率精度和召回通常用于一个以上的地面实况项目。然而,在我们的例子中,对于每一个图像,只有一个地面实况标签:三位评分员的多数票因此,精度@1与recall@1相同我们排除了没有多数票的图像(3个唯一评级,27.6%的图像)。标签提供粗略分辨率的置信度值(1位有效数字),因此图像中的多个当只根据信心排名时,我们随机打破平局。我们还测试了一个评估设置,其中三名评估者提供的每个标签都被视为基本事实,而不是大多数标签。精确度和召回率以相同的方式计算。4.2.1洁净度和噪声评价我们在两个设置中评估了我们的方法在第一个干净的评估中,我们只考虑被评估者验证为正确的图像标签。从分析中排除了不正确的标签,并且未通过评分函数进行排名我们还排除了其地面真实标签不在模型词汇表中的图像在第二个设置中,噪声评估我们没有强制任何这些要求。分析包括不正确的标签以及其地面真实标签不在词汇表中的图像;因此我们的模型无法预测。正如预期的那样,在这种情况下,准确率和召回率明显较低。4.3. 比较评分函数和基线我们比较了以下信息理论评分函数,所有函数都由分类器置信度加权。所有基于CLT的方法都是在10棵树的混合上计算的,更多细节请参见补充材料。(1)熵约化cw-ω H :参见等式(三)、(2)Prob-令人惊讶的cw-DKL :见等式(五)、(3)图像熵减少cw-图像熵H :参见等式(四)、(4)cw-Singleton,q(l i|I)H(I i):参见第(3.3)节。我们还评估了三个简单的基线:(5)随机每个图像中标签的随机排名。(6)置信度,q(l i|这反映了一个标签被信心顺时针-顺时针cw-DKLcw-ImageHcw-p(l)cw-单例车辆、飞机飞机客机客机车辆车辆飞机1.052.1856.655.710.0190.14航空公司0.947.5357.45.940.0090.07客机0.946.6958.366.290.0070.06飞机0.946.5446.674.830.0220.15车辆1.041.0214.342.330.1990.72螺旋桨飞机0.841.0149.975.850.0050.04航空0.840.9740.014.300.0190.13窄体飞机0.840.7355.066.170.0040.03空军0.629.6129.343.710.0080.06飞机发动机0.628.1423.513.820.0070.0612514单个 标签多标签P@1R@1R@5P@1R@1评分函数顺时针-顺时针0.640.960.630.57cw-DKL0.430.960.420.38cw-ImageH0.280.780.330.30cw-单例0.330.890.340.31cw-p(l)0.330.890.340.31基线信心0.490.960.500.46随机0.120.890.210.18非加权∆H0.290.860.340.31DKL0.220.870.290.26图像H0.140.640.210.18Singleton0.260.880.290.26p(l)0.260.880.290.26表2. 比较方法的精确度和召回率。 分数平均超过10棵树。cw-COMH在预测单个标记时达到64%的准确度,在多标记设置中达到63%的准确度。图3. 精确度和召回率@k在干净的设置(顶部)和噪声设置(底部),在OID测试集上计算。(a)在干净设置中,结果是2877个图像的平均值cw-10H (蓝色曲线)达到64%的p@1,并且大大优于其他评分函数。评分者一致性(虚线)为66%,仅略高于cw-100%。(b)在噪声设置中,结果是3942个图像的平均值。与干净集一样,cw-100H优于其他评分函数,但仅达到45%的p@1,评分者间一致性为64%。对图像进行校正,并由分类器提供。信心最高的人排名第一;关系随机破裂。(7)词频,经验p(li)描述了一个标签在语料库中被观察到的频率,按降序排列。请注意,在我们的数据中,术语频率产生与单例相同的排名,因为所有标签的边际频率都低于0。5,因此它们的熵随p(li)单调增加。5. 结果我们首先通过显示一个图像的分数来说明标签排名。表1中的注释按cw-cwH排序,并且突出显示了每列的最佳标签(评分函数)。单例和词频p(l)产生相同的排名(但具有不同的值),因为熵随p单调增长。cw-DKL 更喜欢细粒度的类。接下来,我们将介绍IOTA的精确度和召回率,并在干净设置中的完整OID测试中比较方法(第二节)4.2.1)。图3.a. IOTA实现了高精度,包括64%的p@1。 这一精确度仅略低于人类评分员的一致率(66%)。比较详见表2接下来,我们展示了噪声设置的类似曲线。在这里,我们还考虑了词汇表中不包括地面实况标签的图像,将这些图像的模型预测视为错误。图3. b.结果表明,在这种情况下,cw-crowH也达到了最高的精度和召回率与其他方法的一致性。正如预期的那样,这种设置下的精确度和召回率较低,达到p@1= 45%。我们使用多标记评估协议进一步测试了所有评分函数。在这里,我们使用所有三个标签(非加权),而不是在三个评分者注释上使用主要标签,并计算评分函数对该地面真值集的精确度和召回率。结果如表2所示,显示了类似的行为,其中cw-CSH优于其他评分函数。消融和比较。 有几个比较值得一提。首先,置信加权方法(依赖于图像)始终优于非加权方法。这表明,如果他们对图像没有高度的信心,选择第二,单例模型与完整的CLTcw-10H相比表现不佳。这与我们的观点一致,即标签重要性的一个关键因素是它对其他标签的不确定性的最后,cw-图像-相对地,在标签空间中的结构是关键的,这再次与观察结果一致。我们还重复了分析,同时将CL树限制在每个图像中存在的标签上。这严重伤害了(一)评分员一致性(b)第(1)款评分员一致性12515城市汽车车卡车自行车车辆飞机摩托车轮海洋生物学鱼类牛羊科晶须动物群动物哺乳动物狗品种组吻食肉动物啮齿动物猎犬灵长宠物狗犬科流浪狗狼狗伊马尔格伦梗小狗梗犬种萨鲁斯表3.最高等级标签的定性示例施达恩杂种狗狼狗其他评分功能。 虽然所有注释都是正确的,但鞋(左)、叶(中)和车(右)与人类注释一致。在汽车的例子中,cw-p(l)和singleton选择了一个过于抽象的标签,而cw-DKL和cw-ImageBLOGH选择了更细粒度的标签。这种效应在我们的数据集中普遍存在精度(p@1= 0. 48),这表明有关图像外标签的信息很重要。更广泛地说,这项工作将预测问题分为两个因素:一个模型的听众先验知识,因此是图像独立的,第二个是图像依赖。在实验数据集中,盲听者近似证明是非常有效的。最初,我们期望标签关系可以使用已知的语义层次结构来很好地建模。我们测试了提供有CLT(600个标签)的层次结构,但是我们发现它远不如CLT有效(p<1 =0. 34对于cw-10H),大概是因为语义相关性与视觉同现有很大不同。例如,在一个示例中,“dog”因此,使用标签的现有本体不一定对可以从数据学习的视觉同现进行建模。定性结果。表3列出了三个图像的各种评分函数的顶级标签。cw-crowH 一致同意人类注释(粗体),与其他评分函数相比,它捕获了一个中间的、信息量更大的类别。仅对左列基于置信度的排名将图像描述为鞋、鞋类或紫色。虽然这三个词在技术上都是正确的,但鞋子是这张照片最自然、最有信息量的标题。对于中间列(叶),有20个高置信度的预测注释(仅示出6个);除cw -100 H外,其他所有进近均未能返回“leaf”。最后,汽车示例(底部)展示了一个常见的现象,其中cw-p(l)和cw-Singleton更喜欢更抽象的类别,而cw-DKL和cw-ImageBLOGH更喜欢细粒度的标签。图4. 标签“dog”周围的Chow-Liu树的一部分该模型清楚地捕捉语义关系,即使他们没有明确的强制。例如,标签这些结果都是建立在Chow-Liu图形模型上的。为了测试其标签依赖结构是否反映了合理的标签语义,图4展示了围绕标签狗(765个标签中的38个)形成语义概念的分组方式与它们的含义(大部分)一致注意,该树结构不是分层模型,而是仅捕获开放图像数据集中的标签共现之间的成对依赖性。对超参数的鲁棒性。我们测试了IOTA对模型的两个超参数的鲁棒(1)混合模型中的树数;(2)分析的词汇量。该模型在很大程度上对这些参数具有鲁棒性。详细结果见附录。6. 结论我们提出了一种无监督的方法来选择信息的视觉场景的注释。我们使用标签的联合分布对关于视觉体验的先验知识进行建模,并使用它来根据标签分布可以去除多少熵来对每个图像的标签进行排名。排名靠前的标签捕获的是“直观”的标签,显示出与人类评分员的高度一致性。这是令人惊讶的,因为该模型不使用任何外部源的语义信息,除了标签并发。有几个问题尚未解决。首先,虽然我们目前的实验捕捉到了共同的背景,但这种方法可以扩展到任何背景。将此方法应用于专家注释器,以检索特定于注释器的上下文,这将是很有趣的。其次,易于学习的标签重要性量化器可用于改善多类训练中的损失函数,为更重要的标签分配更多权重。置信度q(l)鞋,鞋类,紫色叶子,植物,树木,自然,黄绿陆地车辆顺时针-顺时针鞋叶车cw-DKL鞋秋天梅赛德斯-奔驰cw-ImageH紫赛季梅赛德斯-奔驰cw-p(l)紫色植物车辆12516引用[1] 雅各布·安德烈亚斯和丹·克莱因。与神经听者和说话者的语用学推理。在自然语言处理中的经验方法,2016年。1、4[2] Alexander C Berg,Tamara L Berg,Hal Daume,JesseDodge , Amit Goyal , Xufeng Han , Alyssa Mensch ,Margaret Mitchell,Aneesh Sood,Karl Stratos,et al.理解和预测图像的重要性。在2012年IEEE计算机视觉和模式识别会议(CVPR),第3562-3569页。IEEE,2012。2[3] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著 对 象 检 测 : 基 准 。 IEEE transactions on imageprocessing,24(12):5706-5722,2015。2[4] Gal Chechik 、 Amir Globerson 、 Naftali Tishby 和 YairWeiss。高斯 变量的信 息瓶颈。 Jour- nal of machinelearning research,6(Jan):165-188,2005. 2[5] C. Chow和C.刘某依赖树近似离散概率分布。IEEETransactions on Information Theory , 14 ( 3 ) : 462-467,May 1968. 5[6] Thomas M Cover和Joy A Thomas 信息理论的要素。JohnWiley Sons,2012. 3[7] Michael R DeWeese和Markus Meister。如何测量从一个符号中获得的信息。Network:Computation in NeuralSystems,10(4):325-340,1999. 3[8] 利奥·埃拉扎里和劳伦特·伊蒂有趣的物体在视觉上是突出的。Journal of Vision,8(3):3-3,2008. 2[9] 保罗·格莱斯。逻辑与对话1975,第41-58页,1975。一、二[10] 达芙妮·科勒和尼尔·弗里德曼。概率图形模型:原则和技术。麻省理工学院出版社,2009年。5[11] Ivan Krasin 、 Tom Duerig 、 Neil Alldrin 、 VittorioFerrari、Sami Abu-El-Haija、Alina Kuznetsova、HassanRom、Jasper Ui- jlings、Stefan Popov、Andreas Veit、Serge Belongie、Vic- tor Gomes、Abhinav Gupta、ChenSun、Gal Chechik、David Cai、Zheyun Feng、DhyaneshNarayanan和Kevin Murphy。Openimages:用于大规模多标签和多类图像分类的公共数据集。数据集可从https://github.com/openimages,2017年。二、六[12] Sang-Woo Lee,Yu-Jung Heo,and Beng-Tak Zhang.提问者心中的答案:面向目标的可视对话的信息论方法。In S. Bengio,H. Wallach,H.拉罗谢尔湾格劳曼Cesa-Bianchi 和 R. Garnett , editors , Advances in NeuralInformation Processing Systems 31 , pages 2584CurranAssociates,Inc. 2018. 2[13] Tie Liu , Zejian Yuan , Jian Sun , Jingdong Wang ,Nanning Zheng,Xiaoou Tang,and Heung-Yeung Shum.学 习 检 测 显 著 物 体 。 IEEE Transactions on Patternanalysis and machine intelligence,33(2):353-367,2011. 2[14] Ruotian Luo ,Brian Price , Scott Cohen , and GregoryShakhnarovich.描述性字幕训练的可辨别性目标。在IEEE计算机视觉和模式识别会议(CVPR)中,第6964-6974页1[15] 作 者 : Vicente Ordonez , Jia Deng , Yejin Choi ,Alexander C. Berg和Tamara L.伯格。从大规模图像分类到入门级分类。在IEEE国际计算机视觉会议(ICCV)中,2013年12月。212517[16] 埃莉诺·罗施,卡罗琳·B·梅维斯,韦恩·D·格雷,大卫·M·约翰逊和佩妮·博伊斯·布拉姆。自然范畴中的基本对象。认知心理学,8(3):382-439,1976年。1[17] Bryan C Russell、Antonio Torralba、Kevin P Murphy和William T Freeman。Labelme:一个数据库和基于网络的 图像 注 释工 具 。 International Journal of ComputerVision,77(1-3):157-173,2008. 2[18] 梅丽尔·西班牙和皮埃特罗·佩罗纳。测量和预测对象的重要性。International Journal of Computer Vision,91(1):59-76,2011. 2[19] Naftali Tishby,Fernando C Pereira,and William Bialek.信息瓶颈法。在第37届Aller-ton通信、控制和计算年会上,第368377页,1999年。2[20] RamakrishnaVedantam , SamyBengio , KevinMurphy,Devi Parikh,and Gal Benghik.来自上下文不可知监督的上下文感知字幕。在IEEE计算机视觉
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功