视觉知识库中基于有限标号的视觉关系图模型的研究-摘要

156 浏览量更新于2023-10-13 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1有限标号文森特·S Chen，ParomaVarma，RanjayKrishna，MichaelBernstein，ChristopherRe´，LiFei-Fei斯坦福大学{vincentsc，paroma，ranjaykrishna，msb，chrismre，feifeili}@ cs.stanford.edu摘要诸如Visual Genome的视觉知识库为计算机视觉中的许多应用提供了动力，包括视觉问答和字幕，但是受到稀疏、不完整的关系的影响。迄今为止的所有场景图模型有限的标签概率训练标签吃：0.35吃：0.7吃：0.85进食：0.3仅限于在一小部分视觉关系上进行训练，每个视觉关系都有数千个训练标签。雇用人工注释者是昂贵的，并且使用文本知识库完成方法与可视化数据不兼容。在本文中，我们介绍了一种半监督的方法，作为符号的概率关系标签，大量的未标记的图像，使用几个标记的例子。我们分析视觉关系，建议两种类型的图像不可知的功能，用于生成嘈杂的启发式，其输出，把聚合使用一个因素图为基础的生成模型。每个关系只有10个标记的例子船，生成模型创建足够的训练数据训练任何现有的最先进的场景图模型。我们证明，我们的方法优于所有的基线approaches场景图预测5。对于PREDCLS，16次召回@100。在我们有限的标签设置中，我们为关系定义了一个复杂性度量，作为一个指标（R2=0）。778）的条件下，我们的方法成功的迁移学习，事实上的方法训练有限的标签。1. 介绍为了形式化图像的结构化表示，Visual Genome [27]定义了场景图，这是一种与广泛用于表示知识库的形式化类似的形式化[13，18，56]。场景图编码对象（例如，人，自行车）作为经由成对关系连接的节点（例如，骑）作为边缘。这种形式化导致了图像字幕[3]、图像检索[25，42]、视觉问答[24]、关系建模[26]和图像生成[23]中的最先进模型。然而，所有现有的场景图模型忽略了超过98%的不具有足够的标记实例的关系类别（参见图2），而是专注于对图1.我们的半监督方法自动生成概率关系标签以训练任何场景图模型。少数关系有数千个标签[31，49，54]。雇佣更多的人类工人是一个无效的解决方案，标记关系，因为图像注释是如此繁琐，看似明显的标签是没有注释的。为了补充人类注释者，传统的基于文本的知识完成任务已经利用了许多半监督或远程监督方法[6，7，17，34]。这些方法从一个小的标记集合中找到句法或词汇模式，以从一个大的未标记集合中提取缺失的关系。在文本中，基于模式的方法是成功的，因为文本中的关系通常是文档不可知的（例如，东京- 是-日本的首都>）。视觉关系是经常是偶然的：它们取决于它们出现在其中的特定图像的内容。因此，依赖于外部知识或依赖于模式而不是概念的方法（例如大多数狗在飞盘旁边玩飞盘的例子）不能很好地概括。无法利用基于文本的方法的进展，需要专门的视觉知识的方法。在本文中，我们使用一个小的标记数据集自动生成缺失的关系标签，并使用这些生成的标签来训练下游场景图模型（见图1）。我们从探索如何定义关系的图像不可知例如，eat通常由一个对象消耗另一个比它小的对象组成，而look通常由普通对象组成：电话、笔记本电脑或窗口（参见图3）。这些规则不依赖于原始像素值;它们可以从图像不可知的特征（如对象类别和关系中的对象之间的相对空间位置）导出。虽然这样的规则很简单，但它们为未注释的关系提供监督的能力尚未被探索。虽然图像不可知论2580未标记图像我们的半监督方法任何现有场景图模型2581数量 L ABELED（≤n）200175150 125 1007550 25 105% R洗脱99.0999.0098.87 98.74 98.5298.1597.57 96.09 92.2687.28106104102前10K关系106105104前50名关系10050关系频率CDF100关系103关系00 100 200 300Num. 标记图2.视觉关系有一个长尾巴（左）的不常见的关系。目前的模型[49，54]只关注Visual Genome数据集中的前50个关系（中间），这些关系都有数千个标记的实例。这会忽略98%以上的关系，其中很少有带标签的实例（右，顶部/表）。虽然特征可以很好地表征一些视觉关系，但是它们可能无法捕获具有高方差的复杂关系为了量化我们的图像不可知特征的功效，我们定义了基于我们的分析，我们提出了一个半监督的方法，利用图像不可知的功能，以标签错过- ING的关系，每个关系使用少至10个标记的实例我们在这些特征上学习简单的启发式方法，并使用生成模型为未标记的图像分配概率标签[39，46]。我们使用完全标记的VRD数据集[31]评估了我们的方法的标记功效，发现它达到了57的F1得分。66也就是11 比其他标准半监督方法（如标签传播）高84分[57]。为了证明我们生成的标签的实用性，我们训练了一个最先进的场景图模型[54]（见图6），并修改其损失函数以支持概率标签。我们的方法在Visual Genome上实现了47.53 recall@1001的谓词分类，比仅使用标记实例训练的相同模型提高了40.97个点。对于场景图检测，我们的ap-在原始Visual Genome数据集上训练的相同模型的8.65recall@100内，具有108×更多的标记数据。最后，我们将我们的方法与迁移学习进行比较，迁移学习是从有限标签学习的事实选择。我们发现我们的方法提高了5.16recall@100用于谓词分类，特别是对于具有高复杂度的关系，因为它很好地推广到未标记的子类型。我们的贡献是三方面的。(1)我们介绍了第一种通过寻找缺失的视觉关系来完成视觉知识库的方法（5.1节）。(2)我们展示了我们生成的标签在训练现有场景图预测模型中的实用性（第5.2节）。（3）引入了一个度量视觉关系复杂性的指标，并证明了它是一个强指标（R2= 0. 778）对于我们的半监督方法1Recall@K是场景图预测的标准度量[31]。2. 相关工作文本知识库最初是由专家手工策划来构建事实[4，5，44]（例如，东京-日本的首都>）。为了扩展数据集策展工作，最近的方法从网络中挖掘知识[9]或雇用非专家注释者来手动策展知识[5，47]。在半监督解决方案中，少量的标记文本用于提取和利用未标记句子中的模式[2，21，33不幸的是，这种方法不能直接应用于视觉关系;文本关系通常可以通过外部知识或模式来捕获，而视觉关系通常是图像的本地关系。视觉关系已被研究为空间先验[14，16]，共现[51]，语言统计[28，31，53]以及实体上下文[29]。场景图预测模式ELS已经处理了从不完全知识中学习的困难，因为最近的方法利用统计模体[54]或对象关系依赖性[30，49，50，55]。所有这些方法都将它们的推理限制在前50个最频繁出现的谓词类别上，而忽略那些没有足够标记的示例（图2）。有限标签问题的实际解决方案是转移学习[15，52]，它要求用于预训练的源域遵循与目标域相似的分布。在我们的设置中，源域是具有数千个示例的频繁标记关系的数据集[30，49，50，55]，目标域是一组有限的尽管在源域和目标域中有类似的对象，但我们发现迁移学习很难推广到新的关系。我们的方法不依赖于一个更大的，标记的关系集的可用性;取而代之的是，我们使用小的标记集来注释未标记的图像集。为了解决为机器学习模型收集足够的训练标签的问题，数据编程已经成为流行的范例。这种方法学习对不完美的标记源进行建模，以便将训练标签分配给未标记的数据。不完全标记源可以来自众包[10]，用户定义的启发式[8，43]，多实例学习[22，40]和远程支持。Num. 标记Num. 标记覆盖的关系%2582空间特征图3.关系，如fly、eat和sit，可以通过它们的分类（s和o分别指主体和客体）或空间特征来有效地表征有些关系，如苍蝇，只依赖于少数几个特征-风筝经常在高空中看到pervision [12，32].通常，这些不完善的标记源利用来自用户的领域专业知识。在我们的情况下，不完美的标签源是自动生成的启发式，我们聚集到每对对象的建议分配一个最终的用有限的数据来标注关系以前的文献将深度学习特征与从分类对象标签和相对空间对象位置提取的额外信息相结合[25，31]。我们定义分类特征，，作为主语o和宾语o′的独热向量的串联。我们将空间特征定义为：3. 分析视觉关系我们定义了其余部分中使用的正式术语x−x′、Wy−y′、H（y+h）−（y′+h′）、H论文和介绍图像不可知的功能，我们的半监督方法依赖。然后，我们寻求数量-（x+w）−（x′+w′）、Wh′ w′、、、H Ww′h′、WHw′+h′w+h对如何描述由其对象之间的属性我们问（1）什么样的图像不可知特征可以表征视觉关系？和(2)给定有限的标签，我们选择的特征如何表征关系的复杂性？考虑到这些，我们激励我们的模型设计生成启发式算法，不过度拟合少量的标记数据，并将准确的标签分配给较大的未标记的集合。3.1. 术语场景图是由对象组成的多重图Go作为节点，关系r作为边。每个对象oi={bi，ci}由边界框bi和它的类别ci∈C组成，其中C是所有可能的对象类别的集合（例如狗、飞盘）。关系用主语表示- 谓语-宾语> 或。p∈P是一个谓词，例如ride和eat。我们假设对于每个谓词p，我们有一个小的标注关系集{（o，p，o′）∈Dp}。通常，这些数据集大约为10个示例或更少。对于我们的半监督方法，我们还假设存在一个大的没有任何标记关系的图像集合DU3.2. 定义图像不可知特征在计算机视觉中，利用预先训练的卷积神经网络来提取表示对象和视觉关系的特征已经变得很常见[31，49，50]。使用这些特征训练的模型在存在足够的训练标签的情况下已经证明是稳健的，但是当数据有限时往往会过拟合（第5节）。因此，出现了一个悬而未决的问题：我们还可以利用哪些其他功能其中b=[y，x，h，w]和b’=[y’，x’，h’，w’]是左上边界框坐标及其宽度和高度。为了探索空间和分类特征如何描述不同的视觉关系，我们为每个关系训练了一个简单的决策树模型。我们在图3中绘制了前4个空间和分类特征的重要性。像苍蝇这样的关系非常重视主体和对象之间的y坐标差异，捕捉特征空间模式。另一方面，外观取决于对象的类别（例如，电话膝上型计算机、窗口），而不是在任何空间方向上。3.3. 关系复杂性为了理解图像不可知特征的功效，我们想测量它们在描述特定视觉关系的复杂性方面的能力。如图4所示，视觉关系可以由多个图像不可知特征（例如，图像不可知特征）来定义。人可以骑自行车，或者狗可以骑冲浪板）。为了系统地定义这种复杂性的概念，我们确定每个视觉关系的子类型。每个子类型捕获关系在数据集中表现例如，在图4中，ride包含一个带有person-ride-bike>的分类子类型和另一个带有dog-ride-surfboard>的分类子类型.类似地，人可能以不同的相对空间取向（例如，相对于物体的方向）携带物体。在她的头上，在她的身边）。如图5所示，视觉关系可能具有显著不同的空间和类别复杂度，因此每种视觉关系的子类型数量也不同。为了计算空间子类型，我们对从所有子类型中提取的空间特征执行均值漂移聚类[11]2583Num. 亚型p′′游乐设施的分类复杂性自行车狗式冲浪板人滑板进位的空间复杂度图4.我们将关系的子类型数量定义为关系复杂性的度量子类型可以是分类的-骑行的一个子类型可以表示为person-ride-bike>，而另一个子类型是dog-ride-surfboard>。子类型也可以是空间的-carry有一个子类型，小物体被带到一边，另一个子类型是大物体被带到头顶。1000分类亚型100空间子类型500500 0图5.由空间和分类子类型定义的具有不同复杂程度的视觉关系的子集在第5.3节中，我们展示了与迁移学习等基线相比，该指标是我们半监督方法有效性的良好指标视觉基因组中的关系为了计算分类子类型，我们计算与关系相关联的唯一对象类别的数量。在访问这些视觉关系的10个或更少的标记实例的情况下，不可能捕获给定关系的所有子类型，并且因此难以学习整体关系的良好表示。结论算法1半监督算法标记关系1：INPUT：{（o，p，o′）∈D}p∈P-对象对（o，o′）的小数据集带有谓词的多类标签。2：INPUT：{（o，o）} ∈ D U}-具有对象但没有关系标签的图像的大型未标记数据集。3：INPUT：f（·，·）-从一对对象提取特征的函数。4：INPUT：DT（·）-决策树。5：INPUT：G（·）-在给定每个数据点第六章：INPUT：train（·）-用于训练场景图检测模型的函数。7：“”接下来，我们转向从图像不可知论提取特征和标签，Xp，Yp：={f（o，o），pfor（o，p，o）∈Dp}，X′ ′特征，并使用它们为未标记的数据分配标签，以便在每个视觉关系中捕获更大比例的子类型。我们假设，这将是有利的方法，只使用小的标记集来训练场景图预测模型，特别是对于具有高复杂性的关系，或大量的子类型。在5.3节中，我们发现了复杂度的定义与我们方法的性能之间的相关性。4. 方法我们的目标是为缺失的视觉关系自动生成标签我们假设，在不频繁关系的长尾中，我们有一个小的标签每个谓词p的注释关系的集合{（o，p，o′）∈Dp}（通常，大约10个例子或更少）。如第3节所述，我们希望利用与映像无关的功能来学习注释未标记关系的规则。我们的方法在三个步骤中将概率标签分配给未注释图像的集合D_U：（1）我们从标记的Dp中的对象提取图像不可知特征，并且U：={（f（o，o）for（o，o）∈DU}8：通过拟合J个决策树来生成启发式9：对于J个决策树，将标签分配给（o，o）∈DU，Λ=DTpredict（XU）。10：学习生成模型G（Λ）并分配概率标签Y〜U：=G（Λ）十二：输出：SGM（·）根据使用现有对象检测器[19]在未标记的DU上提取的对象提议，（2）我们在图像不可知特征上生成概率，并且最后（3）我们使用基于因子图的生成模型来聚合并为DU中的未标记对象对分配概率标记。这些概率标签连同Dp-起用于训练任何场景图预测模型。我们在算法1中描述了我们的方法，并在图6中显示了端到端流水线。特征提取：我们的方法使用图像不可知的第3节中定义的依赖于对象边界的特征框和类别标签。通过运行现有的对象检测模型[19]，从Dp中的地面真实对象或从DU中的对象检测输出中启发式生成：我们在标记关系的空间和分类特征上拟合决策树，以捕获定义关系的图像不可知规则。这些Num. 亚型2584∆��∆��…少数标签关系训练任意场景图模型未标记图像的大集合与对象检测的未标记关系∆��∆��…图像不可知特征半监督图像不可知模型聚合概率标签图6.对于关系（例如，carry），我们使用图像不可知的特征来自动创建启发式算法，然后使用生成模型来将概率标签分配给大量未标记的图像集然后，这些标签可以用于训练任何场景图预测模型。图像不可知规则是由决策树自动定义的基于阈值的条件为了限制这些算法的复杂性，从而防止过度拟合，我们使用浅决策树[38]，对每个特征集的深度有不同的限制，以产生J个不同的决策树然后，我们使用这些启发式方法预测未标记集合的标签，产生Λ ∈ RJ×|DU|未标记关系的预测矩阵。此外，我们只在它们对它们的标签具有高置信度时使用这些启发式算法;我们通过将置信度小于阈值（根据经验选择为2×随机）的任何预测标签转换为弃权或无标签分配来修改Λ启发式的一个示例如图6所示：如果主体在对象之上，则它将一个表1.我们通过使用宏度量数据集[31]在完全注释的VRD上评估来自我们的半监督方法的概率标签，仅使用n= 10个标记的示例来验证我们用于标记缺失关系的方法模型（n= 10）预处理召回F1Acc.RANDOM5.005.005.005.00DECISION三REE46.7935.3240.2536.92拉贝尔P ROPAGATION76.4832.7145.8212.85O URS （最高投票）55.0157.2656.1140.04OURS（CATEG. + SPAT.）54.8360.7957.6650.31考虑训练注释中的错误。我们采用了一个噪声感知的经验风险最小化器，这在逻辑回归中经常看到，作为我们的损失函数：谓词进位的正标签。生成模型：单独地，这些分类是有噪声的，并且可能不会将标签分配给D U中的所有对象对。作为Lθ=EYπΣ日志.ΣΣ1+exp（−θT VT Y）结果，我们聚合来自所有J启发式的标签为此，我们利用基于文本的弱监督技术中流行的基于因子图的生成模型[1，39，41，45，48]。该模型学习每个启发式算法的准确性，以组合它们各自的标签;模型的输出是每个对象对的概率标签。生成模型G使用以下分布族来关联潜变量Y∈R|DU|，真正的阶级以及来自启发式的标签，Λ：其中θ是学习的参数，π是由生成模型学习的分布，Y是真实标签，并且V是由任何场景图预测模型提取的特征5. 实验为了测试我们的半监督方法，通过注释缺失的关系来完成视觉知识库，我们进行了一系列实验并评估了我们的框架。πφ（Λ，Y）=1expφ.φTΛYΣ分几个阶段工作。我们从讨论数据集开始，基线和使用的评估指标。(1)我们的第一个实验测试了我们的生成模型其中ZΦ是确保π被归一化的配分函数。参数φ∈R，J对每个启发式的平均准确度进行编码，并且通过最大化观察到的启发式Λ的边际似然来估计。生成模型通过计算π φ（Y）来分配概率标签|Λ（o，o′）），其中每个对象对（o，o′）都是D U中的。训练场景图模型：最后，这些概率标签用于训练任何场景图预测模型。虽然场景图模型通常使用交叉熵损失[31，49，54]进行训练，但我们修改此损失函数以采用在完全注释的VRD数据集中的关系[31]。(2)我们的第二个实验通过使用它们来训练最先进的场景图模型[54]，展示了我们生成的标签的实用性。我们将我们的标签与来自大型Visual Genome数据集的标签进行比较[27]。(3)最后，为了证明我们的半监督方法启发式生成生成J启发式如果为0，则=基于训练因子图的生成式模型生成模型…携带标签模特可以选择弃权进位=N/A进位=N/A进位=0.8进位=0.2面罩-RCNNZ2585一BCDe✓<人风筝>✓<眼镜盖面>GT：sit<图书架>GT：sit<衬衫椅>GT：hang图7.（a）基于空间特征的启发式方法有助于预测人-放风筝>.（b）我们的模型学习到外观与电话高度相关。（c）我们过度拟合椅子作为sit的分类特征的重要性，并且未能将hang确定为正确的关系。(d)我们过度拟合与乘坐相关的空间定位，其中对象通常更长并且直接位于主体下方。(e)考虑到我们的图像不可知特征，我们为glass-cover-face>产生合理的标签。然而，我们的模型是不正确的，因为两个典型的不同谓词（坐和盖）共享的眼镜的上下文中的语义含义<-？ - face>.我们的半监督方法优于迁移学习，迁移学习已经看到了更多的数据。此外，我们使用我们用于测量关系复杂性的度量来量化我们的方法何时优于迁移学习（第3.3节）。消除同义词和超集。通常，过去的场景图方法使用来自Visual Genome的50个谓词不幸的是，这50个词把laying on和lying on这样的同义词当作不同的类。更糟糕的是，一些谓词可以被认为是其他谓词的超集（即上面是骑马的超集）。我们的方法，以及基线，是无法区分同义词和超集。对于本节中的实验，我们消除了所有超集并合并了所有同义词，从而得到20个唯一谓词。在补充材料中，我们包括这些谓词的列表数据集。我们使用两个标准数据集VRD [31]和VisualGenome [27]来评估与视觉关系或场景图相关的任务。每个场景图包含被定位为图像中的边界框的对象以及连接它们的成对关系，被分类为动作（例如，进位），所有格（例如，磨损），空间（例如，以上），或比较（例如，高于）描述符。Visual Genome是一个包含108K图像的大型可视化知识库由于其规模，每个场景图都留下了不完整的标签，使得难以衡量我们的半监督算法的精度。VRD是一个较小但完全注释的数据集。为了展示我们的半监督方法的性能，我们在VRD数据集上测量了我们的方法稍后，我们展示了生成的训练标签可以用于训练大规模场景图预测模型，并在Visual Genome上进行评估（第5.2节）。评估指标。我们在VRD数据集的测试集上测量我们生成的标签为了评估在我们的标签上训练的场景图模型，我们使用场景图预测的三种标准评估模式[31]：（i）场景图检测（SGDET），其期望输入图像并预测边界框位置，对象类别和谓词标签，（ii）场景图分类（SGCLS），其期望地面真值框并预测对象类别和谓词标签，以及（ iii ）谓词分类（PREDCLS），其期望地面实况边界框和对象类别来预测谓词标签。我们建议读者参考介绍这些任务的论文以了解更多细节[31]。最后，我们探讨了使用我们的子类型定义测量的关系复杂度如何与我们的模型基线。我们比较生成训练标签，然后可以用来训练下游场景图模型的替代方法。 ORACLE在所有的VisualGenome上进行训练，总计108×标记的数量Dp中的关系;这用作如何我们期待着表演。DECISION TREE [38]在图像不可知的特征上拟合单个决策树，从Dp中的标记示例中学习，并将标签分配给DU。LABEL PROPAGATION [57]采用广泛使用的半监督方法，并在将标签从Dp传播到DU之前考虑DU中图像不可知特征的分布。我们与强频率基线进行比较：（FREQ）使用对象计数作为先验来进行关系预测，并且只有当对象的边界框重叠时， FREQ+OVERLAP 我们包括一个 TRANS-FERLEARNING基线，这是数据有限的训练模型的实际选择[15，52]。然而，与所有其他方法不同，迁移学习需要源数据集进行预训练。我们将源域视为Visual Genome中前50个关系中与我们选择的关系不重叠的剩余关系。然后，我们用Dp中谓词的有限标记示例进行微调。我们注意到，T_RANSFER_L_EARNING具有不公平的优势，因为在其源关系集和目标关系集之间的对象中存在重叠。我们的实验将表明，即使有这个优势，我们的方法表现得更好。消融术。我们进行了几个消融研究的图像不可知的功能和启发式聚合组件我们的模型。（CATEG.）仅使用分类特征（SPAT.）仅使用空间特征，（DEEP）仅使用使用ResNet50 [20]从对象对的边界框的并集+ SPAT.）同时使用与2586表2.每个谓词具有n= 10个标记示例的场景图预测任务的结果，报告为召回@K。在我们方法的标签上训练的最先进的场景图模型优于使用其他基线（如迁移学习）生成的标签训练的模型场景图检测场景图分类谓词分类型号R@20 R@50 R@100 R@20 R@50 R@100 R@20 R@50R@100 BASELINE[n= 10] 0.00 0.00 0.00 0.04 0.04 0.04 3.17 5.306.61F要求9.01 11.01 11.64 11.10 11.08 10.92 20.98 20.98 20.80FREQ +OVERLAP10.16 10.84 10.86 9.90 9.91 9.91 20.39 20.90 22.21TRANSFER L收益11.99 14.40 16.48 17.10 17.91 18.16 39.69 41.65 42.3711.11 12.58 13.23 14.02 14.51 14.57 31.75 33.02 33.35LABEL传播 [57] 6.48 6.74 6.83 9.67 9.91 9.97 24.28 25.17 25.41OURS（DEEP）2.97 3.20 3.33 10.44 10.77 10.84 23.16 23.93 24.17OURS（SPAT.）3.26 3.20 2.91 10.98 11.28 11.37 26.23 27.10OURS（CATEG.）7.57 7.92 8.04 20.8321.44 21.5743.49 44.93OURS（CATEG. + SPAT。+ DEEP）7.33 7.70 7.79 17.03 17.35 17.39 38.90 39.87 40.02OURS（CATEG. + SPAT。+ WORD VEC）8.43 9.04 9.27 20.39 20.90 21.21 45.15 46.82 47.32OURS（MAJORITY VOTE）16.86 18.31 18.57 18.96 19.57 19.66 44.18 45.99 46.63OURS（CATEG. + SPAT.）17.67 18.69 19.28 20.9121.34 21.4445.49 47.04OORACLE[nORACLE= 108n] 24.42 29.67 30.15 30.15 30.89 31.09 69.23 71.40 72.15增加标记数据的影响增加未标记数据的影响图8.使用我们的标签训练的场景图模型[54]优于使用TRANSFERLEARNING标签和仅使用BASELINE标记的示例，这些示例在场景图分类和谓词分类中一致地用于不同数量的可用标记关系实例。我们还与ORACLE进行了比较，后者使用108倍以上的标记数据进行训练。空间特征（CATEG. + SPAT。+ DEEP）结合了所有三个，和OURS（CATEG. + SPAT。+ WORDVEC）包括词向量作为类别特征的更丰富的表示。（MAJORITYVOTE）使用分类和空间特征，但用简单的多数表决方案取代了我们的生成模型，以聚合启发式函数输出。5.1. 标记缺失关系我们评估了我们在注释DU 中缺失的关系方面的表现。在我们使用这些标签来训练场景图预测模型之前，我们报告了将我们的方法与表1中的基线进行比较的结果。在完全注释的 VRD 数据集 [31] 上， OURS（CATEG. + SPAT.）实现五十七66 F1只给出了10个标记的例子，即17。四十一十三88，1。55分，分别优于LABEL PROPAGATION、DECISIONTREE和MAJORITYVOTE。定性误差分析。我们在图7中可视化由OURS分配的标签，并且发现它们对应于图3中探索的图像不可知规则。在图7（a）中，OURS预测苍蝇，因为它了解到苍蝇通常涉及y坐标差异较大的对象。在图7（b）中，我们正确地标记了look，因为phone是一个重要的分类特征。在一些困难的情况下，我们的半监督模型无法推广到图像不可知特征之外。在图7（c）中，我们错误地依赖了类别特征chair，将hang错误地标记为sit，而chair是sit在图7（d）中，骑乘通常直接发生在另一个物体的上方，该物体稍大，并假设书-骑乘-架>而不是书-坐在架上>.在图7（e）中，我们的模型对眼镜进行了- 封面>.然而，在这种情况下，sit表现出与cover相同的语义含义，并且我们的模型错误地对示例进行了分类。5.2. 训练场景图预测模型我们将我们的方法的标签与之前描述的基线生成的标签进行比较我们在所有基线上提高了5分，包括我们的主要基线，T RANSFER L EARNING。对于PREDCLS，16次召回@100。消融基线2587改善与亚型50250250 10 20 3040列车集中1007550250性能与亚型20 40未标记集中改善与号提案亚型50250250.0 0.1 0.2 0.3 0.4已标记中的属性子类型图9.我们的方法我们也在8。SGDET的65次调用@100个ORACLE。我们生成的训练标签质量高于 DECISIONTREE 和LABELPROPAGATION，十三岁83和22。12次召回，PREDCLS增加100。标记和未标记数据的影响。在图8（左两个图）中，我们可视化SGCLS和PREDCLS性能如何随着我们将标记的示例的数量从n=250减少到n=100、50、25、10而变化。我们观察到更大的优势超过T RANSFER LEARNING 作为 n 下降，增加 5 。当 n=10 时，在100PREDCLS下有16次召回。该结果与我们在第3节中的观察结果相匹配，因为更大的标记示例集给出了TRANSFER LEARNING为每种关系获取关于更大比例的子类型的信息。在图8中（右边的两个图），我们将我们的性能可视化为未标记数据点的数量增加，发现我们使用更多的未标记示例来接近ORACLE消融术。OURS（CATEG. + SPAT。+ DEEP.）伤害性能高达7。对于PREDCLS，51次召回@100，因为它过度拟合图像特征，而OURS（CATEG. + SPAT.）表现最好的。我们显示了0的改进。71re-call @ 100对于SGDEToverOURS（MAJORITYVOTE），指示所生成的启发式确实具有不同的准确度并且应当被不同地加权。5.3. 迁移学习与半监督学习受最近比较迁移学习和半监督学习的工作的启发[36]，我们描述了我们的方法何时优于迁移学习。使用基于每个谓词的空间和分类子类型的关系复杂性度量（第3节），我们在图9中显示了这种趋势。当谓词具有高复杂性（如通过大量子类型所测量的）时，OURS（CATEG. + SPAT.）优于T RANSFER L EARNING（图9，左），相关系数R2=0。778我们还评估了未标记集合（DU）中的子类型的数量如何影响我们的模型的性能（图9，中心）。我们发现一个强相关性（R2=0。745）;我们的方法可以有效地将标签分配给具有大量子类型的未标记关系我们还将性能差异与标记集中捕获的亚型比例进行了比较（图9，右）。作为我们之前假设，当标记集仅捕获关系亚型的一小部分时，TRANSFERLEARNING会受到影响。这种趋势（R2=0.701）解释了OURS（CATEG. + SPAT.）当给定一小部分标记的子类型时，性能更好。6. 结论我们介绍的第一种方法，完成视觉知识库，如视觉基因组，通过寻找丢失的视觉关系。我们定义分类和空间特征作为图像不可知特征，并引入一个基于因子图的生成模型，该模型使用这些特征为未标记的图像分配概率标签。当在完整的VRD数据集中找到缺失的关系时，我们的方法在F1得分中表现出基线。我们的标签还可以用于训练场景图预测模型，只需对其损失函数进行微小修改即可接受概率标签。我们的性能优于迁移学习和其他基线，并接近在一小部分标记数据上训练的相同模型的Oracle性能。最后，我们引入了一个度量来表征视觉关系的复杂性，并表明它是一个强有力的指标，我们的半监督方法相比，这样的基线。鸣谢。这项工作的部分资金由布朗媒体创新研究所，丰田研究所-stitute （ “TRI” ）， DARPA ，编号 Nos. FA87501720095 和FA86501827865，NIH编号U54EB020405，NSFCCF1763315和CCF1563078，ONR编号编号000141712266，Moore Foundation 、 NXP 、 Xilinx 、 LETI-CEA 、 Intel 、Google、NEC、Toshiba、TSMC、ARM、Hitachi、BASF、Accenture、Ericsson、Qualcomm、Analog Devices、OkawaFoundation 、 American Family Insurance 、 Google Cloud 、Swiss Re、NSF Graduate Research Fellowship under No.DGE-114747，Joseph W. 和麦·古德曼斯坦福研究生奖学金，以及斯坦福黎明的成员：英特尔、微软、Teradata、Facebook、谷歌、蚂蚁金服、NEC、SAP、VMWare和Infosys。美国政府获授权为政府目的复制和分发重印本本材料中表达的任何观点、发现、结论或建议均为作者的观点、结论或建议政府的R@100（我们的-转账）R@100我们的R@100（我们的-转账）2588引用[1] Enrique Alfonseca，Katja Filippova，Jean-Yves Delort，and Guillermo Garrido.使用阶层式主题模型进行关系抽取的模式学习。在计算语言学协会第50届年会的会议记录中：短文-第2卷，第54-59页。计算语言学协会，2012年。5[2] Carolyn J Anderson，Stanley Wasserman，and KatherineFaust.构建随机块模型。社交网络，14（1- 2）：137-161，1992. 2[3] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould.Spice：语义命题图像字幕评价。欧洲计算机视觉会议，第382-398页。施普林格，2016年。1[4] So¨renAuer ， ChristianBizer ， GeorgiKobilarov ，JensLehmann， RichardCyganiak ， andZacharyIves.Dbpedia：开放数据网络在语义网中，第722Springer，2007. 2[5] Kurt Bollacker ， Colin Evans ， Praveen Paritosh ， TimSturge，and Jamie Taylor. Freebase：一个协作创建的图形数据库，用于构建人类知识。在2008年ACM SIGMOD数据管理国际会议的会议记录中，第1247-1250页。AcM，2008年。2[6] Antoine Bordes，Xavier Glorot，Jason Weston和YoshuaBengio。多关系数据学习的语义匹配能量函数MachineLearning，94（2）：2331[7] Antoine Bordes 、 Nicolas Usunier 、 Alberto Garcia-Duran、Ja- son Weston和Oksana Yakhnenko。为多关系数据建模转换在神经信息处理系统的进展，第2787-2795页，2013年。1[8] 拉兹万·布内斯库和雷蒙德·穆尼。学习使用最小的监督从网络中提取关系。计算语言学协会第45届年会论文集，第576-583页，2007年。2[9] 安德鲁·卡尔森、贾斯汀·贝特里奇、布莱恩·基西尔、伯尔·塞特尔斯、小埃斯特万·R·赫鲁施卡和汤姆·M·米切尔。迈向无止境语言学习的架构。在AAAI，第5卷，第3页中。2010年亚特兰大。2[10] Justin Cheng和Michael S Bernstein。Flock：混合人群-机器学习分类器。第18届ACM计算机支持的协同工作社会计算会议论文集，第600-611页。ACM，2015. 2[11] 成义宗。均值漂移、模式搜索和聚类。IEEE模式分析与机器智能汇刊，17（8）：790-799，1995。3[12] Mark Craven，Johan Kumlien，等.从文本源中抽取信息构建生物学知识库。在ISMB，1999卷，第77-86页，1999中。3[13] 阿伦·库洛塔和杰弗里·索伦森。用于关系抽取的依赖树第42届计算语言学，页423.计算语言学协会，2004年。1[14] Bo Dai，Yuqi Zhang，and Dahua Lin.使用深度关系网络检测视觉关系。在2017年IEEE计算机视觉和模式识别会议（CVPR），第3298-3308页。IEEE，2017年。2[15] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals

下载后可阅读完整内容，剩余1页未读，立即下载