基于外部知识的场景图生成与图像重建

196 浏览量更新于2023-10-17 收藏 1.75MB PDF 举报

图像重建

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1969基于外部知识的场景图生成与图像重建顾久祥1人，赵汉东2人，林哲2人，李胜3人，蔡剑飞1人，凌明阳4人1新加坡南洋理工大学跨学科研究生院ROSE实验室2Adobe Research，美国3乔治亚大学，美国4Google Cloud AI，美国{jgu004，asjfcai}@ ntu.edu.sg，{hazhao，zlin}@www.example.comwww.example.comadobe.comsheng.li @uga.edu，mingyangling@google.com摘要随着图像理解任务（如目标检测、属性和关系预测等）的发展，场景图生成受到越来越多的关注。然而，现有的数据集在对象和关系标签方面存在偏差，或者经常带有噪声和缺失的注释，这使得开发可靠的场景图预测模型非常具有挑战性。在本文中，我们提出了一种新的场景图生成算法与外部知识和图像recruitc- tion损失，以克服这些数据集的问题。特别地，我们从外部知识库中提取常识知识来细化对象和短语特征，以提高场景图生成的泛化能力。为了解决噪声对象注释的偏差，我们引入了辅助图像重建路径来正则化场景图生成网络。大量的实验表明，我们的框架可以生成更好的场景图，在两个基准数据集上实现了最先进的性能：视觉关系检测和视觉基因组数据集。1. 介绍随着最近在深度学习和图像识别方面的突破，更高层次的视觉理解任务，如视觉关系检测，一直是一个热门的研究课题[9，19，15，40，44]。场景图作为对象及其复杂关系的抽象，提供了图像丰富的语义信息。它涉及到检测图像中所有的主谓宾三元组和所有对象的定位。场景图提供了图像的结构化表示，可以支持广泛的高级视觉任务，包括图像标题[12，14，13，43]，视觉问题回答[36，38，47]，图像检索[11，21]和图像生成[20]。怎么-*本研究是作者在Adobe Research实习期间完成的图1：我们的场景图学习模型的概念图。左边（绿色）部分说明了图像到场景图的生成，右边（蓝色）部分说明了图像级正则化器，它基于对象标签和边界框重建图像。将常识知识推理（top）引入场景图生成过程。从图像中提取场景图并不容易，因为它不仅涉及检测和定位交互对象对，而且涉及识别它们的成对关系。目前，存在两类用于场景图生成的这两个类别都将对象建议分组成对，并使用短语特征（其联合区域的特征）进行谓词推理。两者的区别在于程序的不同。第一类首先检测对象，然后识别这些对象之间的关系[5，28，29]。第二类基于对象和关系建议共同识别对象及其关系[27，25，37]。尽管这些方法取得了可喜的进展，但它们中的大多数都受到外部场景图数据集的限制。首先，要用场景图全面地描述一幅图像，它需要各种各样的关系三元组--主语-谓语-宾语三元组。不幸的是，目前的数据集只捕获了一小部分知识[29]，例如，视觉关系检测（VRD）数据集。在这样一个长尾数据集上进行训练1970分布将导致预测模型偏向那些最频繁的关系。第二，谓词标记高度取决于宾语对的识别[46]。然而，由于难以穷尽地标记每个对象的所有实例的边界框，当前的大规模众包数据集，如Visual Genome（VG）[22]被噪声污染（例如，遗漏注释和无意义的建议）。这样的噪声数据集将不可避免地导致训练对象检测器的性能较差[3]，这进一步阻碍了谓词检测的性能。对于人类来说，我们能够根据我们的常识知识对图像的视觉元素进行推理。例如，在图1中，人类具有背景知识：主体（女性）出现/站立在某物上;宾语（雪）增强了谓语（滑雪）的证据。常识知识也可以帮助正确的对象检测。例如，滑雪的特定外部知识也有利于物体（雪）的推理这促使我们利用常识知识来帮助场景图生成。同时，尽管对象标签在关系预测中起着至关重要的作用，但由于大量缺失的对象注释，现有的数据集非常嘈杂。然而，我们的目标是获得更完整的场景表示的场景图出于这一目标，我们通过从检测到的对象重建图像来调整我们的场景图生成网络考虑到图1中的情况，一种方法可能会误将雪识别为草。如果我们根据错误预测的场景图生成图像，即使雪的大部分关系可能被正确识别，本文的贡献有三个方面。1)我们提出了一个基于知识的功能细化模块，将常识知识从外部知识库。具体来说，该模块从ConceptNet [35]中提取有用的信息，以在场景图生成之前细化对象和我们利用动态记忆网络（DMN）[23]对检索到的事实进行多跳推理，并据此推断出最可能的关系。2）引入图像级监控模块，通过对图像的重构，规范了场景图生成模型。我们把这个辅助分支看作是一个正则化子，它只在训练期间存在。3)我们在两个基准数据集上进行了广泛的实验：VRD和VG数据集。我们的实验结果表明，我们的方法可以显着提高国家的最先进的场景图生成。2. 相关作品神经网络中的知识。人们对改进数据驱动模式的兴趣越来越大在自然语言处理[17，4]和计算机视觉社区[24，1，6]中具有外部知识库（KB）的元素。大规模的结构化知识库或者通过人工努力（例如，Wikipedia，DBpedia[2]），或者通过从非结构化或半结构化数据中自动提取（例如，ConceptNet）。改进数据驱动模型的一个方向是将外部知识提取到深度神经网络中[39，45，18]。Wu等[38]将从DBpedia [2]中挖掘的知识编码到向量中，它用视觉特征来预测答案。Li等人没有使用平均池化操作聚集文本向量[38]，[24]通过DMN提取检索到的上下文相关外部知识三元组，用于开放域视觉问答。与[38，24]不同，Yuet al.[45]从训练注释和维基百科中提取语言知识，并提取知识以规范训练并为推理提供额外的线索。采用教师-学生框架，以最小化教师和学生预测分布的KL-发散。视觉关系检测。在过去的十年中，许多作品都对视觉关系检测进行了研究[21，8，7，31]。Lu等人[29]介绍了作为视觉任务的通用视觉关系检测，其中它们首先检测对象，然后识别对象对之间的谓词最近，一些工作已经探索了上下文传播和特征细化的消息传递[41，27]。Xu等[41]通过细化对象特征和关系特征，结合消息传递构造场景图Dai等人[5]利用对象之间的统计依赖性及其关系，并使用条件随机场（CRF）网络迭代地改进后验概率。最近，Zelleret al. [46]通过预测与频率先验的关系来实现强基线。为了处理对象之间大量的潜在关系，Yang等.[42]提出了一种关系建议网络，该网络修剪掉不相关的对象对，并利用attentional graph卷积网络捕获上下文信息在[25]中，他们提出了一种聚类方法，该方法将完整的图分解为子图，其中每个子图由几个对象及其关系的子集组成与我们的工作最相关的是Li等人提出的方法。[25]Yuet al. [45 ]第45段。与[25]不同，[25]专注于有效的场景图生成，我们的方法通过com-monsense线索以及视觉线索解决了关系的长尾分布。与[45]不同，它利用语言知识来规范网络，我们的基于知识的模块通过对从ConceptNet检索的一篮子常识知识进行推理来改进特征精炼过程。1971KK我我我图2：所提出的场景图生成框架的概述。左侧部分从输入图像生成场景图。右边部分是一个辅助的图像级正则化器，它根据检测到的对象标签和边界框重建图像在训练之后，我们丢弃图像重建分支。3. 方法图2给出了我们提出的场景图生成框架的概述。整个框架可以分为以下步骤：（1）为给定图像生成对象和子图建议;（2）利用外部知识细化对象和子图特征;（3）利用对象特征识别对象类别，融合子图特征和对象特征对识别对象关系，生成场景图;（4）经由附加生成路径重构输入图像。在火车上-推理速度为了解决这个问题，在[25]中引入了子图，以通过聚类来减少潜在关系的数量子图建议构造。我们采用[25]中提出的聚类方法特别地，对于一对对象提议，子图提议被构造为具有置信度分数的并集框，置信度分数是两个目标提案的分数然后，利用非最大值抑制算法（NMS）对子图进行抑制以这种方式，候选关系可以由两个对象和一个子图来表示我们使用两种类型的监督：场景图级别ik监督和形象监督。对于场景图级别的监督，我们通过用地面实况对象指导生成的场景图来优化我们的模型，sk是所有关联的子图的第k个子图，oi，其中包含oj以及其他对象propos-人症在[25]之后，我们将子图和对象表示为特征图，si∈RD×Ks×Ks和特征向量，谓词范畴介绍了图像级监控技术为了克服上述缺失的注释，oi∈RDK其中D和Ks是维度。通过从对象重建图像并使重建图像接近原始图像。3.1. 提案生成生成对象建议。给定图像I，我们首先使用区域建议网络（RPN）[33]来提取一组对象建议：3.2. 基于外部知识的特征细化对象和子图间细化。考虑到每个对象oi连接到一组子图Si，每个子图sk与一组对象Ok相关联，我们细化对象向量（分别为）。子图）通过关注相关联的子图特征映射（分别地，相关联的对象向量）：[o0，· · ·， oN−1] =fRPN（I）（1）Σo<$i=oi+fs→oαs→o·si→（2）其中，fRPN（·）代表RPN模块，oi是由边界框ri=[xi，yi，wi，hi]表示的第i个对象提议，其中（xi，yi）是左上角的坐标，wi和hi是宽度和高度<$sk=sk+fo→sK Ksi∈SiΣαo→s·ok（3）ok∈Ok的边界框。对于任何两个不同的对象oi，oj，在op中存在两种可能的关系，我其中αs→o（resp. αo→s）是softmax层K i方向相反。因此，对于N个对象提议，存在表示通过si的重量（分别 ok）至oi（resp.共N（N-1）个潜在关系。虽然更多的O-O-项目建议导致更大的场景图，潜在的关系将急剧增加，这显著地增加了计算成本，并使sk），fs→o和fo→s是非线性映射函数。这一点与[25]相似。注意，由于oi和sk的不同维度，需要分别对s→o或o→s应用基于池化或空间位置的注意力1972KKKKMM第k个检索到的句子或事实的句子，表示为fi表示对象oi。图3：我们提出的基于知识的特征细化模块的说明给定对象标签，我们从ConceptNet（底部）检索事实（或符号三元组），然后使用动态内存网络使用两个通道（右上）对这些事实进行推理。精致有兴趣的读者可参考[25]了解详情。知识检索与嵌入。为了解决当前视觉关系数据集的关系分布偏差，我们提出了一种新的特征精化网络，通过利用外部知识库（KB）中的常识关系来进一步改进特征表示。特别地，我们从细化的对象向量o<$i预测对象标签ai，并将ai与KB中相应的语义实体进行匹配。然后，我们使用对象标签a i从KB中检索相应的常识关系：基于注意力的知识融合知识单元存储在存储槽中用于推理和更新。我们的目标是将外部知识融入特征精化过程然而，对于N个对象，我们在内存插槽中有N×K个这使得当N×K较大时，很难从候选知识中提取有用的信息DMN [23]提供了一种通过使用情景记忆模块来挑选最相关事实的机制受此启发，我们采用改进的DMN[39]对检索到的事实F进行推理，其中F表示事实嵌入{fk}的集合。它由一个注意力组件组成，该组件使用情节记忆mt-1生成一个上下文向量。具体来说，我们将对象向量o′馈送到非线性全连接层，并注意以下事实：q=tanh（Wq<$o+bq）（ 6）zt=[F <$q; F <$mt−1; |F − q|; |F − mt−1|（7 ）gt= softmax （W1tanh（W2zt+b2）+b1 ）（ 8 ） et= AGRU （ F ， gt ）（9）其中zt是事实F、情节记忆mt-1和映射对象向量q之间的交互，gt是softmax层的输出，mt是元素乘积，|·|是元素的绝对值，[ ; ]是关联运算。注意，q和m需要通过重复来扩展，以便具有与F相同的相互作用的维度。在（9）中，AGRU（·）指注意力are−tr→ievea，ar，ao，wk，j∈[0，K−1]（4）基于GRU [39]，取代GRU中的更新门i ii，jji、j对于事实k，输出注意力权重gt：其中ar，ao和wi，j是前K个对应的re，t t t t t ti，j jek=gkGRU（fk，ek−1）+（1−gk）ek−1（10）关系、对象实体和权重。注意，权重Wi，j由KB提供（即，概念-其中et是这一集的最终状态Net [35]），表明三元组a，arK，一个或多个。ii，j j基于权重wi，j，我们可以识别最大的前K个普通关系为i。图3说明了我们提出的基于知识的特征细化模块的过程。为了对检索到的常识关系进行编码，在所有的K句都被看过之后在注意力机制的一次通过之后，使用当前发作状态和先前的存储器状态来更新存储器：1tmt=ReLU（W [mt−; e ; q] + b）。（十一）首先将每个符号三元组ai，ar，ao转换为一个se-t0T−1i，jj其中，m是新剧集存储器状态。由最终词序：[X，· · ·，X a]，然后映射每个通过Tm，情景记忆mTm-1可以记忆使用-将句子中的单词转换为连续向量空间，词嵌入xt= WeX t。然后，嵌入的向量被馈送到基于RNN的编码器[39]中，充分的知识信息进行关系预测。最后的情景记忆mTm−1被传递，以细化对象特征<$o为：ht=RNN（xt，ht−1），t∈[0，T-1]（5）Tm−1k事实k kaReLU（Wc[o<$;m]+ bc）（12）其中xt是第k个句子的第t个词嵌入，其中Wc和bc是要学习的参数。在部分-1973K而ht是编码器的隐藏状态我们用双-通常，我们通过（12）以及联合用于RNN事实的方向门控递归单元（GRU），最终隐藏状态hTa-1被视为向量repre。通过将{oi，si}替换为（2）和（3）中，在一个迭代的形式（见Alg.①的人。Ki我1974我G图4：我们提出的对象到图像生成的说明3.4. 图像生成为了更好地正则化网络，添加了对象到图像的生成路径。图4描绘了我们提出的对象到图像生成模块Geno2i。特别是，我们首先根据对象标签及其对应的位置计算场景布局对于每个对象i，我们将对象嵌入向量oi∈RD展开为D × 8 × 8的形状，然后使用双线性插值将其包裹到边界框ri的位置，以给出对象布局olayout∈RD×H×W，其中D是对象嵌入向量的维数，H×W=64×64是边界框的维数。输出图像分辨率。我们对所有对象布局求和以获得操作模块Geno2i。场景布局S布局=o布局。3.3. 场景图形生成关系预测在特征细化之后，我们可以使用细化的对象和子图特征来预测对象标签以及谓词标签对于对象标签，我们可以直接用对象特征来预测。对于关系标签，由于子图特征与多个对象对相关，因此我们基于主体和对象特征向量以及它们对应的子图特征图来预测标签。我们将推理过程公式化为Pi，jsoftmax（frel（[oi'sk;oj'sk;<$'sk]））（13）Visoftmax（fnode（softoi））（14）其中，frel（·）和fnode（·）分别表示用于谓词和对象识别的映射层，并表示卷积运算[25]。然后，我们可以将场景图构造为：G=Vi，Pi，j，V j，i j.场景图形级监控。与其他方法[26，25，37]一样，在训练期间，我们希望通过优化场景图生成过程（对象检测损失和关系分类损失），生成的场景图接近地面实况场景图Lim2sg=λ predL pred+λ objL obj+λ reg1u≥1L reg（15）其中Lpred、Lobj和Lreg分别是谓词分类损失、对象分类损失和边界框回归损失，λobj、λpred和λreg是超参数，并且1是指示函数，其中u是对象标签，对于对象类别u≥1，对于背景u=0。对于谓词检测，输出是所有候选谓词的概率。Lpred被定义为softmax损耗。与谓词分类一样，对象检测的输出是所有对象类别的概率。Lcls也被定义为softmax损耗。对于边界框回归损失Lreg，我们使用平滑L1损失[33]。根据场景布局，我们合成一个图像，用图像发生器G对目标位置进行定位。在这里，我们采用级联细化网络[20]，它由一系列卷积细化模块组成，以生成图像。卷积细化模块之间的空间分辨率加倍这允许生成以从粗到细的方式进行。对于每个模块，它需要两个输入。一个是来自前一个模块的输出（第一个模块采用高斯噪声），另一个是场景布局S布局，其被下采样到模块的输入分辨率。这些输入按通道级联并传递到一对3×3卷积层。然后，在将输出传递到下一个模块之前，使用最近邻插值对输出进行上采样。最后一个模块的输出被传递到两个最终卷积层以产生输出图像。图像级监控。除了常见的像素重建损失L像素外，我们还采用了条件GAN损失[32]，考虑到图像是基于在物体上特别地，我们通过交替地最大化等式（1）中的LDi来训练LIDi和生成器Gi（16）和等式中的LGi。（十七）：LDi=EIpreal[logDi（I）]（16）LGi=EIp[log（1−Di（I）]+λpLpix el（17）其中λp是调谐参数。对于发电机损耗，我们最大化logDi（Gi（z|S布局）），而不是最小化原始log（1−D i（G i（z|S布局）以获得更好的渐变行为。对于像素重建损失，我们计算-真实图像I和对应的合成图像I之间的距离，||I−||1 .一、如图2所示，我们查看对象到图像生成，作为正则化器的操作分支它可以看作是一个场景图生成的校正模型，通过提高目标检测的性能。在训练期间，来自损失（15）、（16）和（17）的反向传播影响模型参数更新。这种图像级的监督可以被看作是一个纠正模型，通过提高目标检测的性能场景图生成。Gradi-我我1975O从对象到图像分支反向传播的条目更新我们的对象检测器和特征细化模块的参数，特征细化模块之后是关系预测。Alg. 1总结了整个培训过程。算法1训练程序。输入：图像I，训练步数Ts。一曰：预训练图像生成模块Geno2i（GT对象）2：对于t=0：Tm−1 do3：获取对象和关系三元组。4：提案生成：（O，S）←I{RPN}5：/* 基于知识的特征细化 */6：对于r=0：Tr−1 do7：osi11：结束12：更新Geno2i的参数（预测对象）13：使用（15）14：功能结束：Geno2i输入：真实图像I，对象（GT /预测）。1：对象布局生成：o布局← {oi，r i}表1：数据集统计。#Img和#Rel分别表示图像和关系对的数量，#Obj表示对象类别的数量，#Pred表示谓词类别的数量。数据集训练集图像数量#Rel测试集图像数量#Rel对象编号预测数量VRD [29]VG-MSDN [26]4,000 3035546 164 507 2961,000 7638111，3961001507050训练集，忽略关系三元组。对于每个数据集，我们根据表1中的类别和关系词汇表过滤对象。然后我们学习一个图像级的正则化器，它根据对象标签和边界框重建图像。图像生成器的输出尺寸为64×64×3，真实图像在输入到图像处理器之前被调整大小。我们用学习率10- 4和批量大小32训练正则化器。对于每个小批量，我们首先更新Gi，然后更新Di。第二阶段联合训练场景图生成模型和辅助重建分支。我们采用与VGG-16 [34]相关的Faster R-CNN [33]作为主干。在训练过程中，对象pro-pronouncers的数量对于每个提议，我们使用ROI对齐[16]池来生成对象和子图特征。子-我2：场景布局生成：S布局=平面布置我我图区域被合并为5 × 5特征图。尺寸-池化对象向量和子图特征的子图D3：图像重建：ΣI=Gi（z，Slayout）4：使用（17）更新图像生成器Gi参数5：使用（16）更新图像WIDi参数4. 实验4.1. 数据集我们在两个数据集上评估我们的方法：[ 29 ][29][ 29][29] VRD是用于视觉关系检测的最广泛使用的基准数据集。与VRD相比，原始VG [22]包含大量噪声标签。在我们的实验中，我们使用[26]中的清理版本VG-MSDN。两个数据集的详细统计数据见表1。对于外部知识库，我们使用ConceptNet [35]的英文子图作为我们的知识图。ConceptNet是一个大规模的通用知识图，旨在将其知识资源与其40个关系的核心集这些关系类型中的大部分可以被认为是视觉关系，诸如空间同现（例如，At- Location，LocatedNear）、对象的视觉属性（例如，HasProperty、PartOf）和动作（例如，CapableOf，Used- For）。4.2. 实现细节如图所示，Alg。1，我们用两个短语训练模型。初始阶段仅查看真映射被设置为512。对于基于知识的细化模块，我们将单词嵌入的维度设置为300，并使用GloVe 6B预训练的单词向量对其进行初始化[30]。我们保留了前8个常识性关系。事实编码器的隐藏单元的数量设置为300，情景记忆的维度设置为512。DMN更新的迭代次数T_m被设置为2。对于关系推理模块，我们采用与[25]相同的瓶颈层。所有新引入的层随机初始化，除了辅助正则化。我们设置λpred=2。0，λcls=1。0，且λreg=0。在等式（15）中为5。等式（17）中的超参数λp被设置为1.0。迭代次数Tr特征细化的值设置为2。我们首先训练RPN，然后联合训练整个网络。初始学习率为0.01，衰减率为0.1，随机梯度下降（SGD）被用作优化器。我们部署了权重衰减和dropout来防止过度拟合。测试期间，将丢弃图像重建分支。我们分别将RPN非最大抑制（NMS）[33]阈值设置为0.6，子图聚类[25]阈值设置为0.5。我们输出所有的谓词，并使用top-1类别作为对象和关系的预测。通过两项任务评估模型：视觉短语检测（PhrDet）和场景图生成（SGGen）。PhrDet是用来检测主谓宾结构的短语。SGGen用于检测图像中的对象并重新识别它们的成对关系。在[29，25]，1976使用Top-K召回率（表示为Rec@ K）作为每一个度量;它计算在前K个预测中有多少标记关系被命中。在我们的实验中，报告了Rec@50和Rec@100注意，Lietal.[26]和杨等人。[42]报告了另外两种方法的结果：谓词识别和短语识别。这两个评估指标基于地面实况对象位置，这不是我们考虑的情况。在我们的设置中，我们使用检测到的对象进行图像重建和场景图生成。为了与训练保持一致，我们选择PhrDet和SGGen作为评估指标，这也更实用。4.3. 用于比较的基线方法基线。这个基线模型是可分解净的重新实现[25]。我们根据我们的脊椎重新训练它具体来说，我们使用相同的RPN模型，并联合训练场景图生成器，直到收敛。KB. 该模型是基线模型的KB增强版本。外部知识三元组被并入DMN中。在特征细化过程中引入了基于知识的显式推理。乾该模型通过附加一个辅助分支来改进基线模型，该辅助分支使用GAN从对象生成图像。我们分两个阶段训练这个模型。第一阶段仅用对象注释训练图像重建分支。然后，我们细化模型与场景图生成模型。KB-GAN。这是我们包含KB和GAN的完整模型。它使用来自KB和GAN的训练参数进行初始化，并使用Alg进行微调。1.一、4.4. 定量结果在本节中，我们提出了我们的定量结果和分析。为了验证我们的方法的有效性并分析每个组件的贡献，我们首先比较表2中的不同基线，并调查表3中识别对象的改进。然后，我们对VRD进行模拟实验，以研究表4中的辅助正则化器的有效性。我们的方法与最先进方法的比较报告见表5。成分分析在我们的框架中，我们提出了两个新的模块-基于知识库的特征细化（ KB ）和辅助图像生成（GAN）。为了清楚地了解这些组件如何影响最终性能，我们进行了表2中的消融研究。表2中最左边的列表示我们是否在我们的方法中使用KB和GAN。为了进一步研究我们识别对象的方法的改进，我们还在表3中报告了对象检测性能mAP [10]。在表2中，我们观察到KB提高了PhrDet，SGGen显著。这表明我们的知识基础表2：我们的方法对VRD的单个组件的消融研究。KB GANPhrDetRec@50 Rec@100SGGenRec@50 Rec@100--25.5731.0918.1622.30C-27.0234.0419.8524.58-C26.6534.0619.5624.64CC27.3934.3820.3125.01表3：VRD上物体检测的消融研究。模型快R-CNN [33]VIP-美国有线电视新闻网[27]基线KBGAN KB-GAN地图14.3520.5620.7022.26 22.10 22.49特征精化可以有效地学习对象的常识知识，从而获得正确关系的高召回率。通过在基线模型中加入图像级监督，进一步提高了性能这一改进表明，所提出的图像级监督是能够捕捉有意义的上下文的对象。这些结果与我们在引言中讨论的直觉一致。使用KB和GAN，我们的模型可以生成具有高召回率的场景图。表3展示了在识别对象方面的改进。我们可以看到，我们的完整模型（KB-GAN）通过mAP测量，表现出更快的R-CNN [33]，ViP-CNN [27]。值得注意的是，知识库的巨大增益说明常识知识的引入实质上有助于目标检测任务。表4：二次采样VRD图像级监督的消融研究。KB GANPhrDetRec@50 Rec@100SGGenRec@50 Rec@100--15.4420.9610.9414.53-C24.0730.8917.5022.31CC26.6231.1319.7824.17图像级监控研究。如前所述，我们的图像级监督可以利用稀有类别的情况。为了证明我们引入的图像级监督可以帮助解决这个问题，我们通过从数据集中随机删除20%的对象实例及其对应关系来解决这个问题在表4中，我们可以看到，在这样的子采样数据集（仅具有80%的对象实例）上进行训练，基线模型的Rec@50从25.57下降（分别为：18.16）至15.44（分别为10.94）用于PhrDet和SGGen。然而，在GAN的帮助下，我们最终模型的Rec@50仅从27.39略有下降20.31）至26.62（分别19.78）分别用于PhrDet和SGGen。我们对这一重大性能改进的解释如下。太多的低频类别恶化训练增益时，只利用类la-1977表5：与PhrDet和SGGen现有方法的比较。数据集模型Rec@50PhrDetRec@100Rec@50SGGenRec@100VIP-CNN [27]22.7827.9117.3220.01DR-Net [5]19.9323.4517.7320.88VRD [29]U+W+SF+LK：T+S [45] 26.3229.4319.1721.34可分解净值[25]26.0330.7718.3221.20KB-GAN27.3934.3820.3125.01ISGG [41]15.8719.458.2310.88VG-MSDN [26][26]第二十六话19.9524.9310.7214.22图R-CNN [42]––11.4013.70可分解净值[25]22.8428.5713.0616.47KB-GAN23.5130.0413.6517.57图5：KB-GAN的定性结果。在每个示例中，左图像是原始输入图像;场景图由KB-GAN生成;并且从检测到的对象重建右图像。作为训练目标。通过图像级的显式监督，所提出的图像重建路径可以利用大量的稀有类实例这种图像级监控的思想是通用的，可以应用于许多潜在的应用，如目标检测.与现有方法的比较。表5显示了我们的方法与现有方法的比较。我们可以看到，我们提出的方法优于所有现有的方法在召回两个数据集。与这些方法相比，我们的模型不仅在图形域中，而且在图像域中识别对象及其关系。4.5. 定性结果图5显示了完整模型的一些示例我们显示生成的场景图以及每个样本的重建图像。很明显，我们的方法可以在生成的场景图中生成高质量的关系预测。值得注意的是，我们的辅助输出图像是合理的。这表明我们的模型通过使用外部知识库和辅助图像级正则化器进行学习，可以生成丰富的场景图。5. 结论在这项工作中，我们引入了一个新的模型，场景图生成，其中包括一个新的知识库的功能细化网络，有效地传播上下文信息的图形，和图像级的超透视，规范化的场景图生成从图像域。我们的框架优于最先进的方法，场景图生成VRD和VG数据集。实验结果表明，将常识知识和图像级监督结合到场景图生成中是有效的。我们的工作显示了一个很有前途的方式来提高高层次的图像理解，通过场景图。致谢这项工作得到了Adobe Research，NTU-IGS，NTU-Alibaba Lab和NTU ROSE Lab的部分支持。1978引用[1] Somak Aditya，Yezhou Yang，and Chitta Baral.用于视觉问答的端到端神经架构的外显式推理。在AAAI，2018。2[2] SohenAuer ， ChristianBizer ， Geor giKobilarov ，JensLehmann，Richard Cyganiak和Zachary Ives。Db-pedia：开放数据网络的核心.在搜索网站，第722-735页。2007. 2[3] Ankan Bansal ， Karan Sikka ， Gaurav Sharma ，Rama Chellappa，and Ajay Divakaran.零射击物体检测。在ECCV，2018。2[4] 包俊伟，段南，周明，赵铁军。基于知识的问答作为机器翻译。在ACL，2014年。2[5] Bo Dai，Yuqi Zhang，and Dahua Lin.使用深度关系网络检测在CVPR，2017年。一、二、八[6] Jia Deng ， Nan Ding ， Yangqing Jia ， AndreaFrome，Kevin Murphy，Samy Bengio，Yuan Li，Hartmut Neven，and Hartwig Adam.使用标号关系图的大规模对象分类。2014年，在ECCV。2[7] Henghui Ding ， Xudong Jiang ， Bing Shuai ， AiQun Liu，and Gang Wang.上下文对比特征和门控多尺度聚合用于场景分割。在CVPR，2018年。2[8] Henghui Ding ， Xudong Jiang ， Bing Shuai ， AiQun Liu，and Gang Wang.语义相关性促进了形状变化的上下文分割。在CVPR，2019年。2[9] 德斯蒙德·艾略特和弗兰克·凯勒。使用视觉依赖表示的图像描述。载于EMNLP，2013年。1[10] Mark Everingham，Luc Van Gool，Christopher KIWilliams ， John Winn ， and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，2010年。7[11] Jiuxiang Gu，Jianfei Cai，Shafiq Joty，Li Niu，and Gang Wang.看，想象和匹配：用生成模型改进文本-视觉跨模态检索。在CVPR，2018年。1[12] Jiuxiang Gu ， Jianfei Cai ， Gang Wang ， andTsuhan Chen.堆栈标题：图像字幕的从粗到精学习。在AAAI，2018。1[13] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，and GangWang.不成对的图像字幕语言旋转。在ECCV，2018。1[14] Jiuxiang Gu ， Gang Wang ， Jianfei Cai ， andTsuhan Chen.语言cnn应用于影像字幕之实证研究。InICCV，2017. 1[15] Jiuxiang Gu ， Zhenhua Wang ， Jason Kuen ，Lianyang Ma，Amir Shahroudy，Bing Shuai，TingLiu，Xingxing Wang，Gang Wang，Jianfei Cai，et al.卷积神经网络的最新模式识别，2017年。1[16] KaimingHe ， Geor giaGkioxari ， PiotrDolla'r ，andRossGirshick.面具R-CNN。InICCV，2017. 6[17] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中扩散知识。在NIPS研讨会，2015年。2[18] Zhiting Hu，Zichao Yang，Ruslan Salakhutdinov，and Eric Xing.具有大量学习知识的深度神经网络在EMNLP，2016。2[19] Hamid Izadinia、Fereshteh Sadeghi和Ali Farhadi。将场景上下文和对象布局转化为应用建模。CVPR，2014。1[20] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR，2018年。一、五[21] Justin Johnson，Ranjay Krishna，Michael Stark，Li-Jia Li，David Shamma，Michael Bernstein，andLi Fei-Fei. 使用场景图进行图像检索 CVPR ，2015。一、二[22] RanjayKrishna，Yuke Zhu，Oliver Groth，JustinJohn son，Kenji Hata，Joshua Kravitz，StephanieChen ， Yannis Kalantidis ， Li-Jia Li ， David AShamma，et al.可视化基因组：使用众包的密集图像注释连接语言和视觉。InICCV，2017. 二、六[23] 安基特·库马尔、奥赞·伊尔索伊、彼得·翁德鲁斯卡、莫-希特·伊耶、詹姆斯·布拉德伯里、伊桑·古拉贾尼、维克多·钟、罗曼·保卢斯和理查德·索彻。问我任何事情：自然语言处理的动态记忆网络。InICML，2016. 二、四[24] 李国浩、苏航、朱文武。利用动态记忆网络，扩展外部知识以回答开放域在CVPR，2018年。2[25] Yikang Li，Wanli Ouyang，Bolei Zhou，YawenCui ， JianpingShi ， andXiaogangWang.Factorizable net：一个基于子图的场景图生成框架在ECCV，2018。一二三四五六七八[26] Yikang Li ， Wanli Ouyang ， Bolei Zhou ， KunWang，and Xiaogang Wang.从对象、短语和区域字幕生成场景图。InICCV，2017. 五六七八[27] Yikang Li ， Wanli Ouyang ， Bolei Zhou ， KunWang，and Xiaogang Wang. Vip-cnn：视觉短语引导卷积神经网络。在CVPR，2017年。一、二、七、八1979[28] Wentong Liao，Lin Shuai，Bodo Rosenhahn，andMichael Ying Yang.自然语言引导的视觉关系检测。arXiv预印本arXiv：1711.06032，2017。1[29] Cewu Lu ，Ranjay Krishna ， Michael Bernstein ，and Li Fei-Fei.具有语言先验的视觉关系检测。在ECCV，2016年。一、二、六、八[30] 杰弗里·彭宁顿理查德·索彻克里斯托弗·曼宁Glove：单词表示的全局向量。在EMNLP，2014年。6[31] Bryan A Plummer 、 Arun Mallya 、Christopher MCer-vantes 、 JuliaHockenmaier 和 SvetlanaLazebnik。综合图

下载后可阅读完整内容，剩余1页未读，立即下载