多模态特征下的视觉关系检测方法及其改进

2 浏览量更新于2023-10-19 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5128车自行车（c）自行车灯监测（d）监视器探索视觉关系检测占一兵1，于军1，于挺1，陶大成21复杂系统建模与仿真重点实验室，杭州电子科技大学计算机科学与技术学院2UBTECH Sydney AI Centre，School of Computer Science，FEIT，University of Sydney，Darlington，NSW 2008，Australia{zybjy，yujun} @ hdu.edu.cn，yuting@zufedfc.edu.cn，dacheng. sydney.edu.au摘要在视觉关系检测中，人类标注的关系可以看作是确定关系。然而，仍然存在大量未标记的数据，例如具有不太重要的关系甚至没有关系的对象对。我们将这些未标记但可能有用的数据称为未确定的关系。虽然存在大量的文献，但很少有方法利用这些未被挖掘的关系进行视觉关系检测。在本文中，我们探讨了未确定的关系对视觉关系检测的有益影响。我们提出了一种新的基于多模态特征的不确定关系学习网络（MF-URLN），并取得了很大的改善关系检测。详细地说，我们的MF-URLN自动生成不确定的关系，船舶通过比较对象对与人类标注的数据，根据设计的标准。然后，MF-URLN从三个互补模态中提取并融合对象对的特征：视觉、空间和语言情态。此外，MF-URLN提出了两个相关的子网：一个子网络决定确定的置信度，另一个子网络预测关系。我们在两个数据集上评估MF-URLN：视觉关系检测（VRD）和视觉基因组（VG）数据集。实验结果与现有方法相比，验证了所确定的关系所带来的显著改进，在VRD数据集上，前50个关系检测召回率从19.5%提高到23.9%1. 介绍视觉关系已经广泛应用于多种图像理解任务中，例如对象分类余军为通讯作者人帽（a）人人员街马（b）骑马人图1.该图显示了具有不同关系的四个图像。(a)以及（b）围绕具有确定关系的对象对的描述。此外，（b）呈现了一种未标记的关系：街上的人(c)以及（d）概述具有不确定关系的对象对的描述。在（d）中，两个对象由Faster R-CNN检测[29]。[8]、对象检测[14]、图像分割[11]、图像字幕[6]和人机交互[10]。由于其广泛的应用，视觉关系检测越来越受到人们的关注.视觉关系检测的目标在视觉关系检测中，视觉关系通常表示为主语-谓语-宾语三元组，例如图1所示的人戴帽子和人骑马(a)及（b）。由于关系三元组是对象和谓词的组合，因此它们的分布是长尾的。对于N个对象和M个谓词，所有可能的关系三元组的个数为O（N2M）.因此，取关系三元组5129作为一个整体的学习任务需要非常大量的标记数据[4，7]。更好的策略是为对象和谓词构建单独的模块。这种策略将复杂度降低到O（N+M），并提高了大规模数据集的检测性能[23]。即便如此，视觉关系检测仍然是数据饥渴的。另一种解决方案是获得更多的人工注释。然而，标记关系三元组确实是昂贵的，因为它需要对大量对象交互进行繁琐的检查[38]。我们注意到，除了人类标记的关系之外，图像中还有许多未开发的数据。我们在图中阐明了这些数据1.一、人类标注的关系可以看作是确定性关系，如图1所示。1（a）和（b）段。因此，我们将由未标记对象对构建的其他关系称为未确定关系。这些未确定的关系包括1）具有关系但未被人类标记的对象对，例如，图中未标记的街道上的人。1（b），和2）对象对没有关系，如图。第1段（c）分段。此外，具有错误检测到的对象的对象对也被分类为未确定的关系，诸如图1B。第1段（d）分段。直观地说，这些未确定的关系可以用作确定关系的补充，原因如下。首先，它们包含负样本，例如没有关系的对象对和错误检测到的对象。第二，它们反映了人类不太重要的未标记关系和与不寻常表达的关系（例如，我们更喜欢说cup-on-table而不是table-under-cup），这被认为是不确定的关系。此外，它们不需要人工注释，并且对于视觉关系检测具有有益的常规效果[39]。因此，本文探讨如何利用这些未标记的不确定关系来提高关系检测，并提出了一种基于多模态特征的不确定关系学习网络（MF-URLN）。在MF-URLN中，提出了一个生成器来自动产生有用的待定关系。具体地说，我们使用一个目标检测器来检测目标，两个不同的目标组成一个目标对;然后使用设计的标准将该对象对与人工标注的关系进行比较。不存在确定关系的对象对被归类为不确定关系。对于每个对象对，MF-URLN从三个不同的模态中提取和融合特征：视觉模态空间模态和语言模态这些特征全面收集关于一个关系的信息。之后，MF-URLN构造两个相关的子网络：一个将对象对描绘为确定的或未确定的，另一个预测关系。此外，第二子网络使用来自第一子网络的信息。根据两个子网的得分来决定最终的关系-工程.我们在两个关系检测数据集上进行实验，即VRD[23]和VG [18，37]，以验证MF-URLN的有效性。实验结果表明，MF-URLN在两个数据集上都取得了很大的改进，它利用了不确定的关系，例如，在VRD数据集中，前50个短语检测召回率从25.2%提高到31.5%。我们的贡献可概括为：1）我们探索未确定的关系，以提高视觉关系检测。我们提出了一种自动获取有效的不确定关系的方法和一种新的模型，利用这些不确定关系的视觉关系检测。2)本文提出了一种新颖的、具有竞争力的视觉关系检测方法MF-URLN，该方法使用基于确定关系和不确定关系的多模态特征。实验结果表明，与国家的最先进的方法相比，MF-URLN的视觉关系检测的能力。2. 相关工作视觉关系检测。视觉关系检测的早期工作将对象和谓词检测作为单个任务处理。这些方法需要大量的训练数据，但只能应用于有限的情况[4，7]。然后，Lu等人[23]提出了一种有效的策略，分别检测对象和谓词。后来，语言知识显示了它的力量。Yu等人[34]使用师生深度学习框架结合了丰富的视觉和语言表示。深度结构学习是最近的另一个尝试。在[21]中，通过整合多个线索来预测关系，提出了一种深度结构排名模型。上面提到的方法包括对象和谓词两个步骤。相比之下，其他方法具有端到端模型。在[37]中，作者提出了一种用于关系检测的端到端视觉翻译以往的方法虽然取得了令人满意的效果，但很少考虑到不确定的关系.积极的非标记学习。未挖掘关系的利用与正的未标记（PU）相关学习PU学习是指仅从正和未标记的数据中学习二元分类器的任务[5]。PU学习已被用于各种任务，如矩阵完成[13]，多视图学习[40]和数据挖掘[19]。大多数PU学习方法只强调二元分类[27];例如，[30]提出了一种无标记数据序列最小优化（USMO）算法，用于从无标记数据集学习二元分类器。然而，视觉关系检测是一个多标签分类任务。因此，本文是多标签任务上PU学习的工作之一，类似于[16，17，39]。接下来[39]，我们考虑了未标记关系对改善视觉关系检测的有益影响。5130图2.MF-URLN的框架MF-URLN通过物体检测器检测物体然后，确定性和不确定性的关系，从建议的生成器生成。然后，MF-URLN从三个模态中提取和融合特征来描述每个对象对。最后，基于确定性置信子网络和关系检测子网络对关系进行预测。3. MF-URLN本节介绍了我们新的基于多模态特征的不确定我们假设s、p、o、d和R分别表示主语、谓语、宾语、确定置信度和关系。因此，用于视觉关系检测的MF-URLN的概率模型被定义为：P（R）= P（p|s，o，d）P（d|s，o）P（s|Bs）P（o|Bo）。（一）这里，Bs和Bo是主体和客体的两个单独的框，它们组成一个客体对。 P（s|Bs）和P（o|Bo）表示主题框和对象框属于对象类别的概率。由于对象检测不是本文中的关键主题，MF-URLN直接从对象检测器获得这些对象概率，遵循[23，34]。 P（d|s，o）表示具有确定关系的对象对的概率;换句话说，P（d|s，o）反映了一个对象的概率手动选择并标记配对 P（p|s，o，d）是宾语对属于谓词范畴的概率。注意，只有P（s|Bs）和P（o|Bo）是独立的。其余的因素是相互关联的。 P（d|s，o）取决于主语和宾语，P（p|s，o，d）依赖于主体、客体和确定的置信度。如图2，MF-URLN使用对象检测器来检测对象并提供P（s）的分数|Bs）和P（o|Bo）。然后，利用不确定关系生成器。对于训练，对象对被分类为确定关系和不确定关系。对于测试，所有对象对直接用作测试数据。最后，提出了一种不确定关系学习网络来提取和融合多模态特征，计算P（d）的得分|s，o）和P（p|s，o，d）。关于物体探测器的更多细节，不确定的关系-船舶发电机和不确定关系学习网络在以下小节中解释。3.1. 对象检测器在 MF-URLN 中，我们使用更快的 R-CNN [29]和VGG-16网络来定位和检测对象。具体而言，我们首先对RPN生成的300个建议区域进行采样，IoU> 0.7。然后，在分类之后，我们对300个提案执行了IoU>0.4的NMS。类别概率高于0.05被视为一个图像中的检测对象。选择使用VGG-16的Faster R-CNN，因为它通常用于视觉关系检测[32，33，37]。请注意，MF-URLN对不同的数据集使用了Faster R-CNN的相同参数设置，但可以调整这些参数以获得更好的对象建议，如下[37，41]。此外，MF-URLN可以与任何对象检测器结合，例如快速RCNN [9]和YOLO [28]。3.2. 未确定关系生成器不确定关系的不同数据集严重影响检测性能。因此，在本小节中，我们介绍了一种快速生成有用的未确定关系的方法。具体地，两个不同的检测对象组成一个对象对。之后，所有对象对都与手动注释的关系（即，地面实况）用于分类目的。我们假设ls、lp和lo代表s、p和o的标签。A表示手动注释关系的集合，D表示从定义构造的对象对的集合受保护的物体。一个对象对（si，oi）∈D是确定的，仅当n（sk，pk，ok）∈A，其中lsi=lsk，loi=1ok，IoU（si，sk）>0. 5，并且IoU（oi，ok）>0。五、这样一来lpi=lpk.否则，（si，oi）被归类为未确定的关系，lpi是未知的，可能不属于任何谓词。这里，IoU（a，b）是对象a和b之间的交联（IoU）。我们选择这个生成器是因为大多数生成的语言特征确定的信心子网络测定信心1Fcγ（γ）FC零点十一0空间位置对象检测器<子-前-对象>保险丝CFcγ（γ）CNN关系检测子网络谓词关于近...未确定关系生成器视觉外观0.140.090.89...内部人个人训练三胞胎频率三元组的…外部……嵌入维基百科向量举行骑与对人狗钟街5131minminuX- -y-YX- -y-YX- -y-YX- -y-Ydetdetdet[min min，min min，max max，maxmax，Sminmin，minmin，maxmax，maxmax]。uSSSS未确定关系属于引言中提到的情况。此外，这种方法也产生了良好的经验性能。注意，我们使用相同的对象检测器来检测对象并生成不确定关系，以便使所生成的不确定关系与MF-URLN的检测到的对象高度相关。3.3. 不确定关系学习网络MF-URLN的不确定关系学习网络包括两个部分：多模态特征提取网络和关系学习网络。3.3.1多模态特征提取网络MF-URLN从三种不同模态的特征描绘了一种关系的全貌：视觉模态、空间模态和语言模态。视觉模态特征。视觉模态特征可以用来收集类别特征以及同一类别中对象在不同场景中的差异。在[34]之后， MF-URLN 直接使用 VGG-16 和来自Faster R-CNN的ROI池，从子对象和对象的单独框以及对象对中的主体和对象的联合框中提取视觉特征。通过这种方式，我们的学习网络与对象检测器和生成的未确定关系高度相关。空间模态功能.空间模态特征是视觉模态特征的补充，因为ROI池化删除了ob的空间信息。包含噪声，因为训练文本不限于关系。因此，内部语言特征是作为补充提出的。对于内部语言特征，我们计算训练集中所有关系三元组的频率，并基于具有拉普拉斯平滑的朴素贝叶斯将这些频率转换为根据主体和对象类别的概率分布[24]。拉普拉斯平滑用于考虑零激发数据的影响[23]。功能融合。在以前的方法中，常用的特征融合方法是直接连接特征[34，37]。然而，由于不同特征为了缓解这些问题，在MF-URLN中，相同模态的所有个体特征被转换成相同的维度并被连接;然后，在被连接以进行多模态特征融合之前，这些单个模态的连接特征再次被变换为相同的维度。3.3.2关系学习网以前的方法只考虑确定关系.首先，MF-URLN从两种数据预测关系：确定关系和不确定关系。详细地，提出了两个子网：确定置信度子网络和关系检测子网络。确定置信度子网。决定--对象对。我们假设（xssminSMaxmax），自然置信子网络决定了确定性置信度，吴敏吴敏omaxomax），和（xuuminumax最大值）一个对象对的可信度，它反映了表示主题框、对象框的位置，以及分别在一个图像中的主体和对象的联合框。空间模态特征计算如下：该对象对被手动选择和标记。作为示于图2、确定性置信子网络采用多模态特征。在MF-URLN中，我们使用sigmoid交叉熵损失[3]，其定义为：x−xy−yx−xy-y。umaxXoumin- -umaxyoumin-YumaxXoumin- -umaxyoumin-YCE（p，y）=−log（p），如果y= 1否则为−log（1−p）。（三）umaxuminumaxuminumaxuminumaxumin（二）我们定义（sd，pd，od）为确定关系，（si，pi，oi）作为未确定的关系。对于确定的语言模态特征。情态特征从语言知识中提供物体之间的相似性边缘，这是很难获得的视觉外观和空间位置。在MF-URLN中，对象检测器获得对象类别，然后基于标签提取两种语言模态特征：关系，y= 1，其确定的置信损失定义为：Ld= CE（P（dd|sd，od），1）. 对于未确定的关系，y =0，其确定的置信损失定义为：=CE（P（di|si，oi），0）。最终确定的与classifier相关：外部语言特征和内部语言特征。对于外部语言特征，Ldet=Ld伊代、（四）我们采用Wikipedia 2014 [25]的预训练word2vec模型来提取主语和宾语的语义表示。然而，这种外部语言特征可能其中，α是用于调整未确定关系和确定关系的相对重要性的参数我们认为，确定的关系和不确定的关系，y得双曲余切值.，y（x，y得双曲余切值.，y，y得双曲余切值.，yuuuuuuu+αL5132KKrelrelreldetdet关系对确定的置信度损失的贡献相等，因此设置α=1。关系检测子网络。关系检测子网络预测所有对象对的关系。如图2、我们的关系检测子网络依赖于多模态特征和确定的置信度子网络。以这种方式，两个子网络是相关的。此外，确定的置信度在实验上改善了关系检测。确定关系包含明确的人工标注谓词。因此，来自确定关系的关系检测损失被定义为：ΣM4. 实验在本节中，我们通过回答以下问题进行实验以验证MF-URLN的有效性和未确定关系的有用性。问题1：与最先进的视觉关系检测方法相比，建议的MF-URLN具有竞争力吗？Q2：这些特性对建议的MF-URLN有什么影响？问题3：未确定的关系是否有利于视觉关系检测？4.1. 数据集、评估任务和测试数据集。两个公共数据集用于算法验证：视觉关系检测数据集[23]drel =k=1CE（P（pd|sd，od，dd），yk），（5）和Visual Genome数据集[18]。视觉关系检测（VRD）数据集由5，000张图像组成，包含100个对象类别和70个其中pk和yk是第k个谓词，label. yk= 1表示第k个谓词的标签是人类标记的;否则，yk= 0。M是谓词范畴的数量。具有未标记谓词的未确定关系应该至少有一个谓词，而没有任何关系或具有错误检测到的对象的未确定关系应该没有谓词。目前还没有可靠的方法来自动标记这些不确定的关系。因此，我们将这些数据视为没有等同器械，遵循[39]。这种方法很简单，但在实验上很有用。来自未确定关系的关系检测损失被定义为：ΣM谓词范畴VRD总共包含37，993个关系，6，672个类型。默认数据集分割包括4，000张训练图像和1，000张测试图像。有1,169个关系三元组只出现在测试集中，这些三元组进一步用于零镜头关系检测。我们将VRD中的默认训练图像分为两部分：3,700张用于训练，300张用于验证。Visual Genome（VG）数据集是最大的关系检测数据集之一。我们注意到VG数据集有多个版本[20，33，34，37]。在本文中，我们使用[37]提供的VG数据集的修剪版本。该VG也用于[12，21，32，38，41]。总之，这个VG包含99，652个图像，200个对象类别和100个谓词。 VG包含1，090，02719，561种类型的关系注释。默认数据集伊雷尔=k=1CE（P（pi|si，oi，di），0）。（六）Split包含73，794张训练图像和25，858张测试图像。我们将VG中的默认训练图像分为两个关系检测损失最终计算为：部分：68，794张图像用于训练，5，000张用于验证。评估任务。三个常用的任务是Lrel=Ld+λ1Li.（七）采用：谓词检测、短语检测和关系检测，以下[33，34]。在谓词检测中，我们这里，λ1是用于调整关系检测损失的未确定关系和确定关系的相对重要性的参数。联合损失函数最后，提出了一种联合损失函数，同时计算确定性置信损失和关系检测损失。联合损失函数定义如下：L=Lrel+ λ2Ldet.（八）这里，λ2是用于在两组目标之间进行权衡的参数：确定性置信损失和关系检测损失。通过结合Eq. (4)，方程式(7)和Eq。(8)，联合损失函数被重写为：给定输入图像和具有对应对象类别的地面实况边界框输出是描述每对对象的谓词。在短语检测中，我们得到一个输入图像。输出是一组关系三元组和每个关系的整个边界框的本地化在关系检测中，我们给出一个输入图像。输出是一组关系三元组和每个关系中主体和对象的单独边界框的本地化，其与地面实况主体和对象框重叠至少0.5。评估指标。我们遵循[23，34]的先例，使用Recall作为我们的评估指标。前N个查全率记为RN.更具体地说，对于一幅图像，输出是前k个顶级置信度的聚合drel +λ1Li+λ2Ld+λ2Li.（九）中所有潜在的视觉关系三元组中的谓词LLL=L5133形象RN度量对图像的所有输出进行排名，并计算前N个的召回率。我们使用R50和R100进行评估。对于两个数据集，k= 1。4.2. 实现细节我们首先分别为VRD和VG数据集训练Faster R-CNN对象检测器[1]。然后，从所提出的未确定关系生成器生成未确定关系和确定关系。在我们的未定义关系学习网络中，所有特征的转换层的维度都设置为500，如下[37]。确定性置信子网络包括两层：100维全连接特征融合层和S形分类层。关系检测子网络包括三层：用于多模态特征和确定置信度子网络的连接层、500维全连接特征融合层和S形分类层。我们使用relu函数和具有指数衰减学习率的 Adam Optimizer 来训练 MF-URLN。对于VRD数据集，初始学习率设置为0.0003，每4,000步衰减0.5对于VG数据集，初始学习率设置为0.0003，每35，000步衰减0.7。对于谓词检测任务，我们不使用未确定的关系，并设置λ1=λ2=0。对于短语和关系检测任务，在每个批次中，未确定和确定关系的比例设置为3：1，遵循[29]。设λ1=0.5，λ2=1。训练集用于训练Faster R-CNN和MF-URLN1。验证集仅用于确定参数。4.3. 性能比较（Q1）在本小节中，我们将MF-URLN与最先进的关系检测模型进行比较，以显示MF-URLN的竞争力。我们首先比较建议的MF-URLN与VRD数据集上的15种方法。这十五种方法包括：语言知识方法，如 VRD-Full[23]，LKD：S [34]，LKD：[34]和LKD：S+T [34];端到端网络方法，如 VtransE [37] ， VIP-CNN [20] ，DVSRL [22]和TFR [15];深度结构学习方法，如DSL[41];以及其他一些视觉关系检测方法，如 Weak-S[26] ， PPRFCN [38] ， STA [32] ， Zoom- Net[33] ，CAI+SCA-M [33]和VSA [12]。这些方法包括不同的和不同的属性。结果见表12。最好的方法用粗体字突出显示。从表1中可以看出，MF-URLN在所有任务中都优于所有其他方法。在谓词检测中，MF-URLN在R50/100上比第二好的竞争者高出3.9%。在短语检测中，比较1代码可在https://github.com/Atmegal/2在谓词检测中，R50=R100，因为在地面真值中没有足够的对象来产生超过50对。表1.视觉关系检测方法在VRD数据集上的性能比较。前，博士，和Rel。分别表示预测检测、短语检测和关系检测。“-”denotes that the result isPre.Phr.Rel.R50/100R50R100R50R100[23]第二十三话47.916.217.013.914.7VtransE [37]44.819.422.414.115.2[20]第二十话-22.827.917.320.0[26]第二十六话52.617.919.515.817.1PPRFCN [38]47.419.623.214.415.7LKD：S [34]47.519.220.016.617.7LKD：T [34]54.122.523.618.620.6LKD：S+T [34]55.223.124.019.221.3DVSRL [22]-21.422.618.220.8TFR [15]52.317.419.115.216.8DSL [41]-22.724.017.418.3[32]第三十二话48.0----[33]第三十三话50.724.828.118.921.4[33]第三十三话56.025.228.919.522.4[第12话]49.219.121.716.017.7MF-URLN58.231.536.123.926.8表2. VG数据集上六种方法的性能比较。“-” denotes that theresult isPre.Phr.Rel.R50R100R50R100R50R100VtransE [37]62.662.99.510.55.56.0PPRFCN [38]64.264.910.611.16.06.9DSL [41]--13.115.66.88.0[32]第三十二话62.762.9----[第12话]64.464.59.710.06.06.3MF-URLN71.972.226.632.114.416.5在次优方案中，MF-URLN 使 R50和 R100分别提高了25.0%和24.9%。在关系检测方面，与次优方法相比，MF-URLN的R50和R100分别提高了22.6%和19.6%。这些高性能证明了MF-URLN用于关系检测的能力。表2提供了MF-URLN和五种竞争性方法（VtransE、PPRFCN、DSL、STA和VSA-Net）在VG数据集上未提供其他方法的结果，因为这些方法在其相应论文中未在VG数据集[37]版本在表2中，最常用的方法用黑体字突出显示。无论评价标准如何，MF-URLN在所有任务中都表现最好。对于谓词检测，MF-URLN在R50和R100上分别获得11.6%和11.2%的谓词检测增益，在R50和R100上分别获得103.1%和105.8%的短语检测增益，在R50和 R100上分别获得111.8%和这些改进验证了MF-URLN可以应用于5134表3.VRD数据集零炮集的性能比较。“-” denotes that the resultisPre.Phr.Rel.表4.在VRD数据集上对MF-URLN及其八个变体进行R50谓词检测和关系检测.转换级联R50/100R50R100R50R100Pre.Rel.Pre.Rel.[23]第二十三话12.35.15.74.85.4基线：V52.2922.6453.0122.85VtransE [37]-2.73.51.72.1基线：Lex，in53.3918.4953.9418.07[26]第二十六话21.66.87.86.47.4基线：S43.4317.9443.4417.95LKD：S [34]17.010.410.98.99.1V+m的54.6623.1552.3622.75LKD：T [34]8.86.56.76.16.4DVSRL [22]-9.210.37.98.5TFR [15]17.35.87.15.36.5[32]第三十二话20.6----MF-URLN26.95.97.94.35.5MF-URLN-IM27.26.29.24.56.4V+Lex，in57.2723.2155.4522.62Lex，in+S57.1023.6756.0423.29V+S+Lin56.8723.1553.2522.51V+S+Lex57.6923.5055.2922.83MF-URLN58.2223.8955.7722.61复杂情况下的大规模数据集。我们还在表32中提供了十种方法的零炮检测性能，以评估MF-URLN处理零炮数据的能力。这些方法包括：VRD-满、VtransE、弱-S、LKD：S、LKD：T、DVSRL、TFR、MF-URLN和MF-URLN-IM。由于相关文献没有考虑零炮关系检测问题，本文没有对其余方法进行比较。这里， MF-URLN-IM 是具有推断模型 3 的 MF-URLN。在表3中，最好的方法用黑体字突出显示。MF-URLN在谓词检测方面仍然表现得几乎最好。然而，在短语检测和关系检测上，MF-URLN表现不佳。这一结果可能是因为一些看不见的确定关系被错误地归类为不确定的，从而影响零次检测性能。 MF-URLN-IM由于采用了推理模型，提高了MF-URLN的性能。然而，这种推断模型并不适用于已知数据。MF-URLN-IM的VRD上的R50/100谓词关系仅为57.2.仍然有必要制定更好的战略来建立和利用不确定的关系。4.4. 多模态特性的讨论（第二季度）在本小节中，讨论了多模态特征对MF-URLN的影响。MF-URLN通过在VRD数据集上进行谓词和关系检测来与其八个变体进行比较。这八个变体包括三个单模态特征基线：“V“、“S“和“L ex，in“，其中MF-URLN分别只使用视觉模态特征、空间模态特征和语言模态特征;“V + S“、“V + L ex，in“和“L ex，in +S“三种双模态特征方法，其中MF-URLN分别使用视觉和空间模态特征、视觉和语言模态特征、语言和空间模态特征;和两3.在补充资料中对推理模型进行了说明。多模态特征的“V + S + L in“和“V + S + L ex“方法此外，本文还讨论了两种特征融合方法：“变换”方法和“连接”方法，前者是先将特征变换到相同的维数上，然后再进行连接请注意，连接方法与其相应的转换方法具有相同的层数和层尺寸，以忽略深化网络所带来的改进。所有比较方法的性能见表4。我们得出以下结论。1）通过与不同特征的方法比较，可以看出MF-URLN具有最好的性能。来自不同模态的特征是互补的，并且都有助于MF-URLN的性能2)通过比较拼接方法和变换方法，可以得出直接拼接特征是一种低效的特征融合策略，而将所有特征变换到相同的维数上可以提高性能。然而，我们注意到，连接方法在单一模态特征上的性能略优于转换方法。更好的特征融合策略仍然是必要的，仍然是一个未来的课题。4.5. 未确定关系的分析（Q3）在本小节中，我们首先验证了视觉关系检测中未确定关系的有用性.我们比较MF-URLN与它的三个变种进行关系检测的VRD数据集。这三种变体包括基线“MFLN” ，它是不使用未确定关系的 MF-URLN;“MFLN-三重NMS”，即具有三重NMS的MFLN[20];和“MFLN配对过滤”，这是使用配对过滤的MFLN[2]。三元组NMS和对过滤都被提出来删除负对象对。这四种方法的性能比较见表5。我们看到，5135内阁天空天空冰箱屋顶时钟总线总线车计数器内阁车车车人水槽街联系我们-在-内阁蓝天-上述总线蓝天公司简介– Above公交车-对-街蓝天橱柜时钟–蓝天联系我们-在蓝天-上述-车蓝天橱柜- 上述–屋顶–蓝天–上述-车–以上─车–上述––上述-总线–上述-车表5.四种方法在VRD数据集上的关系检测整组不可见组谓词检测视觉关系看不见的视觉关系关系检测MFLN的前5个视觉关系三元组MF-URLN的前5个视觉关系三元组(a) λ1和λ2的影响。（b）MF-URLN与MF-URLN-NS。图3. (a)具有不同模态参数值的MF-URLN的检测性能：λ1和λ2。(b)MF-URLN和MF-URLN-NS的性能比较。NMS已经应用于我们的目标探测器中。 MF-URLN实现了最佳性能。MF-URLN的改进验证了待定关系在视觉关系检测中的实用性。然后，通过研究模态参数λ1和λ2对性能的影响，讨论了不确定关系对MF-URLN的有益影响。VRD数据集上的R50具体而言，如[36]所示，通过改变其中一个观测参数同时固定另一个参数来进行评估。我们设定λ1和λ2分别为{0，0.3，0.5，0.7，1}和{0，0.01，0.1，1，10}，活泼地图3（a）4示出了性能。我们可以观察当λ1=0.5和λ2=1时，MF-URLN产生最佳性能。λ1 =0.5表明，将不确定关系标记为没有谓词是一种有用的策略;不确定关系确实对关系检测具有有益的规律性影响。λ2=1表明两个子网络都对MF-URLN的检测有贡献。接下来，我们展示了从确定的置信度子网络与关系检测子网络共享信息的好处。我们比较了MF-URLN和MF-URLN-NS，其中关系检测子网不使用来自信任子网的信息。比较性能如图所示。3（b）款。可以看出，MF-URLN性能更好。该结果验证了确定置信度4λ1=0和λ2=0表示不使用待定关系的MF-URLN，结果为17.36。图4.检测结果的可视化。对于谓词检测，提供了MF-URLN的前3个谓词对于关系检测，MFLN和MF-URLN被提供。代表正确的结果。也有助于关系检测。我们还提供了定量性能的MF-URLN图。4.对于谓词检测，可以看出，MF-URLN产生准确的预测，这揭示了MF-URLN的能力。对于关系检测，MF-URLN比MFLN获得更好的检测未确定关系的利用突出了具有确定关系的对象对。5. 结论在本文中，我们探讨了视觉关系检测中不确定关系的作用。在此基础上，提出了一种新的关系检测方法MF-URLN，该方法基于确定关系和不确定关系提取并融合多模态特征。实验结果表明，与最先进的方法相比，MF-URLN的竞争力和有用的不确定的关系。我们未来的工作包括更好地利用未确定的关系进行关系检测，并将未确定的关系推广到场景图生成[15，31，35]。谢谢。这项工作得到了部分支持国家自然科学基金委员会批准编号：61836002和61622205，以及部分由澳大利亚研究理事会项目FL-170100117、DP- 180103424和IH-180100002。笔记本摩托车D手MF-IRLN的前3名同品种器械 UnderNextto背后在举行 HasMF-IRLN的前3名同品种器械下旁边 对MF-IRLN的前3名同品种器械草地儿子每笔记本电脑上的键盘草人键盘树天空冰箱炉子总线火车总线水龙头路轮车车街内阁人水槽街 水龙头-上述–公交车-对– 街蓝天- -一种冰箱卡里卡-背后-卜s天空-上述-巴士上方– 冰箱公交车-具有-轮天空-上述–联系我们––树- 巴士后面公交车-对-压力 炉灶公交车-对-路蓝天-以上─火车R50R100R50R100基线：MFLN17.3621.764.024.96MFLN-三重态NMS15.5317.953.764.19MFLN对滤波21.5823.393.593.93MF-URLN23.8926.794.285.475136引用[1] X. Chen和A.古普塔。用于对象检测中上下文推理的空间记忆arXiv预印本arXiv：1704.04224，2017。[2] B.戴，Y. Zhang和D.是林书使用深度关系网络检测视觉计算机视觉和模式识别，第3298-3308页[3] P. - T. De Boer，D. P. Kroese，S. Mannor和R. Y.鲁宾斯坦。交叉熵方法教程。Annals of Operations Research，134（1）：19[4] C. Desai和D. Ramanan使用关系短语集检测动作、姿势和对象。欧洲计算机视觉会议，第 158-172 页。Springer，2012.[5] M. Du Plessis，G. Niu和M.杉山凸公式，从积极的和未标记的数据学习。国际机器学习会议，第1386- 1394页[6] H. Fang，S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. Dollar，J. Gao、X.他，M。米切尔，J。C.普拉特角L.Zit-nick和G.茨威格从标题到视觉概念再到后面。2015年IEEE计算机视觉和模式识别会议（CVPR），第00卷，第1473-1482页[7] A. Farhadi和M. A.萨德吉使用视觉短语的识别。在CVPR 2011（CVPR），第00卷，第1745- 1752页[8] C. Galleguillos，A.Rabinovich和S.贝隆吉使用共现、位置和外观的对象分类。计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议，第1-8页。IEEE，2008年。[9] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页，2014年。[10] G. 基奥沙里河Girshick ，P. Doll a'r和K. 他外检测和识别人机交互。 arXiv 预印本 arXiv ： 1704.07333 ，2017。[11] S. Gould，J. Rodgers，D.科恩，G. Elidan和D.科勒基于相对位置先验的多类分割。国际计算机视觉杂志，80（3）：300[12] C. Han，F.申湖，澳-地Liu，Y. Yang和H. T.沈关系检测的视觉空间注意网络。2018年ACM多媒体会议，第510-518页。ACM，2018。[13] C.- J. Hsieh，N.纳塔拉詹和我S.狄伦普学习矩阵完成。在ICML，第2445-2453页[14] H. 胡，J.古，Z.张，J.Dai和Y.伟. 用于对象检测的关系在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[15] S. Jae Hwang，S. N.拉维，Z。Tao，H. J.金，M. D.Collins和V.辛格. 张量化，因子化和正则化：强大的视觉关系学习。在 IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月[16] H. Kaji，H. Yamaguchi和M.杉山正无标记数据的多任务学习及其应用心理状态预测在2018年IEEE国际声学、语音和信号处理会议（ICASSP）上，第2301-2305页。IEEE，2018年。[17] A. Kanehira和T.原田。从阳性和未标记数据进行多标签排名。在 Proceedings of the IEEE Conference on

下载后可阅读完整内容，剩余1页未读，立即下载