多任务协作网络实现指称表达理解和切分

117 浏览量更新于2023-10-23 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10034多任务协作网络联合指称表达理解与切分Gen Luo1人，Yiyi Zhou1人，Xiaoshuai Sun1人，Liujuan Cao1人，Chenglin Wu2人，Cheng Deng3人，Rongrong Ji1人1厦门大学信息学院人工智能系媒体分析与计算实验室，361005。2DeepWisdom，中国。3中国西安电子科技大学{罗根，周依依}@ stu.xmu.edu.cn，{xssun，caoliujuan}@xmu.edu.cn，alexanderwu@fuzhi.ai，chdeng. gmail.com，rrji@xmu.edu.cn摘要指称表达理解（REC）和切分（RES）是两个高度相关的任务，它们都旨在根据自然语言表达识别指称对象在本文中，我们提出了一种新的多任务协同工作网络（MCN）1，以实现联合学习的REC和RES的第一次。在MCN中，RES可以帮助REC实现更好的语言-视觉对齐，而REC可以帮助RES更好地定位所指对象。此外，我们解决了这种多任务设置中的一个关键挑战，即，预测冲突，两个创新的设计，即，一致性能量最大化（CEM）和自适应软非定位抑制（ASNLS）。具体而言，CEM使REC和RES能够聚焦于相似的视觉区域通过最大化两个任务之间的一致性能量。ASNLS基于REC的预测抑制RES中不相关区域的反应。为了验证我们的模型，我们对REC和RES的三个基准数据集进行了广泛的实验，即，RefCOCO、RefCOCO+和Ref-COCOg。实验结果报告了MCN在所有现有方法上的显着性能增益，即，最高可达 +7.13%for REC 和+11.50%for RES over SOTA，这充分证实了我们的模型对于REC和RES联合学习的有效性。1. 介绍引用表达理解（REC）[11，12，19，21，44，45，48，42，37]和参考表达式Segmen-任务（RES）[32，16，40，25，34]是两个新兴的任务，其涉及根据给定的语言表达来识别目标视觉实例。它们的不同*同等贡献。†通讯作者。1源代码和预训练的主干可从以下网址获得：电子邮件地址：github.com/luogen1996/MCN(a) 引用表达式理解（REC）和分割（RES）的图示。“person on scooter wearing blackhelmet and has black“the cat right in front of the(b) 预测冲突的说明。图1.（a）RES和REC模型首先感知图像中的（b）两种典型的预测冲突情况：错误的REC正确的RES（左）和错误的RES正确的REC（右）。在REC中，目标是由边界框接地第1（a）段。在现有文献中，REC和RES被视为两个独立的任务，具有不同的方法。在REC中，大多数现有方法[11，12，19，21，23，44，45，46，48]遵循多级流水线，即，从图像中检测显著区域并通过多模态交互选择最匹配的一个。在RES中，现有的方法[32，16]通常嵌入一个语言模块，例如。，LSTM或GRU [6]，到一个像FCN [20]这样的一级分割网络中来分割引用。虽然最近的一些工作，如MAttNet [43]可以同时处理REC和RES，但它们的多任务功能主要归功于它们的骨干检测器，即。，MaskRCNN [43]，而不是显式地交互和重新执行两个任务。联合学习REC和RES以相互加强是一种自然的想法，类似于联合对象检测和分割中的经典努力[9，10，7]。与RES相比，REC在预测潜力方面更优越指称词语引用表达式分割理解“半匹马”10035它可以弥补RES在确定正确实例方面的不足。另一方面，RES使用像素级标签进行训练，这可以帮助REC在多模态训练期间获得更好的语言-视觉对齐然而，这样的联合学习根本不是微不足道的。我们把主要困难归结为预测冲突，如图所示。第1段（b）分段。这种预测冲突在基于一般检测和分割的多任务模型中也很常见[10，8，5]。然而，它在RES和REC中更为突出，因为多个实例中只有一个或几个是正确的引用。为此，我们提出了一种新的多任务协作网络（MCN），以一个阶段的方式联合学习REC和RES，如图所示。二、MCN的原理是一个多模态、多任务的协作学习框架。它将以语言信息为中心的两个任务联系起来，以最大限度地提高他们的协作学习。特别地，视觉骨干和语言编码器是共享的，而两个任务的多模态推理分支这样的设计是为了充分考虑REC和RES之间的内在差异，并避免一个任务的性能退化，以适应另一个，例如。RES通常需要更高分辨率的特征图用于其逐像素预测。为了解决预测冲突的问题，我们配备MCN两个创新的设计，即一致性能量最大化（CEM）和自适应软非定位抑制（ASNLS）。CEM是一种以语言为中心的损失函数，通过最大化两个推理分支之间的一致性能量来将两个任务强加在相似的视觉区域上。此外，它也是一个支点，以concerning REC和RES的学习过程。ASNLS是一种后处理方法，它基于REC的预测来抑制RES中不相关区域的反应。与现有的硬加工方法相比，RoI- Pooling [30]或Rol-Align [10]，ASNLS的自适应软处理允许模型在检测结果方面具有更高的容错性。通过CEM和ASNLS，MCN可以显着降低预测冲突的影响，这在我们的定量评估中得到了验证。为了验证我们的方法，我们在三个基准数据集上进行了广泛的实验，即。、RefCOCO、Ref-COCO+和RefCOCOg，并将MCN与REC和RES中的一组最新技术水平（SOTA）进行比较[42，38，40，16，18，37]。此外，我们提出了一个新的度量称为不一致误差（IE），客观地衡量预测冲突的影响。实验结果表明，MCN的性能增益优于SOTA，即。REC和RES分别上涨7.13%和11.50%。更重要的是，这些实验结果极大地验证了我们在联合框架中加强REC和RES的论点，并且我们的设计有效地降低了预测冲突的影响。最后，我们的贡献有三个方面：• 我们提出了一种新的多任务网络REC和RES，称为多任务协作网络(MCN)这有助于REC和RES的协作学习。• 我们解决的关键问题，在合作学习的 REC 和RES，即。，预测冲突，与两个创新设计，即、一致性能量最大化（CEM）和自适应软非定位压缩（ASNLS）• 拟议的MCN在REC和RES中建立了三个基准数据集的最新性能，即、RefCOCO、RefCOCO+和Ref-COCOg。值得注意的是，它的推理速度比REC中大多数现有的多阶段方法2. 相关工作2.1. 指称表达理解引用表达式理解（referencingexpressioncomprehension，REC）是一个基于给定表达式的边界框来建立目标对象的任务。大多数现有的方法[11，12，19，21，44，45，48，42，37]在REC中，遵循多阶段程序从一组候选人中选择最佳匹配区域。具体地，预先训练的检测网络，例如，FasterRCNN [30]首先用于检测给定图像的显著区域。然后，为了对查询区域对进行排名，使用多模态嵌入网络[31，36，19，3，47]，或者将视觉特征包含在语言模型中[23，1，21，12，44]。此外，还使用附加过程来改善多模态排序结果，例如，、图像属性的预测[43]或位置特征的计算[45，37]。尽管它们的高性能，这些方法具有低计算效率的显著缺点同时，它们的上限在很大程度上由预先训练的对象检测器确定[33]。为了加速推理，REC中的一些最近的工作重新排序为一阶段建模[33，38]，其将提取的语言特征嵌入到一阶段检测网络中，例如， YoloV3 [29]，并直接预测边界框。然而，它们的性能仍然比最流行的两阶段方法差，例如，MattNet [42].总之，我们的工作是第一个结合REC和RES在一个阶段的框架，这不仅提高了推理速度，而且优于这些两阶段的方法。2.2. 引用表达式分割指称表达切分是根据给定的文本表达对指称对象进行切分的过程。RES的典型解决方案是将语言编码器嵌入到分段网络中，例如，，FCN [20]，其进一步学习用于解码分割掩码的多模态张量[32，16，25，40，34]。最近的一些10036M12v1m1对11协同结构后处理一个女人骑在马上GRU文本属性REC分支语言特性+关注投影Conv多式融合C共能大化ASNLSCCNN投影关注+ASPPRES分支视觉特征多式特征CC：Concatan ation图2.提出了多任务协作网络（MCN）的框架视觉特征和语言特征分别由深度卷积网络和双GRU网络提取，然后融合生成多尺度多模态特征。RES分支的自下而上的连接有效地促进了REC的语言-视觉对齐。这两个分支通过CEM进一步相互加强。最后，RES的输出是自适应细化的基础上REC的结果 ASNLS发展还集中在提高多模式交互的效率，例如，多尺度自适应特征融合[32]，渐进式细化的金字塔融合[16，25]，以及基于查询或基于转换器的注意力模块[34，40]。尽管RES实现了相对高的性能，但现有方法在确定参考物方面通常不如REC。为了解释，RES的逐像素预测容易生成不确定的分割掩模，其包括不正确的区域或对象，例如，，重叠的人。在这种情况下，REC的结合可以帮助RES抑制不相关区域的响应，同时基于预测的边界框激活相关区域。2.3. 多任务学习多任务学习（MTL）通常应用于相关任务可以同时执行的情况。MTL已被广泛部署在各种计算机视觉任务中[8，5，27，7，10，15]。早期的努力[8，5，27]在MTL设置中学习像素预测的多个任务，例如深度估计，表面法线或语义。不同尺度的作品然后将这些多模态特征馈送到REC和RES的推理分支，在那里建立自底向上的连接以加强两个此外，还在两个分支之间建立了以语言为中心的连接，其中一致性能量最大化损失用于最大化REC和RES之间的一致性能量在推理后，提出的自适应软非定位抑制（ASNLS）被用来细化RES的分割结果的基础上预测的边界框的REC分支。3.1. 框架如图2、MCN部分共享，RES和REC的推理分支保持相对独立。直觉是双重的：一方面，两个任务的目标仍然是不同的，因此完全共享推理分支可能会适得其反。另一方面，这种相对独立的设计使得能够实现两个任务的最佳设置，例如：特征图的分辨率具体地说，给定一个图像-表情对（I，E），我们首先使用视觉主干来提取特征图抽动分段最近的一些作品也集中在com-三个尺度，表示为Fv1∈Rh1×w1×d1，Fv∈将目标检测和分割合并到一个联合中Rh2×w2×d2，Fv∈Rh3×w3×d3，其中h，w和d表示框架例如[10]，[12]，[13]，[14]，[15]，[16]，[17]，[18]，[19]，naMask [9]. MCN与这些方法的主要区别在于MCN是一个以语言信息为中心的MTL网络。REC和RES中目标实例的选择也加剧了预测冲突的问题，如上所述。3. 多任务协作网络所提出的多任务协作网络（MCN）的框架如图所示。二、具体而言是高度、宽度和深度。表达式被处理通过双GRU编码器，其中通过使用自引导注意模块[39] 将隐藏状态加权组合为文本特征，表示为ft∈Rdt。之后，我们通过将Fv1与ft融合来获得第一多模态张量，其被公式化为：f l=σ（f l其中Wv1和Wt是投影权重矩阵，并且首先，σ表示Leaky ReLU [22]。 f l和fl是分别由视觉编码器和语言编码器提取，它们被进一步融合以获得多模态FEA。分别为Fm1和Fv1然后，另外两个多峰张量，Fm2和Fm3，通过以下方法获得：310037M1M3我LJ降低程序：Fmi−1=UpSample（ Fmi−1），Fmi =[σ（Fmi−1Wmi−1），σ（FviWVI（二））]其中i∈{2，3}，上采样具有2×2的步幅，并且[·]表示级联。这样的多尺度融合不仅通过上采样和连接来传播语言信息，而且还包括到上层特征图的中级语义，这对于REC和RES都是至关重要反考虑到这两个任务对特征图尺度有不同的要求，例如，对于REC，13×13;对于RES，52×52，我们分别使用Fm1和Fm3作为REC和RES的输入为了进一步加强两项任务的联系，我们实施了另一条自下而上的路径，即从RES到REC。这种连接引入了RES中像素级标签所监督的语义，以有利于REC中的语言-视觉对齐。特别是，新的多式联运十-图3.一致性能量最大化（CEM）。CEM损失优化了注意特征，以最大化REC和RES之间的一致性空间响应。冲突。如图3、CEM在两个分支之间建立了以语言为中心的联系。然后，在等式中定义CEM损失。9是用来保持两个任务的空间响应的一致性，通过最大限度地提高他们的注意张量之间的具体地说，考虑到RES和REC的注意力张量排序，F′对于REC，通过重复向下相同的操作来获得。表示为Fs∈R（h×w）×d和Fc∈R（h×w）×dm13 3一a11，我们并行和串联两次，类似于在Eq中定义。二、然后分别对REC和RES的F′和F′进行两个GARANAttention细化通过以下方式将它们投影到二阶张量E s=FsWs，E c= FcWc，（5）[41]如图所示。二、目标函数。对于RES，我们实现ASPP其中Ws，WcR（h1×w 1）一∈Rd×1，Es一∈R（h3×w3）和Ec∈解码器[4]基于改进的多模态张量来预测分割掩码。其损失函数定义为：.然后，我们对Ec和Es执行Softmax以获得REC和RES在图像上的能量分布，记为E′和E′。E′和E′indi的元素公司简介=−h3×w3l=1gllog（ol）+（1−gl）log（1−ol）Σ、（3）将相应区域对给定表达式的响应程度进行排序。为了最大化两个任务之间的协同能量，我们其中gl和ol分别表示下采样的地面实况G′∈R52×52和预测掩码O∈R52×52的元素对于REC，我们在多模态张量之后添加回归层，用于预测置信度得分和边界进一步计算的任务间相关性， Tsc∈R（h3×w 3）×（h 1×w 1），由fsTf cTsc（i，j）=sw<$i j +sb，（6）fs盒子里的引用在YoloV3 [29]中的设置之后，其中fs∈Rd和fc∈Rd是Fs的元素，REC的回归损失公式为：h1×N 1×NFa，分别。sw和sb是两个标量，用于将Tsc中的值缩放到（0，1]。共能C计算为：rec=box（tl lC（i，j）= logE′（i）Tsc（i，j）E′（j）l=1s c其中tlpl的预测坐标位置。=Es（i）+Ec（j）+logTsc（i，j）（七）框和置信度得分。N是每个网格的锚点数量。 tl和pl是基本事实。当锚与地面实况匹配时，p_p被设置为熵值框是一个二进制交叉熵，用于度量中心-logαs−logαc，其中，αs和αc是两个用于惩罚不相关响应的正则化项，表示为：边界框的点。的宽度和高度h3×w3h1×w1边界框，我们采用平滑L1损失[30]。ℓ二进制交叉熵conf是αs=i=1eEs（i），αc=i=1e Ec（i）。（八）3.2. 一致性能量最大化我们进一步提出了一致性能量最大化(CEM)从理论上讲，减少预测的影响��′1关注+的REC��′共能大化��′��′关注+的RES310038最后，CEM损失公式为：h3×w3h1×w 1cem= −C（i，j）.（九）i=1j =110039ASNLS最终RES响应最终掩模初始RES响应难加工“in the air最终RES响应最终掩模.620图4.ASNLS与传统硬加工的比较与硬处理相比，ASNLS对REC预测具有更好的容错性，在不准确的框中可以很好地保持所指对象的完整性。3.3. 自适应软非定位抑制我们进一步提出了一种软后处理方法来解决预测冲突，称为自适应软非定位抑制（ASNLS）。ASNLS基于REC预测的边界框，抑制不相关区域的响应，增强相关区域的响应。与现有的硬加工相比，例如，，ROI Pool- ing [30]和ROI Align [10]，它们直接裁剪边界框的特征，ASNLS的软处理可以对REC的预测获得更好的容错性，如图所示。4.第一章分别控制增强和衰减。我们称这种自适应方法为自适应软非定位抑制（ASNLS）。3.4. 整体亏损MCN的总损失函数被公式化为：all=λs其中，λs，λc和λe控制三种损失之间的相对重要性，在我们的实验中分别设置为0.1，1.0和1.0。4. 实验我们在三个基准数据集上进一步评估了所提出的MCN，RefCOCO [13]、RefCOCO+ [13]和RefCOCOg[24]，并将其与REC和RES的一组最新方法[43，37，38，40，16]进行4.1. 数据集RefCOCO[13]具有来自MS-COCO [17]的19，994个图像中的50，000个边界框的142，210个引用表达式，其被分成训练，验证，测试A和测试B，分别具有120，624，10，834，5，657和5，095个样本。这些表达是通过互动游戏界面收集的[13]，通常是平均长度为3.5个单词的短句。TestA中边界框的类别是人，特别地，给定RES分支的预测掩码O∈Rh3×w3和边界框b，O中的每个元素oi通过以下方式更新：.TestB中的对象。RefCOCO+[13]在MS-COCO的19，992张图像中有49，856个框的141，564个表达式。它还分为列车（120，191），val（10，758），Test A（5，726）的mi=αup=oi，如果oi在b中，第一次，否则。（十）和测试B（4，889）。与RefCOCO相比，其表达式包含的外观（属性）多于绝对值这里，αup∈（1，+∞）和αdec∈（0，1）分别是增强因子和衰减因子.我们称这种方法为由方程式10为软非定位抑制（Soft-NLS）。之后，更新的RES结果O被阈值二值化以生成最终掩码。此外，我们将软NLS扩展到自适应版本，其中更新因子由REC的预测置信度确定。为了解释这一现象，较低的置信度p表明所指对象可以被整体分割的不确定性较大，应该增加NLS消除不确定性的效果，同时增强其显著性。具体而言，给定置信度得分p，通过下式计算αup和αdec：αup=λaup+λbu，地点与RefCOCO类似，RefCOCO+中测试A的表达是关于人的，而测试B中的表达是关于物体的。RefCOCOg[24，26]有104，560个表达式，用于26，711个图像中的54，822个对象。在这篇文章中，我们使用了一个新的划分[26]来训练和测试我们的方法。与RefCOCO和RefCOCO+相比，RefCOCOg中的表达是以非交互的方式收集的，并且长度更长（平均8.4个词），其中的内容包括所指对象的外观和位置。4.2. 评估指标对于REC，我们使用精度作为评估指标。当前两者之间的交集超过联合（IoU）αdec =λad λbd（十一）、所述边界框并且地面实况大于0.5，其中λau，λad，λbuλbd是超参数2到预测是正确的。对于RES，我们使用IoU和Acc@X来评估模型。[2]在我们的实验中，我们设置λau= −1，λad= 1，λbu= 2，λbd= 0。Acc@X指标衡量测试图像的百分比10040表1.RefCOCO验证集上不同后处理方法的比较↓表示越低越好。IOUAcc@0.5Acc@0.6Acc@0.7Acc@0.8Acc@0.9IE↓W.O. 后处理61.6173.9567.4256.3932.024.72百分之十点三七[10，30]61.1975.1368.8857.6132.423.817.91%Soft-NLS（我们的）62.2775.9269.4858.2133.205.117.28%ASNLS（我们的）62.4476.6070.3358.3933.685.266.65%表2.三个数据集的val集上的消融研究。REC的指标为Acc@0.5，RES的指标为IoU。Base表示没有任何额外组件的网络结构。RefCOCORefCOCO+参考COCOgRECRESIE↓RECRESIE↓RECRESIE↓MCN（基础）77.4558.24百分之十三点八62.7444.0820.70%62.2944.58百分之十九点八七+文本属性77.6558.44百分之十三点四四63.0744.38百分之十九点八八64.5146.5818.71%+GARAN79.2059.0713.37%66.2247.8917.12%65.9847.33百分之十七点四四+CEM80.0861.61百分之十点三七67.1649.55百分之十三点五一66.4648.5614.90%+ASNLS80.0862.446.65%67.1650.627.54%66.4649.229.41%表3.不同网络结构的MCN在RefCOCO值集上的比较。MCN的结构可以显著提高两个任务的性能，并且优于其他单任务和多任务框架。MCN单_REC+单_RESRefCOCO RefCOCO+ RefCOCOg(a) MCN和两个单任务模型的性能。IoU得分高于阈值X，而X高于0.5被认为是正确的。训练曲线（REC）83787368635853481 5 10 15 20 25 30 35 40 45时代训练曲线（RES）65605550454035301 5 10 15 20 25 30 35 40 45时代此外，我们提出了一个不一致性错误（IE），衡量预测冲突的影响不一致的结果分为两类：1）错误的REC结果和正确的RES结果。2)结果包括正确REC结果和错误RES结果。4.3. 实现细节在视觉骨干方面，我们用Darknet 53 [29]和Vgg 16[35]训练MCN。按照设定 MattNet [43]的主干在MS-COCO [17]上进行了预训练，同时删除了值和三个数据集的测试集。图像大小调整为416×416，表达式中的单词使用GLOVE嵌入进行初始化[28]。GRU的尺寸在多模态融合方面，Eq. 1和等式2是512。对于Soft-NLS，我们将α 设置为1.5，将αdec设置为0.5。我们将RefCOCO和RefCOCO+的最大句子长度设置为15，RefCOCOg的最大句子长度为20。为了对RES的预测进行二值化，我们将阈值设置为0.35。我们使用Adam [14]作为优化器，批量大小设置为35。初始学习率是0.001，这是多-1Scale表示预测前最后一个特征图的分辨率。30.85%27.74%7.54%9.4REC（Acc）RES（IoU） IE REC（Acc）RES（IoU） IE REC（Acc）RES（IoU）IE百分之一0.65%620.65%44.2143.9849.2250.6250.7359.3866.4667.1662.4457.9170.3880.08MCN单次OHDOBSMCN单次OHDOBS准确度（Accc）性能准确度（IoU）结构RECRES单REC（比例1=132）70.38-单REC（比例=522）68.58-单个RES（量表=132）-36.37单个RES（量表=522）-57.91OnlyHeadDifferent（量表=132）72.42 34.50OnlyHeadDifferent（量表=522）72.54 58.08仅骨干共享（REC量表=132，RES量表=522）75.81 58.16MCN（基础）77.45 58.2410041（b）RefCOCO上的训练曲线（val）图5. MCN和其他结构的比较。(a)MCN显著提高了三个数据集上两个任务的性能(b)MCN的学习速度优于其他结构。这里，所有结构都不使用后处理。在第30、第35和第40个历元，衰减因子为0.1。我们花了将近一天的时间在一个1080Ti GPU上训练我们的模型4.4. 实验结果4.4.1定量分析比较的不同网络结构.我们首先评估所提出的多任务协作框架的优点，其结果在表1中给出。3 .第三章。在选项卡中。3、单REC和单RES表示单任务设置。另外两种类型的多任务框架是OnlyHeadDifferent （ OHD ）和 OnlyBackbone-SharedOHD表示推理分支也是共享的，只有头部不同，即。用于REC的回归层和用于RES的解码器。而OBS则表示两个任务的推理分支是完全独立的。第一部分Tab第三，我们观察-10042表4.MCN与REC任务的最新技术水平的比较模型视觉特征RefCOCORefCOCO+参考COCOg速度 *↓Val种皮testBVal种皮testBVal测试美国[23]VGG16-64.9054.51-54.0342.81---[31]第三十一话VGG16-71.0365.77-54.3247.76---Spe+Lis+ RI [45]CVPR 17frcnn-resnet10169.4873.7164.9655.7160.7448.8060.2159.63-Spe+Lis+ RI [45]CVPR 17frcnn-resnet10168.9573.1064.8554.8960.0449.5659.3359.21-[49]第四十九话frcnn-vgg16-75.3165.52-61.3450.86---LGRANs [37]CVPR 19frcnn-vgg16-76.6066.40-64.0053.40---[18]第十八话frcnn-vgg1671.6574.8167.3458.0061.0953.4561.0161.46-[38]第三十八话darknet5371.1574.8866.3256.8661.8949.4659.4458.9039毫秒[43]第四十三话frcnn-resnet10176.4080.4369.2864.9370.2656.0066.6767.01367毫秒[43]第四十三话mrcnn-resnet10176.6581.1469.9965.3371.6256.0266.5867.27378毫秒MCN（我们的）VGG1675.9876.9773.0962.8065.2454.2662.4262.2948毫秒MCN（我们的）darknet5380.0882.2974.9867.1672.8657.3166.4666.0156毫秒* 在相同的硬件上测试推理时间，即，GTX 1080 ti.表5.MCN与RES任务最新技术的比较模型视觉特征RefCOCORefCOCO+参考COCOgVal种皮testBVal种皮testBVal测试美国[25]ResNet10149.7854.8345.1338.8844.2232.29--美国[16]ResNet10155.3357.2653.9339.7542.1536.11--美国[40]ResNet10158.3260.6155.0943.7647.6037.89--[43]第四十三话mrcnn-resnet10156.5162.3751.7046.6752.3940.0847.6448.61[18]第十八话mrcnn-resnet10156.5963.0252.0647.4053.0141.5646.5947.88MCN（我们的）VGG1657.3358.5957.2346.5348.6841.9346.9547.20MCN（我们的）darknet5362.4464.2059.7150.6254.9944.6949.2249.40服务MCN对这两项任务都有很大的好处。此外，我们注意到，这两个任务有不同的最佳设置的多模态张量的规模，即。，13 ×13用于REC和RES为52×52，表明两个任务。Tab的第二部分3.显示一个COM-完全独立或完全共享的网络不能最大限度地发挥REC和RES联合学习的优势，这也验证了MCN中建立的协作连接同时，如图5、MCN展示了其协作多任务训练的优势，并大幅优于其他单任务和多任务模型。ASNLS和不同后处理方法的比较。我们进一步评估了不同的处理方法，并在表中给出了结果1.一、从Tab。1，第一个观察结果是，所有基于REC的处理方法对RES性能和IE得分都有积极的影响但我们也注意到，硬处理，即。，RoI Crop [10，30]，仍然降低了RES在某些指标上的性能，例如：，IoU和Acc@0.9，而我们的软处理方法，即Soft-NLS和ASNLS，则不能。这一结果极大地证明了我们的方法的鲁棒性。同时，我们观察到ASNLS比Soft-NLS可以获得更显著的性能增益，这验证了自适应因子设计的效果。消融研究。接下来，我们将在MCN，其结果在表中给出二、从Tab。 2，我们可以通过MCN的每个设计观察到显著的性能增益，例如，我们还注意到，CEM不仅帮助模型在REC和RES任务上实现了明显的改进，而且有效地降低了IE值，例如，从17.12%上升到13.51%。在ASNLS中也可以看到类似的优势。总之，这些结果再次证实了协作框架、CEM和ASNLS的优点。与最先进技术的比较。最后，我们将MCN与REC和RES上的最新技术（SOTA）进行了比较，结果见表1。4和Tab。五、如Tab.所示。4、MCN在REC中的表现优于大多数经验方法。即使与最先进的方法（如MattNet [43]）相比，MCN仍然具有综合优势，并且在某些拆分上有明显的改进，例如。RefCOCO的测试B拆分为+7.13%，+2.80% RefCOCO+的值分裂。此外，MCN在处理速度方面优于这些多阶段方法，例如，，比MattNet快6倍，这也表明MCN的改进是有价值的。同时，MCN明显优于最先进的一阶段模型，例如。，FAOA [38]，这再次证实了联合REC和RES学习的优点。在选项卡中。5、在RES任务中，MCN导联的成绩领先更明显，在RES任务中，MCN导联的成绩领先达到+8.39%。10043图像地面实况MCN OnlyBackboneShared OnlyHeadDifferent Single_REC Single_RES例1：中间穿白衬衫的人。实验2：穿着灰色和白色夹克的人，背对相机。例3：一辆黄色出租车在另一辆出租车的左边。(a) MCN与其他多任务模型的示例。有CEM损失的图像无CEM损失图像有CEM损失无CEM损失例1：男孩拿着比萨饼。实验2：绿色键盘笔记本电脑。(b) 具有和不具有CEM损失的MCN* 的示例。图像无ASNLS关于Hard Crop图像无处理关于ASNLS关于Hard Crop例1：穿白衬衫的人走在最前面。例二：一个穿黑衣服的女人，好像在和什么人说话。(c) 具有不同后处理的MCN示例图6.所提出的MCN的推理和预测的可视化。我们将MCN的结果与（a）中的三个多任务网络进行了比较，并比较了（b）和（c）中我们设计的效果* 表示在这些示例中不使用后处理RefCOCO，RefCOCO++11.50%，Ref-COCOg+3.32%。如前所述，这种性能增益源于协作学习结构、CEM损失和ASNLS，极大地证实了MCN的设计。4.4.2定性分析为了深入了解MCN，我们将其预测可视化在图1中。六、MCN和替代结构之间的比较如图所示.第6（a）段。从图6（a）中，我们可以观察到MCN的协作学习结构显著改善了REC和RES的结果。此外，MCN能够在复杂背景中为所指对象预测高质量的盒子和掩码，这通常是替代结构所不可能的，例如。，实验1.图6（b）显示了建议的CEM损失的影响。如果没有它，模型倾向于关注相似语义的不同实例，导致REC和RES分支的预测冲突。使用CEM，两个推理分支可以具有关于表达式的类似焦点图图6（c）示出了不使用和使用不同后处理方法的模型的结果从这些示例中，我们可以观察到所提出的ASNLS有助于保持对象的完整性，例如，Exp.（二）、可以看出，所指对象在包围盒之外的部分被保留了下来由我们的ASNLS，而它将自然裁剪的硬方法，例如，[30]和RoI-Align [10]。总之，这些可视化结果再次证实了MCN中新设计的有效性，即，、协作学习结构、CEM和ASNLS。5. 结论在本文中，我们提出了一种新的多任务协作网络（MCN）的联合REC和RES学习的第一次尝试。MCN通过利用两个任务的性质使彼此受益，最大限度地发挥了REC和RES的协作此外，我们还介绍了两种设计，即。一致性能量最大化（CEM）和自适应软非定位抑制（ASNLS），以解决这种多任务设置中的关键问题，即，预测冲突。在三个数据集上的实验结果不仅证明了REC和RES的SOTA的明显性能增益，而且还证明了预测冲突得到了很好的解决。鸣谢。本工作得到了国家自然科学基金（ No.U1705262 ，No.61772443，No.61572410，No.61802324 和 No.61702136 ）、国家重点研发 & 计划（No.2017YFC0113000和No.2016YFB1001503）、福建省自然科学基金（No.2016YFB1001503）、2017J01125和编号2018J01106）。雷夫乔雷夫科Refcoco+10044引用[1] 乔纳森·巴克斯特。归纳偏差学习模型在JAIR，2000年。2[2] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee.Yolact：实时实例分割。在ICCV，2019年。3[3] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。InICCV，2017. 2[4] LiangchiehChen ， GeorgePapandreou ， IasonasKokkinos，KevinPMurphy，andAlanLYuille.Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义在PAMI，2018年。4[5] 陈良福，曾阳，马建军，罗郑。驾驶场景感知网络：实时联合检测，深度估计和语义分割。在WACV，2018。二、三[6] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络对序列建模的经验评估InarXiv preprint，2014.1[7] Nikita Dvornik，Konstantin Shmelkov，Julien Mairal，and Cordelia Schmid. Blitznet：用于场景理解的实时深度网络。InICCV，2017. 第1、3条[8] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV，2015年。二、三[9] Cheng-Yang Fu，Mykhailo Shvets，and Alexander C.伯格。RetinaMask：学习预测掩模，免费改进最先进的单次检测InarXiv preprint，2019.第1、3条[10] 何凯明、乔治亚·吉奥克萨里、彼得·多勒、罗斯·吉尔希克.面具R-CNN。InICCV，2017. 一二三五六七八[11] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR，2017年。一、二[12] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，2016年。一、二[13] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara L Berg.推荐游戏：在自然景物的照相照片中提到物体的。在EM

下载后可阅读完整内容，剩余1页未读，立即下载