基于分类模型和方差正则化的场景解析集成模型

82 浏览量更新于2023-10-19 收藏 1.7MB PDF 举报

场景解析

分类模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5307基于分类模型和方差正则化的石恒灿，李宏亮，吴庆波，宋子晨电子科技大学中国成都shihc@std.uestc.edu.cn，hlli@uestc.edu.cn，qbwu@uestc.edu.cn，szc. gmail.com摘要场景解析是计算机视觉中一个具有挑战性的任务，它可以被描述为一个逐像素的分类问题。现有的基于深度学习的方法通常使用一个通用分类器来识别所有对象类别。然而，通用分类器在处理一些具有相似外观或语义的混淆类别时容易犯错误。在本文中，我们提出了一个集成的分类模型和基于方差的正则化，以实现更准确的分类。一方面，集成分类模型包含多个分类器，不仅是通用分类器，而且还有一个细化分类器，用于区分易混淆的类别。另一方面，基于方差的正则化尽可能大地区分所有类别的得分以减少误分类。具体而言，集成分类模型包括三个步骤。首先是提取每个像素的特征。基于这些特征，第二步是对所有类别中的每个像素进行分类，以生成初步分类结果。在第三步中，我们利用一个细化分类器来细化分类结果，重点是区分高初步得分的类别。使用具有基于方差的正则化的综合损失来训练模型。在三个常见场景分析数据集上的实验†1. 介绍场景解析期望将整个图像分割成多个对象，这是许多高级计算机视觉任务的关键组成部分，例如场景理解[8，20]，对象提取[15，26]和基于语言的视觉分析[11，35]。场景解析任务是*通讯作者。†编码：https://github.com/shihengcan/ICM-matcaffe图1.基于通用分类器的模型和我们提出的集成分类模型的比较。(a)基于分类器的通用模型。(b)提出的综合分类模型。(c)地面实况和对象类别。基于通用分类器的模型将地面对象误分类为地板对象，而这种误分类通过集成分类模型来避免。此外，基于通用分类器的模型通常预测相似类别的接近分数，而这些分数在所提出的方法中更加不同，受益于基于方差的正则化。通常被公式化为逐像素分类问题。最先进的场景解析方法[1，3，5，7，10，18，23DNN网络（DNN）来解决这个逐像素分类问题。这些基于DNN的方法对图像中每个像素的特征进行编码，然后通过通用分类器对这些像素进行分类，该分类器专注于通过一步对所有对象类别然而，作为投资者-输入输出……(a)通用分类器模型一楼×输入输出……(b) 综合分类模型一楼地面实况建筑车灯底层背景(c) 对象类别和基础事实5308在[2]中，这种策略通常不能区分具有相似外观的类别。例如图1、基于通用分类器的模型将具有相似形状和纹理的地面对象误标记为地板对象。本文试图从两个方面解决这一问题。首先，我们提出了一个完整的场景分析分类模型，它不仅包含了识别所有对象类别的一般分类，而且包含了区分易混淆类别的细化分类。其次，我们观察到，在一个分类器中，混淆类别的得分通常彼此接近，这也容易导致错误分类，例如图1中的例子。1.因此，我们提出了一种基于方差的正则化方法，以尽可能大地区分所有类别的得分。具体地，所提出的场景解析方法可以分为三个步骤。在第一步中，我们通过深度学习网络对基于提取的特征，第二步是一般分类，其给出所有类别的初步分类分数。在初步得分中，可能存在具有高得分的多于一个类别，其相对于通用分类器是混淆的。因此，在第三步中，使用细化分类器来细化分数，重点是区分这些易混淆的类别。为了减少两个分类器之间的误差积累，我们实现了我们的通用分类器与多个二进制分类器，而不是常用的多项式分类器。采用基于方差正则化的集成分类损失来训练集成分类模型，以增强其区分相似类别的能力在 NYU Depth v2 、 Pascal-Context和SUN-RGBD三个场景解析数据集上对该方法进行了验证结果表明，我们提出的方法在这些数据集上的性能优于许多本文的组织结构如下。第2节介绍了相关工作在第3节中，我们详细介绍了集成分类模型和基于方差的正则化。实验结果在第4节中报告，以证明我们的方法的有效性。最后，第五章对本文进行了总结。2. 相关工作在本节中，我们将回顾场景解析任务的最新进展。现有的方法[1，318，21-Long等人 [28]提出了一种全卷积网络（FCN）[28]。他们利用DNN直接对每个像素的特征进行编码，然后使用通用分类器进行分类。使这些像素变小。然而，由于DNN中涉及太多的下采样操作，FCN [28]生成的最终预测通常会丢失一些细节，例如小对象和精确的对象边缘。许多作品[3，5，30，43]试图提高预测的分辨率，以保留更详细的信息。Chen等人 [5]和Yu等人 [43]分别用atrous卷积和dilated卷积替换了部分下采样层。Noh等人。 [30]训练了一个去卷积网络来恢复预测中的细节，这是卷积神经网络的镜像。Bilinski等人 [3]将去卷积网络中的连接改为密集连接，以实现不同输出分辨率之间的融合。为了进一步分割不同分辨率的图像，许多方法[6，10，18，23，24，31，37，42，45]提出使用多尺度策略，包括多尺度平均[24，25，31，42]和规模学习[6，10，18，23，37，45]。这些方法能够提供更详细的场景解析结果，从而减少过度分割和欠分割。然而，场景中的对象之间的高度多样化的关系被忽略，这是有用的约束场景和每个对象之间的语义一致性。一些方法[1，7，10，21，22，24，25，27，32，36，38，44，46，47]通过上下文模型对场景和对象之间的关系进行建模。 Zheng等人。 [47]和Lin等人。 [25]利用条件随机场（CRF）对每对像素之间的关系进行建模。在[7，27，46]中，使用多尺寸视角的卷积来建模分层对象关系。林等人[24]改变了输入图像的大小而不是卷积透视的大小，以实现与[7，27，46]相同的目标。 Zhang等人[44] Ding et al. [10]转而分别使用字典学习上下文和上下文对比局部特征来建模这些关系。基于RNN的上下文模型由[21，22，32，36，38]提出，以对包括对象的相对位置在内的关系进行Abdulnabi等人 [1]结合了RNN和注意力模型来学习更具体的上下文。这些方法也取得了显着的性能场景解析。然而，这些现有的方法只采用了一个通用的分类器，这很容易混淆一些类别相似的外观或语义。为了解决这一问题，本文提出了一个集成的分类模型和基于方差的正则化，以实现更准确的分类混淆类别。3. 该方法3.1. 场景分析的集成分类模型场景解析任务可以用公式表示为逐像素多项式分类问题。给定输入图像5309·正确类别：地面·不正确的类别：地板…………r，cr，cr，c输入输入输入inputting……可以通过细化分类器来校正误分类。第二种情况可以在图2（b）中找到，其中分类器为不正确的类别预测非常高的分数在这种情况下，由于跨类别竞争，多项分类器将为正确类别产生非常低的这种概率分数分布很难被精细分类器校正相比之下，在多个二进制分类器中，类别的得分不相互影响。因此，二进制分类器生成地面地板地面地板地面地板地面地板一个相对较高的分数为正确的类别比(a)情况1：通用分类器预测以下各项的相似分数：混淆类别(b) 案例2：通用分类器预测的得分非常高，混淆类别多项分类器，更有利于下一步的细化。为了利用多个二进制分类器作为通用分类器，需要将多项分类问题转化为多个二进制分类问题。我们重写每个概率P（O = oc|I，r）在分布中-图2.多项分类器和多重分类器的比较二进制分类器在错误分类的情况下。(a)在分类器对正确类别和不正确类别产生相似分数的情况下，两种类型的分类器显示出相似的概率s-core分布。(b)在分类器对不正确类别预测非常高的分数的情况下，由于跨类别竞争，多项分类器比多个二进制分类器对正确类别生成更低的分数我们的目标是预测条件概率分布-作为等价形式 P （ Y1=0 ， . ， Yc−1=0 ， Yc=1 ，Yc+1=0，.，YC=0|I，r），其中Yi∈ {0，1}（i =1、…C）表示像素r是否属于第i个对象类别。基于这种概率形式，我们...将该多项分类问题组成C个二进制分类问题，其中每个二进制分类问题确定第r个像素是否属于第c个对象类别的概率，即P（Yc=1|I，r）和P（Yc=0|I，r）。为了简单起见，我们使用pr，c，pfg和pbg表示这些概率，即：P（O|I，r）。随机变量O可以取集合{oc}c=1，...，C，其中C是数据集中对象类别的数量，P（O =oc|I，r）表示第r个像素的概率，r，cr，cpr，c= P（Y1= 0，.，Yc−1= 0，Yc= 1，Yc+1= 0，...，YC= 0|（I，r）（二）el属于第c类对象。一旦P（O|（I，r）则第r个像素的对象类别可以是pfg=P（Yc=1|第一条，第（三）款定义如下：bgr，c=P（Yc= 0|I，r）。（四）c=argmaxP（O=oc|第一条（r）款（1）C然后，一般分类可表述如下：其中，c是中的第r个pixel的预测对象类别。{pfg，.， pfg，pbg，.，pbg}=gcls（I，r）（5）图像I。r，1r、Cr，1r、C在所提出的综合分类模型中，我们首先利用一个通用分类器来预测一个初步的概率，其中，gcls（·）表示一般分类器r。在预测了一般分类概率pfg所有对象类别的能力分布，然后使用PBG对于每个类别，细化分类器然后生成，细化分类器区分高分类别初步分配。为了减少一般分类器和细化分类器之间的误差积累，我们采用多个生成最终的概率分布P（O|I，r）如下：P（O|I，r）=rcls（I，r，pfg，...， pfg，pbg，.，pbg）r，1r、Cr，1r、C（六）二进制分类器作为一般分类器，而不是使用……p5310多项分类器由于多项分类器中存在跨类竞争，因此多项分类器的误分类比二项分类器的误分类造成更严重原因如下。一般来说，有两种主要的情况，={pr，1，pr，2，...，pr，C}其中rcls（·）是细化分类器r。我们采用多项分类器作为细化分类器，其采用图像I中第r个像素的特征，一般分类概率{pfg，pbg}c=1，...，Cr，cr，c分类错误第一个是分类器预测一个不正确类别的分数略高于正确类别的分数，如图2（a）所示。在这种情况下，作为输入，然后输出最终的概率分布。第细化分类器集中于区分具有高的一般分类分数的类别（即，高5311r，cr，cr，c ccr，c输入图像I场景解析结果图3.拟议的综合分类模式包括三个部分：（1）对每个像素的特征进行编码的特征提取网络，（2）生成跨所有对象类别的初步概率分布的一般分类网络，以及（3）区分高初步得分类别并细化概率分布的细化分类网络。但是并不限于此。它还具有二次通用分类的能力，避免了通用分类器误分类造成接下来，我们将说明如何实现所提出的inte-深度神经网络的分级分类模型。3.2. 基于深度神经网络的集成分类模型所提出的综合分类模型的网络结构包括三个部分，如图所示。第三章：(1)对输入图像的特征进行编码的特征提取网络，（2）预测初步概率分布的一般分类网络，以及（3）细化分类网络。第r个像素周围的区域的外观和语义信息;以及d是每个特征向量的维数。特征提取深度网络可以用任何网络结构实现，例如常用的VGG [40]和ResNet [16]。3.2.2通用分类网络基于特征图F，我们采用一系列的二进制分类器作为一般分类器，以确定初步的概率分布。每个二元分类器如下预测每个对象类别c的一对前景和背景得分：分类网络，用于区分易混淆类别并生成最终概率分布。sfg=（wfg）Tfr+bfg（八）sbg=（wbg）Tfr+bbg（九）r，c c c3.2.1特征提取网络其中c=1，..，C. 这里，C是对象类别的数量-考虑输入图像I∈R高×宽×深，其中H和W数据集中的数据。对于第c类，egory，sfg∈Rde-分别是图像的高度和宽度;和D是通道数。我们首先使用extrac功能-注意属于该像素的第r类别，而sbg ∈R是相反情况的得分。wfg，wbg∈Rd和bfg，bbg∈R是将深度神经网络编码为c c c c如下所示：F=DNN（I）={f，f，.，F（七）}二元分类器所有像素和所有类别可以组成一个得分图Sgcls∈RH×W×2C，相应的二值分类器可以有效地被改进。1 2硬件其中F ∈ RH×W×d是编码特征图，其中每个特征向量fr∈ Rd（r = 1，.，HW）编码用卷积层实现，如图所示第3（a）段。前景和背景分数然后通过二进制逻辑回归标准化为概率的形式5312r，cr，ci、r、cP=i、r、cr，cr，c基于方差的正则化，以进一步减少错误分类pfg=exp（sfg）（十）阳离子;λ RCLS和λVBR是控制关系的因素，r，cbgr，cexp（sfg）+exp（sbg）exp（sbg）exp（sfg）+exp（sbg）（十一）这些损失和正规化的重要性。由于通用分类器是由多个二进制分类器组成的，我们根据多个二进制交叉熵损失的平均损失来训练它，其中每个二进制交叉熵损失r，cr，c熵损失对应于对象类别：其中pfg和pbg是针对e接地和背接地的归一化r，c r，c地面概率，分别。与分数图S，概率可以被分组到概率图Pgcls∈RH×W×2C.在通用分类网络中，Lgcls=−1∑N1Ni=1HWH∑Wr=11∑CCc=1[yi，r，c×log（pfg）一个类别的预测不与另一个类别的预测竞争。+（1−yi，r，c）×log（pbg）]（十四）3.2.3细化分类网络细化分类网络通过区分高初步得分类别和第二一般分类来细化概率分布。我们employ一个多项式分类器来实现这一目标。其中N是训练集中的图像的数量;并且yi，r，c∈ {0，1}是场景解析标签，其指示第i个图像中的第r个像素是否属于第c个对象类别。细化分类器的损失Lrcls被公式化为多项式交叉熵损失，如下所示：细化分类网络的输入是二进制分类概率图Pgcls、图像特征图F和原始图像I的级联，1∑N1Lrcls=−NHWi=1H∑W∑Cr=1c=1yi，r，c×log（pi，r，c）.（十五）其中参考特征图F和原始图像I以帮助分类。注意，由于Pgcls、F和I的值范围可能不同，因此我们在级联之前对它们进行L2归一化。然后，通过一系列卷积层对级联的多模态输入进行变换。我们在这些层中使用3×3卷积来模拟多个像素之间的上下文信息基于变换后的特征图，我们采用1×1卷积来生成细化的分类，由于多个类别的相似概率得分可能导致错误分类，我们提出了一种基于方差的正则化Lvbr来避免这种情况。基于方差的正则化Lvbr将不同类别的分数约束为尽可能变化在本文中，受经济学中的 Herfindahl-Hirschman指数（HHI）[33]的启发，我们采用二阶矩作为基于方差的正则化Lvbr：Fication score mapSrcls∈RH×W×C，其中每个元素1∑N1H∑W∑Csr，c表示属于第r个像素的分数。Lvbr=1−Ni=1HWr=1c=1 （pi，r，c）2（16）C类。细化的分数由多个标准化标称逻辑回归（即，softmax）如下：exp（sr，c）其中，Lvbr∈ [0，1 − 1/C]随着概率{pi，r，c}c=1，.. C.pr，c=∑Ct=1exp（sr，t）（十二）4. 实验其中Pr，c是第r个像素属于第c概率集{pr，c}c=1，.，C表示期望的概率分布P（O|I，r）。3.3. 损失函数与方差正则化我们使用集成的分类损失和基于方差的正则化来端到端训练我们的完整模型：L=Lgcls+λrclsLrcls+λvbrLvbr（13）其中Lgcls和Lrcls分别表示一般分类器和细化分类器的损失;Lvbr是5313在本节中，我们在多个场景解析数据集上验证了所提出的集成分类模型和基于方差的正则化，包括NYU Depth v2数据集[39]、PASCAL-Context数据集[29]和SUN-RGBD数据集[41]。数据集。NYU Depth v2数据集[39]包含1449对RGB和深度图像，其中795对用于训练，654对用于测试。我们使用40个类别对象标签，与[13]相同仅RGB图像和场景使用解析标签来训练所提出的模型。 PASCAL-Context数据集[29]包含10103张图像。它分为训练集和测试集，分别包括4998和5105张图像。我们使用[29]提供的60个对象类别标签SUN-RGBD数据集[41]包括37个5314表1. C深度v2数据集。LoopNet [18]由场景解析和深度预测标签训练，所有其他方法仅由场景解析标签训练对象类别。在这个数据集中有10335对RGB和深度图像，5285对用于训练，5050对用于测试。在这里，我们在实验中只使用RGB图像评估指标。我们采用逐像素精度（pAcc.）和平均交并（mIoU）度量来评估场景解析性能。像素精度是正确分类的百分比整个数据集中的fied像素平均交并是预测和地面实况之间的交并的平均值。我们的80.5 52.6表2.与PASCAL-Context数据集上最先进的方法进行比较。方法pAcc.（%）mIoU（%）[28]第二十八话68.227.4背景[25]78.442.3DeepLab v2 [5]71.932.1RefineNet [24]80.645.9PSPNet [46]79.746.2CCL GMA [10]81.447.1DeepLab v3+[7]80.546.7我们82.450.6表3.与SUN-RGBD数据集上最先进的方法进行比较。数据集。实施细节。我们使用Caffe [17]深度学习工具包实现了所提出的方法我们采用PSPNet [46]作为特征提取深度网络，它是用ResNet [16]实现的。同时，设计了一个三层神经网络作为精细分类网络。请注意，我们使用PSPNet [46]和三层细化分类网络作为运行示例，这并不意味着所提出的模型仅限于这些网络。特征提取深度网络从ImageNet数据集上预先训练的权重初始化[34]，其他部分从随机权重初始化。我们使用随机梯度下降（SGD）和集成分类损失（包括基于方差的正则化）对所提出的模型进行端到端的训练。基础学习率设置为0。00025，随机初始化层的学习率为10输入GroundTruth[7]第七届全国政协副主席我们比预先训练的层高出一倍。损耗因子λrcls和λvbr分别被设置为1和0.24.1. 与现有技术方法的我们将所提出的方法与NYU Depth v2数据集上的九种最结果示于表1中。所有这些方法都只使用一个通用的分类器对每个像素进行分类，其中密集解码器[3]表现出最好的性能。与Dense Decoder [3]相比，本文提出的集成类-图4.Pascal-Context数据集上的可视化比较从左到右：输入图像，地面实况和来自PSPNet [46]，DeepLab v3+ [7]和我们的方法的结果。fication模型在逐像素精度和平均IoU方面分别实现了1.6%和2.6%的改进。即使LoopNet [18]通过场景解析和深度预测标签进行训练，所提出的模型在像素方面的性能也比它高出3.3%和6.2%。人猫鸟背景树被天空草铺上壁建筑沙发车一楼路方法pAcc.（%）mIoU（%）方法pAcc.（%）mIoU（%）[28]第二十八话60.029.2[28]第二十八话65.935.1DilatedNet [43]65.433.7DilatedNet [43]66.437.0背景[25]70.040.6[1]第一次世界大战72.141.2DeepLab v2 [5]71.742.3背景[25]71.543.3RefineNet [24]73.646.5DeepLab v2 [5]73.644.5PSPNet [46]73.646.9RefineNet [24]75.147.3LoopNet [18]72.144.5PSPNet [46]75.147.0密集解码器[3]73.848.1密集解码器[3]74.947.8DeepLab v3+[7]73.847.4EncNet [44]78.251.7我们75.450.7CCL GMA [10]78.451.65315方法基于方差的正则化pAcc.（%）mIoU（%）训练速度（Hz）测试速度（Hz）参数（×106）基线模型[46]73.646.94.39.665.7[19]第19话：我的世界73.846.54.29.765.7基线模型[46] +更多图层73.347.13.99.080.8综合分类模型75.050.33.29.080.7基线模型[46]✓73.847.84.29.665.7综合分类模型✓75.450.73.29.080.7表4.所提出的方法中的主要成分对NYU Depth v2数据集的影响方法通用分类器pAcc.（%）mIoU（%）平均差异基线模型[46]多项式分类器73.646.90.596综合分类模型多项式分类器74.849.40.579综合分类模型多个二进制分类器75.450.70.414表5.在NYU Depth v2数据集上比较不同的通用分类器。“Mean difference” is the the mean difference当生成不正确的预测时，正确和不正确的概率得分。准确度和平均IoU分别。这种优越的性能证明了所提出的集成分类模型和基于方差的正则化的有效性。在PASCAL-Context数据集和SUN-RGBD数据集上进行的比较实验的结果分别在表2和表3中示出。在PASCAL-Context数据集上，与已有的结果相比，该方法在像素精度和平均IoU上分别提高了2.1%和0.9%。在SUN-RGBD数据集上，我们提出的方法比以前的技术水平高出1.0%的像素精度和3.5%的平均IoU。我们在图中描述了一些可视化的场景解析结果。4. 可以观察到，基于通用分类器的方法错误地标记了一些对象。例如，在图中的第三个图像中。4，天空对象被错误地标记为墙对象;在图4的第四幅图像中，4、道路对象被误分类为地面对象。该方法利用集成分类和基于方差的正则化方法，成功地避免了这种误分类4.2. 消融研究在本节中，我们进行了一系列消融实验，以进一步评估我们提出的方法的有效性。主要成分的影响。我们在表4中给出了我们的主要组件的效果。在没有基于方差的正则化的情况下，与基于基线一般分类器的模型[46]相比，所提出的集成分类模型将像素级准确度和平均IoU分别提高了1.4%和3.4%。这证明了所提出的集成分类模型的有效性。DSN [19]将多个分类器添加到不同的层-在培训阶段的监督。我们的方法优于在“Baseline model[46] + more layers”中与此方法相比，我们的方法实现了1.7%和3.2%的收益，分别在像素的准确性和平均IoU。实验结果表明，该方法主要是通过集成多个分类器而不是增加更多的参数来提高句法分析的准确率。此外，基线模型[46]和使用基于方差的正则化训练的拟议模型都比没有正则化训练的模型实现了更好的像素精度和平均IoU。最终，我们的全-l方法（集成分类模型和基于方差的正则化）在逐像素准确度和平均IoU方面分别优于基线模型[46] 1.8%和3.8%。计算成本。表4显示了我们的方法的计算成本。可以看出，该方法提高了场景解析的准确性与可接受的计算开销。不同分类器的效果。表5显示了不同通用分类器的效果。可以观察到，无论使用多项分类器还是多个二元分类器作为我们的通用分类器，所提出的集成分类模型都比基线模型提供更好的使用多个二进制分类器实现了更多的改进。原因是多个二进制分类器比多项分类器更容易避免错误累积，如第3.1节所述在表5中，我们描述了当预测是正确的和不正确的分数之间的平均差。5316的层数隐藏层的隐层性pAcc.（%）mIoU（%）1/74.149.0225673.948.9251274.149.32409674.949.9325674.549.8351275.050.63102475.450.73204875.550.63409675.251.0表6. NYU Depth v2数据集上细化分类网络的不同层数和不同隐藏层维度的比较。一般分类概率图图像特征图原始图像pAcc.（%）mIoU（%）✓74.750.1✓✓74.850.2✓✓75.149.9✓✓✓75.450.7表7.细化分类网络的不同输入对NYU Depth v2数据集的影响。不正确.可以看出，通过使用多个二进制分类器，平均差异明显减小。细化分类网络的结构。表6显示了细化分类网络的不同结构的影响。可以看出，分别具有2048维和4096维隐藏层的三层网络实现了最佳的逐像素精度和平均IoU与这些结构相比，具有1024维隐藏层的三层网络显示出相当的性能，但计算成本更低。为了平衡性能和计算成本，我们最终在其他实验中采用了具有1024维隐藏层的三层网络。细化分类网络的输入。细化分类网络的不同输入的影响列于表7中。从表7和表4中可以观察到，当我们仅将一般分类概率图输入到细化分类网络时，所提出的模型在像素准确度和平均IoU方面分别优于基线模型[46] 1.1%和3.2%输入图像特征图和原始图像进一步提高了场景分析的准确性，因为它们可以作为辅助分类的参考。当一般分类概率图、图像特征图和原始图像一起输入时，实现了最佳的逐像素准确度和平均IoU。不同λvbr. 表8示出了场景解析性能如何受到λvbr00.1 0.2 0.512pAcc.（%）75.0 75.175.4 75.3 74.874.9mIoU（%）50.3 50.150.7 50.1 50.0 49.7表8.不同因子λvbr对积分损耗NYU Depth v2数据集上的函数。输入GroundTruthOurs壁门天花板架地垫有窗沙发其他构造地板图片图5.在NYU Depth v2数据集上解析所提出的方法失败。综合损失函数中基于方差的正则化。可以观察到，当λvbr为0.2时，实现了最佳的逐像素精度和平均IoU。失效案例分析。我们展示了一些解析失败的建议方法在图。5.第一种类型的解析错误是当对象包含各种颜色，如图1中第一幅图像中的otherstructure（壁炉）对象。5.另一种类型的解析错误是对精细对象边缘的不精确分割，例如图3中第三幅图像中的其他对象（植物）。1.这些问题可以通过在不同尺度上解析场景来缓解。5. 结论在本文中，我们提出了一个集成的分类模型和基于方差的正则化场景解析任务。综合分类模型首先对每个像素的特征进行编码.然后，一系列的二进制类sifiers被用来分类这些像素在所有对象categories。在一般分类结果的基础上，我们最后利用一个精化分类器来区分易混淆的类别。基于方差的正则化用于训练所提出的集成分类模型，以区分所有类别的分类得分尽可能大。我们已经证明了我们的方法在三个常见的场景解析数据集上的有效性。在未来，我们希望将多尺度方法与我们的模型融合，以减少过度分割和不精确的对象边缘。谢谢。这工作是支持在国家自然科学基金项目（ No.61831005 ， 61525102 ， 61601102 ，61871078）。5317引用[1] A. H.阿卜杜勒纳比湾Shuai，S. Winkler和G.王.插曲camn：基于上下文注意力的记忆网络与用于场景标记的迭代反馈一起工作。在IEEE计算机视觉和模式识别会议上，第5561-5570页，2017年[2] K. 艾哈迈德，M。H. Baig和L.托雷萨尼大规模图像分类专家网络欧洲计算机视觉会议论文集，第516-532页。施普林格，2016年。[3] P. Bilinski和V.普利斯卡留用于单遍语义分割的密集解码器快捷连接。在IEEE计算机视觉和模式识别会议论文集中，第6596-6605页，2018年[4] H. 凯撒，J。Uijlings和V.法拉利基于区域的语义分割和端到端训练。欧洲计算机视觉会议论文集，第381-397页。施普林格，2016年。[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE Transactionson Pattern Analysis and Machine Intelligence，40（4）：834[6] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[7] L- C. Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在2018年欧洲计算机视觉会议论文集[8] Y.陈威Li和L.范古尔道路：面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集，第7892-7901页[9] J. Dai，K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽在IEEE计算机视觉和模式识别会议集，第3992-4000页[10] H.叮，X。江湾，澳-地Shuang、A. Q. Liu和G.王.上下文对比特征和门控多尺度聚合用于场景分割。在IEEE计算机视觉和模式识别会议论文集，第2393- 2402页[11] C. 甘，Y。Li，H.Li，C.Sun和B.龚Vqs：将分割与问题和答案联系起来，以便在vqa和以问题为中心的语义分割中进行监督在 IEEE 计算机视觉国际会议的Proceedings中，第1811-1820页[12] S. 古普塔山口阿尔韦阿埃斯河Girshick和J. 马利克rgb-d图像室内场景理解：自下而上分割，目标检测和语义分割。国际计算机视觉杂志，112（2）：133[13] S. Gupta，P. Arbelaez，and J.马利克rgb-d影像室内景物的感知组织与识别在IEEE计算机视觉和模式识别会议的Proceedings，第564-571页[14] S. 古普塔河，巴西-地Girshick，P. Arbel a'ez和J. 马利克从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议论文集，第 345-360页。Springer，2014.[15] 汉湖Yang，杨氏D. Zhang，X. Chang和X.梁用于视频对象分割的Rein-encoding-agent学习。在IEEE计算机视觉和模式识别会议论文集，第9080-9089页[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第770-778页[17] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构. 第22届ACM多媒体国际会议论文集，第675-678页，2014年[18] S. Kong和C. C.福克斯循环中具有透视理解的循环场景解析。在IEEE计算机视觉和模式识别会议论文集，2018年。[19] C.- Y. 李，S。Xie，山核桃P.Gallagher，Z.zhang和Z.涂。深层监控网。《人工智能与统计》，第562-570页，2015年[20] X. Li，Z.杰，W. Wang，C.作者简介：刘杰，张建.沈，Z.林Q. Chen，S. Yan和J. Feng. Foveanet：透视感知城市场景解析。在IEEE计算机视觉国际会议论文集，第784-792页[21] X. Liang，X.Shen，J.丰湖，澳-地Lin和S.燕. 基于图lstm的语义对象分析欧洲计算机视觉会议论文集，第125-143页。施普林格，2016年。[22] X. Liang，X. Shen，D. Xiang，J. Feng，L. Lin和S.燕.具有局部-全局长短期记忆的语义对象分析。在IEEE计算机视觉和模式识别会议论文集，第3185[23] D. Lin，G. Chen，中国粘蝇D. Cohen-Or，P. A. Heng和H.煌用于RGB- D图像语义分割的级联特征网络在IEEE计算机视觉国际会议论文集，第1311-1319页[24] G. Lin，L.米兰角沈和我里德Refinenet：用于高分辨率语义分割的多路径细化网络在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[25] G.林角，澳-地Shen，中国古猿A.范登亨格尔和我里德使用深层结构化模型探索上下文以进行语义分割。IEEE Transactions on Pattern Analysis and MachineIntelligence，40（6）：1352[26] S.柳湖，加-地Qi，H. Qin，J. Shi，and J.贾用于实例分段的路径聚合网络。在IEEE计算机视觉和模式识别会议集，第8759-8768页[27] W. Liu ，中国粘蝇 A. Rabinovich 和 A. C. 伯格。Parsenet ：看得更宽，看得更好。 CoRR ，abs/1506.04579，2015年。[28] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页5318[29] R. Mottaghi，X. Chen，X. Liu，N.- G.周S W.李，S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第891-898页[30] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集，第1520- 1528页[31] S.- J. Park，K.- S. Hong和S.李你Rdfnet：用于室内语义分割的Rgb-d多级残差特征融合。在IEEE计算机视觉国际会议论文集，第4980-4989页[32] Z.彭河，巴西-地Zhang，X. Liang，X. Liu和L.是林书基于层次lstm的几何场景解析。在第二十五届国际人工智能联合会议的会议中，第3439-3445页[33] S. A.罗兹赫芬达尔-赫希曼指数。Fed. Res. Bull. ，79：188，1993.[34] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015.[35] H. Shi，H.Li，F.Meng和Q.吴关键词感知网络用于指代表情图像分割。在欧洲计算机视觉会议论文集，第38-54页[36] H. Shi，H. Li，F.孟角，澳-地吴湖，加-地Xu和K. N.颜高级解析网：从全局场景到对象的语义场景解析。IEEE Transactions on Multimedia，2018。[37] H. Shi，H.李角Wu，F. Meng和K. N.颜通过可靠的尺度预测提升场景解析性能。2018年ACM多媒体会议，第492-500页。ACM，2018。[38] B. Shuai，Z. Zu

下载后可阅读完整内容，剩余1页未读，立即下载