内在图像和语义分割的联合学习

133 浏览量更新于2023-10-13 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

内在图像和语义分割的联合学习阿尼尔S. 1，Thomas T. Groenestege1，2，Partha Das1，2，Hoang-An Le1，Sezer Karaoglu1，2，Theo Gevers1，21 2 阿姆斯特丹大学，3DUniversum B.V.{a.s.baslamisli，h.a.le，th.gevers} @ uva.nl，s. 3duniversum.com抽象。当成像条件存在变化时，室外场景的语义分割是有问题的。已知的是，反照率（反射率）对于所有种类的照明效应是不变的。因此，使用反射图像进行语义分割任务可能是有利的。另外，不仅分割可受益于反射率，而且分割可用于反射率计算。因此，在本文中，任务的语义分割和内在的图像分解被认为是一个联合的过程，通过探索他们的相互关系，在一个联合的方式。为此，我们提出了一个监督的端到端CNN架构，以联合学习内在图像分解和语义分割。我们将这两个问题结合起来分析广告的收益此外，新的级联CNN架构的内在的分割和分割的内在提出作为单一的任务。此外，创建自然环境的35 K合成图像的数据集，其具有对应的反照率和阴影（内在）以及被标记到每个对象/场景的语义标签（分割）。实验表明，联合学习的内在图像分解和语义分割是有益的自然场景的任务。数据集和模型可在https://ivi.fnwi.uva.nl/cv/intrinseg上获得。1介绍室外场景的语义分割是计算机视觉中一个具有挑战性的问题。成像条件的变化可能负面地影响分割过程。这些变化的条件包括阴影、阴影、相互反射、光源颜色及其强度。由于图像分割是识别和语义分组像素的过程为了解决这个问题，提出了几种方法来减轻照明的影响，以获得更鲁棒的图像特征，以帮助语义分割[1，2，3，4]。不幸的是，这些方法通过手工制作的特征人工地提供照明不变性。而不是使用狭窄和具体的不变特征，在本文中，我们专注于图像形成不变性引起的一个完整的内在图像分解。2Baslamisli等人内在图像分解是将图像分解成其图像形成分量的过程，例如反照率（反射率）和阴影（光照）[5]。反射组件包含场景中对象的真实颜色。事实上，反照率对于照明是不变的，而着色组件严重依赖于场景中的对象几何形状和照明条件。因此，使用反射图像进行语义分割任务可能是有利的，因为它们不包含任何照明效果。另外，不仅分割可受益于反射率，而且分割可用于反射率计算。关于物体的信息揭示了关于其内在属性的强先验。每个对象标签约束颜色分布，并预计将该属性反映到类特定的反射率值。因此，由语义分割提供的不同的对象标签可以通过产生每个标签的对象特定的颜色分布来指导固有的图像分解过程此外，语义分割过程可以通过增强区分场景中的反射边缘和遮挡边缘的线索来充当用于固有图像分解的对象边界引导图。此外，均匀区域（即在颜色方面）应该具有相似的反射率值。因此，在本文中，任务的语义分割和内在的图像分解被认为是一个联合的过程，探索他们的相互关系，在联合的方式。为此，我们提出了一种有监督的端到端卷积神经网络（CNN）架构，以联合学习内在图像分解和语义分割。联合学习包括具有一个共享编码器和三个单独解码器的端到端可训练编码器-解码器CNN：一个用于反射率预测，一个用于阴影预测，以及一个用于语义分割预测。除了联合学习之外，我们还探索了新的级联CNN架构，以使用反射率来改进语义分割，并使用语义分割来引导内在图像分解的过程。为了训练所提出的监督网络，需要具有地面实况图像的大型数据集，用于图像语义分割（即，图像分割）和实时图像。类别标签）和固有属性（即，反射率和阴影）。但是，没有这样的数据集。因此，我们创建了一个大规模的数据集，其特征是在不同的光照条件下的植物和物体，这些光照条件主要存在于自然环境中。该数据集是在场景级考虑自然环境包含固有的图像分解和语义分割地面实况。该数据集包含35 K合成图像，具有相应的反照率和阴影（本质），以及分配给每个对象/场景的语义标签（分割）。我们的贡献是：（1）用于内在图像分解和语义分割的联合学习的CNN架构，（2）对联合解决这两个问题的收益的分析，（3）用于分割的内在和分割的内在的新级联CNN架构，以及（4）具有场景级内在图像分解和语义分割地面实况的自然环境的合成图像的非常大规模的数据集。内在图像和语义分割的联合学习32相关工作本征图像分解。本征图像分解是一个不适定和欠约束问题，因为场景的摄影和几何属性的无限数量的组合因此，大部分的内在图像分解的工作考虑先验的场景特性，以约束一个像素级的优化任务。例如，[6]和[7]都使用非局部纹理线索，而[8]和[9]用反射率的稀疏性的假设来约束问题此外，使用多个图像有助于解决反射率恒定而照明变化的模糊性[10，11]。尽管如此，随着监督深度CNN的成功[12，13]，最近关于内在图像分解的研究已经转向使用深度学习。[14]是第一个使用端到端训练CNN来解决这个问题的工作。他们认为，该模型应该学习本地和全球的线索与多尺度架构。此外，[15]提出了一种模型，通过引入解码器模块之间的相互链接，基于内在组件相关的预期此外，委员会认为，[16]证明了生成对抗网络的任务能力。另一方面，在最近的工作中，[17]考虑了图像形成损失以及梯度监督来引导学习过程，以实现更生动的颜色和更清晰的边缘。相比之下，我们提出的方法联合学习内在属性和分割。此外，有监督深度CNN的成功不仅取决于成功的模型，还取决于注释数据的可用性。生成地面实况固有图像仅在完全受控的设置中是可能的，并且它需要巨大的努力和时间[18]。为此，用于固有图像分解的最流行的真实世界数据集仅包括20个以对象为中心的图像及其地面真实固有[18]，这对于深度学习来说是不可行的。另一方面，[19]呈现了室内场景的点对上的场景级真实世界相对反射率比较。然而，它不包括地面实况固有图像。用于固有图像分解的最常用的场景级合成数据集是MPI Sintel数据集[20]。它提供了大约一千个卡通般的图像与他们的地面真相本质。因此，创建由35 K合成（户外）图像组成的新数据集，所述35 K合成（户外）图像具有在不同照明条件下记录的16种不同对象类型/场景。数据集包含固有属性和对象分割地面实况标签。在实验部分中详细描述了数据集。语义分割。传统的语义分割方法设计手工特征，以使用外部分类器（如支持向量机）实现每像素分类[21，22，23]。另一方面，当代语义分割方法，如[24，25，26]受益于强大的CNN模型和大规模数据集，如[27，28]。关于应用于语义分割任务的深度学习技术的详细综述可以在[29]中找到。4Baslamisli等人由于照明条件的变化而引起的光度变化会导致对象外观的变化。因此，这些外观变化为语义分割任务带来了问题。因此，提出了几种方法来减轻变化照明的影响，以通过将照明不变性并入其算法中来实现更鲁棒的语义分割[1，2，3，4]。然而，这些方法通过手工制作的特征人工地提供不变性。因此，它们在补偿光度测定中的可能变化（即，照明）。基于深度学习的方法可以学习通过数据探索来适应光度变化。但是，它们受到数据量的限制。在本文中，我们建议使用固有的反射特性（即）。完全照明不变性）以用于语义分割。共同学习。语义分割已被用于联合学习任务，因为它提供了有关对象和场景的有用线索例如，[30，31，32]提出了联合深度预测和语义分割模型。联合语义分割和3D场景重建由[33]提出此外，委员会认为，[34]在联合框架中制定密集立体重建和语义分割对于内在图像分解，[35]介绍了第一个统一模型，用于在联合优化框架中恢复形状，反射率和彩色照明其他作品[36，37]，共同预测深度和内在属性。最后，[38]利用了内在属性和对象（即属性和片段）之间的关系作者建议在联合优化框架中解决这些问题。使用手工制作的先验，[38]设计每个分量的能量项，并将它们组合在一个要最小化的全局能量与以前的方法相比，我们提出的方法是一个端到端的解决方案，不依赖于任何手工制作的先验。此外，[38]没有分别优化每个分量的能量函数。因此，省略了对本征图像分解对语义分割的影响的分析。在本文中，每个组件进行了深入的分析。3方法3.1图像形成模型为了制定我们的内在图像分解，考虑漫反射分量[39]。然后，可见光谱ω上的RGB图像I由下式定义：∫I=mb（n，s）ωf c（λ）e（λ）ρ b（λ）d λ。（一）在该方程中，n表示表面法线，而s是光源方向;一起形成几何依赖性m，其反过来形成白光下的阴影分量S（x）。另外，λ表示波长，fc（λ）是相机光谱灵敏度，e（λ）指定光谱灵敏度。内在图像和语义分割的联合学习5编码器输入RGB着色解码器-分段解码器-阴影反射率解码器-Albedo分割Fig. 1. 用于利用一个共享编码器和三个单独解码器联合解决固有图像分解和语义分割的模型架构：一个用于着色，一个用于反射，一个用于语义分割预测。的部分虚线矩形中的表示[15]的基线ShapeNet模型ρb表示光源的功率分布，ρ b表示漫反射表面反射率R（x）。然后，使用窄带滤波器并考虑白光下的线性传感器响应，本征图像分解可以公式化为：I（x）= R（x）× S（x）。（二）然后，对于位置x，I（x）可以通过其固有分量的逐元素乘积来近似。当光源被着色时，它也被包括在着色组件中。3.2基线模型架构本征图像分解。我们使用[15]ShapeNet提出的模型，没有镜面高光模块。该模型显示在图1的虚线矩形部分。该模型提供了状态的结果的内在图像分解任务。编码器块中的早期特征与对应的解码器层连接，这被称为镜像链路。事实证明，这对于保持视觉细节和产生清晰的输出是有用的。此外，跨解码器的特征彼此链接（互连），以进一步加强分量之间的相关性。为了训练固有图像分解任务的模型，我们使用标准的L2重建损失（MSE）与其尺度不变版本（SMSE）的组合。令J是网络的预测，并且J是真实的内在图像。然后，标准L2重建损失LMSE由下式给出：L（J，J）=1Σ||J−J||第二条、第三条MSEnx，c26Baslamisli等人X其中X表示像素坐标，c是颜色通道索引，并且η是所评估的像素的总数然后，SMSE首先缩放J，并将MSE与J进行比较：LSMSE（J，J）=LMSE（αJ，J），（4）α = argminLMSE（αJ，J）。（5）然后，用于训练本征分量的组合损失L_CL变为：LCL（J，J¨）=γSMSELSMSE（J，J¨）+γMSELMSE（J，J¨），（6）其中γs是相应的损失权重。用于训练用于固有图像分解任务的模型的最终损失LIL变为：LIL（R，R¨，S，S¨）=γRLCL（R，R¨）+γSLCL（S，S¨）。（七）语义分割使用相同的架构作为语义分割任务的基线。然而，解码器中的一个从架构中移除，因为仅存在一个任务。因此，互连链接不用于语义分割任务。此外，作为第二个基线，我们训练了一个现成的分割算法[24]SegNet，它是专门为语义分割任务设计的。为了训练模型进行语义分割，我们使用交叉熵损失：LCE1Σ Σ=− nxL∈Oxlog（pL），（8）其中p是softmax函数的输出，用于计算属于第L类的给定像素x的后验概率，其中L∈Ox且Ox={0，1，2，...，C}作为像素级的集合。3.3联合模型架构在本节中，提出了一种新的联合模型架构。这是一个扩展-本征图像分解任务ShapeNet [ 15 ]的基础模型架构的版本，其结合了两个任务，即本征图像分解和语义分割。我们修改基线模型架构，使其具有一个编码器和三个不同的解码器，即一个用于反射率预测，一个用于阴影预测，以及一个用于语义分割预测。我们维护镜像链路和互连。这允许网络受到不同输出的约束，从而加强从不同任务中学习到的特征。因此，网络被迫不仅在编码阶段，而且在解码阶段学习手头两个任务编码器和解码器部分都包含内在属性和语义分割特征。这种设置预计将被单独的解码器块利用，以学习手头任务的额外线索图1示出内在图像和语义分割的联合学习7联合模型架构。为了联合训练模型，我们通过将特定于任务的损失函数求和来组合它们：LJL（I，R，R，S，S）=γCELCE+γILLIL（R，R，S，S）。（九）等式6的伽马参数的影响和更多实施细节可以在补充材料中找到。4实验4.1新的自然环境综合数据集创建了大量的合成图像，其特征是大多数在自然环境中发现的植物和物体，例如公园和花园。该数据集包含不同种类的植被，如树木和开花植物，在不同的光照条件下具有不同类型的地形和景观。此外，创建了涉及人为干预的场景，例如灌木丛（如矩形树篱或球形修剪）、栅栏、花盆和花盆等的存在。（共16班）。对象颜色和几何体的种类很多。该数据集是通过使用参数树模型[40]（作为Blender软件中的附加组件实现）和来自互联网的几个手动设计的模型来构建的，这些模型旨在实现逼真的自然场景和环境。环境照明由具有平行光源的真实HDR天空图像提供光源属性被设计为对应于白天照明条件，例如晴朗的天空、多云、日落、黄昏等。对于每个虚拟公园/花园，我们从不同的角度捕捉场景，并使用运动模糊效果。场景使用基于物理的Blender Cycles1引擎渲染。为了获得注释，修改渲染流水线以输出RGB图像、其对应的反照率和阴影配置文件（内在）以及语义标签（分割）。该数据集由35 K图像组成，描绘了5种照明条件下的40个不同的公园/花园。图2中示出了多个样本。在实验中，数据集被随机分为80%的训练和20%的测试（场景分割）。4.2误差度量为了评估我们的方法的内在图像分解任务，我们报告的均方误差（MSE），其尺度不变的版本（SMSE），局部均方误差（LMSE），和相异版本的结构相似性指数（DSSIM）。DSSIM考虑了结果的感知视觉质量。在[18]之后，对于MSE，调整每个图像的绝对亮度以使误差最小化。此外，k= 20用于LMSE的窗口大小。对于语义分割任务，我们报告了全局像素精度，平均类精度和平均交集超过工会（mIoU）。1https://www.blender.org/8Baslamisli等人RGB反射着色语义图二、来自自然环境数据集（NED）的样本图像，具有不同光照条件下的植物和物体，并具有地面实况分量5评价5.1反射率对语义分割在这个实验中，我们评估的反射率和RGB彩色图像作为输入的语义分割任务的性能。我们使用（i）地面真实反射率（Albedo-SegNet）和（ii）RGB彩色图像（RGB-SegNet）训练现成的分割算法SegNet[ 24 ];分别，以及（iii）RGB+反射率（Comb. − SegNet）;一起作为输入。结果总结在表1中并在图3中示出。此外，图4中提供了（RGB-SegNet）和（Albedo-SegNet）的混淆矩阵。表1. 使用反照率和RGB图像作为输入的语义分割精度。使用反照率图像明显优于RGB图像方法全局像素类平均MiouRGB−SegNet0.87430.62590.5217组合−SegNet0.89580.66070.5577Albedo−SegNet0.91470.67390.5810结果表明，语义分割算法充分利用了光照不变性的内在属性（即光照不变性）。反射率）。组合（Comb. − SegNet）优于单RGB输入（RGB − SegNet）。另一方面，在所有度量中，反射率作为单个输入（Albedo−SegNet）的结果优于包括RGB 组合输入（Comb. −SegNet）并不比仅使用反射率（Albedo − SegNet）更好，因为网络可能会受到RGB输入引入的不同光度提示的负面影响。虽然CNN内在图像和语义分割的联合学习9输入RGB AlbedoGT RGB-SegNet Albedo-SegNet GT图三. 反射率对语义分割影响的定性评价。结果表明，语义分割算法高度受益于光照不变的内在属性（即）。反射率）地面草土砾石木屑路面箱形修剪玫瑰树栅栏步骤花盆石天空预测值（RGB）预测值（反照率）1.00.80.60.40.20.0图4.第一章（RGB−SegNet）和（Albedo−SegNet）的混淆矩阵虽然框架可以在一定程度上学习光照不变性，但是不可能覆盖由光照引起的所有变化。因此，完全光照不变表示（即反射率）帮助CNN提高语义分割性能。此外，混淆矩阵表明网络无法区分基于RGB输入的多个类别。使用反射率，相同的网络获得正确分类地面类的能力，以及对相似外观的盒子和修剪类犯更少的错误。5.2语义分割对本征分解在这个实验中，我们使用地面实况语义分割标签作为RGB图像的额外信息源来评估固有图像分解的性能。我们比较了仅作为输入和固有RGB图像（RGB）训练的固有图像分解地面实况地面草土砾石木屑铺面箱形修剪玫瑰树篱笆台阶花盆石天空地面草土砾石木片铺装箱修剪玫瑰树栅栏步骤花盆石天空10Baslamisli等人使用RGB图像和地面实况语义分割标签（RGB+SegGT）-起作为其输入训练的分解。对于RGB + SegGT，使用四个输入通道（即RGB彩色图像和语义分割标签）被提供作为输入。结果总结在表2中。表 2. 语义分割对内在属性预测的影响。提供分割作为额外的输入（RGB+SegGT）明显优于仅使用RGB彩色图像作为其输入MSELMSEDSSIMALB沙德ALB沙德ALB沙德RGB0的情况。0094±0. 0080的情况。0088±0. 00780的情况。0679±0. 04120的情况。0921±0. 05820的情况。1310±0。05350.1303 ±0.0495RGB+SegGT0.0076 ±0.00630.0078 ±0.00640.0620 ±0.0384 0.0901 ±0.06130.1141 ±0.04720的情况。1312±0. 0523如表2所示，本征图像分解明显受益于分割标签。RGB+SegGT在所有指标上都优于RGB考虑感知视觉质量的DSSIM度量示出了反射率预测的改善在图中针对RGB和RGB+SegGT示出了多个五、输入RGBRGBRGB+SegGTGT图五、第2列和第3列显示RGB+SegGT在从反射图像中去除阴影和阴影方面更好，并且保留了清晰的对象边界和鲜艳的颜色，因此与地面实况5.3语义分割与内在分解的联合学习在本节中，我们评估了联合学习对固有图像分解和语义分割性能的影响。我们进行了三个实验。首先，我们评估的有效性的内在属性和语义分割的联合学习考虑语义分割性能。内在图像和语义分割的联合学习11输入RGB Albedo GTSegNetOurs GT图六、建议的联合学习框架优于单一任务框架SegNet。我们的方法更好地保留了对象的形状和边界，并且对不同的光照条件其次，我们评估了内在属性和语义分割的联合学习的有效性，以获得内在属性预测。最后，我们研究了任务的损失函数的权重的影响。实验一在这个实验中，我们评估了所提出的基于联合学习的语义分割算法（Joint）、现成的语义分割算法[24]（SegNet）和一个编码器一个解码器ShapeNet [15]（Single）的基线所有CNN都接收RGB彩色图像作为其输入。 SegNet和Single仅输出像素级对象类别标签预测，而所提出的方法预测内在属性（即，反射率和阴影）。我们在表3中比较了模型的准确性。如表3所示，所提出的联合学习框架在所有指标上都优于单任务框架此外，SegNet和拟议的联合框架之间的视觉比较见图。六、此外，补充材料中提供了混淆矩阵。通过分析图中的第3行和第4行，可以得出不寻常的照明条件对SegNet的结果产生负面影响。相比之下，我们所提出的方法是不受影响，由于联合学习计划的不同照明。此外，当与SegNet模型（行1、2和5）相比时，我们的方法保留了注意，联合网络不执行任何附加的微调操作（例如，微调操作）。CRF等）。此外，SegNet架构比我们提出的模型更深入然而，在这方面，12Baslamisli等人表3.语义切分准确率的比较所提出的联合学习框架在所有指标方法全局像素类平均Miou单个0.80220.45840.3659SegNet0.87430.62590.5217联合0.93020.70550.6332我们的方法仍然优于SegNet。最后，联合网络优于单任务级联网络;对于mIoU 0.6332与0.5810，见表1和表3，因为关节方案加强了关节特征。实验II.在本实验中，我们评估了所提出的基于联合学习的算法和最先进的固有图像分解算法[15]（ShapeNet）的性能。两个CNN都接收RGB彩色图像作为输入。ShapeNet仅输出固有属性（即反射率和阴影），而所提出的方法预测像素级对象类别标签以及固有属性。我们在建议数据集的训练集上使用地面真实反射率和阴影标签来训练ShapeNet和所提出的方法我们在表4中比较了ShapeNet和所提出的方法的准确性。表4. 联合学习对内禀性质预测MSELMSEDSSIMALB沙德ALB沙德ALB沙德ShapeNet0的情况。0094±0. 00800的情况。0088±0. 00780的情况。0679±0. 04120的情况。0921±0. 05820的情况。1310±0。05350的情况。1303±0。0495Int.-隔离区联合0.0030 ±0.00400.0030 ±0.00240.0373 ±0.0356 0.0509 ±0.03950.0753 ±0.0399 0.0830 ±0.0381如表4所示，所提出的联合学习框架的性能在反射率（反照率）和阴影估计的所有度量中优于单任务学习（ShapeNet此外，我们的联合模型获得了较低的标准偏差值。为了更深入地了解反射率预测性能，在图中给出了ShapeNet和所提出的联合框架之间的许多视觉比较。7.第一次会议。在该图中，（前两列）可以得出，语义分割过程通过增强线索以区分场景中的反射边缘和遮挡边缘来因此，所提出的方法更好地保留了对象边界（例如，第一幅图中路面和地面之间的间隔以及第二幅图中栅栏之间的空间）。此外，在一个实施例中，约束力取决于约束力每个对象标签采用受约束的颜色分布。这可以在第三和第四列中观察到语义分割通过产生更接近绿色的树和更接近粉红色的花来指导内在的图像分解过程此外，对于类级别的intrinsic，最好的改进（3.3倍）是通过具有非彩色颜色的具体步骤块获得的最后，与分割一样，联合网络优于单任务级联网络，见表2和表4。内在图像和语义分割的联合学习13见图7。前两列说明了所提出的方法提供了比ShapeNet更清晰的输出，特别是在对象边界处。第3列和第4列示出了所提出的方法预测更接近地面真实反射率的颜色最后一列显示，所提出的方法处理锐利投射阴影的效果优于ShapeNet实验三。在这个实验中，我们研究了损失函数的权重的影响。由于交叉熵损失比SMSE损失高一个数量级，因此我们首先通过将固有损失乘以100来对其进行归一化然后，我们在归一化的基础上评估不同的权重（SMSE×100×w）。结果见表5 如果将更高的权重分配给intrinsic，则它们都将共同增加。然而，过高的权重负面地影响mIoU值。因此，w= 2似乎是两个任务的适当设置。表5. 损失函数加权的影响。SMSE损耗按（SMSE×100×w）加权。w= 2似乎是这两项任务的正确设置ω塞格梅意向MSELMSEDSSIM全球 MiouALB沙德ALB沙德ALB沙德0的情况。010的情况。91790的情况。5670的情况。0083±0. 00680的情况。0083±0. 00720的情况。0650±0。04120的情况。0920±0. 06110的情况。1224±0。04980的情况。1343±0。05450的情况。50的情况。70380的情况。5120的情况。0038±0. 00370的情况。0035±0. 00270的情况。0398±0. 03110的情况。0550±0. 04160的情况。1633±0. 05380的情况。1353±0。049710的情况。90480的情况。5330的情况。0044±0. 00410的情况。0044±0. 00360的情况。0477±0. 03520的情况。0655±0. 04740的情况。0926±0. 04450的情况。1040±0. 042120的情况。93020的情况。6330的情况。0030±0. 00400的情况。0030±0. 00240的情况。0373±0. 03560的情况。0509±0. 03950的情况。0753±0. 03990的情况。0830±0. 038140的情况。93340的情况。6110的情况。0028±0. 33000的情况。0028±0. 00230的情况。0356±0. 029970的情况。0491±0. 040810的情况。0716±0. 038040的情况。0695±0. 03575.4真实世界户外数据集最后，我们的模型进行评估，对现实世界的花园图像提供的GT我们 ShapeNet输入RGB14Baslamisli等人3D重建满足语义挑战[41]。图像由内在图像和语义分割的联合学习15输入RGB我们ShapeNet图8. 真实世界花园图像的评价我们观察到，与[15]相比，我们提出的一个机器人开车穿过一个语义丰富的花园，有着精细的几何细节。[15]的结果提供为对图1中的性能的视觉比较8.实验结果表明，该方法在真实图像上具有更清晰的反射率图像，具有更生动和逼真的颜色。此外，我们的方法减轻尖锐的阴影效果更好。请注意，我们的模型完全在合成图像上训练，并且仍然在真实的自然场景中提供令人满意的结果。对于语义分割比较，我们在花园数据集上进行预训练后，对SegNet [24]和我们在真实世界数据集上的方法进行了微调。由于我们仅具有用于分割的地面实况，因此我们（仅）解冻分割分支。结果表明，SegNet和我们的方法分别获得0.54和0.54的mIoU和0.85和0.88的全局像素精度。请注意，我们的模型在大小上要小得多，并且预测了内在函数和分割。补充材料中提供了更多结果。6结论我们的方法共同学习内在的图像分解和语义分割。提出了新的CNN架构用于联合学习，以及单内在分割和分割内在学习。已经创建了自然环境的35K合成图像的数据集，其中具有相应的反照率和阴影（内在）以及语义标签（分割）。实验表明，联合性能的好处时，执行两个任务（内在和语义）在联合自然场景的方式。鸣谢：该项目由欧盟地平线2020计划资助。688007（TrimBot2020）。我们感谢Gjorgji Strezoski对网站的贡献16Baslamisli等人引用1. Upcroft，B.，McManus，C.丘吉尔W. Maddern，W. Newman，P.：照明不变的城市街道分类。IEEE International Conference on Robotics and Automations机器人与自动化国际会议（2014年）1、42. Wang，C.，中国地质大学，唐，Y.，Zou，X.，Situ，W.，Feng，W.：水果采摘机器人视觉系统中一种抗光照变化的水果图像分割算法Optik-InternalJour nalforLi ghtandElectronOptics131（2017）6263. 徐，香港，Hofstee，J.W.，van Henten，E.J.：基于光照不变图像变换的抗阴影分割在：国际农业工程会议。（2014年）1、44. Ramakrishnan河Nieto，J.，Scheding，S.：室外感知的阴影补偿IEEE机器人与自动化国际会议。（2015）1、45. 兰德E.H. McCann，J.J.：亮度和视网膜理论。光学学报（1971）1-1126. Shen，L.，Tan，P.，Lin，S.：具有非局部纹理线索的内在图像分解。IEEE Conferance on Computer Vision and Pattern Recognition计算机视觉与模式识别（2008年）37. 赵，Q.，Tan，P.，Dai，Q.，Shen，L.，Wu，E.，Lin，S.：具有非局部纹理约束的 retinex 问题的封闭解。 IEEE Trans. on Pattern AnalysisandMachineIntelligence（2012）1437-144438. 盖勒，P.V.，Rother，C.，Kiefel，M.，张，L.，Schlkopf，B.：基于反射率的全局稀疏性先验恢复内点图像。在：神经信息处理系统的进展。（2011年）39. Shen，L.，Yeo，C.：使用反射率的局部和全局稀疏表示的内在图像分解。在：IEEE计算机视觉和模式识别会议。（2011年）310. Weiss，Y.：从图像序列中导出本征图像。IEEE International Conference onComputer Vision（2001年）311. Matsushita，Y.，林，S.，Kang，S.B.，沈希尧：从具有偏置照明的图像序列估计本征图像欧洲计算机视觉会议（2004年）312. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络在：学习代表国际会议（2015年）313. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议上。（2014年）314. Narihira，T.，Maire，M.，Yu，S.X.：直接内部函数：通过卷积回归学习反照率阴影分解。IEEE International Conference on Computer Vision（2015年）315. 施，J.，Dong，Y.，Su，H.，Yu，S.X.：学习shapenet类别中的非朗伯对象内部函数。 IEEE Conferance on Computer Vision and PatternRecognition计算机视觉与模式识别（2017）3，5，6，11，12，1416. 莱特里湖Vanhoey，K.，古尔，L.V.： Darn：一个深度对抗剩余网络用于本征图像分解。IEEE Winter Conference on Applications of Computer Vision（IEEE计算机视觉应用冬季会议）（2018年）3内在图像和语义分割的联合学习1717. Baslamisli，A.S.，Le，H.A.，Gevers，T.：基于反射和retinex模型的Cnn学习用于内在图像分解。在：IEEE计算机视觉与模式识别会议上.（2018年）318. 格罗斯河约翰逊M.K.阿德尔森E.H.弗里曼，W.T.：真相数据集以及用于固有图像算法的基线评估。IEEE International Conference onComputer Vision（2009年）3、719. Bell，S.，Bala，K.，Snavely，N.：在野外的内在图像在：ACM Trans.对图形（TOG）。（2014年）320. 巴特勒DJWulff，J.，Stanley，G.B.，布莱克，M.J.：一个用于光流评估的自然主义开源欧洲计算机视觉会议（2012年）321. Fulkerson，B.Vedaldi，A.，Soatto，S.：类分割和对象定位with superpixel 超像素 neighborhoods 邻里 . IEEE International Conference onComputer Vision（2009年）322. Csurka，G.，Perronnin，F.：一种有效的语义分割方法间《计算机应用与信息技术杂志》，95（2）（2011）19823. Shotton，J.，Winn，J.，Rother，C.，Criminisi，A.：Textonboost用于图像理解：联合建模纹理、纹理和纹理的多类目标识别和分割。InternalJournalofC〇mputerVisin，95（2）（2009）224. Badrinarayanan，V.Kendall，A.，Cipolla，R.： Segnet：深度卷积用于图像分割的编码器-解码器架构。IEEE Trans. on Pattern Analysis andMachine Intelligence（2017）3，6，8，11，1425. 朗JShelhamer，E.，达雷尔，T.：用于语义的全卷积网络细分IEEE Conferance on Computer Vision and Pattern Recognition计算机视觉与模式识别（2015年）326. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲KYuille，A.L.：Deeplab：使用深度卷积网络、无环卷积和全连接crfs进行语义图像分割。arXiv预印本arXiv：1606.00915（2016）327. Everingham，M.Eslami，S.M.A.范古尔湖威廉姆斯，C.K.I.，Winn，J.，齐塞尔man，A.：pascal visual object classes挑战：回顾展。国际竞争力杂志，111（1）（2015）98-136328. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes 数据集 IEEE Conferance on Computer Vision and PatternRecognition计算机视觉与模式识别（2016年）329. Garcia-Garcia，A. Orts-Escolano，S.，Oprea，S.O.，Villena-Martinez，V.，加西亚Rodriguez，J.：关于图像和视频语义分割的深度学习技术的调查。AppliedSoftComputing，70（2018）4130. Jafari，O.H.，格罗斯岛Kirillov，A.，Yang，M.Y.，Rother，C.：分析模块用于联合深度预测和语义分割的CNN架构。IEEE机器人与自动化国际会议。（2017年）431. Eigen，D.Fergus，R.：预测深度、表面法线和语义标签常见的多尺度卷积架构。IEEE International Conference on Computer Vision（2015年）432. Mousavian，A.，Pirsiavash，H.，Kosecka，J.：联合语义分割和深度使用深度卷积网络进行估计。IEEE International Conference on 3D Vision。（2016年）433. Kundu，A.李，Y.，Dellaert，F.，Li，F.，J. M. Bogg联合语义分割和从单目视频进行3D重建。欧洲计算机视觉会议。（2014年）418Baslamisli等人34. 拉迪基湖 Sturgess ， P. ，拉塞尔角 Sengupta ， S. ， Bastanlar ， Y. ，Clocksin，W. Torr，P.H.S.：用于对象类别分割和密集立体重建的联合优化。国际计算机视觉杂志，100（2）（2012）435. 巴伦J.T. Malik，J.：颜色恒常性、内在图像和形状估计。欧洲计算机视觉会议。（2012年）436. Kim，S.，Park，K.，Sohn，K.，Lin，S.：通过联合卷积神经场从单个图像进行统一的深度预测和固有图像分解。IEEE计算机视觉与模式识别会议。（2016年）437. Shelhamer，E.，巴伦J.T.达雷尔，T.：从单个图像的场景内部和深度。在IEEE计算机视觉研讨会国际会议上。（2015年）438. Vineet，V.，Rother，C.，Torr，P.H.S.：联合内在图像、对象和属性估计的高阶先验在：神经信息处理系统的进展（2013年）439. Shafer，S.：使用颜色分离反射组件。色

下载后可阅读完整内容，剩余1页未读，立即下载