语义分割迁移学习：合成数据与实际数据的差距缩小

118 浏览量更新于2023-10-19 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4360并非所有领域都是平等的：基于层次区域选择的语义分割迁移学习算法孙若琪1朱新革2吴崇若3陈煌4石建平5马丽庄11上海交通大学2香港中文大学3加州大学戴维斯分校4卡内基梅隆大学5商汤科技研究ruoqisun7@sjtu.edu.cnzx018@ie.cuhk.edu.hkcrwu@ucdavis.educhenh2@andrew.cmu.eduma-lz@cs.sjtu.edu.cnshijianping@sensetime.com摘要深度神经网络用于语义分割的成功在很大程度上依赖于大规模和良好标记的数据集，这些数据集在实践中很难收集。合成数据提供了一种免费获得地面真实标签的替代方案。然而，直接在合成数据上训练的模型往往难以推广到真实图像。在本文中，我们考虑用于语义分割的迁移学习，旨在缩小丰富的合成数据（源域）和有限的真实数据（目标域）之间的差距。与以前的方法，要么学习映射到目标域或微调目标图像，我们提出的方法联合学习从真实图像和选择性地从合成图像中的现实像素，以适应目标域。我们的关键思想是使用加权网络来评估合成像素与真实像素的相似程度，并在像素、区域和图像级别上学习这种加权我们以端到端的方式联合学习这些分层加权网络和大量的实验表明，我们提出的方法显着优于其他现有的基线，是applica- ble的场景与实际图像非常有限。1. 介绍深度学习的进步导致了人工智能的许多突破。计算机视觉中的各种任务[13，14，32]已经被重新审视，并实现了最先进的性能。然而，这些改进通常需要大量的标记数据，这对于许多视觉任务来说是语义分割就是这样一个例子，其中逐像素地注释图像可能需要超过90分钟[7]，导致无法缩放。或者，研究人员[24，25]转而使用计算机图形技术来渲染合成*前两位作者对本文的贡献相等图1. （a）：虽然两个图像来自不同的领域，但某些区域仍然具有相似的结构，例如汽车和道路区域。我们的设计理念是专注于这些相似的区域，以提高效率。（b）：对不同数量的合成图像（来自GTAV）和不充分的真实图像进行联合训练的结果。蓝色条表示仅使用真实图像的结果图像中的像素标签以更快的速度自动生成在本文中，我们考虑利用丰富的标记合成数据（源域）和不充分的标记真实数据（目标域）一起，使真实数据上的性能更好。值得注意的是，我们的问题设置与无监督域自适应不同（即，标记的合成数据和未标记的真实数据）和半监督域自适应（即，在一个域中少量标记的真实数据和大量未标记的真实数据）。由于无需人工标注和优越的性能，我们所关注的学习方案在现实世界的应用中具有很大的实际意义。给定丰富的标记的合成图像和不足的标记的真实世界图像，自然期望来自像素空间中的这种“增强”的更好的分割性能然而，通常情况下，情况并非如此，而且...4361如图1（b）所示，芒什至可能降低。主要原因在于合成数据和真实世界数据之间的领域差距，在纹理（渲染真实性），光照条件等方面的差异。这种域差距很容易使模型学习偏向合成数据分布，导致无法推广到真实图像[3，23]。为了缓解这一问题，数据恢复方法被用来减少数据偏差的影响。选项包括随机重新排列源域图像[2]或基于低级特征选择与目标域图像相似的图像[12]。另一种方法使用迁移学习将在一个领域学到的知识应用到另一个领域[1，8，15]。其思想是学习到特征或输出空间中的目标域的变换。这些方法的一个共同缺点是它们从整体图像中学习或取消学习。然而，对于逐像素分割任务，很可能在像素区域中找到领域知识或相似性，其中迁移学习可以局部地利用有用信息。我们在图1（a）中示出了一个示例，其中来自合成图像（源域）的现实图像场景包含与真实图像（目标域）中的对应物具有相似结构换句话说，领域知识可以分布在细粒度的像素级而不仅仅是图像级，并且来自源图像的相似区域使得为共同学习做出更大贡献。受这些发现的启发，我们提出了一个分层迁移学习框架，通过在三个级别（像素，区域和图像级别）组合合成图像中的信息来学习真实图像分割。三个加权网络一起学习，以分配更高的权重，这样的合成图像的粒度是类似于真实的（目标域）。因此，我们能够从真实图像和选定的合成像素中学习，以用于域自适应目的，这遵循了逐像素任务的性质请注意，我们的加权网络与分割网络以端到端的方式联合训练。整个训练框架将真实数据集和合成数据集的任何组合作为输入，没有关于其分布的假设-公共领域知识在本地自动挖掘本文的主要贡献可以概括如下：我们的研究揭示了一个实用的和无成本的学习计划，以提高性能的真实图像分割与丰富的合成图像。这也是迈向具有多个数据集（源）的通用学习环境的我们开发了一种用于语义分割的分层迁移学习方法，具有从不充分的真实图像中学习和自动挖掘相似合成像素的能力。在各种数据集上进行了广泛的实验。所提出的方法实现了最先进的性能，同时仍然保持强大的训练非常不足（约只有50%）的真实图像。2. 相关工作语义分割语义分割是自动驾驶汽车、遥感等众多领域的重要任务。最近，深度神经网络的革命将这一任务推向了一个新的阶段[5，31，32，21]。不幸的是，训练这种深度模型通常需要大量标记良好的图像，这是昂贵且耗时的。为了节省注释的时间和成本，研究人员试图从视频游戏GTAV [24]或他们自己的模拟环境[9]中获得数据和相应的免费标签尽管收集它们更快更便宜，但由于域间隙，合成图像的使用不一定推广到真实图像。迁移学习迁移学习旨在将从一个领域学到的知识应用于另一个领域的学习。这是一种流行的方法来解决由于某个域中的数据不足或不同域之间的数据差距而引起的问题[4，11]。迁移学习方法主要有两种：数据选择和域转换。①的人。对于数据选择方法，随机选择策略[1，8]可以被视为最简单的选项，然后[12]通过根据基于低级别特征的相似性对源数据进行评分来2）的情况。对于域转换方法，Sarafianos et al.[27]应用Adaptive-SVM+算法从源域提取有用信息。最近的许多工作一直在尝试将GAN应用于域对齐。例如，[10，11，30，34，33]使用对抗训练来获得域不变表示并减少域间隙。Volpi等人[29]训练了源域的编码器，以通过辅助训练来增强特征。Chen等人[6]利用空间结构将区域级知识从源区域转移到目标区域。[16]通过仅在像素级上将加权映射与加权映射预测相结合来增强半监督学习，其中使用来自相同域的所有数据上述方法的共同缺点是它们应用于单级，忽略了领域知识/相似性可以分布在多级的事实（即，像素、区域和图像级）。在本文中，我们提出了一种迁移学习方法，从源域的层次结构中转移知识，与语义分割联合训练请注意，我们的问题设置与其他迁移学习设置不同。不像无监督的[4，6，34]，···4362SegSegSeg联系我们图2.我们的模型架构概述一对源域图像和目标域图像经过编码器E和分割器E。分类器S（仅由上采样操作组成）来预测损失Ls下的分割图Lt. 对于源图像预测，在计算损失Ls由3个加权网络Wp、Wr和Wi重新加权.我们也- 通过附加生成器G和BHD来评估重建图像质量（LRec）和保真度（LAdv），从而提高编码器E的表现力。对于每对源图像和目标图像，我们通过反向传播交替地优化编码器E、网络G+D和加权网络（通过LWp、LWr、LWi）。半监督域自适应工作[16]中，我们的方法将标记的源图像和标记的目标图像一起自动挖掘它们之间的相似性来进行分割自适应。3. 方法我们的目标是从不充分的真实数据（目标域）和丰富的合成数据（源域）执行迁移学习，以提高语义分割的性能。具体地说，我们有数据集Xs=对抗适应方法[11，26]，我们还将GAN纳入我们的模型中，GAN将源分布推向目标分布，以进一步帮助域适应。图2展示了我们的模型架构，这将在下面的部分中详细介绍。3.1. 分层加权网络我们的目标是通过学习目标真实图像和仅相似的合成图像区域来解决数据缺口。我们建议加权网络，这样的细粒度区域选择，而不是图像级的选择。加权s s t t（x，y）X t =（x，y）从一个标记的源域s和标记的目标域t，共享用于分割的类别集在训练过程中，我们将源数据和目标数据作为输入，而我们只对目标图像进行测试。请注意，训练图像和测试图像之间没有重叠，我们的设置与半监督学习不同，后者有一些标记数据和更多未标记数据，但两者都在一个域中。在我们的问题设置下，学习困难在于源域和目标域之间的数据差距为了自适应地解决这样的差距，我们提出了加权网络，以从源图像中高度相似的目标图像的fa-vor区域，并利用它们来从源和目标域进行联合学习为了同时考虑局部和全局信息，我们学习分层加权网络来在像素级、区域级和整个图像级上对相似性进行评分。加权网络与分段网络以端到端的方式一起学习。由于广告的有效性，网络应该为合成图像分配更高的权重与来自目标域的真实图像区域相似的区域。由于两个域的纹理和外观（如颜色和照明）存在显着差异，我们鼓励分割网络对相似的结构化区域进行预测因此，在分割标签空间（标签空间中不存在纹理）中定义相似性是有效的，从而对具有相似标签结构的像素赋予更大的权重。这本质上增强了迁移学习框架中跨域数据方差的分割。我们还看到了与数据增强的联系，但以一种更灵活的方式来增强来自源域的任意图像区域。为了丰富迁移学习过程，我们提出了分层加权网络来发现像素（网络Wp），区域（网络Wr）和图像（网络Wi）级别的域间相似性。它们的目标函数是：L Wk =<$Mk（x）−dk<$1，k∈ {p，r，i}，（1）4363Seg×⊙SegSegSegFFk∈p，r，iHH∈{}·······S不s ssS图3.称重图生成的工作流程其中Mk（x）表示加权网络Wk.这里，dk表示dif处的地面实况域标签。其实际上考虑了用于基于相似性的迁移学习的局部和全局信息。所以水平。具体来说，dk是源分段损失Ls对于源域，公式化为标签，和所有一个地图的目标。它的尺寸为512×1024，加权交叉熵损失：64 128分别在像素和区域级别，而它是图像级别的标量。SSegΣ=−ys（H（xs）logF（xs）），（5）语义分割损失。如上所述，其中y s 是地面真值标签，表示逐元素乘法。总分割损失我们的目标是在具有相似标签结构的源区域上给予更多权重因此，我们设置不同的分割损失LSeg是LsLt，即 L分段= Lt隔离区分别用于目标域和源域。对于目标域，我们应用正常交叉熵如下：Σ共享权重图与多通道加权映射。注意，上面提到的加权图是从分割标签图导出的，该分割标签图具有各种不同的特征。分段=−y tlog F（x t）。（二）通道（对应于类类别-本文中为19个通道）。由于标签结构因不同而变化很大，其中是分段部分，包括编码器E和上采样部分S。（xt）表示具有目标图像xt的输入的分割网络的输出。对于不同的类，它们的加权机制也可以不同。因此，除了通过W1学习共享加权映射之外，对于所有类，我们还可以通过以下方式学习单独的加权映射：对于源域，我们执行加权19k∈p，r，i每一个频道的频道。我们实现这两种类型分层加权图.从等式1，得到加权网络（Mk（xs），k∈ {p，r，i}）的输出。由于Mk（x）的大小与地面实况不兼容，因此我们执行最近的上采样和软阈值处理以获得正确的结果。响应加权映射（k，kp，r，i）。详细的工作流程如图3所示。软阈值定义如下：的加权地图，并调查他们的有效性在不同的设置下。在我们的结构迁移学习框架中，我们依赖于一个好的特征编码器E（）来为潜在的不同领域图像生成领域变量特征。为了提高E（·）的表达能力以更好地进行迁移学习，我们继承了Hk（x）=I（Mk（x）> mean（Mk（x），k∈{p，r，i}，（三）其中I（）是指示函数。使用自适应平均值作为阈值的软阈值比硬阈值更好地工作（即，使用固定值作为阈值），因为它适应于当前分数范围并保证选择一些相对相似的区域。注意，图像级加权映射是标量，我们将mean（Mi（xs））设置为0.5。在得到Hk（xs）之后，我们对它们进行平均以获得历史加权图H（x）：对抗性适应方法[4，11，34]，以附加一个基因，交互对抗网络（GAN）的编码特征。目标是驱动源图像的表示接近目标图像的分布，这由如下所示的重建损失和对抗损失这部分确实有助于域适应和消融研究表明其有效性。3.2. 网络优化在我们的模型中有几个可学习的组件，包括编码器E（）、CXD（）、生成器G（）和加权网络W（）（注意S（）没有可学习的参数）。在以下期间应用替代更新-L+LLW4364s1ss s（4）网络优化，这是在算法中说明，H（x）=3（ Hp（x）+ Hr（x）+ Hi（x）），rithm1. 除LSeg和L Wk∈p，r，i外，重建损失LRec4365···←←×··H←联系我们联系我们×××××→→→和对抗性损失LAdv也在训练期间使用，并如下所示。我们使用来自编码器E（·）的Conv5特征，并附加生成器G（·）来重建每个输入图像。重建损失LRec被定义为像素空间中的L1损失的详细架构编码器和发生器如第3.3节所示。我们还遵循对抗策略[20]来使用ADID（·）来提高重建图像的保真度。生成器G（·）和判别器D（·）由对抗性损失LAdv交替训练，如在最小-最大博弈中。因此，我们鼓励在-编码器E（）生成域不变的特征表示，这可能会欺骗编码器。算法 1 提出的分层迁移学习方法输入：源域Xs和目标域Xt;N是迭代次数初始化：初始化分层加权网络W、发电机G（）和CXD（）从头开始。编码器E（）使用ImageNet预训练模型初始化。1：重复2：来自源域的xs，ys随机图像对3：来自目标域的xt，yt随机图像对4：生成xs和xt的预测5：（xs）通过等式（1）生成源图像的分层加权图。（四）6：LSeg通过等式（1）计算目标和源图像的分割损失。（2）和Eq。（五）7：E←最小L分段+L前进8：Wk∈p，r，i← min L Wk∈p，r，i，等式（一）9：G←minLRec+LAdv10：D最小值L高级十一：直到N3.3. 网络架构分层加权网络它由5个卷积层组成，核为44，步幅为2，后跟一个参数为0.2的Leaky-ReLU，除了最后一层。对于相应的卷积层，通道的数量是64、128、256、512在像素级加权网络之后附加上采样层，以将输出调整为原始尺寸。分割网络我们使用FCN 8s [22]作为语义分割模型。主干是VGG16 [28]，它在ImageNet数据集上进行了预训练。我们将网络分为编码器E（ ·）和分割分类器S（·）两部分。（S（·）没有可学习的参数）。生成对抗网络我们应用Patch- GAN [18]作为模型，它试图将重叠的图像块分类为真实或虚假。生成器由2个残差块和7个卷积层组成。前6个卷积层的核大小、步幅和填充分别为3 3、2和1，而最后一层有11，1，和1。的卷积层包含7个卷积层的内核大小，步幅和填充分别为3 3，2和1。前6个卷积层采用参数化为0.01的泄漏ReLU层。4. 实验在本文中，我们的实验中使用了三个数据集，包括两个合成数据集GTAV [24]和SYNTHIA [25]，以及一个真实世界数据集CITYSCAPES [7]。GTAV拥有24，966个由游戏引擎GTAV渲染的城市场景图像语义类别与CITYSCAPES数据集兼容。我们将带有标签的整个GTAV数据集作为源域数据。SYNTHIA是一个大型数据集，包含从虚拟城市渲染的不同视频序列。我们将 SYNTHIA-RAND-CITYSCAPES作为源域数据，该数据提供了来自所有序列的9，400张图像，并具有CITYSCAPES兼容的注释。CITYSCAPES是一个专注于城市场景的真实世界图像数据集，由2，975张训练集图像和500张验证图像图像的分辨率我们将整个训练集作为目标域数据。我们的迁移学习方案的结果在验证集上报告。可以发现，这两个合成数据集都由大量图像组成，而真实世界的数据集要小得多。因此，综合数据为解决数据不足问题提供了一个有吸引力的选择，这是很有道理的训练细节Adam [17]优化应用于β1= 0. 9和β2= 0. 999。初始学习率为1 e-4，并随着幂为0.9的多项式衰减而下降由于GPU内存的限制，在我们的实验中使用的图像大小调整为1024 512和批量大小为1。由于训练器比生成器更容易收敛，因此我们在训练过程中稍微扰动训练器的标签。4.1. 实验结果在本节中，我们通过执行多个联合学习实验来提供定量评估，即， GTAV+CITYSCAPESCITYSCAPES、SYNTHIA + CITYSCAPES和GTAV +SYNTHIA+ 城市景观城市景观。补充材料中包含更多的实验4366→→方法骨干设置平均IoU方法设置平均IoU表 1. 使用 GTAV 和 CITYSCAPES 的迁移学习实验结果（GTAV + CITYSCAPES→ CITYSCAPES）。W1和W19分别表示我们的共享和多通道加权机制。Un-、Semi-和Joint-是无监督域自适应、半监督学习和联合学习的缩写。* 表示模型在CITYSCAPES数据集上训练，而没有源数据集。几种基本方法定义如下：1）直接联合训练：我们直接将合成数据和真实数据结合起来。2）目标微调：该模型用合成数据进行预训练，然后使用真实世界数据进行微调。3）FCN+GAN：为了验证GAN的效果，我们设计了一个只包含FCN分割部分和GAN部分的模型。采用VGG16作为骨干网。4）PixelDA [4]：由于这项工作是一种与我们的设置不兼容的非监督域自适应方法，我们通过给出合成和真实世界数据的标签将其扩展到我们的问题。分段网络使用具有VGG16主干的FCN 8。5）FCN+W1：为了验证加权网络的效果，我们设计了一个只包含FCN分割部分和W1部分的模型采用VGG16作为骨干网。我们还与其他方法进行了比较，这些方法专注于无监督域自适应[6，26，34]和半监督学习[16]，以证明我们的学习方案的优越性。GTAV +城市景观城市景观。在这个前-实验中，我们使用GTAV作为源数据集，CITYSCAPES作为我们的目标数据集。如表1所示，我们的模型实现了与基线更好的性能（mIoU =68.1）几种传统的联合学习和微调方法与原始FCN的结果相当，这表明直接使用合成数据进行训练与其他迁移学习设置相比，包括无监督域自适应[6，26，34]和半表2.使用SYNTHIA和CITYSCAPES的联合学习的实验结果。方法设置平均IoUFCN-65.3%直接联合训练联合-64.2%目标微调联合-百分之六十六点五FCN+GAN联合-64.9%PixelDA [4]联合-65.3%关于W1联合-68.2%关于W19联合-68.8%表3.使用GTAV，SYN- THIA和CITYSCAPES的联合学习的实验结果监督学习[16]，我们从两个域的加权网络学习实现了更好的性能，而不会引入任何额外的成本。通过对FCN+W1和FCN+GAN的比较，我们发现所提出的分层加权网络比GAN更关键，这表明加权网络在迁移学习中的有效性。PixelDA [4]学习了像素空间变换，与FCN+GAN相比提高了2.1与两个加权基线相比，包括0-1置信度掩模和焦点损失[19]，我们的方法实现了更好的性能。通过结合加权网络选择性地从合成像素中学习，我们提出的方法更有效地挖掘来自两个领域的知识。结果表明，它的性能优于现有的方法，与FCN+GAN相比提高了4.1，与[4]相比提高了2.0。SYNTHIA +城市景观城市景观。我们跟着-如前所述降低实验设置，并选择19类作为SYNTHIA和CITYSCAPES数据集中的标签。我们在表2中报告了使用SYN- THIA和CITYSCAPES进行联合学习的结果。我们发现，相似的结论可以从结果中得出。值得注意的是，由于大的域间隙，直接联合训练恶化的结果，原来的FCN。多通道加权映射（我们的W1）显示出比共享加权映射更好的性能，而这两种方法都比基线方法有显着的改善。Swami等人[26日]VGG16Un-37.1%中文（简体）VGG16Un-百分之三十八点一Swami等人[26日]Un-34.8%中文（简体）Un-34.2%公路[6]Un-百分之三十六点二Hung等人[16个]ResNet-101半67.7%FCNVGG16-65.3%直接联合训练VGG16联合-64.6%目标微调VGG16联合-66.0%FCN+GANVGG16联合-64.0%FCN+0-1会议掩模VGG16联合-百分之六十三点七FCN+局灶性丢失[19]VGG16联合-百分之六十六点二FCN+W1VGG16联合-百分之六十六FCN-65.3%直接联合训练联合-百分之六十二点九目标微调联合-百分之六十四点八FCN+GAN联合-62.6%PixelDA [4]联合-64.0%关于W1联合-百分之六十六点三4367→→→方法单个分层平均IoU FCN 65.3%我们的W1占66.7%我们的W1占67.6%我们的W19占66.9%我们的W19占68.1%表4.使用GTAV + CITYSCAPES → CITYSCAPES进行单VS分层加权网络的烧蚀实验。GTAV + SYNTHIA +城市景观城市景观。为了验证我们的模型的鲁棒性，我们设计了这个关节使用多个合成数据集和单个真实世界数据集进行学习实验。在这个实验中，首先使用GTAV作为源数据集，然后使用GTAV + SYN作为源数据集来训练模型。如表3所示，对于多个合成数据集，我们提出的模型能够一致地实现更好的性能，这证明了其在复杂设置中的鲁棒性和高度灵活性。在这种情况下，PixelDA[4]甚至给出了比表1中的结果（mIoU =66.1）更差的结果（mIoU =65.3），这表明在没有选择的情况下从合成数据中学习可能会偏向源域，并且在处理来自多个源的大量标记合成数据时具有有限的鲁棒性。因此，与PixelDA [4]相比，我们的方法具有3.5点的性能增益，验证了所提出的加权网络的有效性通过将GTAV和SYNTHIA数据集作为源域进行组合，我们的模型与在单个数据集上训练的模型相比，性能分别提高了0.6和0.7个百分点，这表明我们的方法挖掘的知识集中在目标域的相似性上，当它们结合在一起时，可以相互促进。4.2. 消融研究在本节中，我们进行了烧蚀实验，以验证分层加权网络的效果。消融实验在 GTAV 数据集和CITYSCAPES数据集上进行我们比较了分层加权网络与单级（仅像素级）加权网络。在表4中，可以观察到分层机制始终比单像素机制执行得更好（对于W1和W19分别为0.9和1.2增益），这表明具有局部和全局信息的分层加权网络增强了语义分割。4.3. 讨论在本节中，我们设计了几个实验来验证我们的模型的能力我们首先将分层加权网络生成的加权图可视化，以显示我们的模型如何测量相似区域，然后数据量1/81/41/2充分平均IoU百分之五十三点四57.7%64.9%68.1%表5. GTAV + CITYSCAPES→ CITYSCAPES的实验结果，使用不同数量的真实世界图像。请注意，我们使用建议的模型，即我们的W19和GTAV的所有合成数据都在训练过程中使用。图4.由W1生成的共享加权映射（即，共享加权机制）。前两行是从GTAV数据集采样的图像，而最后两行来自SYN-THIA数据集。从左至右：输入图像、叠加有分层加权映射的输入图像、像素级、区域级和图像级加权映射。我们使用不同的方法提供分割结果的可视化。最后，我们随机抽取1/4，1/2的目标图像来研究我们的方法的有效性加权图和分割结果的可视化。如图4所示，我们显示了W1策略生成的加权图.从这些加权图中可以观察到，加权图通常覆盖道路区域而忽略建筑物部分，其中道路是合成数据与真实世界数据之间最相似和最主要的区域，而建筑物在驾驶场景的分割中是不相关和不相同的。分割结果的可视化。我们在图 5 中显示了使用GTAV+CITYSCAPES CITYSCAPES从不同模型获得的分割结果。与原始FCN和FCN + GAN模型相比，我们的模型在细节和边界方面表现得更好，如车道边界和汽车轮廓。降低了建筑物和道路的噪音。这些改进证明了加权网络通过集中于从最相似的区域学习的有效性数据分析非常不充分。为了进一步探索我们的模型的能力，我们使用GTAV+CITYSCAPES CITYSCAPES设计了现实世界数据极其不足的实验。GTAV数据集中的所有图像都被采用，而不同数量的真实世界图像被随机采样用于我们的迁移学习。4368图5.我们展示了不同模型的分割结果。从左到右，图像分别从Target Image、Ground Truth、FCN、FCN+GAN、Ours withW1中提取。我们的完整模型实现了更好的结果与更详细的边界。ing方案。如表5所示，我们使用1/2真实世界图像的模型实现了与FCN+GAN相当的性能，并且仅比使用完整真实世界图像的模型差4%，这表明我们的模型能够适用于极不充分的数据。5. 结论在本文中，我们介绍了一种新的迁移学习方法与真实和合成图像的语义分割。我们通过自适应地选择相似的合成像素进行学习来缓解不充分的真实数据和丰富的合成数据之间的域差距。分层加权网络用于分别在像素、区域和图像级别上对合成像素与真实像素的相似程度进行评分，这有助于我们适应目标真实的合成像素。年龄此外，我们以端到端的方式联合学习加权网络和分割网络。大量的实验表明，我们提出的方法在W1和W19策略下的性能都大大优于其他重要的基线，特别是多源数据集我们的方法还可以从非常有限的真实图像中学习，并显示出从多个数据源中学习的潜力确认本论文是在北京的商汤科技研究所完成的，并得到了国家社会科学基金一号项目的部分资助。18 ZD 22和浦东市科委项目PKJ 2018-Y 46。4369引用[1] Hossein Azizpour 、 Ali Sharif Razavian 、 JosephineSullivan、Atsuto Maki和Stefan Carlsson。从一般到具体的视觉识别深度表示。IEEE Transactions on PatternAnalysis and Machine Intelligence（PAMI），第1-1页[2] Hossein Azizpour 、 Ali Sharif Razavian 、 JosephineSullivan、Atsuto Maki和Stefan Carlsson。从一般到特殊的视觉识别深度表示在 Proceedings of the IEEEconference on computer vision and pattern recognitionworkshops，第36-45页[3] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151[4] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议，2017。[5] Liang Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在arXiv预印本arXiv：1802.02611，2018。[6] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集7892-7901，2018年。[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议（CVPR）中，第3213-3223页[8] 戴文元，杨强，薛桂荣，俞勇。促进迁移学习。在IEEE International Conference on Machine Learning（ICML），第193[9] GermanRosFelipeCodevillaAntonioLopezDosovitskiy，Alexey and Vladlen Koltun.卡拉：一个开放式的城市驾驶模拟器。 arXiv 预印本 arXiv ：1711.03938，2018。[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督 IEEE International Conference on MachineLearning（ICML），2015年。[11] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志（JMLR），17（1）：2096[12] 韦锋葛、益州余。向有钱人借宝：通过选择性联合微调的深度迁移学习。在IEEE计算机视觉和模式识别会议，第6卷，2017年。[13] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。IEEE Transactions on Pattern AnalysisMachine Intelligence（TPAMI），PP（99）：1[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），第770-778页，2016年。[15] Seunhoon Hong ， Junhyuk Oh ， Honglak Lee ， andBohyung Han.用深度卷积神经网络学习语义分割的可转移知识。在IEEE计算机视觉和模式识别会议的论文集，第3204-3212页[16] 洪伟智、蔡怡萱、刘彦婷、林彦宇、杨明萱。半监督语义分割的对抗学习。arXiv预印本arXiv：1802.07934，2018。[17] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。计算机科学，2014年。[18] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成见ECCV，第702-716页。施普林格，2016年。[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE国际计算机视觉会议，第2980-2988页[20] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。神经信息处理系统的进展，第469-477页，2016年[21] Ziwei Liu，Xiaoxiao Li，Ping Luo，Chen-Change Loy，and Xiaoou Tang.基于深度解析网络的语义图像分割。在 Proceedings of the IEEE international conference oncomputer vision，pages 1377[22] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页[23] YishayMansour ， MehryarMohri ， andAfshinRostamizadeh.域适配：学习边界和算法。arXiv预印本arXiv：0902.3430，2009。[24] Stephan R Richter ， Vibhav Vineet ， Stefan Roth ， andVladlen Koltun. 播放数据：从电脑游戏里得到的真实情况。在欧洲计算机可视化会议（ECCV）中，第102-118页。施普林格，2016年。[25] German Ros，Laura Sellart，Joanna Materzynska，DavidVazquez，and Antonio M Lopez.Synthia数据集：用于城市场景语义分割的大量合成图像。在IEEE计算机视觉和模式识别会议（CVPR），第3234-3243页[26] 斯瓦米·桑卡拉纳拉亚南、约格什·巴拉吉、阿皮特·杰恩、南林爵士和拉玛·切拉帕。从合成数据中学习：用于语义分割的寻址域转移。在IEEE计算机视觉和模式识别会议（CVPR），2018。[27] Nikolaos Sarafianos，Michalis Vrigkas，and Ioannis A.卡卡-迪亚里斯。自适应svm+：使用特权信息进行领域自适应学习。在IEEE国际计算机视觉研讨会（ICCV研讨会），第2637- 2644页[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[29] Riccardo Volpi， Pietro Morerio， Silvio Savarese ，andVittorio Murino.用于无监督域适应的对抗特征增强。arXiv预印本arXiv：1711.08561，2018。4370[30] Cihang Xie ， Jianyu Wang ， Zhishuai Zhang ， YuyinZhou，Lingxi Xie，and Alan Yuille.用于语义分割和对象检测的对抗性示例。IEEE国际计算机视觉会议（ICCV），第1378- 1387页[31] Hang Zhang ， Kristin Dana ， Jianping Shi ， ZhongyueZhang ， Xiaogang Wang ， Ambrish Tyagi ， and AmitAgrawal.用于语义分割的上下文编码。IEEE计算机视觉和模式识别会议（CVPR），2018年。[32] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议，第2881-2890页[33] Xinge Zhu ， Jiangmiao Pang ， Ceyuan Yang ， JianpingShi，and Dahua Lin.经由选择性跨域对准来适配对象检测器。在IEEE计算机视觉和模式识别会议，2019。[34] Xinge Zhu，Hui Zhou，Ceyuan Yang，Jianping Shi，andDahua Lin.惩罚表现最好的：语义分割适应的保守损失在欧洲计算机视觉会议（ECCV）的会议记录中，第568

下载后可阅读完整内容，剩余1页未读，立即下载