无监督域自适应的生态域适应性

189 浏览量更新于2023-10-25 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9011阶段一致的生态域适应Yanchao Yang杨燕超加州大学洛杉矶分校视觉实验室东劳大学GaneshSundaramoorthiKAUST UTRC加州大学洛杉矶分校视觉实验室摘要我们引入了两个标准来正则化在没有注释数据可用的域中学习分类器所涉及的优化，利用不同域中的注释数据，这是一个称为无监督域自适应的问题我们专注于语义分割的任务，其中注释的合成数据是大量的，但注释的真实数据是费力的。受视觉心理物理学的启发，第一个标准是两个图像域之间的映射是相位保持的。这限制了可能的学习映射的集合，同时允许足够的灵活性来传输语义信息。第二个标准旨在利用生态统计，或在任何图像中表现出来的场景中的噪声，而不管光源或成像传感器的特性。它使用深度神经网络来实现，该深度神经网络在给定单个未注释图像的情况下对每个可能的分割的可能性进行评分。在标准域自适应框架中验证这两个先验，可以在最常见的语义分割无监督域自适应基准中全面11. 介绍无监督域自适应（UDA）的目的是杠杆年龄的注释“源”数据集在设计学习计划的“目标”数据集，没有地面真理是可用的。当在一个域中容易获得注释时（例如，合成图像）但在另一种情况下昂贵（例如，真实图像），并且在注释费力的任务中恶化，如在图像中的每个像素被分配K个标签之一的语义分割中。如果两个数据集是从同一个分布中采样的，这是一个标准的半监督学习问题。UDA的扭曲之处在于，源数据和目标数据的分布差异很大，以至于在前者上训练的模型在后者上表现不佳典型的域适应工作采用深神经元，*这两位作者的贡献相等。请将信件发送至yanchao. cs.ucla.edu和dong. lao@kaust.edu.sa。1代码可在：https://github.com/donglao/PCEDA图1. 语义内容主要由傅立叶变换的相位分量承载。用大范围内其它图象的幅值代替熊猫图象的幅值分量，并不妨碍我们从傅里叶逆变换产生的图象中识别出熊猫。分布式神经网络（DNN）通过学习使源和目标（边缘）分布对齐的映射，或者通过训练骨干以通过用于域变量的辅助辨别损失而对域变化不敏感来进行。无论哪种方式，这些方法都对边缘分布进行操作，因为标签在目标域中不可用。然而，边缘可以完美地对齐，但标签可以被打乱：一个域中的树木可以映射到另一个域中的房屋，反之亦然。由于我们想要传输关于类的信息，理想情况下，我们想要对齐类条件分布，而我们没有。最近UDA的改进，例如循环一致性，只加强了映射的可逆性，但没有保留语义信息，如类标识，见图13。二、由于问题是不适定的，在UDA中必须强制执行约束或先验。我们引入两个先验或约束，一个在域之间的映射上，另一个在目标域中的分类器上，两者在开始时都是未知的。对于域间映射，我们从视觉心理物理学中知道，图像中的语义信息往往与其傅里叶变换的相位相关联。傅里叶变换的幅度的变化可以显著改变图像的外观，但不会改变图像的解释。9012这表明要激励域之间的转换保持相位。事实上，我们从消融研究中发现，施加相位一致性改善了当前UDA模型的性能。对于目标域中的分类器，即使在没有注释的情况下，由于自然场景的统计规律性（生态统计，[3，11]），目标图像也会通知可能的假设（分割）的集合。语义段不太可能跨越图像平面中的许多边界，并且由于场景中对象的形状的规则性，它们的形状不太可能是高度不规则的由每个单个未注释图像通知的这种通用先验可以从其他（注释的）图像学习并跨图像域传递，因为它们源自它们描绘的场景的属性我们使用条件先验网络[42]来学习分割的数据相关先验，当在UDA中学习目标域中的分类器时，可以在端到端框架中施加这两个先验在UDA基准中产生改进。我们进行消融研究，以量化每个先验对学习分类器（分割网络）整体性能的影响。在下一节中，我们描述了当前的UDA方法，然后描述了我们的方法，该方法在Sect.2.5，之前测试它的经验，在节。3 .第三章。1.1. 相关工作UDA的早期工作主要集中在图像分类[15，12，1]，通过最小化两个域之间的差异度量[14]。最近的方法将对抗学习[13，39]应用于分类，通过实例化鼓励特征空间中对齐的判别器[33，23，35]。不幸的是，这些方法在语义分割任务上都没有图像到图像转换技术[46，25]的最新进展对齐了图像空间中的域，对语义分割[20，19]有一定的好处。[20]这是第一UDA语义分割方法利用全球和分类适应技术。CyCADA[19]适应图像和特征空间中的表示，同时强制循环一致性以正则化图像变换网络。[32]还通过将学习的中间特征投影到图像空间中来应用图像对准。[45]建议课程学习，以逐步减少域差距使用锚点。[41]通过对齐CNN特征图的每个通道中的统计数据来减少图像和特征级别的域偏移，以保留空间结构。[16]生成从源到目标的中间转移域序列，以通过提供多风格翻译来进一步提高可转移性[26]引入了一个类别级对抗网络，以防止在全局对齐。[21]对源图像和随机噪声进行条件处理，以产生与目标相似的样本尽管训练域鉴别器有困难，但是通常，域鉴别器提供的对准标准不能保证原始图像和变换图像之间的语义内容的一致性。除了循环一致性之外，[24，8]还建议在目标域上使用分割网络来鼓励更好的语义一致性。然而，这将使性能高度依赖于所采用的surrogate网络。在心理物理学中，[28]证明了某些相位变化会阻碍或阻止视觉场景的识别。 [27]许多重要的特征，通过傅立叶变换的相位分量可以保持信号，并且在某些条件下，可以仅利用相位完全重构此外，委员会认为，[17]从精神病学的角度表明，傅立叶相位谱在人类视觉中起着至关重要的作用。并行工作[43]表明，将图像的幅度分量与另一个域的幅度分量交换，同时对齐两个域，可以保留语义内容。基于所有这些观察，我们建议使用相位来提供一个有效的语义一致性约束，该约束不依赖于任何代理网络。除了应用于图像或特征空间的判别器之外，[37，38]发现结构化输出空间上的自适应也有利于语义分割。[7]提出了空间感知自适应以及使用具有预训练分类网络的激活监督的目标引导蒸馏。此外，[6]在多任务学习框架中提出了一种几何引导的深度辅助适应。[4]从图像中提取域不变结构，将图像分解为域不变结构和域特定变化。[47]执行迭代类平衡自训练以及使用空间先验对所生成的伪标签进行细化类似的策略也适用于[24，38]。[40]通过像素预测的熵最小化来实现UDA的语义分割。熵映射上的对抗性损失然而，他们都没有明确的场景兼容性，规范化的目标域分割网络的训练模型。2. 方法我们首先描述了一般的图像翻译的非监督域自适应（UDA），以及它是如何使用的se-mantic分割。我们指出了一些缺点，作为对这两个互补约束的启示，我们将在Sect.2.3和2.4，并纳入一个模型的UDA的语义分割节。2.5，我们在节经验验证。3 .第三章。9013图像周期一致性相位一致性θ将每个图像映射到它来自源域或目标域的概率：LD（θ，T;xs）=-10 g[θ（T（xs））].（二）我我图2. 循环一致性不能保证语义一致性，但阶段可以。请注意，即使强制循环一致性，天空也会转换为树（第1行），云会转换为山（第2行），建筑物也会转换为树（第3行）。阶段一致性强制保留语义信息，并提供足够的灵活性来对齐两个域。2.1. 图像翻译：图像翻译理想情况下，对于从目标Pτ绘制的图像，θ返回1，否则返回02.2. 限制和挑战理想地，联合地最小化两个先前的等式将产生在目标域中操作的分割模型，从而产生估计的分割yτ=φ（xτ）。不幸的是，通过最小化等式1训练的变换网络T。（2）不产生好的目标域分类器，因为T仅由等式（1）要求。（2）匹配边缘，这可以在对所有标签进行加扰的同时进行（源中的类别i的图像可以被映射到目标中的类别j的图像）。换句话说，转换网络可以匹配图像统计数据，但没有任何东西促使它匹配语义。循环一致性[46，19]并没有解决这个问题，因为它只强制执行我们考虑两个概率，一个源Ps和一个目标τT：Lcyc（T，T −1; x s）= kx s-T −1<$T（x s）k1.（三）P，通常不同（协变量偏移），如Kullbach-Liebler散度KL（P s）所测量||P τ）。在UDA中，我们只在源域中给出地面实况注释。因此，如果x2R H×W×3是彩色图像，而y2[1，. ..，K]H×W是分割掩码，其中每个像素都有一个相关的标签，我们有图像，源域中的分割，Ds={（xs，ys）}我我我即使在施加了这一约束之后，源域中的建筑物也可以映射到目标域中的树木，反之亦然（图2）。 2）。理想情况下，如果φs是在源上训练的模型，而φτ是在目标上操作的模型，我们会这样：φs（xs）=φτ（T（xs）），8i. （四）我我我Ps（x，y）}Ns，但仅是目标域中的图像，{xτ}τi=1τNi不幸的是，训练φ需要地面实况P（x）}τ。UDA用于语义分割i=1τ目标域，未知。我们可以使用φ作为是训练一个模型φ，例如一个深度神经网络(DNN) ，其将目标图像映射到估计的分割，yφτ=argmaxyφτ（xτ）y，l表示源域注释。由于协变量移位，简单地将在源生成上训练的模型应用于目标数据，通常会产生令人失望的结果。正如在[2]中所观察到的，目标域风险的上限可以通过减小两个分布之间的差距来最小化。源和目标中的样本之间的任何可逆映射T域，例如x s7！T（x s）在它们的分布P s 7之间诱导出一个（ pushfor-ward ）映射！其中 T<$P s（xτ）= P s（T −1（xτ））。地图可以实现通过L（φτ， T;Ds）= X-10g[φτ（T（x））]（1）surro g ate，将φs应用于tar get域，并惩罚等式中两边之间的差异。（4）关于未知数。在没有任何正则化的情况下，这产生了三值结果，其中T（x）=x并且φτ=φs。而Eq。（4）在提供关于T和φτ的信息方面是无用的，它可以被看作是从一个（例如， T）到另一个（例如， φτ）。在接下来的两个系列中，我们讨论了可以施加在T上的附加约束和先验（Sect. 2.3）和φτ（Sect. 2.4），使上述约束非平凡，并可用于UDA的上下文中。2.3. 相位一致性在知觉心理学中众所周知，操纵图像的频谱可以导致不同的效果：傅里叶变换的幅度变化改变了图像，但不影响其解释，而改变图像的频谱可以导致不同的效果。ce（xi， yi）∈DsI yi该阶段产生无法解释的图像[22，28，27，17]。这示于图1，其中，其中T将从源分布采样的数据映射到目标域。间隙由KL（Pτ）测量||T_p_s），并且可以通过（相反地）最大化域混淆来最小化，如由域混淆度量的。将熊猫图像的傅里叶变换替换为熊、旅游地标和风景图像的振幅，但重建的图像描绘了熊猫。换句话说，语义信息9014包含在频谱的相位中，而不是振幅中这促使我们假设变换T应该是保相的。为此，让F：R H×W！ R H×W×2是傅立叶变换。相位一致性，对于变换T，对于通过最小化来获得单通道图像X1XhF（x）j，F（T（x））jiLph（T;x）=-kF（x）k·kF（T（x））k（五）jj2j2其中h，i是点积，k·k2是L2范数。请注意，方程式（5）是原始相位和变换相位之间的差的负余弦，因此，通过最小化，ing方程（5）可以直接减小它们之间的差异，提高相位一致性。我们证明了有效性的相位一致性的消融研究节。3 .第三章。2.4. 现场兼容性虽然目标图像没有地面实况标记，但并非所有语义分割在一开始都是同样可能的。给定一个未标记的图像，我们可能不知道哪些类{1，. ..，K}可能会引起用户的兴趣，但我们知道场景中的对象具有一定的相似性，因此不太可能光度均匀的区域被分割成许多块，或者类段跨越许多图像边界。分割的地图也不太可能是高度不规则的。这些特征告知了给定目标域中的图像的分割的概率，Q（φ（x）|X）。Q可以被认为是基于给定输入图像x的结果分割的可解释性y对每个假设φ（x）进行评分的函数。该函数可以使用给出了地面实况分割的图像（例如源数据集Ds）来学习，然后在推理时用作评分函数。这样的评分函数可以通过条件先验网络来实现工作（CPN）[42]。然而，注意Ds={（xs，ys）}是图3. CPN架构。为了重建被编码到狭窄瓶颈中的分割图，解码器需要利用来自图像的结构信息。CPN重构后的预测φ（x）与x的相容性更好。标签在训练期间被随机排列，以避免过度拟合到方程中的域相关一元预测项。（六）、测量像素之间的标记兼容性，这将更少地依赖于域;例如，白色区域中的像素在目标域中可能不是天空，但它们应该被标记为相同。缺少至少二元项，一元项将导致过拟合源域。为了防止这种情况，我们根据均匀分布随机排列ys中y s|其中PMK是K的类ID的随机排列，类，我们将置换的语义分割掩码表示为y*s，它将原始数据集的大小放大K！. 我们将新的源数据集表示为置换的地面实况遮罩为D，这将使条件分布不变域相关的一元数，即：YP/S（y|x）P（ym=yn|x）（8）M n我我从 Ps（x，y）采样。简单地用D s训练CPN将使Q（y|x）近似P s（y|（x）2、使练习无实际意义。CPN将捕获与域相关的一元预测项和取决于图像结构的域无关成对项。说明这一点注，Ps（y|x）仅基于分段布局而不是语义来评估兼容性。因此，在本发明中，我们使用以下训练损失[42]训练CPNQ，并具有信息容量约束：显式地，我们可以分解Ps（y|x）如下：最小ExQKL（P）|x），Q（y|x））+βI（y，Qe（y））（9）P s（y|（x）YP s（yj|x）JYM nP（ym=yn |（6）其中I表示y与其CPN编码Qe（y）之间的互信息。然后，我们得到一个相容性为了简单起见，我们省略了高阶项一元项Ps（yj|x）测量语义la的li k k k，功能Q（y|（x）YM nP（y m= y n|（十）给定图像的单个像素的bel;例如，白色像素区域表示源域中的天空，这高度依赖于域。两两项P（y m= yn|x）2.我们滥用符号，使用y来表示类和近似其指示函数的soft-max（对9015数似然）向量。所提出的CPN架构如图所示。3和训练的细节，包括编码度量，描述在节。3.第三章。我们现在总结一下总的训练损失，利用每个约束所隐含的漏洞。9016我我我我我D我我我我DD架构SSLCPN道路人行道建筑墙栅栏杆灯标志植被地形天空人乘用车载重汽车bus火车摩托车Miou一一X88.291.441.347.283.282.928.829.221.922.931.731.435.233.328.230.283.080.826.227.883.281.357.659.127.027.777.184.427.531.534.640.92.53.228.330.236.124.544.345.3一X91.2 46.1 83.9 31.6 20.6 29.9 36.4 31.985.039.7 84.757.5 29.6 83.1 38.8 46.92.527.5 38.247.6一XX91.3 48.285.039.426.132.437.440.784.941.9 83.0 59.830.283.640.046.1 0.131.743.349.7BBX86.486.039.539.979.280.627.432.324.321.923.421.629.029.518.023.980.583.133.237.570.175.947.253.218.124.475.479.320.622.823.332.40.00.916.113.95.418.937.740.9BX89.2 40.9 81.229.1 19.2 14.2 29.0 19.683.735.9 80.754.723.3 82.725.828.0 2.325.719.941.3BXX90.1 44.781.0 29.326.420.933.734.383.437.4 71.2 54.0 27.479.9 23.7 39.61.118.5 22.643.1CCX79.189.133.141.477.981.223.422.217.315.332.134.033.335.031.837.181.584.826.732.169.076.262.861.714.712.574.582.120.920.825.625.26.97.318.815.620.418.939.541.7表1. 学习的场景兼容性提高了分割精度。使用学习的场景兼容性Q训练分割模型可以提高所有实验设置下的分割精度，不同的网络骨干：A：ResNet-101，B：VGG-16，C：DRN-26。SSL：自我监督学习。请注意，只要在训练损失中添加Q，而其他术语是固定的，整体语义分割性能就会得到改善。2.5. 整体训练损失结合对抗性损失和我们针对相位一致性和场景兼容性的新约束，我们得到了用于训练图像变换网络T、T-1和目标域分割网络φτ的所提出的主适应方法的总体训练损失：L（φτ， T， T−1;θs，θτ，xs，ys，xτ）=τs s−1τλ（L（θ， T;x） +L（θ， T;x））我们首先描述了用于训练和实施细节的数据，然后通过一个全面的烧蚀研究证明了我们的方法中每个建议组件的有效性然后，我们使用具有不同主干的网络，在GTA 5到Cityscapes和Synthia到Cityscapes基准上，对最先进的方法进行定量和定性比较。3.1. 数据集Cityscapes[9]是一个真实世界的语义分割数据集，包含2975张街景训练图像和500张+ λ周期（L循环（T，T−1;xs）+LCYC（T−1，T;xτ））原始分辨率为2048 ×1024的验证图像，τ+λph（Lph（T;xs） +Lph（T−1;x））其被调整大小为1024*512以用于训练。的图像在欧洲多个城市收集，L（φτ， T;xs，ys）-λ 10 g[Q（φτ（xτ）|xτ）] （十一）西一尼共密集注释。我们训练图像转换网络-工作和使用火车的适配的分段网络其中λ的参数），其值将在节报告。3 .第三章。注意，当使用Eq. （11），我们不置换其输出以评估场景兼容性项。并且场景兼容性Q在使用Eq.（九）、我们遵循[19，24]中的标准程序来训练域鉴别器3. 实验我们在合成到真实语义分割任务上评估了所提出的UDA方法，其中使用图形引擎生成源图像（GTA 5 [9]和Synthia [31]）和相应的注释，并在真实图像上测试了适应的分割模型。在所有实验中，我们使用跨语义类的平均交集得分（ mIoU ）此外，频率加权 IoU（fwIoU）是不同类别的IoU之和，但根据某个类别在数据集中出现的频率进行加权，在GTA5到Cityscapes实验中进行计算和比较。测试集，并报告验证集的结果。GTA5[29]包含24966张来自侠盗猎车手游戏的合成图像，分辨率为1914-1052。它表现出广泛的变化，包括天气和照明。我们将图像大小调整为1280-720，并使用19个兼容的类进行训练和评估。Synthia[31]是一个合成数据集，专注于从虚拟城市渲染的驾驶场景。我们使用 SYNTHIA-RAND-CITYSCAPES子集作为源数据，该子集包含9400幅分辨率为1280nm的图像760美元用于培训16个城市景观公共课程我们使用16个类或子集的13类以下以前的作品[37，24，10]。3.2. 实现细节图像转换网络：我们采用公共CycleGAN [46]框架，并在其中使用“cycle gan”模型。设λD=1。0，λcyc=10。0和λph=5。0，用于训练图像变换网络T、T-1。图像9017图像w/o CPN w/CPN Ground-truth方法代孕输出空间MiouCyCADA [19]X43.5XX43.1[37]第三十七话XXX36.639.342.4X41.1BDL [24]X*X†XX42.744.4我们X44.845.3表2. 相位一致性（我们的）实现了更好的性能。请注意，我们的模型仅使用相位一致性进行训练，优于其他利用代理网络来实现语义一致性（代理）或采用输出空间正则化（输出空间）的方法。* 以及f：使用自训练代理网络的第一轮和第二轮改进的图像变换。从源域和目标域的大小调整为1024×512，然后裁剪为452×452，然后送入网络。我们将batch-size设置为1。0并使用条件先验网络：我们采用标准的UNet [30]架构，并添加分段编码器分支。我们实例化6个卷积层，其变化-nel数是{16，32，64，128，256，256}，以编码图像。前五层中的每一层后面都有2个最大池，类似地，对于语义分割图。编码后的图像和分割在瓶颈处堆叠，然后通过通道号为{512，256，128，64，32，16}的6层解码器，随后是用于类别预测的全连接层。在图像编码器和解码器之间启用跳过连接的网络由初始学习速率为1 e-4的ADAM优化器以批量大小为4训练在每30000次迭代之后，学习率降低10倍。在训练期间，网络旨在通过利用图像信息来重建编码的y*s，这是随机排列的地面实况分割，导致训练损失：Lcp n（Q;y≤s，xs）=NLL（Q（y≤s|（xs），y（xs）（12）其中，NLL表示从CPN训练损失方程中的KL发散项导出的负对数似然损失（九）、较低表示较好的场景兼容性，即。更高Q（y|X）。注意等式中的信息容量约束。（9）由结构瓶颈实现，如[42]。语义细分网络：我们使用不同的分割网络主干进行实验。由于内存限制，我们选择在训练转换网络之后再训练分割网络。我们首先从头开始训练分割网络，使用转换后的源图像和相应的注释，使用等式。（十一）、我们固定λcpn=0。5、所有的实验 Fi-图4. 学习的场景兼容性先验对预测施加规则性。当添加场景兼容性时，分割网络产生的预测与对象边界更好地对齐，并且在对象内更一致。最后，我们应用了[24，38]中的自监督训练技术，以进一步提高目标域的性能。我们接受高置信度（>0。9）作为伪标签的预测。所有网络都使用ADAM优化器进行训练，ResNet-101、VGG-16和DRN-26的学习率分别为2.5e-4、1 e-5和1 e-4。3.3. 消融研究在这里，我们进行了消融研究，调查的有效性和鲁棒性的建议先验。相位一致性：在这里，我们在具有相位一致性的转换源数据集上训练分割网络Deeplab-V2 [ 5 ]。为了使比较公平，所有竞争的方法也使用相同的分割网络作为我们的。本文报道了[37]和[24]的结果原始文件。我们重新训练[19]并报告其超参数调整的最佳性能。结果显示在Tab中。二、在没有代理语义切分网络提供任何代理语义一致性的情况下，我们的切分模型达到了更高的准确率。请注意，引入代理语义一致性来正则化转换网络也会导致更多的内存开销。此外，提高代理网络性能的几轮训练也可能很耗时。然而，我们的相位一致性可以在低计算开销下实现（见3.5节）。有趣的是，输出空间正则化（对齐分割的边缘分布）有时会在某些设置中导致更差的性能，包括[19]我们的这在某种程度上是合理的，因为对齐边缘分布并不能保证给定观测值的条件对齐场景兼容性：为了更好地理解从场景兼容性先验中获得的性能增益，我们在相同的变换源图像上比较了竞争方法。我们使用与我们相同的设置收集所有其他方法的分数，如果需要，我们重新训练他们的模型。9018方法架构道路、人行道、建筑物、墙壁、栅栏、灯杆、指示牌植被地形天空人乘用车卡车公共汽车火车摩托车MioufwIoU[37]第三十七话一86.525.9 79.8 22.1 20.0 23.6 33.1 21.8 81.8 25.9 75.9 57.3 26.2 76.3 29.8 32.17.2 29.5 32.541.475.5DCAN [41]一85.030.8 81.3 25.8 21.2 22.2 25.4 26.6 83.4 36.7 76.2 58.9 24.9 80.7 29.5 42.9 2.5 26.9 11.641.776.2CyCADA [19]一88.340.9 81.4 26.9 19.7 31.3 31.8 31.9 81.6 22.3 77.1 56.3 25.1 80.8 33.4 38.6 0.0 24.6 35.543.677.9SSF-DAN [10]一90.338.9 81.7 24.8 22.9 30.5 37.0 21.2 84.8 38.8 76.9 58.8 30.785.7 30.6 38.1 5.9 28.3 36.945.479.6BDL [24]一91.044.7 84.2 34.6 27.6 30.2 36.0 85.043.6 83.0 58.6 31.6 83.3 35.349.7 3.3 28.8 35.648.581.1我们一91.0 49.2 85.6 37.2 29.7 33.7 38.1 39.2 85.435.485.1 61.1 32.8 84.145.6 46.9 0.034.2 44.550.582.0[37]第三十七话B87.329.8 78.6 21.1 18.2 22.5 21.5 11.0 79.7 29.6 71.3 46.8 6.5 80.1 23.0 26.9 0.0 10.6 0.335.074.9CyCADA [19]B85.237.2 76.5 15.0 23.8 22.9 21.5 80.5 31.3 60.7 50.5 9.0 76.9 17.1 28.2 0.035.473.8DCAN [41]B82.326.7 77.4 23.7 20.5 20.4 30.3 15.9 80.9 25.4 69.5 52.6 11.1 79.6 24.9 21.2 1.3 17.0 6.736.272.9SSF-DAN [10]B88.732.1 79.529.9 22.0 23.8 21.7 10.7 80.8 29.8 72.5 49.5 16.1 82.1 23.2 18.1 3.5 24.437.776.3BDL [24]B89.240.9 81.2 29.1 19.2 14.2 29.0 19.683.7 35.980.7 54.7 23.382.7 25.8 28.0 2.325.7 19.941.378.4我们B2019 - 05 -25 10：00：00 00：0044.679.3CyCADA [19]C79.133.1 77.9 23.4 17.3 32.1 33.3 31.8 81.5 26.7 69.062.8 14.7 74.520.9 25.6 6.918.8 20.439.572.7我们C90.7 49.8 81.9 23.4 18.5 37.3 35.5 34.3 82.9 36.5 75.861.8 12.483.2 19.226.1 4.0 14.321.842.679.7表3. GTA5到城市景观基准的定量评估。我们的方法使用不同的分割架构实现了最佳的mIoU和fwIoU：A（ResNet-101），B（VGG-16），C（DRN-26）。方法架构道路人行道建筑墙 *栅栏 *杆 *灯标志植被天空人乘用车摩托车自行车MioumIoU*[38]第三十八话一82.438.078.68.70.626.03.911.175.584.653.521.671.432.619.331.740.046.5[37]第三十七话一84.342.777.5---4.77.077.982.554.321.072.332.218.932.3-46.7SSF-DAN [10]一84.641.780.8---11.514.780.885.357.521.682.036.019.334.5-50.0BDL [24]一86.046.780.3---14.111.679.281.354.127.973.742.225.745.3-51.4我们一85.944.680.89.00.832.124.823.179.583.157.229.373.534.832.448.246.253.6[37]第三十七话B78.929.275.5---0.14.872.676.743.48.871.116.03.68.4-37.6[38]第三十八话B72.629.577.23.50.421.01.47.973.379.045.714.569.419.67.416.533.739.6DCAN [41]B79.930.470.81.60.622.36.723.076.973.941.916.761.711.510.338.635.441.7BDL [24]B72.030.374.50.10.324.610.225.280.580.054.723.272.724.07.544.939.046.1我们B79.735.278.71.40.623.110.028.979.681.251.225.172.224.116.750.441.148.7表4. 对Synthia-to-Cityscapes基准的定量评估。mIoU和mIoU* 分别是对16个类别和13个子类计算的平均IoU（* 除外）。我们的方法使用不同的分段网络主干实现了最佳性能：A（ResNet-101），B（VGG-16）。在选项卡中。1，我们表明，在所有实验设置下，场景兼容性先验提高了大多数语义类的准确性以及整体平均值。在自我监督学习期间保持性能增益我们在图中给出了定性比较。4，表明场景兼容性先验提供了强的空间规律性以将分割与对象边界对齐。在训练过程中预先验证场景兼容性显著提高了整体分割平滑度和完整性，从而在每个对象内实现更一致3.4. 基准测试结果回顾一下，DCAN[41]和CyCADA[19]已经探索了特征空间对齐。CyCADA还通过训练跨域循环一致图像变换来应用图像级域对齐。输出空间对齐方法包括AdaptSegNet[37]，AdaptPatch[38]和SSF-DAN[10]，其中对分割输出应用各种对抗学习方法以获得更好的域混乱. BDL[24]将来自语义分割的信息作为语义一致的正则化传播回图像变换网络。我们将基于ResNet-101 [18]的Deeplab-V2 [5]和基于VGG-16 [36]的FCN-8 [34]应用于分割网络，以在相同的实验设置下与[37，41，24，40，10为了更好地理解对不同神经网络设置的鲁棒性，我们还将我们的方法应用于重新训练[19]中的DRN-26 [44]模型GTA5-to-Cityscapes基准测试的结果总结在表1中。3 .第三章。我们的方法在mIoU和fwIoU方面实现了所有网络骨干的最先进性能。此外，在不同的设置，我们的方法实现了最好的分数为大多数类，指示，所提出的先验提高分割精度一致地跨越不同的语义类别。我们还提出了一个定性比较图。五、我们提出的方法输出更多的空间正则化预测，这也是一致的场景结构。我们相对实现了4.1%和8.0%的改善，9019相[19]第二十九话：GT图像充分图5. 与最先进方法的定性比较。我们的方法输出更多的空间正则化分割与底层场景结构对齐。所有可视化模型都基于DeepLab-V2，在相同的设置下使用ResNet-101阶段：仅使用阶段一致性进行训练;完整：我们的完整模型。第二个最好的方法，分别使用主干ResNet-101和VGG-16Synthia-to-Cityscapes基准测试的结果可以在Tab中找到4.第一章根据文献中的评估协议评估13或16类的mIoU我们的方法优于竞争的方法在这两个集合。它在大多数语义类别上也取得了最好的结果再次，我们相对于使用不同主链的第二好的实现了4.3%和5.4%的3.5. 计算成本所有网络都使用单个Nvidia Titan Xp GPU进行训练。对于一个1024 × 512的图像，强制相位一致性将产生0.001 s的开销，这可以忽略不计。训练场景兼容性的CPN需要2.5秒来处理一批4张图像，假设图像被裁剪为1280 ×768。将CPN转换为分段训练会为每次迭代增加1.5秒的开销。请注意，在推断分割目标图像时不需要4. 讨论这是经验表明，在节。3.所提出的先验知识在不同的环境下提高了UDA语义分割的准确性，然而，如何在一般的UDA任务中引入语义一致性和生态统计先验知识仍然是一个悬而未决的问题。对CPN的分析是另一个未解决的任务。目前，CPN瓶颈的容量是根据经验选择的为了估计特定任务的最佳瓶颈容量，CPN从图像中利用的信息的定量测量是必要的，这需要未来的探索。无监督域自适应是语义分割的关键，其中真实图像中的密集注释是昂贵且罕见的，但在渲染图像中自动出现UDA是迁移学习的一种形式，它依赖于对源数据和目标数据进行采样的分布之间关系的假设和先验我们引入了两个假设，以及相应的pri- ors和变分再现，集成到端到端差分学习。一个是将一个域映射到另一个域的变换只影响其频谱的幅度，而不是相位。这是由经验证据所激发的，即人类视觉系统所感知的图像语义与频谱的相位而不是幅度相关另一种是先验，用于捕获生态统计，生态统计是由场景中的噪声引起的图像的特征，因此在不同的成像模态和域中共享。我们表明，由此产生的先验提高性能的UDA基准，并量化其影响，通过消融研究。确认研究由ARO W 911 NF-17-1-0304和ONR N 00014 -19-1-2066支持。董老通过VCC中心竞争性资金得到KAUST的支持。9020引用[1] Mahsa Baktashmotlagh ， Mehrtash T Harandi ， Brian CLovell，and Mathieu Salzmann.基于域不变投影的无监督域IEEE International Conference on Computer Vision，第769-776页，2013年[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151[3] 埃贡·布伦斯维克和乔·卡米亚。生态线索-“邻近性”和其他完形因素的有效性。美国心理学杂志，66（1）：20[4] 张伟伦、王惠波、彭文孝、邱伟臣。关于结构：跨域调整结构信息以促进语义分割。在IEEE计算机视觉和模式识别会议论文集，第1900-1909页[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[6] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割：一种几何引导的输入输出自适应方法。在IEEE计算机视觉和模式识别会议上，第1841-1850页，2019年[7] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集，第7892-7901页[8] 陈云春，林燕玉，杨铭轩，黄家斌。Crdoco：具有跨域一致性的像素级域转移。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城

下载后可阅读完整内容，剩余1页未读，立即下载