无源领域自适应语义分割

145 浏览量更新于2023-10-13 收藏 2.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7046CPAE梭曼？CPAE梭曼→→泛化后适应：无源领域自适应语义分割[StarCount*] RitzCarlton，莫斯科4 * 莫斯科大酒店，莫斯科4* 莫斯科大酒店，莫斯科4 * 莫斯科大酒店，莫斯科Venkatesh Babu11班加罗尔印度科学研究所2谷歌研究摘要无监督域自适应（DA）在语义分割中得到了广泛的应用然而，几乎所有的现有技术都假设同时访问标记的源和未标记的目标两者，使得它们不适合要求无源适配的场景。在这项工作1中，我们通过将任务划分为两个来启用无源DAa）仅源域泛化和b）无源目标自适应。对于前者，我们提供了理论上的见解，以开发一个多头框架训练的虚拟扩展的多源数据集，旨在平衡泛化和特异性。对于后者，我们利用多头框架来提取可靠的目标伪标签用于自训练。此外，我们引入了一种新的条件优先执行自动编码器，劝阻空间不规则，从而提高伪标签的质量。在标准GTA5 Cityscapes和SYNTHIA Cityscapes基准上的实验显示了我们的优越性，即使是针对非无源的现有技术。此外，我们展示了我们的兼容性，使部署在一个连续变化的环境中的在线适应。1. 介绍几乎所有的监督学习系统都假设训练和测试数据遵循相同的输入分布。然而，这种假设是不切实际的，因为目标场景通常表现出分布偏移。例如，自动驾驶汽车在部署在与训练不同的条件下时通常无法泛化，例如跨城市[10]或跨天气[59]部署。这是因为该模型未能理解变异的一般因果因素，而是坚持特定领域的虚假相关性[24]。对来自特定分布的训练数据的过度依赖可能导致模型失败，即使对于温和的域偏移，如照明、纹理、背景等的变化。无监督域自适应（DA）是解决此类问题的主要方法之一。这里，目标是将知识从标记的源域转移到*同等贡献。1项目页面：https://sites.google.com/view/sfdaseg多Aug.源数据贸易不带源数据源模型未标记目标数据无源目标推理阶段模型源模型图1.在无源DA中，供应商访问源数据以准备预见的源模型。在此之后，客户端仅接收源模型以执行无监督目标自适应，同时防止对专有源数据的访问。未标记的靶结构域。典型的DA方法[58]的主要限制是需要同时访问源和目标域样本。虽然并发访问更好地描述了分布转移的特征，但它是实际部署场景的主要瓶颈。考虑一个现代企业交易，其中供应商组织可以访问大规模的标记数据集（即源数据），其用于训练源模型。供应商发现多个客户对在其特定目标环境中部署源模型感兴趣然而，由于所有权、隐私或与利润相关的问题，双方都被限制了数据共享这促使我们寻求学习框架，其中供应商可以只交易源模型，而客户端可以在没有源数据的情况下执行目标适配。域自适应的这种特殊情况 [40 ， 34 ， 43] 是无源域自适应（SFDA）。在这项工作中，我们的目标是开发一个SFDA框架的城市道路场景的语义分割。在一个合作的设置中，供应商和客户都必须采用特定的学习策略，以利于最终目标。a) 供应商策略。这些战略可以在两个广泛的方面进行讨论，即。源数据集和训练策略。供应商必须获得旨在包含未知目标场景的实质上多样化的大规模数据集在文献中，多源DA（MSDA）[89，71，1]和域泛化（DG）[38]工作使用多个标记的源域来改进目标生成器。7047→→化。然而，为多个域收集注释是昂贵且耗时的[12]。因此，我们专注于开发一种策略，以模拟多个新的域从一个单一的标记域的样品。精心制作的增强随机扰乱任务-不相关的因素（例如风格化、纹理调制等），便于域不变表示的学习因此，我们设计了多个增强组（AG），其中每个组通过改变某些统计来调制图像，从而构建虚拟的标记源域，以被视为多源数据集。接下来，我们将重点放在制定有效的培训策略上。天真的解决方案是在整个多源数据集上训练单个模型来学习领域通用特征。然而，如果某个AG改变了任务相关的因果因素，则这可能导致次优性能[24]。此外，靶结构域可以类似于AG之一或AG的组合。在这种情况下，领域特异性（AG特异性）学习更有帮助。这促使我们寻求一个特定领域的框架，以补充领域通用模型。因此，我们给出了分析特定领域假设的理论见解，并提出了仅源多增强网络（SoMAN），如图所示。1.一、展望未来，我们认识到SoMAN可能缺乏捕获归纳偏差的能力，这将阻止模型表现出结构一致的预测。这对于密集预测任务特别重要[32，31]。建模一般上下文相关的先验鼓励预测的似是而非的场景片段，同时阻止常见的不规则性（例如，合并区域或分割区域问题[33]）。为此，我们引入了一个单独的模型，即条件优先执行自动编码器（cPAE）。cPAE在供应商提供的分割图上进行训练，并在客户端用于改进证明了无源自适应性能。b) 客户端战略。我们从基于伪标签的自我训练方法中获得动机[17，95]。目标样本通过源模型来选择一组伪标签，这些伪标签随后用于微调网络。在缺乏原始数据的情况下，这种自我训练的有效性取决于以下两个方面。首先，培训必须定期进行，以保留供应商方面的特定任务知识。我们通过只允许少数权重被更新，而其他权重从供应商侧训练中被冻结来解决这个问题。其次，伪标签选择标准必须克服与标签噪声和信息冗余相关的问题我们通过从SoMAN头中选择最佳预测并在通过cPAE转发之后使用修剪的输出来解决这个问题。综上所述，我们做出以下主要贡献：• 我们建议通过铸造供应商端的训练作为多源学习来解决无源DA。为此，我们提供理论见解来分析不同的-输入方法来聚合特定领域的假设。事实证明，域通用和留一配置的组合执行得最好。• 在访问一个单一的源域，我们提出了一个系统的方法来选择一个最小的有效增强类似于一个多源的情况。供应商使用此来开发多头网络，SoMAN订阅留一配置。• 为了对空间结构化分割任务提供强有力的支持，我们开发了一个条件优先执行自动编码器。这鼓励了合理的密集预测，从而增强了伪标签的质量，以帮助客户端侧的自训练。• 我们的无源框架实现了GTA5 Cityscapes和SYNTHIA Cityscapes适应基准的最先进的结果，即使在与非无源现有技术进行比较时也是如此。2. 相关工作在这里，我们简要回顾了分割DA文献[65]。空间DA。DA中用于语义分割的早期工作受到GAN框架的启发[16]，涉及训练分段网络以混淆在潜在特征上执行域不变性的域不变性[20]。[2019 -08 -19 00：00：00][2019- 08：00]将这种区别性对齐[93，9，46，14]化，同时添加补充模块[74，13，76]以改进适应另一行作品[60，7，48，66，79，81]在低维输出空间[84，30，80，69，72，73]而不是高维特征空间上使用相同的框架。然而，这些工作需要繁琐的对抗训练并且依赖于源-目标共存。图像空间DA CycleGAN [92]在图像到图像翻译方面的成功导致了几种DA方法[41，19，9，15，52]，利用它进行输入级自适应，同时还解决了转换图像中的语义一致性。另一类作品[3，57，87，11，78]探索了源域和目标域之间输入级感知不变性[77，83，47，37，75]的风格转移技术然而，这些工作也假设源域和目标域共存。无源DA。Bateson等人[2]使用熵最小化和类比对齐来执行用于医学分割的无源DA。并发的无源作品使用无数据蒸馏、自训练、补丁级自监督[44]和具有熵调节的特征损坏[63]，专注于目标适应。相比之下，我们开发了一种新的方法，供应商端的源培训。通过自我训练。早期的作品[95，41，94]使用高度自信的目标预测作为伪标签，使用置信度阈值选择为了改进伪标签，先验7048D一∈D∈D{}{}一Ki=1我我H∈L A H Ai=1我i=1我HJ∈ H∈我i=1JJJJ{D}ααj∈ H ≤ ∈ AΣ包括K+ 1h∈ H≤A A ∪ H∪ H∗工作使用预测集成[5，83，91，90]，额外的网络[11]，应用约束[64]，修改置信度阈值技术[50，39，61]，利用图像级伪标签[55]和域内（易-难）对抗训练[53]。大多数现有技术使用具有自我训练的标记源来保留任务特定的源知识。DG和MSDA。[89]在分割中使用多个合成数据集进行多源DA（MSDA）。限于一个单一的源设置，我们使用数据增强技术来生成新的域。在存在多源数据的情况下，供应商侧训练等同于域生成[85，6，54]，因为它不涉及目标训练3. 方法考虑一组源图像和分割对（xs，ys）s，其中源图像xs是从边缘分布ps中提取的。未标记的目标图像xtt是从pt中得出的。然而，输出分割图遵循单个边缘分布目标是学习一个映射ys=h（xs），它可以很好地推广x t。所提出的无源域自适应大致分为两个：供应商侧和客户端侧。3.1. 供应商侧策略在没有目标数据的情况下，供应商的任务有效地DG被证明是非常有效的存在下，多个源域。因此，我们计划将供应商侧模型准备作为一个多源表示学习问题。非源代码自由范式。我们假设访问K个源数据集（x si，y si）sii[K]= 1，2，. . . ，K，其中图像x si是从边缘分布p si中绘制的。在非无源范式中，目标是利用所有域（包括目标）来实现一个假设定义1.（无源多域范例）考虑可以访问来自K个源域的标记数据sK的供应商和可以访问未标记目标数据tj的客户端。在无源范例中，供应商准备了一个具有不可变假设支持集SF（某些假设支持的联合）的有先见之明的模型，而没有关于t j的任何信息。该模型与客户端进行交易以进行目标适配，而无需任何数据共享。在源-目标并发访问的假设场景中，客户端可以确定最佳αj，使得t（hSF）。所提出的范例不仅使适应没有任何数据共享，但也使供应商准备一个单一的源模型为所有未来的客户端。因此，该过程在计算和存储方面对于供应商和客户端都变得更高效3.1.1多源表示学习在无源的情况下，供应商虽然旨在学习单个假设，但经验风险最小化（ERM）[70]将是最佳解决方案（所有领域加权相等）。考虑一个sce-nario，其中p，t，j，i.e. 目标tj的边缘分布与源域之一的边缘匹配。在这里，该源领域的特定领域专家肯定会超过ERM基线。为此，假设支持集SF，即某些假设支持的联合将为SFDA提供更好的灵活性。出于此目的，我们讨论以下配置。a) ERM。在ERM配置下，我们设置ASF=HERM，其中HERM以相等的权重形成到所有多源域，即α[i]=1i∈[K].b) 领域专家++（DE++）。该配置包含一组K+ 1个假设支持。这包括K个特定领域的专家以及一个ERMh*= arg minh∈At（h），目标误差较小，其中支持.因此，我们将ASF设为ADE++= ∪KHDE∪ HERM.t（h）=E（x，y）nt[L（h（x），y）]其中h∈Hα*A（1）对于第i个支持DE，α i[i′]= 1i′=ii′[K]，其中1是指示符函数（如果输入条件为真，则为1，否则为0）。c) Leave-one-out++（LO++）。可能会发生使用在这里，是损失和是假设空间。 α∗可以被解释为一个假设子空间，该假设子空间跨越了可以使用源的最佳凸组合α*∈∆ ={α∈[0，1]K：Kα[i]= 1}学习的假设特定源可能导致信息丢失，这阻碍了对未来目标的最佳适应。为了提高对这些目标的支持，我们引入了留一（LO）假设支持，其中第i个子空间HLO是通过留下一个在存在对{Ds}K和Dt的并发访问的情况下，域输出，即，其中α [i′]=11′ i′∈ [K]. 类似I.E.α∗= arg minα（arg minh∈Aαt（h））ii=1.到DE++，LO++也是iK−1假设支持，当在无源范例[35，36]中操作令一个ERM支持K个LO。因此，我们设定供应商可以被M个客户端接近，每个客户端具有不同的目标域t j<$j ∈ [M]。对于每个目标t j，存在一个特定的α*使得ε t（hαj）t（hα）α∆。然而，在缺乏...当前对源域和目标域的访问（SFDA），不可能针对nyta r gettj 对 α j *进行优化。因此，我们提出了一个无源代码的多域范式。SF作为LO++= KLOERM。我们包括ERM支持，即ERM，在LO++和DE++中提供互补的领域通用信息以及不同形式的领域特定信息。这里，各个假设支持被实现为在共同特征提取器上训练的单独分类器头（第3.1.3节）。请注意，我们仅-7049源域目标域DE支持ERM支持LO支持最优为假设支持区一BCAA. 需要人头的预防性成本。本文讨论了一个结果i=1AA不H ∈ H不||不5| |1332目标场景可展开厂商侧配置ERMDE++LO++D.选定的咨询小组原始AG-AAG-BAG-CAG-EAG-D图2.本文给出了A. DE++和B. LO++。黄色符号的位置表示对于不同的ta r get域t j的最佳非无源假设h*j。在无源范式中，对于每个targettj，最接近的vendor假设成分将为合理的适应提供支持。C. 不同目标场景的勾号和十字标记（行）表示相应供应商端配置（列）的适用性。例如，HERM是t j的最佳支持，HDE是对于tj的最佳支持，HLO是对于tj的最佳支持，等等。请注意，LO++的配备合理地支持广泛的目标场景D. 基于所提出的增强选择标准的所选AG（增强域）的视觉图示。边选项需要K个头，而其他特定领域的解决方案，如leave-r-out，具有更高的计算效率。KR比较三种配置的目标误差Δt（h）。结果1. 考虑DE++假设空间ADE++，LO++表征多域数据。考虑源域的假设数据生成过程[56]：数据生成器使用因果类因子f y和非因果域相关因子fs来构建数据样本x s=（f y，fs）。下一个是一组域变量类-假设空间ALO++ ，以及看不见的目标数据Dt。然后，保持增广{Ti}K应用于获得，（h∈ ALO++）≤xsi=Ti（xs）=<$（fy，fi+γ ifs）;γi∈R（3）t t（2）t（h∈ ADE++）≤如图所示2，分布式子空间组成DE++和LO++提供了更好的支持范围广泛的未知目标域相比，相同的由ERM。因此，在Eq。 2，t（hERM）充当目标风险的上限，特别是在无源范式中。此外，等式成立，因为ADE++和ALO++两者已经包括HERM作为组成子空间。DE++和LO++的比较。虽然DE++和LO++都是比ERM更好的替代方案，但不可能写出仅涉及DE++和LO++配置的目标误差的一般不等式请注意，如图所示。对于某些目标场景，DE++的目标误差将小于LO++的目标误差，反之亦然。然而，考虑到源域之间的合理域移位，对于广泛的实际目标场景，LO++提供了比DE++更低的目标误差（见图11）。第2C段）。DE++特别适用于pt psi′fori′∈[K]的情况，这通常是非常罕见的。LO++这里，i通过权重γ i（不改变fy）修改原始域特定因子fs，并引入新的增强相关域特定因子fi。因此，增强修改非因果因素以模拟新的域。通过将输入与相应的标签配对来实现增强数据集，并且表示为（x si=Ti（x s），ys）∈Dsii∈ [K]。源畴数目K的影响。具有非常高的K将导致留一子空间与ERM的显著重叠，即。使LO++的优点无效。此外，高K将引起更高的计算复杂度。因此，通过有原则的选择标准过滤掉增强变得至关重要定义2（增强选择标准）3，如果γ i 1，则将选择<增广i。我们给出了这个条件的一个易于处理的替代，使用一个仅在Ds上存在的假设hs=argminh∈Aλ（x，y）∈Ds（h），（4）Ti（x），y）∈Dsi（hs）−Ti（x，y）∈Ds（hs）>τ;I.E. 经验风险（即，ϵˆ) of hs onDs赢得了广泛的独特的目标场景。和我Ds应大于阈值τ。这确保3.1.2准备虚拟多源域确定LO++为最佳选择后，我们将重点放在获取多源数据上。虽然我们打算扩展源数据的范围，但我们仅限于单个标记的源域。因此，我们计划使用不同的数据增强来模拟多源场景。i在图像统计中施加了实质性的改变，相当于两个不同域之间的风格差距。直观地说，如果一个增强可以抑制（也就是抑制），那么它就被选中γ i<1）原始域因子fs。实际上，在没有解纠缠的fy和fs的情况下，γ i是难以处理的。因此，我们依赖于Eq。4其LHS表达基因-7050CPAE合并区域分裂区域、、i=1不=∪Σ|∈Dsi|G我--i=1K联系我们 ⟩DA. 供应商培训B.客户端培训cPAE培训数据图3.A. SoMAN由一个全局头和多个留一头（左）组成。供应商还对cPAE进行培训，以阻止预测违规行为。B. 客户端接收来自供应商的SoMAN和cPAE，并通过最优头部H i’为目标样本提取鲁棒且有意义的伪标签以执行无源DA。推理模型仅使用最优头部Hi’（无计算开销）。由于域特异性偏差（即，fs和ys之间的相关性）。有关选择标准的详细说明，见补编。这些不同的领域将有助于模型推广到更广泛的目标。此后，我们将这些中的每一个表示为AG（增广群），每个增广群表示特定类型的类保持、域变化增广。3.1.3供应商端架构和培训架构考虑到LO++的优点，我们提出了一种仅源多增强网络SoMAN，其本质上是具有共享CNN骨干F的多头架构（参见图3A）。连同使用ERM优化的全局输出头部Hg，我们采用被训练为对相应的AG敏感的留一头部HiK（即，i）同时与其他不变。形式上，全局头是使用3.1.4条件优先自动编码器在密集预测任务（例如语义分割）中，并非所有预测都是同样可能的。虽然在客户端训练期间目标注释不可用，但我们的目标是在约束解决方案空间之前明确地传授场景的一般知识。使用场景先验将鼓励合理的场景片段，同时发现不规则性（见图1）。3A）如“汽车在空中飞行”、“道路上的草”、“分裂的汽车形状”、“合并的行人”等。我们认识到，SoMAN可能缺乏捕获上述归纳偏差的能力。如何捕捉结构性归纳偏差我们提出了一个有条件的优先执行自动编码器（cPAE），表示为Q，细化预测的分割图（seg-maps）的条件域通用功能提取SoMAN。我们计划将其训练为去噪自动编码器，而不是将其训练为这里出现的问题是：我们如何模拟噪音所有增强的数据集即，DSGKi=1D·S·I并且每个cPAE的输入？我们利用敏感性使用头部特定数据集训练非全局头部H1Ds−i=Dsg\Dsi。培训程序。 SoMAN架构通过同时优化在每个输出头结束时计算的空间分割损失来训练。这鼓励F提取丰富的多源表示，其在提取域通用特征的同时保留域敏感线索（作为留一设置的结果）。我们将全局头的输出表示为hg=Hg（F（x））。按照类似的约定，留一输出头的输出由hi=Hi（F（x））表示。因此，SoMAN的端到端训练的最终目标被公式化为：minΣE−[− ∠y，logh i∠]+E[− ∠y，loghg∠]的留一输出头到相应的AG 以模拟有噪声的 seg-map。因此，cPAE输出分布是Q（yFg （xsi），yf），其中yf=Hi（F（xsi））。 Fg由骨干F和Hg的第一块组成，使得Fg（x si）是域通用特征，因为Hg是使用所有AG训练的。我们训练cPAE以将其输出分布与真实源标签分布p s对齐，如下所示KminE（x，y）[KL（ps（y），Q（yFg（x），y（））]（6）θQi=1这里，KL表示Kullback-Leibler分歧。在实践中，使用cPAE输出与地面实况seg-map之间的交叉熵损失，其从KL项导出。3.2. 客户端策略θi=1（x，y）∈Dsi（x，y）∈Dsg（五）由于客户端只能访问未标记的目标数据这里，θ表示来自所有磁头的一组参数，即θ F，θ H，θHK，. 表示两个输入的点积。在实践中，期望值是通过从相应的数据集采样小批量来计算的。t，我们建议使用自训练的无源自适应步骤。然而，这提出了两个警告，a) 过度拟合错误的过度自信预测的风险可训练CPAE推理阶段模型伪标签萃取自我训练梭曼Leave-one-out头全球主管7051为了解决这个问题，我们建议利用多个头部7052→→→→∈DSoMAN和cPAE生成可靠的伪标签。b) 任务相关信息丢失。为了避免这种情况，我们的目标是保留供应商模型的特定于任务的知识。虽然现有技术训练了整个模型，但我们提出仅训练属于F的后面层的少数权重，而其他权重从供应商侧冻结。冻结的输出头持有有用的、领域通用的、与任务相关的归纳偏见。它还将优化约束为在供应商侧初始化的假设子空间内操作。因此，客户可以利用供应商3.2.1通过cPAE的由于伪标签是所提出的无源自训练中的唯一监督信号，因此确保它们具有高度信息性和可靠性至关重要。为此，我们提出利用供应商提供的SoMAN和cPAE的最佳头部来获得改进的伪标签。我们认为最佳头部是为目标训练数据集产生最低平均自熵的头部形式上，Hi′是最优头部，其中4. 实验我们对我们的方法进行了全面的评估，对国家的最先进的现有作品在多个设置。4.1. 实验设置a) 网络架构。在[41，83]之后，我们使用2种广泛使用的网络架构用于语义分割的DA设置，DeepLabv2 [4]和ResNet101[18]骨架和具有VGG16 [62]骨架的FCN8 [45]有关完整详细信息，请参见附录。b) 数据集。我们广泛地评估了两个流行的合成到真正的基准，即所提出的方法。 GTA5 Cityscapes 和SYNTHIA Cityscapes我们提供了完整的实施细节，在补充。c) 评价指标。在[41，83]之后，我们计算了GTA 5Cityscapes任务的所有19个类的每个类的IoU以及平均IoU（mIoU）。对于SYNTHIA Cityscapes，我们报告了13和16类的相同结果，因为重叠类的数量较少在[50，74，88]之后，我们使用多尺度测试。由于i′= argmini∈{g，[K]}Σx∈Dt{− ﹥hi，loghi﹥}其中hi=由于空间限制，我们报告了类组的平均IoU而不是为每个单独的类报告IoU。Hi（F（x））.最优预测可以表示为Q（hi′）。注意，为了简单起见，我们将cPAE输出表示为省略条件特征输入的Q（hi’）使用最佳预测，我们遵循[41，95]的置信度阈值方法。特别是，我们在整个目标训练集上选择每个类这给出了tar getpseudo-labeledsubset（xt，yt）自我训练。注意，未选择的像素被分配单独的、4.1.1通过自我训练实现我们按照[83]执行三轮自训练，其中每轮由离线方式的伪标签提取组成，然后对提取的伪标签进行监督训练熵最小化在自我训练期间用作正则化器此外，我们使用共享骨干F以及最佳头部H1’，用于自训练和测试时间推断。从形式上讲，d) 隆乳。我们使用具有mIoU度量的定义2来选择以下K=5AGs（参见图2DAug-A（FDA [83]）：这使用傅里叶变换从参考图像转换样式，同时保留输入的语义特征[82虽然FDA[83]从目标图像传输样式，但我们不访问用于供应商端训练的目标数据。我们使用来自风格转移数据集[23]的一个小子集和随机噪声作为参考图像。Aug-B（样式增强[25]）：该技术通过从多元正态分布随机采样样式嵌入而不是使用参考样式图像，使用深度样式传输网络进行样式随机化。这提供了几乎无限数量的样式化选项。Aug-C（AdaIN [23]）：使用自适应实例归一化（AdaIN）层从给定的参考图像注入样式。与Aug-B相比，这提供了使用期望的样式图像来样式化图像的方式。我们使用来自风格转移数据集[23]的一个小子集作为参考图像。Aug-D（天气增强）[27，51]：我们使用真实的-minθFE[−（xt，y（t）∈Dt科学的天气增强以在图像中生成不同水平的雪和霜。与其他AG相比，这模拟了道路场景图像中的真实变化。4.1.2测试时间推断由于我们只提出最佳水头（即Hi′）自我训练，我们的推理阶段模型是Hi′（F（xt）），如图所示。3B.然而，如果在推断期间使用，cPAE提供性能的进一步改进但是，除非另有说明，实验仅使用Hi′（F（xt））进行自我训练和评估，以进行公平的比较。请注意，“w/cPAE”是指cPAE仅用于伪标记提取。Aug-E（卡通增强）[27]：该技术生成输入图像的卡通化版本。这种增强是多样的和有用的，因为它产生几乎无纹理的图像，如在卡通或漫画书中。2背景（BG）-建筑物、墙壁、栅栏、植被、地形、天空;道路基础设施垂直（RIV）-杆、交通灯、交通标志;道路基础设施地面（RIG）-道路、人行道;以及动态材料（DS）-人、汽车、卡车、公共汽车。7053→→→→表1. GTA5城市景观的定量评估。不同分段架构上的性能：A（DeepLabv2 ResNet-101），B（FCN 8s VGG-16）。SF表示无源自适应。参见附录对于每个类IoU的扩展表我们（V）表示我们的供应商侧AG与现有技术的使用，* 表示使用现有技术的发布代码产生的结果。#方法拱 SFBGMCRiv 钻机DS Miou1.[28]第二十八话57.328.331.157.260.2四十七点七2.CrCDA [22]A×57.5 24.5 33.8 73.9 57.6四十八点六3.RPT [88]A×62.5 34.9 42.0 67.3 59.4五十三点二4.[67]第六十七话63.124.245.964.761.852.15.美国 FADA [74]61.9 26.7 35.0 70.8 56.750.16.IAST [50]A×60.4 32.6 34.1 76.5 60.7五十二点二7.Ours（V）+FADA*A×62.8 27.1 35.3 71.157.250.68.Ours（V）+IAST*A×61.0 33.1 34.6 77.161.2五十二点八9.URMA [63]✓55.8 23.8 22.3 73.7 52.8 四十五点一10. SRDA*[2] A✓57.1 20.2 33.5 68.8 51.9 四十五点八11. 我们的（不含cPAE）A✓61.8 30.3 35.1 69.260.8 51.612. 我们的（含cPAE）A✓62.8 33.4 36.2 72.0 66.4 五十三点四13. LTIR [29]B×58.6 14.0 26.5 73.5 42.5四十二点三14. FADA [74]B×57.7 16.3 25.8 71.7 50.143.815. PCEDA [82]B×56.4 20.5 31.2 67.5 49.5四十四点六16. 国家食品药品监督管理局[44] B✓51.67.815.958.6 43.7三十五点八17. 我们的（不含cPAE）B✓54.7 19.9 27.3 66.250.3 四十三点四18. 我们的（含cPAE）B✓49.9 30.3 32.9 74.9 50.8 四十五点九表2. GTA5 Cityscapes的消融研究。* 表示在所述方法之后的3轮自我训练。客户端消融从最佳供应商端模型开始。方法mIoU标准单源 * 44.4多源ERM* 47.6表3.对SYNTHIA Cityscapes的定量评价。在不同分段架构上的性能：A（DeepLabv2 ResNet-101），B（FCN 8s VGG-16）。mIoU和mIoU* 分别在16和13个类别上平均。SF指示该方法是否支持无源适配。有关每个类IoU的扩展表，请参见附录。#方法存档SFBGMCRiv钻机DSmIoU mIoU*1.CAG [86]A× 81.3 32.9 18.0 62.6 54.9 44.5 52.62. 美国军用导弹[91]A× 81.3 33.0 25.1 60.7 61.7 46.5 53.83.[67]第六十七话85.4 38.1 23.3 52.8 63.1 48.74.美国[90]81.8 32.8 25.6 64.8 63.3 - 54.95.IAST [50]A× 83.9 38.9 29.9 61.7 63.4 49.86.RPT [88]A× 85.7 37.2 35.1 68.2 66.2 51.77. URMA [63]✓80.1 23.6 25.1 41.9 46.639.645.08.我们的（不含cPAE）A✓82.9 34.4 22.5 66.8 65.3 48.155.59.第九条。我们的（含cPAE）A✓84.3 42.2 29.3 69.8 67.852.0 60.110. PyCDA [42]B× 75.4 16.4 24.0 53.6 47.6 35.9 42.611. SD [14]B× 79.26.354.4 - 43.412. FADA [74]B× 82.1 16.1 15.1 58.2 52.6 39.5 46.013. BDL [41]B× 78.3 25.2 17.7 51.2 50.5 39.014. PCEDA [82]B× 79.8 30.7 19.5 57.5 49.2 41.115. 我们的（不含cPAE）B= 82.09.521.9 67.0 51.4 40.0 46.7十六岁我们的（含cPAE）B✓ 83.1 17.7 24.5 69.4 51.841.3 48.9表4.领域泛化评估。对于SYNTHIA，mIoU计算了16个类别。SO、ERM和LO分别表示仅源、经验风险最小化和留一法。城市景观供应商侧客户端4.2. 讨论领域专家++（DE++）* 48.0留一法++（LO++）*51.6不含cPAE51.6+ 通过cPAE推断52.5含cPAE53.4+ 通过cPAE推断54.2复杂的供应商侧训练并且不访问源数据。本文对第二个方面作了进一步的研究。a) 与无源现有技术的比较。我们为GTA5 Cityscapes实现了[2]（见表1中的#10-12），因为它们仅报告单个对象段的结果我们提供了供应商侧和客户侧准备的广泛消融研究。此外，我们表明，我们的方法概括了新的目标sce-narios和兼容的在线域适应。4.2.1与现有技术的比较。我们将我们提出的方法与表1和表3中的现有技术进行比较。我们还将我们的供应商侧方法与表4中的先前DG工作进行了比较。我们的方法在所有基准测试中都达到了最先进的性能我们还提出了定性评价我们的方法图。4.第一章与PCEDA [82]，RPT [88]，IAST等先前的作品相比，我们提出的客户端适配更具可扩展性[50]以两种方式。首先，我们的方法不需要图像到图像的翻译网络（PCEDA）或adversar-ial训练（RPT，IAST），从而降低了适应的复杂性。还应注意，冻结的cPAE仅用于获得更好的伪标记，并且不涉及自适应训练的反向传播。第二，客户端可以执行对多个不同目标域的适配，而无需方法GTA5→城市景观ResNet-101 VGG16公司简介ResNet-101VGG16IBN-Net [54]37.134.735.633.0助理秘书长[6]38.835.436.934.2DRPC [85]42.5-37.635.5Ours（ERM）（SO）43.138.940.136.9我们的（LO++）43.539.240.637.47054第我们的表现明显优于他们的方法（8.1%）。我们还比较了并发的无源代码作品[44，63]（参见#9与#12、#16与表1中的#18和表3中的#7对#9），并且表现优于它们约12%。b) 理清使用增强数据的收益。我们示出了在训练期间使用我们的供应商侧AG的2种现有技术[50，74]的结果（表1中的#5-8）。虽然性能与最初报告的相比有所改善，但我们提出的方法（表1中的#12）仍然优于它们。因此，我们提出的方法的改进不仅依赖于使用AG，但也对多头，留一出SoMAN框架和cPAE。4.2.2消融研究表2报告了详细的消融，以独立分析供应商和客户端策略的组成部分。首先，我们评估所提出的供应商侧策略的有效性。为了进行公平比较，我们对所有供应商端消融使用一致的作为基准，我们采用标准（未增强）单-7055→→表5.评估GTA5 Cityscapes模型在Foggy-Cityscapes和NTHU- Cross-City数据集上的泛化和兼容性0.005、0.01和0.02表示数据集中的雾的水平，GT表示地面实况分割图。* 表示我们使用现有技术的公开代码再现的实验我们还显示了标准的Cityscapes结果以供参考。#方法访问雾城-雾城（19级）清华大学-跨城（13级）GTA5|城市19级13级0.0050.010.02Avg.里约罗马台北东京Avg.供应商端（GTA5）1.BDL（不含ST）[41]2.美国食品药品监督管理局 *（不含ST）[83]3.我们的（供应商端）✓| ✓ (no GT)✓| ✓ (no GT)✓| ×43.342.743.153.251.951.540.442.143.636.840.342.430.335.338.335.839.241.438.942.247.042.242.348.742.237.543.441.242.344.541.141.045.9客户端（→Citysc.）4.ASN [68]5.MSL [5]6.BDL [41]7.美国食品药品监督管理局[83]8.我们的（客户端）✓| ✓ (no GT)✓| ✓ (no GT)✓| ✓ (no GT)✓| ✓ (no GT)×|✓（无GT）42.446.448.548.853.451.154.557.757.861.441.038.031.736.941.844.537.541.941.444.340.934.239.844.447.045.644.745.446.042.636.341.644.147.147.544.345.747.645.239.144.047.846.642.748.146.351.748.942.347.647.147.745.746.546.7在线自适应（→雾C/→国立清华大学）9.CBST [95]10.MSL [5]11.CSCL [13]12.我们的（客户端）×|✓（含GT）×|✓（含GT）×|✓（含GT）× |×------------52.253.650.348.851.2----53.354.550.650.552.2----53.854.851.451.052.753.651.145.950.254.355.051.651.353.0图像GT基线供应商侧客户端（w/o cPAE）客户端（w/cPAE）图4.对拟议办法进行定性评价供应商端模型比基线模型更好地泛化，但由于域间隙而比客户端模型表现更差灌输来自cPAE的先验知识在结构上使预测规则化并克服合并区域（黄色圆圈）和分裂区域（蓝色圆圈）问题。扩展评价见附录。最好用彩色观看。源训练模型。ERM模型比基线提高了3.2%。接下来，我们评估DE++并观察到0.4%的改善LO++比DE++进一步提高3.6%。这表明LO++明显优于ERM和DE++。第二，在客户端消融下，用于伪标记提取的cPAE给出1.8%的提高此外，使用cPAE进行推断给出了额外的0.8-0.9%的改善。4.2.3分析跨数据集综合与假设对源和目标的并发访问（灌输目标偏差）的现有技术不同，我们的无目标供应商侧模型被期望很好地推广到看不见的目标。为此，表5显示了我们对其他道路场景数据集的可推广性，例如Foggy-Cityscapes[59]和NTHU-Cross-City [10];在相关真实域上进行自训练之前（#1-3）和之后（#4- 8），即城市景观。在不同的变体中，即使没有同时访问来自相关域Cityscapes的样本，我们也实现了优异的平均泛化。注意，并发访问有利于更好地表征域间隙。4.2.4与在线域适配的兼容性在线适配[26，49]是指需要模型持续适应目前的工作条件。模型的当前状态可以克服其过去的域偏差，以在给定场景下表现最佳。所提出的客户端训练可以被看作是一种在线自适应算法。这里，冰冻的多头SoMAN的参数有助于保留任务特定的知识，同时允许适应来自新环境的未标记样本。在最后一节中在表5中，初始Cityscapes适配的S

下载后可阅读完整内容，剩余1页未读，立即下载