无监督域自适应下的合成数据学习车辆部分分割

55 浏览量更新于2023-10-25 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19140基于合成车辆Qing Liu1*，AdamK ortyle wski1，Zhishuai Zhangg1，Zizhang Li2†郭梦琪3、<$刘启豪1、袁晓丁4、<$穆继腾5、<$邱伟超1、Alan Yuille11约翰霍普金斯大学2浙江大学3北京航空航天大学4同济大学5加州大学圣地亚哥分校摘要零件分割提供了对象的丰富且详细然而，他们的注释需要大量的工作，这使得很难应用标准的深度学习方法。在本文中，我们提出了通过无监督域自适应（UDA）从合成数据中学习部分分割的想法我们首先介绍UDA-Part，这是一个全面的车辆部件分割数据集，可以作为UDA1的适当基准。在UDA-Part中，我们在3D CAD模型上标记零件，这使我们能够生成大量带注释的合成图像。我们还在一些真实的图像上注释部件，以提供真实的测试集。其次，为了提高从合成数据训练的部分模型到真实图像的适应性，我们引入了一种新的UDA算法，该算法利用对象我们在两个真实测试数据集上的实验结果证实了我们的方法优于现有的工作，并展示了从合成数据中学习一般对象的部分分割我们相信，我们的数据集提供了一个丰富的测试平台，研究UDA的部分分割，并将有助于显着推动这一领域的研究。1. 介绍基于部分的对象表示对于许多计算机视觉任务至关重要，例如对象识别[1，9，72，98]，姿态估计[13，32，93，96]，动作[85]和场景理解[65，70，75]。目前，基于部分的方法通常将对象表示为一组稀疏关键点，因为这些关键点易于在大规模数据集中进行注释以用于训练深度神经网络。相比之下，部分分割提供了更丰富和更详细的部分级对象描述。代替稀疏地识别对象上的特定部分（例如，关键点或部件*通讯作者：qingliu. gmail.com[2]这项工作是在约翰·霍普金斯大学实习期间完成的1https://qliu24.github.io/udapart/图1.通过合成车辆的无监督域自适应（UDA）学习部分分割的说明。基于3D CAD模型上的零件标注，我们提出使用UDA从大规模标注的合成样本和未标注的真实图像中学习，目标是在真实测试图像上做出准确的零件检测），部分分割通过为属于对象的每个像素分配一个且仅一个部分标签来给出对象这是一个更具挑战性的任务，需要更多的注释工作。鉴于其最近的成功，深度学习方法已经主导了计算机视觉的研究，包括对象分割[7，10，47]。然而，这些深度模型通常需要大量带注释的训练数据来实现令人满意的性能。现有的部分分割数据集大多仅包含少量图像[9，74]，或仅定义每个对象类别的少量部分[74，97]，或专注于单个对象类别，例如人类[18，19，43，94]和面部[32，38，39]。这些限制抑制了标准深度分割网络的有效训练，并在很大程度上阻碍了利用部分信息的计算机视觉模型的开发相比之下，3DCAD模型可用于许多不同的对象，并且一旦被注释，就可用于自动生成大规模的零件分割数据集。在这项工作中，我们建议通过从合成数据中学习来解决一般对象的部分分割问题（图1），并分两步解决这个问题。在第一步中，我们介绍了UDA-Part，这是一个全面的零件分割数据集，可以作为19141UDA UDA-Part由来自5个车辆类别的21个3D CAD模型组成。对于每个类别，我们定义了一组细粒度的部件，这些部件在相应类别的所有CAD模型中都有一致的注释。基于这些CAD模型及其部分注释，我们能够使用自动生成的部分分割地面实况渲染大规模合成图像数据集。这些合成数据足以训练深度神经网络，也可用于模型评估或诊断。为了评估从合成数据训练的模型在真实图像上的表现，我们还标记了从PASCAL3D +[93]收集的200个真实图像上的部件，并将其作为UDA部分中的目标测试集。其次，我们介绍了一种新的无监督域自适应（UDA）算法的零件分割。UDA已被用于图像分类[30，59]，关键点检测[53，103]和语义分割[31，105]，其中它在实际图像上实现了令人满意的结果，并且注释成本很小。为了进一步提高UDA在零件分割上的性能，我们引入了几何匹配引导域自适应（GMG）。GMG基于一个全局变换函数在真实图像和合成图像之间进行跨域几何匹配.该函数对匹配施加平滑度约束，从而自适应地保持部件之间的空间关系。一旦找到最佳匹配，GMG将合成标签转移到真实图像，并保留高置信度结果作为联合训练过程的伪标签。简而言之，GMG通过显式地使用合成样本中描述的对象结构来进行部分关系感知的自适应。在我们的实验中，GMG在UDA-Part真实测试图像和PascalPart[9]测试集上的部件分割方面优于其他UDA基线综上所述，我们的主要贡献包括：1. 我们建议通过无监督域自适应（UDA）从合成数据中学习一般对象的部分分割2. 我们介绍了一个新的部分分割数据集的车辆称为UDA-Part，它可以作为一个全面的基准部分分割通过UDA。3. 我们介绍了一种新的UDA算法的部分分割称为几何匹配引导域自适应（GMG），它利用对象2. 相关工作部件分割。刚性[49，69]和非刚性对象[18，43，82，94]都已经在部分分割中进行了研究，其中基于结构的方法，例如，成分模型，被广泛使用[49，82，84，91，92]。在架构方面，全卷积网络（FCN）[84，90]和长短期记忆（LSTM）[42，44]都已被研究。许多作品探索了辅助任务的使用（例如，姿态估计），以提高部分分割，并得到良好的结果[17，19，55，91]。此外，3D几何特征[69]和深度[66]等3D信息也可以嵌入到模型中以提高性能。除了单对象分析之外，最近还提出并研究了多对象分析[51，101]。虽然所有这些方法都需要在真实图像上进行像素级注释，但一些作品开始使用合成数据来推进人类解析[29，81]，但它们仅限于人类对象。在这项工作中，我们的目标是通过从合成车辆中学习来解决一般对象的部分分割。带有刚性对象的零件注释的数据集Ima-geNetPart[83] 为 6 种车辆类别的部件提供边界框注释。PASCAL3D+ [93]包括12个刚性对象类别的关键点注释。 CarFu- sion [61]和ApolloCar 3D [68]包含街道场景中汽车的关键点注释。对于3D对象部件识别，PartNet [52]在3D模型上提供了分层部件注释，涵盖24个对象类别，其中大多数是室内家具，没有一个是车辆。Yi等人。[97]从ShapeNetCore [4]中的16个类别中选择3D模型上的部件进行标记，而他们对部件的定义是粗略的，每个类别的平均部件数量小于4.第一章在图像部分分割的背景下，PascalPart [9]已经被广泛研究。它包括20个类别，但提供有限数量的样品和零件。MVP [46]最近推出，为野外汽车提供详细的零件分割标签。早期的数据集ETHZ [74]提供了141张轮椅图像上的5个部分和139张汽车图像上的6个部分的注释，这不足以进行深度网络训练。PartImageNet [23]是一个非常新的大规模数据集，由158个类组成，每个类最多注释5个部分，需要数百小时的注释。我们的目标是建立一个大规模的部分分割数据集的通用对象有效地使用三维计算机图形模型。从合成数据中学习。由计算机图形技术生成的合成数据对于模型诊断是有效的[28，100]，并且在许多现实世界的应用领域中提高了性能[15，22，37，53，76，81]。然而，合成数据和真实世界数据之间的域转移为了克服这一点，提出了Do- Main自适应[58]。研究了最大平均差异（MMD）及其内核变体[48，71，78，79]，以减少源域和目标域分布之间的差异。在用于语义分割的非监督域自适应（UDA）的背景下，自训练是主流研究方向之一[40，99，104，105]，而使用风格转移[5，24，41，54，64，89]或特征对齐[25，77]来鼓励域边缘分布匹配的兴趣也越来越大其他方法采用类别感知的特征对齐或局部上下文特征相似。19142图2.我们的UDA-Part数据集概述UDA-Part是一个针对五种车辆类别的综合零件分割数据集每个类别由几个3D CAD模型/原型组成通过在这些3D CAD模型上标记部件，我们使用自动生成的部件分割地面实况（左面板）渲染大规模为了对无监督域自适应方法进行基准测试，我们还在适量的真实图像上标记部分进行测试（右图）。[14，26，50，99]。提出了利用UDA解决零件分割问题，利用对象结构指导知识从综合到真实的转换。几何匹配。几何匹配的目的是在细粒度级别上找到属于同一类别的图像之间的空间对应关系手工设计的描述符[3，33，45]和预先训练的卷积神经元都可以使用在早期的作品中探索了人工神经网络（CNN）的功能[20，73，80，95]。最近在可训练图像描述符[34，35，56]和可训练几何模型方面取得了进展。els [6，21，62，63].然而，他们只探索了同一领域中图像的几何匹配。Bai等人。[2]证明了预训练的CNN特征可以有效地用于找到合成图像和真实图像之间的稀疏空间对应关系。Zhou等人。[102]使用3D循环一致性来学习实数到实数和实数到合成对之间的密集对应关系。然而，他们的方法没有考虑全局结构，也没有用几何变换函数约束全局结构，因此结果不具有竞争力。在这项工作中，我们探索跨域几何匹配没有监督，并集成到我们的部分分割框架。3. UDA零件数据集在本节中，我们将介绍UDA-Part，这是一个用于车辆的部件分割数据集，它为用于训练的合成图像和用于测试的真实图像提供了详细的注释（图2）。UDA-Part可以作为通过UDA进行零件分割的综合基准。3.1. 数据生成我们通过五个步骤构建UDA-Part合成图像和真实测试图像上的注释示例如图2所示。更多细节（例如，CAD模型、零件清单等）可以在补充材料中找到。(1) 选择3D CAD模型。UDA-Part由5种车辆类别的21个3D CAD模型组成：汽车，摩托车，飞机，公共汽车和自行车。每个CAD模型代表一个共同的原型（即，子类型）属于的类别。例如，对于自行车类别，CAD模型是不同的自行车子类型，例如实用型、运动型、公路型和双人型。这些可以有效地表示自行车对象的结构可变性。我们总共选择了21个CAD模型，并在UDA-Part中进行了注释。(2) 定义要研究的零件列表。我们从现有的车辆部件数据集[9，74]和维基百科[86-与PascalPart [9]中的部件列表相比，我们做了更细粒度的级别定义。例如，在PascalPart中，类别car有一个零件“back side”。相反，我们区分这里使用的细粒度定义可以合并零件列表并映射到现有数据集中定义的其他粗列表。(3) 在3D CAD模型上注释零件。我们采用由Kim等人[36]构建的Blender [11]插件来在3D CAD模型上执行每个网格部分标记。该插件允许用户为一组选定的网格分配标签我们包括一个质量控制步骤，以确保每个表面网格被分配一个，19143×不S不S不→∈--（i，j），c（i，j），c（i，j），c|STS的火车不训练L（I，Y）= −ylog p（c|I;w），ΣsPascalPart UDA-Part图3.PascalPart [9]测试分割和UDA-Part真实测试图像中每个图像的部件数量直方图X轴表示图像的计数。只有一个标签。在UDA- Part中注释所有CAD模型大约需要300个工作小时。(4) 渲染带有零件注释的合成图像我们使用Blender [11]作为渲染器来生成具有部分分割地面实况的合成图像。按照以前的工作[60，76]，我们随机渲染页-表1.UDA-Part与现有数据集的比较，这些数据集在车辆上具有零件分割标签。在所有基线实验中，我们假设类别标签是已知的，使得针对每个对象类别分别训练和测试这种解释是合理的，因为许多现成的分类器可免费用于UDA部分中包含的对象。类似于语义分割，部件分割模型M可以被公式化为映射函数，参数（例如，视点、光照、对象纹理等）以实现干扰因素控制并促进域生成。我们生成8000个合成图像，分辨率为2048 - 1024为每个三维CAD模型和分裂的训练和测试集的比例为3：1，导致在总的126000图像的训练和42000用于测试。(5) 在真实测试图像上标注零件。我们手动标记的部分分割200个真实的车辆图像（40图像，每类）进行测试。从PASCAL 3D+数据集[93]中选择图像，以包含具有不同子类型和均匀分布的视点的公司现采用国际VGG图像注释器（VIA）[16]用于在图像上标记零件，大约需要150个工作小时。3.2. 数据集比较在表1中，我们将UDA-Part与提供车辆部件分割标签的现有UDA-Part包含每个类别中最多的部分，它在合成图像和真实图像上的注释使得将图像域转换为输出标签域：M：I Y，其预测逐像素类别标签Y1、. - 是的- 是的，C H×W，其中H和W表示图像尺寸，C是零件类别的总数。在UDA中，数据通常从两个域收集：源域（即，合成数据）和目标域（即，真实数据）。在训练期间，我们可以访问来自train的标记的训练样本（Is，Ys）和来自train的未标记的训练样本It。目标是训练一个模型M，该模型可以在测试中对测试样本进行准确预测。大多数现有的方法开始于在标记的源数据上训练仅源模型MS对于具有softmax输出的分割模型，交叉熵损失在优化过程中被广泛使用HW Cs s s ssce（i，j）i=1j =1c=1其中（i，j）是Is中的像素坐标，c是cate。这对于UDA研究来说是足够的。在图3中，我们比较了PascalPart和UDA- Part真实测试图像上标记的每个图像的部件通常，UDA-Part包含的注释是每个图像的2到3倍，使其成为更具挑战性的部分分割基准。更多的母鸡-UDA-Part和PascalPart之间的比较可以在补充材料中找到。4. 几何匹配引导自适应为了促进针对真实世界数据应用的研究，我们探索了无监督域自适应（UDA）算法，该算法使模型能够在syn上训练UDA部分的模拟数据在真实测试模拟中表现良好血腥指数∈ {0，1}是地面实况标签的独热向量中的条目，即，n（i，j），cy=1，且p （i ，j）（c I s; w）是基于模型参数w的预测类别概率。通常，MS具有有限的推广能力，并且由于真实数据和合成数据之间的域离散而对目标样本表现不佳UDA中的一种常见方法是使用MS在It上生成伪标签Y t，这使得能够在I t上进行联合训练。训练和训练基于以下损失函数：L（Strain，Ttrain）=λLce（Is，Ys）+λLce（It，Yt），年龄在本节中，我们介绍我们提出的几何匹配引导域自适应（GMG）方法.GMG的关键步骤如图4所示，并将在下文中详细讨论。4.1. 零件分割和UDA的分类我们从零件分割和无监督域自适应（UDA）的分类开始。在我们的工作和其中λ平衡源域和目标域之间的损失。联合训练过程鼓励学习域不变特征和共享决策边界。已经提出了不同的UDA方法来找到可靠的伪标签Y* t[53，99，104]，选择训练的相关子集[40]，或者为联合训练过程添加正则化项和对抗损失[41，105]。然而，在这方面，每个图像UDA部件（我们的）PascalPart[9]第一章ETHZ[74个国家]SNPart[97个国家]3D模型✓✗✗✓Syn. Img.✓✗✗✗真实图像✓✓✓✗Avg. 部件数量2496419144∈·f||F（k，l）→φ（F，F）=φ（fθ∈T--不--θ图4.几何匹配引导（GMG）域自适应的说明一对合成图像和真实图像通过特征提取器得到它们的特征图，并且基于特征相似性使用跨域几何匹配来估计2-D变换。然后将该变换应用于合成图像的分割地面实况，以使其与真实图像中的部分相匹配。最后，使用置信度阈值过滤掉不可靠的变形结果，并为无监督域自适应中的联合训练步骤制作高质量的伪标签。由于这些方法中的大多数都是为语义分割而设计的，所以它们都没有利用对象f（i，j）Rd. 中两个特征向量之间的相似性Fs和Ft可以通过余弦相似性来测量预测零件的基本结构相反，我们的建议几何匹配引导域自适应（GMG）（fs，ft ）=S（i，j）不（k，l）。planetary使用部件之间的结构关系来生成（i，j）（k，l）S（i，j）||ft||ft||2联合训练的伪标签。4.2. 跨域几何匹配在GMG中，我们使用跨域几何匹配来找到一个最佳的全局变换，可以用来将分割标签从合成转换为真实。跨域几何匹配先前已经被探索用于少镜头学习和对应学习[2，102]，但是具有稀疏对齐或强监督。在这里，我们使用它来促进密集像素级的部分分割的域自适应，并且在整个训练过程中不需要真实图像上的标签。为了强调从不同域采样的特征的相似性，我们使用（i，j）来表示Is中的空间坐标，并且使用（k，l）来表示It中的空间坐标。然后定义一个二维几何变换函数Wθ：R2R2，则It与Is的空间对应关系为（k ′，l ′）=Wθ（k，l），其中θ为变换参数，（k ′，l ′）为（k，l）在Is中的对应坐标.几何变换的质量可以通过对应坐标处的特征相似性的总和来测量：具体地，跨域几何匹配的目的是找到一对合成和s t sWθ（k，l）（k，l）（k，l）），真实图像（Is，It）。为了实现这一点，我们优化了匹配两个图像Is的全局变换函数Wθ我们的目标是找到最佳的参数θ，使得：θ= arg max Φ（F s，F t）。基于他们的特征相似性。Wθ使平滑-θ对匹配进行了ness约束，因此能够保持零件之间的空间关系。在匹配之后，应用变换以转移合成标记Ys作为伪标签Yt。在下面的翼中，我们首先假设输入图像对是给定的，并且两个图像中的物体属于同一原型并且具有相似的视点。然后，我们讨论如何搜索这样的输入对在一个无监督的方式。注意，跨域几何匹配仅用于生成用于联合训练的伪标签。在测试时，在我们的框架中，既不需要成对的输入给定具有相似外观的（Is，It），我们首先使用CNN 卷积层来提取它们的特征图。输出 Fs 和 Ft 是h×w×d张量，可以解释为d维局部特征的h×w网格在实践中，我们遵循Rocco等人。[63]并使用空间Transformer层[27]来实现扭曲，这使得Φ可相对于tθ微分。请注意，我们只是根据特征相似性优化了变换参数。CNN主干在这一步中被固定。输入对的无监督选择。对于每个真实训练图像Ittrain，我们在合成图像中的视点和原型上执行网格搜索，并选择基于Φθθ的最优解。更具体地，我们首先通过从具有24个不同视点的每个原型中选择样本来构建原型合成图像池（即，方位角从0，30，60，. . . 330和从5 °、20 °采样的仰角）。然后，我们对It和该池中的每个Is执行几何匹配。选择实现最高Φθθ的合成图像，并且F，f19145.y−其标签被扭曲以推断It的伪标签。4.3. 伪标签的置信阈值给定θθ，我们可以将Ys变形为It，并将其用作联合训练的伪监督。然而，由于对象形状和3D姿态的可变性，或者由于变换参数的次优估计，扭曲结果可能包含误差为了纠正这种错误，在GMG中，我们使用由仅源模型MS提供的预测的置信度。具体地，对于It中的空间坐标几种流行的UDA方法，从相关任务到对象部分分割。BDL [41]，CRST [105]和CAG [99]都是提出用于语义分割的方法，但遵循不同的策略：BDL使用cycleGAN来减少像素级域差异并鼓励边缘特征对齐; CRST使用平滑正则化进行自训练;而CAG将对抗训练应用于初始化并在自训练期间探索类别感知特征对齐。此外，我们测试了CCSSL [53]，这是一种基于自我训练的方法，InIs hav e ground-truth labelcθ用于关键点检测。CCSSL使用一致性约束，我们使用MS在（k，l）处预测的c'的概率作为置信度得分：zkl=p（k，l）（c<$|It;wS），并且用γ阈值zkl以获得最终伪标记：选择可靠的伪标签，并应用强大的数据增强来提高模型所有基线的代码都改编自原始的公共存储库，并修改为使用相同的后台代码。yt=SWθ（k，l）、如果zkl> γ骨骼和输入尺寸。实作详细数据。我们使用DeepLabv3+[8]作为（k，l）0，否则，GMG的分割网络和所有基线方法，其中0表示处处具有0个条目的向量，并且被交叉熵损失忽略。因此，GMG能够选择高置信度的变形结果作为用于联合训练的伪标签。5. 实验在实验中，使用源数据集中的合成数据和目标数据集中未标记的真实训练图像来训练不同的UDA方法，然后在目标数据集中的真实测试图像上进行评估。数据集和评估指标。在所有实验中，我们使用UDA-Part数据集的合成样本作为源数据。UDA-Part为对象类别car提供30000/24000/24000/24000/24000个/摩托车/飞机/公共汽车/自行车。我们在两个目标数据集上对所有方法进行了评估在第一组实验中，PASCAL 3D +[93] 被用作目标数据集，其中包含2763/624/986/548/661个汽车/摩托车/飞机/公共汽车/自行车的未标记训练图像。在训练之后，在测试分割中的200个（每个类别40个）真实图像上评估域自适应模型，这些图像被选择并注释为UDA部分的真实测试集在第二盘在实验中，PascalPart[9]被用作目标数据集。我们通过裁剪图像来预处理PascalPart数据，以包含单个对象，从而得到538/261/266/221/252训练图像和520/255/280/229/263）测试图像。请注意，PascalPart训练的分割标签图像没有使用。我们首先使用UDA-Part中定义的密集部分标签进行训练，然后在测试期间将预测合并到PascalPart标签空间所有模型都分别在属于每个车辆类别的样本上进行训练和测试。联合平均交集（mIoU）用作部件分割任务的度量，其中首先为每个部件计算IoU，然后对属于相应类别的所有部件进行平均基线方法。为了便于比较，耗氧物质权重从ImageNet [12]预训练模型初始化。我们使用Pytorch [57]在两个TitanX GPU上实现了我们的模型。合成训练图像被重新调整大小以具有800像素的长边缘，而真实训练图像被重新调整大小以具有224像素的短边缘。对于几何匹配，我们使用具有25个锚点的薄板样条变换，并将ImageNet [12]预训练的VGG16网络[67]的前四个卷积块作为特征提取器。置信阈值γ设定为从相应类别中的所有样本获得的分数的第60我们使用Python和8个并行CPU线程实现了对选择对于24个候选人的池，需要2个。每个图像1秒，PascalPart（PASCAL3D+）的训练集大约54（195 当给出地面实况视点时，匹配花费小于0。每个图像4秒，因此PascalPart（PASCAL3D+）大约10（30）分钟。在联合训练期间，我们对合成图像应用强增强，如下[53]。联合训练需要10000次迭代，学习率固定为2。5e4。实际损耗系数λ被设置为1。对于所有“w/vp”实验为0，1为所有其他人更多的培训细节可在补充材料中找到5.1. 主要结果在表2中，我们报告了UDA-Part的真实测试图像上的对象部分分割结果在标题行中，零件数用类别名称旁边的括号表示。仅源模型MS用作初始基线。我们观察到mIoU通常较低，这表明UDA部分合成图像和真实世界图像之间的域偏移确实会干扰模型性能，因此域自适应是必要的。从整体性能来看，摩托车、飞机和自行车上的零件分割更具挑战性，因为它们的零件通常很小，形状不规则，而且自19146汽车（32）摩托车（22）飞机（23）汽车（33）自行车（18）来源仅MS三十七19十五岁91十三岁7119号。43十八岁01CRST [105]BDL [41][99]第十九话CCSSL [53]39岁35四十三60四十八97四十九31十八岁39十七岁15十七岁8921岁87十三岁38十六岁71十六岁06十七岁5021岁03二十二岁95二十五74二十四岁75十五岁31十七岁7819.50十七岁27GMG（我们的）GMG（Ours）w/vp四十九9353.7723岁0923.28十七岁8917.98二十五7826.3119号。0719号。09表2.UDA-Part真实测试图像上的部件分割结果（mIoU）部件的数量在类别名称旁边的括号中表示“GMG”使用无监督网格搜索来查找输入对，而“GMG w/ vp”使用真实训练图像的地面真实视点来减少匹配错误。最好和第二好的UDA结果相应地标记。汽车（14）摩托车（7）飞机（7）汽车（14）自行车（8）全监督学习四十36三十八岁。08四十二47三十四42四十57来源仅MS十四岁2420块4823岁18十六岁0220块21CRST [105]十四岁44二十四岁7123岁04十六岁56二十二岁57BDL [41]19号。02二十六岁8929岁08十七岁29二十二岁45UDA[99]第十九话十八岁39二十四岁0928岁60十七岁12二十二岁22CCSSL [53]二十四岁2328岁80三十二58十八岁59二十二岁25GMG（我们的）二十五6129岁68三十三岁。5019号。30二十二岁91GMG（Ours）w/vp27.5930.7333.9821.2023.63表3. PascalPart测试图像上的对象部分分割结果（mIoU）。部件的数量在类别名称旁边的括号中表示。“GMG”使用无监督网格搜索来查找输入对，而“GMG w/ vp”使用真实训练图像的地面真实视点来减少匹配错误。最好和第二好的UDA结果相应地标记。在图2中也可以观察到阻塞。在基线方法中，CRST仅实现了边际改进，在某些情况下甚至可能损害性能，这意味着简单的平滑正则化在此任务上效果不佳。此外，由于我们的合成图像是随机纹理和背景生成的CAG在汽车和公共汽车上实现了更多的改进，表明类别感知的特征对齐可以在具有规则形状和大面积的零件上工作得很好。CCSSL改进了大多数类别，表明部分分割从一致性约束和强增强中受益更多与基线相比，GMG取得了非常有竞争力的结果，在大多数情况下优于所有其他方法。此外，我们引入了GMG的一个变体，其中通过在几何匹配期间使用真实训练图像的地面实况视点来减少伪标签错误（网格搜索步骤仅寻找最佳原型）。该模型的结果显示在“GMG（Ours）w/ vp”行中我们在表3中报告了Pascal-Part测试图像上的对象部分分割结果。对于这个数据集，我们包括来自DeepLabv3+网络的部分分割结果，该网络以完全监督的方式从真实图像上的PascalPart标签直接训练。这些结果可以被认为是UDA方法的上限。与UDA-Part相比，PascalPart测试集对于某些类别来说似乎更易于管理，因为这些部分的粒度更粗，尺寸更大。另一方面，Pas- calPart中的图像总体上具有较低的分辨率，并且包含更多截断/遮挡对象，使分割任务更具挑战性。因此，不同类别的结果模式与我们在UDA部件测试图像上观察到的结果模式不同。尽管个别测试用例存在差异，但GMG在所有类别上的性能仍然优于所有基线方法。同样，在训练过程中添加地面实况视点可以持续提高GMG的性能。通过与全监督学习结果的比较，我们发现该算法仍有很大的改进空间，并指出了相关的未来研究方向。在图5中，我们比较了GMG和Source-Only模型的对象部分分割一般来说，GMG在识别零件的形状和边界方面做得更好GMG还可以消除违反部分关系的错误预测，这意味着它获得了更多关于对象结构的知识。另一方面，GMG容易对小零件进行误分类，如汽车后视镜和自行车踏板，这些零件的标签很难通过几何匹配正确传递。我们认为这是未来的工作，以提高GMG性能的较小的部分。5.2. 消融和模型诊断GMG变体车mtbk阿尔普尔仅源MS三十七19十五岁91十三岁71+翘曲标签无副总裁四十七8420块65十六岁25w/vp五十三2621岁94十七岁22+conf.脱粒无副总裁四十九9323岁09十七岁89w/vp五十三7723岁28十七岁98表4.GMG组件消融显示了UDA部分真实测试图像的结果19147(mtbk：摩托车; arpl：飞机。）我们定量评估的改进介绍19148图5. GMG结果的可视化。我们展示了来自UDA-Part数据集（第1-5列）和PascalPart数据集[9]（第6，7列）的测试图像的部分分割预测示例。第1-4行分别是每种情况下的真实测试图像、部分分割地面实况、仅源模型预测和GMG预测。表4中GMG的不同组分。与仅源模型相比，基于直接扭曲的合成标签的联合训练通过利用真实样本上的伪监督来获得性能增益。然而，该方法对错误的几何匹配引起的失准更敏感。因此，我们观察到使用视点监督（w/ vp）和不使用视点监督（w/o vp）的模型之间存在较大的性能差距。应用置信阈值改进了所有情况下，特别是当地面实况观点对于真实训练样本不可用时。总之，我们可以在我们的模型中观察到这两个组件的有效性。在输入对选择中，我们观察到阈值分割可以提高视点估计的准确性，但它会导致用于联合训练的伪标签数量减少，并最终损害样本较少的类别（例如摩托车）的分割结果。在更多方位角仓中搜索确实提高了视点准确度，但对最终部分分割mIoU几乎没有积极影响，而在更多仰角仓中搜索在两个度量中几乎没有差异我们还观察到GMG通常对γ不太敏感。当我们将γ从分数的第60百分位数更改为第50（第70）百分位数时，PASCAL 3D+上汽车的mIoU结果从53。77比53 65（53. 59）。更多的细节可以在补充结果中找到在图6中，我们将GMG伪标签质量和通过网格搜索为相应的真实图像选择的合成样本可视化。在前三个示例中，搜索过程成功地找到了具有合理原型和视点的合成图像因此，对具有相似外观的图像对执行几何匹配，并生成用于联合训练的高质量伪标签。在第四行中，我们示出了错误的（即，相反）选择视点。然而，在这种情况下，大多数不正确的标签被过滤掉的置信度阈值，并不会干扰这种情况下的联合训练。图6. GMG伪标签的质量。列1-4分别示出了所选择的源标签、所选择的源图像、目标图像和最终伪标签。浅黄色表示标签不确定。6. 结论我们介绍了通过非监督域自适应（UDA）从合成数据中学习一般对象的部分分割的想法。我们首先介绍了UDA-Part，这是一个针对5种车型的综合数据集，旨在通过UDA进行基准部件分割。将UDA-Part扩展到更多的对象类别是我们未来的目标之一。其次，我们提出了一种新的UDA算法，称为几何匹配引导域自适应（GMG），它利用对象在我们的实验中，GMG优于以前的UDA方法在两个真实的测试图像数据集，展示了使用结构信息的UDA的部分分割的优势另一方面，GMG需要一个网格搜索过程来找到输入对，并且容易对较小的部分进行错误分类，这可以在未来的工作中得到总之，我们的工作提供了一个新的解决方案，部分分割的一般对象与低成本，并将激励更多的研究在这一领域。致谢本工作得到 NSF BCS- 1827427 、NIH R 01 EY029700和ONR N 00014 -21-1的支持2812.感谢肖子豪校对。19149引用[1] Hossein Azizpour和Ivan Laptev。使用强监督可变形零件模型的对象检测。以Eur. Conf.Comput.目视第836-849页，2012年。1[2] Yutong Bai， Qing Liu ，Lingxi Xie ，Weichao Qiu，Yan Zheng，and Alan L Yuille.通过匹配进行语义部分检测：学习从有限的训练数据中概括出新的观点。在国际会议计算中目视，第7535-7545页，2019年。三、五[3] Alexander C Berg，Tamara L Berg，and Jitendra Malik.使用低失真对应的形状匹配和对象识别。在IEEE Conf.Comput.目视模式识别，第1卷，第26-33页，2005年。3[4] 天使X Chang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。2[5] 张伟伦、王惠波、彭文孝、邱伟臣。关于结构的一切：跨领域调整结构信息，以促进语义分割。在IEEEConf. Comput.目视模式识别，第1900- 1909页，2019年。2[6] Jianchun Chen，Lingjing Wang，Xiang Li和Yi Fang。Arbicon-net：用于图像配准的任意连续几何变换网络在高级神经信息。过程系统，第3415-3425页，2019年。3[7] Liang-Chieh Chen ， George Papandreou ， IasonasKokkinos，KevinMurphy，andAlanLYuille.Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 1[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积以Eur.确认补偿目视，2018年。6[9] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFi-dler，Raquel Urtasun，and Alan Yuille.尽你所能检测：使用整体模型和身体部位检测和表示物体在IEEEConf. Comput.目视模式识别，第1971-1978页，2014年。一二三四六八[10] Bowen Cheng，Maxwell D Collins，Yukun Zhu，TingLiu ， Thomas S Huang ， Hartwig Adam ， and Liang-Chieh Chen. Panoptic-deeplab：一个简单、强大、快速的自底向上全景分割基线。在IEEE会议Comput.目视模式识别，第12475-12485页1[11] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。三、四[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE Conf. Comput.目视模式识别，第248-255页，2009。6[13] Jian Dong ， Qiang Chen ， Xiaohui Shen ， JianchaoYang，and Shuicheng Yan.走向统一的人类解析和姿势19150估计在IEEE Conf. Comput.目视模式识别第843-850页，2014年。1[14] 董家华，杨聪，孙甘，刘玉阳，徐晓伟. Cscl：无监督领域自适应的关键语义一致性学习。以Eur. Conf.Comput.目视，第745-762页，2020。3[15] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser 、 Caner Hazirbas

下载后可阅读完整内容，剩余1页未读，立即下载