一阶段无监督域自适应对象检测方法的研究

198 浏览量更新于2023-12-05 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列11（2021）100071用于一阶段对象检测的藤井一马，川本一彦 *千叶大学，1-33，Yayoicho，Inage Ward，Chiba-shi，Chiba，263-8522，JapanA R T I C L E I N F O2010年海安会：00-0199-00保留字：领域自适应对象检测无监督学习A B S T R A C T无监督跨域对象检测最近引起了相当大的关注，因为它能够显着降低注释成本。对于两阶段检测器，在特征级自适应方面已经做出了若干改进然而，这种方法不适合无法访问实例级特征的单阶段检测器。虽然其他方法通常用于一级检测器，但与两级检测器的域自适应方法相比，它们的性能不足。在这项研究中，我们提出了一个生成和自我监督域自适应方法的一阶段检测器。该方法由对抗生成方法和基于自我监督的方法组成。我们在三个评估数据集上测试了我们的方法，使用该方法实现了平均精度的提高。我们还确认了对抗性生成方法和基于自我监督的方法的互补效果。1. 介绍计算机视觉因其在自动驾驶、视频监控、异常检测等方面的应用而备受关注。此外，深度学习的出现导致了计算机视觉的重大发展这个领域的典型任务之一是物体检测。在对象检测中，输入图像中的对象被分类，然后使用边界框进行定位。基于深度神经网络的进步，该领域的最新研究取得了显著成果。物体探测器可以分为两级[1 - 3 ]或一级[ 4 - 7 ]。单阶段检测器在推理速度方面更优越基于深度学习的对象检测器通常从具有许多带有实例标签注释的真实世界图像的数据集进行训练，例如Pascal视觉对象类（VOC）[8]。然而，当训练和测试数据具有不同的分布时，性能往往会显着下降。一种可能的解决方案是为新的域收集标记数据，尽管这是一种耗时的方法。另一假设目标域中没有可用的标签专注于视觉任务的无监督域自适应方法可以分为四类：基于差异的方法、对抗性区分方法、对抗性生成方法和基于自我监督的方法[9]。基于差异的方法旨在减少源域和目标域分布之间的差异[10，11]。对抗性判别方法旨在使用特征提取器和域分类器的对抗性学习来对齐特征[12，13]。对抗生成方法使用具有从图像到图像转换获得的原始源注释的目标图像[14- 16 ]。基于自我监督的方法在目标域中包含自我监督学习任务[17-19 ]。对于两阶段检测器，域自适应方法主要基于对抗性判别方法。它们通常被设计为在多个级别上对齐特征，并且已经以各种方式进行了改进。例如，图像级和实例级对齐已在Ref. [20 ]第20段。然而，很难假设这样的方法，解决方案是域适应。领域自适应的目标是使模型从标签丰富的领域（源领域）适应到标签稀缺的领域。单阶段检测器，同时预测边界。博克斯和对象类域（目标域）。特别是，无监督域自适应对于一级检测器，[ 16 ]的作者提出了一个域* 通讯作者。电子邮件地址：fujisan8@chiba-u.jp（K. Fujii），kawa@faculty.chiba-u.jp（K. Kawamoto）。https://doi.org/10.1016/j.array.2021.100071接收日期：2021年2月14日;接收日期：2021年4月26日;接受日期：2021年5月26日在线预订2021年2590-0056/©2021作者。爱思唯尔公司出版这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/journals/array/2590-0056/open-access-journalK. 藤井K. 川本阵列11（2021）1000712在弱监督跨域设置中基于对抗生成方法的转移（DT）。使用DT，具有实例级标注的图像从源域传输到目标域。在无监督环境下，[ 19 ]的作者提出了基于自我监督方法的弱自我训练（WST）。WST能够通过减少不准确的伪标签的负面影响来训练未标记的图像。然而，这些域自适应方法的性能为一个阶段的检测器是不够的相比，为两个阶段的检测器。在四类领域自适应方法中，基于对抗生成和自我监督的方法可以很容易地应用于一阶段检测器。而且，这两种方法各有优点。对抗性生成方法可以访问准确的源标签，同时，基于自我监督的方法可以使用原始目标图像。为了利用这两种方法，我们提出了一种无监督的域自适应方法，该方法将对抗生成方法与基于自我监督的方法相结合。对于每种方法，我们使用DT和WST，它们已被证明对一级检测器有效[16，19]。我们表明，这两个组件互补，从而提高检测性能。概括而言，我们的主要贡献如下。● 提出了一种无监督的单阶段检测器域自适应方法我们的方法包括对抗生成方法和基于自我监督的方法。● 我们表明，对抗性生成方法和基于自我监督的方法相辅相成。● 该方法在三个基准数据集上实现了平均精度的提高。2. 相关工作在本节中，我们回顾了有关对象检测和域自适应的文献。2.1. 对象检测深度卷积神经网络（CNN）的发展提高了对象检测的性能。两阶段检测器（如R-CNN [1]，Fast R-CNN [2]和Faster R-CNN [3]）提取区域建议，然后对其进行分类。两阶段检测器的优点之一是分类器可以定制以适应特定任务[21]。相比之下，单阶段检测器，如You Only Look Once（YOLO）[4]和Single Shot MultiBo XDetector（SSD）[5]，使用单阶段网络实现了推理速度的显著提高。此外，最近的研究[6，7]提高了准确性和推理速度。在这项研究中，我们测试了我们的方法上的SSD，这是一个代表性的一级检测器。SSD具有简单的架构，并且在推理速度和性能方面得到了很好的平衡此外，由于SSD已用于相关研究[16，19]，我们可以进行公平的2.2. 域适应领域自适应的目标是使从源领域学习到的信息适应目标领域的使用[9]的作者将视觉任务的无监督域自适应方法分为四类：基于差异的方法，对抗性判别方法，方法、对抗性生成方法和基于自我监督的方法.基于差异的方法[10，11]设法减少源域和目标域的特征分布之间的差异。对抗性判别方法[12，13]采用对抗性学习来对齐特征。基于差异的方法和对抗性判别方法也被称为特征级自适应，因为它们旨在获得域不变特征。虽然这两类通常表现良好，但它们需要特定于架构的设计。对抗性生成方法[14- 它们基于生成对抗网络[22]，并从源图像中生成类似目标的训练数据。无论架构类型如何，都可以应用此类别，因为它只更改训练数据。然而，性能高度依赖于图像生成的质量。基于自我监督的方法[17 - 19 ]采用自我监督任务，如重建，图像旋转预测和自我训练。这一类别通过向目标图像添加辅助任务使源域然而，与其他类别相比，性能有限。2.3. 域自适应目标检测最近，许多研究已经被提出来解决目标检测中的域移位对于两阶段检测器，经常使用对抗性判别方法[20，23，24]，并且在最近的研究中表现出非常好的性能[25在许多情况下，它们被设计为在多个级别（包括实例级别）上对齐特征。单阶段检测器不能访问实例级特征，因为它们同时预测边界框和对象类。因此，对抗性判别方法对于单阶段检测器是不够的。然而，对抗生成方法和基于自我监督的方法适用于两阶段和一阶段检测器。 [16]的作者提出了DT方法，该方法基于对抗生成方法。 DT使用CycleGAN[28]将具有实例级注释的图像从源域传输到目标域，并在域适应图像上训练检测器。[19]的作者提出使用WST和对抗性背景评分正则化（BSR），它们基于基于自我监督的方法。使用WST，选择未标记图像上的可靠检测，并生成伪实例级注释。BSR通过提取目标背景的鉴别特征来减少域偏移. 在这项研究中，我们结合了一个对抗性的生成方法和一个基于自我监督的方法，一个阶段的检测器。3. 方法在这项研究中，我们提出了一个生成和自我监督域自适应方法的一阶段检测器。图1显示了我们方法的概述。我们的方法基于SSD [5]，并结合了两种方法：DT [16]，这是一种对抗性生成方法，WST [19]，这是一种基于自我监督的方法。在本节中，我们首先将问题公式化，然后解释结合两种方法的效果以及所提出方法的细节。3.1. 问题设置令x和y分别表示输入图像和标签我们作为-N表示从源域中提取源数据fxi;yiSsgi ¼1K. 藤井K. 川本阵列11（2021）1000713tgi¼1GNtGNt不不1/1NsSS1/1NsNt图1.一、拟议办法概览。从目标域Xt中提取目标数据fxi;yi;g，目标图像。考虑到相邻区域的检测结果，将伪标签分配给可靠的然后，WST其中，N。Nt分别是源样本和目标样本的数量我们表示域X的分布为P（X）和P（Xs）P（Xt）。因此，源数据和目标数据具有不同的分布，如使用伪标签训练检测器，同时使用弱阴性挖掘减少假阴性的影响图 2（a）. 我们无法访问目标标签fyi因为我们解决无监督域自适应。3.2. 生成和自监督域自适应tgi¼13.3. 训练方法所提出的方法可以分为三个步骤。预训练SSD：我们使用源数据预训练模型在目标标签可用的理想情况下，目标数据的监督学习是可能的，如图所示。第2段（b）分段。我们接近我是一个很好的朋友。SSD [5]的训练损失可以写如下。一级检测器的无监督域自适应，L.b;c;l;g1 Lb;cαLb;l;g学习设置更接近理想情况。联系我们loc我们提出了生成和自监督域自适应组成的对抗性生成方法和基于自我监督的方法。在对抗生成方法中（图2（c）），源图像被转换为目标图像。虽然dis-其中b是匹配的默认boX，c是多个类的置信度，l是预测的boX，g是地面实况boX，N是匹配的默认boX es的数量，α是权重，Lconf是置信度损失，Lloc是局部化损失传输的图像的分辨率不完全匹配DT：我们在源图像上训练CycleGANxiNs和目标目标图像，带有源标签的传输图像使超模拟学习在基于自我监督的方法中（图2（d）），在目标图像上采用自我监督任务虽然超级-fsgi¼1图像fxiNt .使用经过训练的CycleGAN，我们将源代码图像fxiNs ，其用于预训练，并获得域-无法应用可视化学习，这种方法可以训练sgi¼1自适应图像fxiNs伴随着标签fyi Ns . EX的示例原始目标图像。这两种截然不同的方法预计将s→ti¼1si¼1相辅相成。所提出的方法（Fig. 图2（e））在目标域附近的监督学习和使用原始目标图像进行训练方面接近理想情况（图2（b））。在这项研究中，我们将DT [16]应用于对抗生成域适应图像显示在图。3. 真实世界的图像被传输到每个目标域。微调：使用领域适应数据对模型进行微调fxi; y i和目标图像fxi。在微调过程中，s→tsgi¼1tgi¼1方法和WST [19]的自我监督为基础的方法。DT使用CycleGAN [28]将源图像转换为目标图像。WST通过在批处理由半域适应数据和半目标图像组成我们应用了SSD的损失函数，如等式2所示对于域适应数据和对于目标图像的WST。K. 藤井K. 川本阵列11（2021）1000714图二、输入图像的可视化和学习策略。蓝色：源图像;红色：目标图像;紫色：从源域传输到目标域的图像（对于本图图例中颜色参考的解释，读者可参考本文的Web版本4. 实验4.1. 数据集和评价在我们的实验中，我们使用Pascal VOC数据集[8]作为源域，Clipart1k，Watercolor2k或Comic2k数据集[16]作为目标域。目标图像的示例如图所示。四、PascalVOC是一个真实世界的图像数据集，提供实例级注释。VOC2007-trainval和VOC 2012-trainval数据集包含16，551张图像，包含20个对象类。Clipart1k是一个图形图像数据集，并具有与Pascal VOC相同的类它为训练集提供了500张图像，为测试集提供了另外500张图像Watercolor2k和Comic2k是不现实的数据集，在Pascal VOC中有六个类每个数据集为训练集提供1000张图像，为测试集提供1000张我们在不使用目标图像标签的情况下训练模型，因为我们处理了无监督的域自适应。对于所有实验，我们使用平均精度（AP）和平均平均精度（mAP）作为指标对目标测试数据的不同方法进行了评估。K. 藤井K. 川本阵列11（2021）1000715×þ图三. 域适应图像的示例。Pascal VOC [8]中的图像被转移到Clipart1k，Watercolor2k和Comic2k [16]域。见图4。在目标域中的4.2. 实验装置训练细节：对于所有实验，SSD 300 [5]用作基础检测器。在最初的研究[5]之后，我们使用源数据对模型进行了120，000次迭代。我们用这个模型作为实验的基准在最初的研究之后，我们还使用源图像和每个目标图像训练了CycleGAN20个时期[28]。使用经过训练的CycleGAN，我们从源图像中获得了域适应图像。然后，我们使用我们的方法微调了模型的所有层。将基线作为初始体重。每批由32张图像组成-16张来自域适应图像，16张来自目标图像。该模型被训练了3000次迭代，学习率为1.0 × 10 - 5。比较：我们将我们的方法与基线[5]，DT[16]和WST BSR [19]方法。为了用我们的方法量化对抗生成方法和基于自我监督的方法的相对贡献，我们使用DT或K. 藤井K. 川本阵列11（2021）1000716独自一人。4.3. 结果Clipart1k的结果Clipart1k的性能比较见表1。我们的方法优于其他方法在六个类的AP方面，并提高了12.6%，从基线的mAP和0.4%，从现有的方法。单独应用DT或WST也优于基线。特别是，DT使mAP较基线改善了11.1%。Watercolor2k上的结果：Watercolor2k上的性能比较见表2。我们的方法在所有三个类别中优于其他方法，比基线提高了4.1%，比现有方法提高了0.5%单独应用DT或WST也优于基线。然而，DT仅使mAP从基线改善了0.2%。Comic2k上的结果Comic2k上的性能比较见表3。我们的方法优于其他方法的AP在三个类，提高了10.7%，比基线的mAP和2.4%，比现有的方法。单独应用DT或WST也优于基线。具体而言，DT使mAP较基线改善9.7%。4.4. 定性结果定性结果如图所示。五、我们发现，与基线相比，所提出的方法正确地检测到更多的对象此外，DT检测到的对象，而不是由WST检测所提出的方法，反之亦然。4.5. 讨论互补效应：实验表明，我们的方法是有效的无监督域自适应。基于与单独使用DT或WST相比提高的准确性，对抗生成方法和基于自我监督的方法被认为是相互补充的。测量域距离：为了定量评估每个目标数据集的性能，我们计算了源图像和目标图像之间以及域适应图像和目标图像之间的FID [29]，如表4所示。FID测量Inception-v3模型[30]的高维特征空间中两个分布之间的差异，并指示两组之间的相似性源图像和目标图像之间的FID越小，基线的性能越好，如表1- 3所示DT 性能：我们发现与 Clipart1k 和 Comic2k 相比， DT 对Watercolor2k无效虽然域适应图像和目标图像之间的FID在数据集之间没有显著差异，但Watercolor2k上的距离差异最小，这导致DT的性能较差相比之下，DT对于Clipart1k和Comic2k表现更好，其中距离差异较大。因此，对抗性生成方法的有效性取决于目标数据集。WST性能：WST在所有三个数据集上都有改进。结果表明，基于自我监督的方法是鲁棒的目标域的变化。表1从Pascal VOC到Clipart1k的适配结果对靶图像进行AP（%）列方法基地[5][第十六CAero23.323.328.026.324.2自行车56.660.164.556.355.6鸟17.924.923.924.318.2瓶14.526.421.926.218.4船17.341.519.027.720.4总线39.453.064.349.841.9车33.344.043.545.338.7猫7.24.116.45.05.6椅子43.445.342.249.645.5表28.639.530.541.132.5牛11.551.525.949.218.0马26.440.425.532.329.0狗11.111.67.915.27.1姆比凯48.162.267.655.553.5人35.661.154.559.545.0植物27.337.136.439.326.4羊2.720.910.314.83.9沙发22.039.631.233.225.6火车26.038.457.439.528.6地图25.838.035.736.928.5电视23.536.043.548.130.7公司简介[19]第十九话DTWST（拟定）G S28.261.525.128.9 23.6 57.046.76.8 48.7 49.6 37.016.634.5 60.263.338.5 13.6 36.6 42.448.9 38.4DTWSTK. 藤井K. 川本阵列11（2021）1000717表2从Pascal VOC到Watercolor2k的适应AP方法C bike bird car cat dog person mAPBase [5] 81. 2 45. 6 39. 8 29. 5 27. 1 57. 7 46. 8电话：+86-21-88888888传真：+86-21 - 88888888[19]WST WASHING-BSR S75.6 45.849.3 34.1 30.3 64.1 49.9电话：+86-21 - 88888888传真：+86-21 - 88888888WST S 76.047.142.7 30.3 29.6 65.7 48.6DTWST（拟议）GWST88.6 47.144.1 30.6 28.167.1 50.9表3从Pascal VOC到Comic2k的适应AP方法C bike bird car cat dog person mAPBase [5] 40. 5 10. 1 22. 1 10. 2 11. 8 34. 5 21. 5DT [16] G 43.6 13.6 30.216.0 26.9 48.3 29.8[19]WST WASHING-BSRDT G 49.416.332.7 14.7 22.6 51.2 31.2WST S 45.6 9.9 27.3 9.8 12.6 50.4 25.9DTWST（拟议）GWST52.715.035.813.0 20.856.1 32.2图五. 目标域上的检测结果示例，从上到下：Clipart1k，Watercolor2k和Comic2k [16]。表4源图像和目标图像之间以及域适应图像和目标图像之间的Fr′echetinceptiondistance（FID）[29]源图像表示Pascal VOC数据集，目标图像表示相应的目标数据集，并且域适配图像表示经由DT传送到相应的目标域的Pascal VOC数据集此外，我们还计算了两个FID之间的差异。5. 结论在这项研究中，我们解决了无监督域自适应的一阶段检测器。为了充分利用对抗生成方法和基于自监督的方法的优点，我们引入了一种生成和自监督的领域自适应方法。具体地说，我们提出了一个学习策略的SSD通过应用DT和WST。目标数据集源图像参与目标图像领域适应图像-目标图像距离差我们的实验表明，该方法提高了领域的适应性能在三个基准数据集。此外─Clipart1k 145.2 78.6 66.6水彩2k 124.3 75.9 48.42016年12月28日此外，我们确认我们方法的两个组成部分相辅相成。K. 藤井K. 川本阵列11（2021）1000718信用作者声明藤井一马：概念化，方法论，软件，写作-原始草案;河本一彦：监督，写作-审查编辑。&竞合利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。致谢这项工作得到了住友建设机械有限公司的支持公司引用[1] Girshick R，Donahue J，Darrell T，Malik J. Rich feature hierarchies foraccurateobject detection and semantic segmentation. In：CVPR; 2014.第580 -587页。[2] 吉希克河快速R-CNN。In：ICCV; 2015.第1440 - 1448页。[3] 李文辉，李文辉，李文辉. 更快的r-cnn：利用区域建议网络实现实时目标检测。In：NeurIPS; 2015.p. 91比9[4] [10]李文，李文，李文.你只看一次：统一的，实时的物体检测。In：CVPR; 2016.p.779- 88[5] 刘W，安古洛夫D，埃尔汉D，Szegedy C，里德S，傅C-Y，伯格AC.单次发射多波X射线探测器。In：ECCV.Springer; 2016.p. 21- 37号。[6] J.雷德蒙，A. Farhadi，Yolov 3：一个渐进的改进，arXiv预印本arXiv：1804.02767。[7] Zhao Q，Sheng T，Wang Y，Tang Z，Chen Y，Cai L，Ling H，M2det.一种基于多级特征金字塔网络的单镜头目标检测器。In：AAAI，vol. 33;2019. p. 9259- 66[8] [10]张文辉，张文辉，张文辉. pascal visualobject classes（pascal visual objectclasses）IJCV2010;88（2）：303- 38。[9] S. Zhao，X. Yue，S.张湾，澳-地Li，H. Zhao，B.武河，巴西-地Krishna，J. E.冈萨雷斯，A. L. Sangiovanni-Vincentelli，S. A. Seshia等人，单源深度无监督视觉域自适应（TNNLS）[10] [10]张文军，张文军，张文军.使用深度适应网络学习可转移特征。In：ICML，PMLR; 2015.p. 97比105[11] W. Zellinger，T. Grubinger，E. Lughloves，T. Natschl€ager，S. Saminger-Platz，用于域不变表示学习的中心矩差异（cmd），arXiv预印本arXiv：1702.08811。[12] 放大图片作者：Tzeng E，Hoffman J，Saenko K，Darrell T.对抗性判别域自适应。In：CVPR; 2017. p. 7167- 76[13] [10]杨文，王军，王军.条件对抗域适应。In：NeurIPS; 2018. p. 1640- 50.[14] BousmalisK，Silberman N，Dohan D，Erhan D，Krishnan D.生成对抗网络的无监督pi X el级域自适应。In：CVPR; 2017.p. 3722- 31.[15] HoffmanJ，Tzeng E，Park T，Zhu J-Y，Isola P，Saenko K，Efros A，Darrell T.苏铁：周期一致的对抗域适应。In：ICML，PMLR; 2018.p. 1989- 98年。[16] 张文忠，张文忠，张文忠.通过渐进域自适应进行跨域弱监督对象检测。In：CVPR;2018. p. 5001- 9[17] [10]李伟，张伟，张伟，李伟.深度重建-用于无监督域自适应的分类网络。In：ECCV.Springer;2016. p. 597- 613[18] XuJ，Xiao L，L'pezAM. 用于计算机视觉任务的自监督域自适应。IEEEAccess2019;7：156694- 706.[19] Kim S，Choi J，Kim T，Kim C.无监督域自适应一阶段目标检测的自训练和对抗背景正则化。In：ICCV; 2019. p. 6092- 101[20] 陈毅，李伟，萨卡瑞C，戴D，范古尔L.域自适应快速r-cnn用于野外目标检测。In：CVPR; 2018. p. 3339- 48[21] P'erez-Hern'andez F，TabikS，LamasA，OlmosR，FujitaH，HerreraF. 基于深度学习的对象检测二进制分类器方法，用于识别类似处理的小对象：在视频监控中的应用。知识库系统2020;194：105590。[22] Goodfellow I，Pouget-Abadie J，Mirza M，Xu B，Warde-Farley D，Ozair S，CourvilleA，Bengio Y. 生成对抗网。In：NeurIPS; 2014.p. 2672- 80[23] 谢荣，于芳，王军，王勇，张良.跨域检测的多级域自适应学习。In：ICCVworkshops;2019.[24] M.傅，Z. Xie，W.利湖，加-地Duan，Deeply aligned adaptation for cross-domainobject detection，arXiv preprint arXiv：2004.02093。[25] 徐春东，赵晓荣，金晓，魏晓生。域自适应目标检测的范畴正则化方法。在：CVPR;2020.[26] Chen C，Zheng Z，Ding X，Huang Y，Dou Q.协调可转移性和可辨别性以适应对象检测器。在：CVPR; 2020.[27] 郑勇，黄丹，刘顺，王勇。通过粗到粗的跨域对象检测精细的特征适应。在：CVPR;2020.[28] ZhuJ-Y，Park T，Isola P，Efros AA. 使用循环一致对抗网络的不成对图像到图像翻译。In：ICCV; 2017.p. 2223- 32[29] Heusel M，Ramsauer H，Unterthiner T，Nessler B，Hochreiter S.用双时标更新规则训练的Gans收敛于局部nash均衡。In：NeurIPS; 2017. p. 6626- 37[30] Szegedy C，Vanhoucke V，Ioffe S，Shlens J，Wojna Z.重新思考计算机视觉的初始架构。In：CVPR; 2016.p. 2818- 26

下载后可阅读完整内容，剩余1页未读，立即下载