大规模航空影像语义分割中的局部一致性对比学习

200 浏览量更新于2023-10-16 收藏 1.3MB PDF 举报

语义分割

泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3798基于局部一致性唐茂峰1、康斯坦丁诺斯·乔治乌1、齐海荣1、科迪·钱皮恩2、马克·博世2、田纳西大学电气工程与计算机科学系2、埃森哲联邦服务公司{mtang4，kgeorgio} @ vols.utk.edu，hqi@utk.edu，{cody.champion，marc.bosch.ruiz} @afs.com摘要大规模航空影像的语义分割是一项极具挑战性的任务。一方面，与图像覆盖的广阔区域相比，有限的地面真值极大地阻碍了另一方面，遥感的大足迹为语义分割提出了新的挑战此外，复杂且不断变化的图像获取条件进一步使通常发生域移位的问题复杂化。在本文中，我们利用自监督的对比学习（CL）方法的语义分割航空图像。除了像大多数实践那样在特征级别执行CL之外，我们还在语义级别添加了另一个级别的对比学习，利用下游任务的分割输出。此外，我们在语义级CL中嵌入局部互信息，以增强局部一致性。这在很大程度上增强了每个像素的表示能力，并提高了训练模型的泛化能力我们将所提出的方法称为具有局部一致性的多级对比学习（mCL-LC）。在不同基准测试上的实验结果表明，与其他最先进的语义分割任务对比学习框架相比，所提出的mCL-LC具有更mCL-LC还具有更好的推广能力，特别是当存在域移位时。1. 介绍在时间和空间维度上远程收集高分辨率图像数据，可以定期监测地球的大面积区域，从而实现各种任务，如灾害监测，城市规划，农业规划[35，39]等。然而，由于航空图像的大足迹和有限的传感器带宽，有相当大的兴趣和研究在像素级别上对物体类型进行分类。该信息的提取是航空图像中语义分割的基础[42]。图1.使用不同框架对航空影像进行语义分割的结果比较。(a)原始图像。(b)地面真相使用（c ）DeepLab v3+ [9]（监督），（d）MoCo v2 [12]（特征级自监督），（e）GLCNet（全局/局部级自监督）[26]和（f）提出的mCL-LC方法的分割结果。随着深度学习技术在高级和抽象特征学习中的成功，例如，VGG [36]，ResNet [20]和MobileNet [22，33，21]，基于这些主干的各种语义分割模型已经被提出来产生准确和可再现的结果，例如SegNet [2]，PSPNet [44]，Mask-RCNN [19]，DenseASPP[43]，DeepLab [7，8，9]，Fast-SCNN [30]等。然而，这些方法需要依赖于具有高质量标签的大量数据[14，27]，这在许多航拍图像场景中可能不可行，其中创建的数据量非常大，而人类注释器的固有速度非常有限。当只有有限的数据可用于训练时，这些语义模型往往会过度拟合并导致性能低下。为了解决缺乏高保真标记数据的问题，有几个选项可用，包括1）修改3799通过诸如裁剪、翻转等增强现有数据。[16]，2）通过生成对抗网络[31]或基于物理的模型生成合成数据，3）使用预先训练的模型并与目标数据进行微调[15]，以及4）应用迁移学习方法来减少对标记数据的依赖[1]。所有这些技术的一个主要限制是，它们仍然非常依赖于相对大量的标记数据。为此，自我监督学习策略[29，4，25，28，24]得到了越来越多的关注。作为最近发展起来的最有效的自监督学习技术之一，对比学习[10]在不需要任何注释的情况下提取强大的表示方面取得了重大突破。它利用图像的增强来提取相似和不相似图像的表示，并构造高度区分的模型。对比学习在图像分割中显示出了优势[45，38，41]，但仅适用于自然图像。与自然图像相比，大多数分割任务都是基于实例的，遥感图像的大足迹要求模型更能代表本地语义信息[26]。因此，除了通常采用的基于从编码器提取的高级特征的特征级对比学习（CL）之外，我们还在语义级应用CL，利用解码器输出的语义分割我们通过最大化局部互信息进一步增强局部一致性，从而提高局部像素的表示能力。我们将所提出的框架称为具有局部一致性的多级对比学习（mCL-LC）。图1说明了与监督和最先进的自监督方法相比，mCL-LC在语义分割中的有效性。主要贡献有三个方面：(1) 我们提出了一个多层次的CL框架，其中CL是在两个特征级和语义级利用语义分割结果进行，以提高在局部细节的代表性和区分能力。(2) 我们引入互信息作为物理约束的语义级CL的局部一致性，从而可以保持平滑，同时揭示局部细节。通过最大化互信息，我们可以进一步增强模型(3) 我们确定了一个有效的增强方案，伪云噪声生成，量身定制的航空图像分析，增强的重要性，在提高模型的鲁棒性和泛化能力。本文的其余部分组织如下。秒2回顾了对比学习框架的最新发展。秒3详细阐述了所提出的mCL-LC模型设计。秒4给出了有关实验和结果的细节秒第5章总结了本文，并提出了进一步改进的一般方向。2. 基于对比的学习框架对比学习是一种自监督的学习框架，旨在使网络以无监督的方式学习下游任务的重要表示。对比学习机制的要点是使用未标记的图像来创建数据对，即，包含来自同一图像的“信息”的像素。使用各种方法来增强该像素信息以保留底层信息，但是可以从视觉上不同的源来查看。然后，训练过程通常通过CNN对这些图像对进行编码，并生成一个紧凑的特征集。比较相似图像的最终矢量化表示，如果矢量一致，则重新执行模型类似地，负的例子（来自不同来源的图像对）用于通过在训练期间提供排斥力来进一步加强模型精度。这种方法的结果是一个模型，很容易区分相似和不相似的功能，在未标记的训练集，但不编码信息的基础类。一旦特征提取器被训练成表示高密度信息，微调模型被训练成使用具有标签的较小数据集将这些高维表示减少到类别标签[23]中。由于通过初始模型学习的深度特征表示，由该监督分类器学习的特征可扩展到无监督数据集这种范式被称为“无监督的预训练，监督的已经开发了几个基于对比学习的网络。具体来说，Simplified方法[11]是基于实例对比学习的思想，它通过强制从同一样本中增加的正样本相似以及从小批量中的不同样本中增加的负样本不相似来学习。MoCov2 [18，12]也基于实例对比学习的思想，但重点是获得远远超过批量大小的负样本，从而保持具有负样本特征的动态队列，并使用动量更新编码器缓解一致性问题。BYOL [17]和SimSiam [13]也是实例式的，但只关注正对的表示学习。虽然有效，但所有上述对比学习框架都基于从编码器获得的特征执行学习，我们将其称为特征级3800·FL2NNTXKKNTXKKΣ图2.所提出的mCL-LC架构的图示。CL. 对于分割任务，图像级CL往往整体表现良好，GLCNet [26]通过添加局部特征对比学习模块来解决这个问题然而，由于GLCNet不提供用于处理局部特征中的局部一致性的有效机制，因此分割结果往往在局部区域内是有噪声的这些可以从图中观察到。1.一、除了常用的特征级学习之外，所提出的mCL-LC还在语义级对比学习中对正对实施局部一致性，在局部细节和平滑度之间取得良好的平衡，同时保持全局结构。3. 方法如第1、航空图像的大覆盖区需要在局部像素级上更强大的表示，但是不断变化的采集条件只会使问题复杂化-使得提取不变特征更加困难。所提出的mCL-LC被设计用于解决这些问题。其架构如图所示。2.一般来说，一个基于对比学习的框架由三个部分组成：1）数据扩充，2）表征学习，和3）对比损失。在下文中，我们首先阐述了多级CL(mCL)（第二节）3.1）在特征和语义两个层面。然后，我们描述了本地一致性模块的约束，agery。3.1. 多层次对比学习（mCL）除了常用的特征级对比学习之外，对于语义分割任务，我们还提出在语义级应用对比学习，使得“对比”不仅使用高级特征，而且使用局部语义来二级CL。特征级对比学习模块E，如图所示2、使用DeepLab v3+的编码器在将输入图像块p馈送到E时，可以获得高级表示E（p）。然后，这些表示用于生成样式特征[46]，包括通道方式平均值μ（·）和方差σ（·）如下所示f（p）=concat（µ（E（p）），σ（E（p）（1）在计算对比损失之前，需要一个非线性投影头gf（），这已被证明是有效的[11]。因此，在编码器和投影头之后，我们获得表示，z=gf（f（p））。因此，真实水平1NL=（（p，p）+（p，p））（2）k=1嵌入在语义级CL中的互信息（Sec. 3.2）。最后，我们详细介绍了数据增强组件（Sec. 3.3），特别是伪云噪声生成，针对航空成像中的分割任务量身定制其中，pk和pk是从相同补丁pk的扩增生成的非对称补丁对，并且NT-Xent对比损失函数NT-X与Simplified [10]中的相同，其定义如下：3801··我KFτKSΣ=logdPexp（sim（zk，zk）/τ）自相关，这可能导致不同图像中的两个ROI相似。这示于图3，其中两个不同的图像形成负对，但是三个ROINTX（p.sim（z，g（f（p）））（三）根据地理位置匹配的配对可以是相似的(e.g.、红色和黄色ROI对）或不相似（例如，的其中Λ−是批次中的其余补丁集，zk=gf（f（pk）），zk=gf（f（pk））。通过最小化对比损失，它通过强制表示来学习从正向看，对是相似的，而从负向看，对是不相似的。语义级CL。对于分割任务，需要一个解码器结构，该结构通过强制语义特征在正对中相似而在负对中不相似来学习。在这里，我们使用DeepLab v3+的解码器作为语义模块，表示为D（图2）。给定补丁pk，D接收E的输出并生成与pk的大小相同的语义表示，其被表示为qk=D（E（pk））。对通道信息进行积分，我们由此产生伪语义映射 sk ，并且 sk=gs （ μ（qk）），其中μ（）是通道平均算子，gs（）是投影头。遵循与特征级对比度损失相同的过程，我们应用NT-Xent来计算语义对比度损失，其被定义为，1NL =（（s，s）+（s，s））（4）蓝色ROI对）。然而，对比损失将强迫相似块的表示是离散的，这是不希望的。因此，我们引入了局部一致性损失，以确保网络只保留正对匹配位置上的局部语义信息的一致性。图3.负对中的ROI。红色、黄色、蓝色框是负图像对中的匹配ROI，但是由红色和黄色框界定的匹配ROI实际上是相似的。具体地说，为了获得正对中的匹配ROI，我们首先从p中随机选择一个ROI，然后根据ROI在p中的位置确定相同大小的匹配ROI在p中的位置，以确保两个匹配局部区域的中心指向p中的相同位置sl2Nk=1NTXkKNTXkK原始图像通过重复这些步骤，我们可以选择多个不同的ROI。我们将这些ROI的位置传递到D的最后一层，并在exp（sim（sk，sk）/τ）伪语义映射。虽然这些匹配的本地NTX（s.sim（s，g（µ（D（E（p）τ（五）区域来自不同的增强，它们应该共享相同的内容。因此，我们通过cal-i-j来实现匹配的R0Ipair、r0 ij和r0ij之间的一致性损失其中，N表示来自迷你的贴片对的数量一批N个样本，Λ−S是一组伪映射，对应于除正对之外的所有面片，g s（·）是一个类似于gf（·）的投影头。3.2. 局部一致性学习（LC）到目前为止，我们已经构建了一个多层次的对比学习框架。然而，复杂的获取条件下的遥感影像的需求更强大的表示方案，将揭示丰富的细节隐藏在表面下的大足迹。换句计算并最大化互信息。互信息（MI ）已广泛用于多模态配准等问题[47，40]。它是两个随机变量之间的相互独立性的基于香农熵的测量，例如， rj和rj。互信息（rj;rj）度量一个变量（rj或r j）的不确定性相对于另一个变量（rj或rj）减少了多少。基于互信息，局部一致性损失定义如下：NRL =−1<$（I（r<$;r<$））（6）词，需要一个能够理解局部语义细节的模块。在文献[5]中，局部区域的对比损失被用来改善模型与lcNRJJj=1自然图像，这迫使相似的局部区域，利益（投资回报率）的积极对，但不同的是，在负-I（rj;rj）=H（rj）−H（rj|（7）一对。然而，这种策略并不适用于空中。图像，因为它的独特的特点，即，空间Prrj×rjPrj ⊗Prˆj、（8）p∈Λ-expp∈Λ−Sexp鲁杰鲁杰3802|LLLk=1L LLL其中H表示香农熵y，H（rjrj）是rjg iv enrj 的条件熵y。 NR是一个补丁中的R OI的数量，并且rj是伪语义映射中对应的ROI。互信息的精确值很难计算，因此我们采用基于MINE算法[3]的估计，该算法在两层全连接网络中通过反向传播实现总之，mCL-LC的最终损失函数由三部分组成：1）特征级对比度损失，fl（等式2）语义级对比损失，sl（Eq.4）;和3) 局部一致性损失，lc（等式1）（六）。最终损失函数定义如下：L=Lfl+Lsl+ Llc，（9）整个处理流水线在算法1中示出。算法1mCL-LC训练要求：超参数τ、批量N、ROI编号NR输入：训练集I输出：预训练的E和Dthe在这种方法中，随机创建一些点云，并将相关的RGB像素值随机增加50%到100%，以模拟由云形成引起的反射率的可变增加。这种方法的好处是其云形成的随机性质，通过以随机方式改变多个参数（例如云的中心、云团的标准偏差和云覆盖的大小）来实现，模仿自然云的物理外观和性质（例如，形成簇并在边缘扩散图图4示出了伪云噪声的一个示例1：对于批P={pk}N中的每个补丁p k，2：构建ROI位置标签O={ok}N3：对于批次中的所有样品，k=1图4.生成的伪云噪声的效果的图示(a) 原始图像，（b）添加了云遮罩的原始图像。4：获取增强样本和位置：勒日克河5：结束6：提取结构功能：zk和zk7：提取语义功能：s_bandk和s_bandkpk，pk，生成算法进行实验（第二节）。4)以显示包括伪云噪声添加作为航空图像处理中的关键增强方法的益处8：获取本地功能：rk和rk通过位置ok，ok9：计算损失fl（等式2）、sl（等式4），和lc（等式。六、10：计算总损失的方程。911：更新网络权重十二： end for=03.3. 航空影像一般来说，对比学习鼓励模型学习时空不变的特征，其中数据增强发挥重要作用。与遥感图像中采用的常见增强操作一样[26]，我们执行空间变换（如随机裁剪、缩放、翻转和旋转）以学习空间不变特征，并模拟时间变换（如颜色失真、高斯模糊和随机噪声）以学习时间不变特征。更重要的是，考虑到航空图像的固有特性，其中云层覆盖通常是影响下游任务成功的主要限制因素[37]，我们提出了一种新的增强方法，称为4. 实验评价4.1. 实验设计从两个方面对拟定的mCL-LC进行评价：多类别语义切分准确率和泛化能力。我们在不同的基准上评估了所提出的mCL-LC和其他自监督方法，包括 ISPRS Potsdam [32] ， ISPRSVaihungen [32] ， MiniFrance 的 Nice 和 MiniFrance 的Nantes Saint [6]。对于每个数据集，我们将数据随机分为90%，2%，8%，分别用于训练，微调和测试。具体地，训练是在没有标签的对比学习模式中，但是微调是在具有关联标签的监督方式中在测试阶段，标签用于定量评估性能。所用基准的更多细节见表1。值得一提的是，MiniFrance数据集覆盖了16个土地利用类别，明显多于其他基准，这导致不同地区的土地利用类别不平衡和稀疏。此外，与其在对象级别进行分类（例如，汽车、建筑物、树木等），尼斯和3803××××LL××LLLLLLL L LLL南特圣数据集要求模型能够理解空间相关性。例如，如果看到房屋和建筑群，则应将该地点确定为所有这些特征对分割模型提出了额外的挑战。表1.四个数据集的描述。请注意，所有显示器都有3个通道（RGB）Datasets波茨坦Vaihingen尼斯南特圣分辨率0. 05米0. 09米0. 5米0. 5 m类别6 6 16 16培训13916 12525 14686 19589微调310 278 330 435测试1237 1113 1405 1741我们将预训练的mCL-LC的语义分割性能与五种最先进的CL网络进行了比较，包括Simplified [11]，MoCo v2 [18 ， 12] ， GLCNet [26] ， BYOL [17] 和SimSiam [13] 。在训练过程中补丁大小固定为 256256。对于所有的模型，我们使用Adam优化器并训练200个epoch，批量大小为64。初始学习率设置为0。001，具有余弦衰减时间表。对于建议的mCL-LC，我们选择12个ROI的大小为8 8从补丁。在微调期间，epoch的数量设置为20，初始学习率设置为0。0001对于评估指标，我们选择总体准确性(OA)Kappa系数（Kappa coefficient，Kappa）是一个度量分类器正确性和可靠性的指标，用来衡量像素级分类的整体精度。此外，F1分数用于衡量类分类精度。请注意，Nice和Nantes Saint数据集中缺少三个类别。它们是“栽培模式”（第8类）、“城市边缘果园”（第9类）和“云影”（第15类）。此外，由于第一个类别是4.2. 与最新技术水平在这组实验中，我们从OA，Kappa和F1分数的角度评估了所提出的mCL-LC的性能，并与五种最先进的对比学习框架进行了比较。我们还展示了伪云噪声生成增强方法的有效性。结果示于表2中，其中“mCL-LC”表示在数据增强中没有伪云，并且“mCL-LC+”表示具有伪云增强。从这些结果中，我们观察到所提出的mCL-LC在OA和Kappa方面优于所有其他对比学习框架伪云增强的加入进一步提高了大约2%的性能。除了OA和Kappa指标外，我们还计算了每个类别的F1得分。这些结果显示在图中。5.从F1分数，我们再次观察到所提出的mCL-LC对于大多数类别实现了最佳性能。我们进一步研究了在计算局部一致性损失时ROI的数量和大小的影响。结果示于图6.基本设置是一个补丁中的三个2 2ROI从图的顶行6、我们可以看到，8 8和16 16ROI实现了更好的性能。当ROI的大小超过16 16时，性能开始下降。类似地，从图的底部行。6，我们观察到12和15个ROI表现出更好的性能。4.3. 消融研究消融研究分为两部分。首先，我们研究了三个损失函数中的每一个所扮演的重要角色。其次，我们研究了在最先进的对比学习框架中使用伪云增强的效果。虽然我们已经通过在提出的mCL-LC上添加伪云增强来显示性能改进，但在这里，我们扩展了调查，看看结论是否可以推广到其他对比度学习框架。编码器和解码器网络的权重更新主要由等式中的损失函数控制。9，其包括三个模块，特征级对比损失FL、语义级对比损失SL和局部一致性损失LC。表3彻底比较了使用这三个模块的不同组合的分割准确性，从中我们得到了一些有趣的观察结果。首先，结果的前三行（其中仅应用一个损失模块）表明，自监督对比学习机制（使用fl或sl）与仅使用局部一致性损失（lc）相比在表示学习中非常有效，尽管根据OA和Kappa度量，特征级或语义级对比学习的有效性大致相同。第二，使用fl和sl的多层次对比学习（mCL）与单层次学习方法相比，性能大大提高（约4%）。第三，将局部一致性损失（lc）添加到对比学习的任一级别（即，fl+lc和sl+lc）在Nice数据集上也有效地将性能提高了约4%，并且在Nantes Saint数据集上提高了大得多的余量。最后，使用所有三个损失大大提高了整体性能，显示了每个损失所扮演的重要角色。三个损失模块。烧蚀分析的第二部分研究了所提出的伪云增强的效果。在表2中，我们报告了这种新的增强技术如何将拟议的mCL-LC提高约2%，3804表2.在基于像素的语义分割准确性方面与最先进的自主学习框架的比较请注意，监督基线参考DEEPLAB V3+好南特圣波茨坦瓦伊洪根OAKappaOAKappaOAKappaOAKappa监督基线0.67120.54100.66280.53120.75180.68120.76030.7037SimCLR0.61270.50130.60250.44130.73270.64720.72860.6304MoCo v20.62770.50820.62010.45130.73710.67350.73090.6213BYOL0.63660.52300.63110.48500.75090.67150.75460.6407SimSiam0.63050.50220.60360.47350.74390.69030.74920.6333GLCNet0.64940.53020.64070.52910.78110.71790.78550.6807mCL-LC0.69440.53790.67930.53430.80530.73010.82810.7377mCL-LC +0.71200.55200.70080.56890.82170.74400.84530.7506图5.比较尼斯和南特圣的F1成绩。图6.在计算局部一致性时，补丁中ROI的大小和数量的影响。所有四个数据集的OA术语在这里，我们扩展了研究，并利用部署伪云生成作为航空图像处理中其他对比学习框架的标准增强方法的潜力结果显示在图。7在所有六个框架中表现出一致的1% - 3%的OA增量，提供了令人信服的证据，证明伪云生成是一种有利于航空图像分析的标准增强方法。表3.情商三种损失中每一种影响的消融研究。9模块Nice Nantes Saint OA Kappa OAKappaLfl0. 61330. 5107 0. 5933 0. 4395L sl0. 60270. 5283 0. 5756 0. 4510我看是0。4033 0. 3212 0. 4308 0. 2977L fl+ Lsl0. 6409 0. 5539 0. 6307 0. 5371L fl+ Llc0. 6517 0. 5324 0. 6463 0. 5133L sl+ L lc0. 6320 0. 5681 0. 6215 0. 5482L fl+Lsl+Llc0. 6944 0. 5623 0. 67930. 5543姐4.4. 概化分析在这组实验中，我们使用零激发域测试来评估mCL-LC的具体而言，在一个城市进行训练和微调，在另一个城市进行测试。不同对比学习框架的OA和Kappa如表4所示，其中箭头左侧的城市表示训练和微调城市，箭头左侧的城市表示训练和微调城市。3805表4.场地转移（OA）中的零射概化比较OASimCLRMoCo v2GLCNetBYOLSimSiammCL-LC尼斯→南特圣0.44020.46840.47440.43250.39260.6108南特圣→尼斯0.08160.17620.30180.20040.21310.4719图7.探索伪云增强效果的烧蚀实验结果。右边是测试城市。从该表中，我们可以观察到mCL-LC比所有其他对比学习框架的性能高出15%以上。图8.不同框架在有无领域转移下的泛化能力比较。图8显示了对模型对域转移的鲁棒性的更彻底的比较在图中，对一个城市进行培训和微调（例如，在另一个城市进行测试（例如，南特圣）。我们观察到，当域转移存在时，所有框架的性能都会下降。然而，与其他框架相比，所提出的mCL-LC下降最少。例如，MoCo v2在Nice数据中下降接近90%，在Nantes Saint数据中下降接近86.8%，但所提出的mCL-LC在Nice中仅下降不到30%，在 Nantes Saint中下降不到24.8%。这显示了mCL-LC在泛化方面的优越性能。5. 结论在本文中，我们提出了一个多层次的对比学习（CL）框架，不仅利用流行的特征级CL从编码器输出，但也从解码器输出的语义级CL，以提高在局部像素级的表示能力。这是必不可少的，特别是航空图像分析，其中像素往往覆盖一个大的足迹。为了进一步平衡局部细节和局部平滑度之间的权衡，我们引入互信息作为物理约束，以在保持细节的同时强制局部一致性我们进一步展示了伪云生成作为航空图像标准增强技术的巨大潜力。所提出的mCL-LC框架与其他单级或多级CL框架相比表现出更好的性能，特别是当存在域移位时，表现出强大的泛化能力。今后，我们计划主要在两个方面开展这项工作。第一是研究像素级表示框架及其对航空和自然图像分割问题的贡献第二是探索CL在遥感多模态表示中的潜力。确认这项研究是基于国家情报总监办公室（英特尔高级研究项目活动）通过2021- 20111000006支持的部分工作。本文所包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI、IARPA或美国政府的官方政策，无论是明示的还是暗示的。美国政府被授权为政府目的复制和分发重印本，尽管其中有任何版权注释。3806引用[1] Nouman Ahmed，Sudipan Saha，Muhammad Shahzad，Muhammad Moazam Fraz，and Xiao Xiang Zhu.用于卫星图像中森林映射的渐进式无监督深度迁移学习。在IEEE/CVF国际计算机视觉会议论文集，第752-761页，2021年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481[3] Mohamed Ishmael Belghazi 、 Aristide Baratin 、 SaiRajesh-war 、 Sherjil Ozair 、 Yoshua Bengio 、 AaronCourville和Devon Hjelm。互信息神经估计。Jennifer Dy和 Andreas Krause ，编辑， Proceedings of the 35 thInternationalConferenceonMachineLearning ，Proceedings of Machine Learning Research 第80 卷，第531-540页。PMLR，2018年7月10日[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 Advances in NeuralInformation Processing Systems，33：9912[6] Javiera Castillo-Navarro ， Bertrand Le Saux ，AlexandreBoulch，NicolasAudebert和S e'bastienLe fe' vre。对地观测中的半监督语义分割：MiniFrance套件、数据集分析和多任务网络研究。机器学习，4月2021年。[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[8] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[9] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[10] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架HalDaume III和Aarti Singh，编辑，第37届国际机器学习会议论文集，机器学习研究第119卷，第1597Pmlr，2020年7月13日[11] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E Hinton.大的自监督模型是强半监督学习器。神经信息处理系统进展，33：22243[12] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe. 通过动量对比学习改进基线。在https://arxiv.org/abs/2003.04297，2020年。[13] Xinlei Chen，Kaiming He.探索简单的连体表征学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第15750-15758页[14] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. 2016年城市场景语义理解数据集[15] Maayan Frid-Adar，Avi Ben-Cohen，Rula Amer，HayitGreenspan。使用带有imagenet预训练编码器的u-net改进胸片中解剖结构的分割在运动器官、乳腺和胸部图像中，第159Springer，2018.[16] Maa Ghaffar，A McKinstry，T Maul和TT Vu。卫星图像超分辨率数据增强方法研究。ISPRS Annals of thePhotogrammetry，Remote Sensing and Spatial InformationSciences，4：47[17] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar ， Bilal Piot ， koraykavukcuoglu，Remi Munos，and Michal Valko.BootstrapYour Own Latent -- 自我监督学习的新方法 In H.Larochelle，M. 兰扎托R. Hadsell，M.F. Balcan和H. Lin，编辑，Advances inNeural Information Processing Systems ，第 33 卷，第21271-21284页。Curran Associates，Inc. 2020年。[18] 何开明，范浩奇，吴宇新，谢赛宁，罗斯·吉尔希克，黄勋，和塞尔日·贝隆吉.用于无监督视觉表示学习的动量在2020年IEEE计算机视觉国际会议上[19] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[21] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.搜索mobilenetv 3.在IEEE/CVF计算机视觉国际会议论文集，第1314-1324页[22] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[23] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna ， YonglongTian ， PhillipIsola ， AaronMaschinot，Ce Liu，and Dilip Krishnan.监督对比学习。在H. Larochelle，M.兰扎托河哈德塞尔M. F.巴尔坎，以及3807H. 林，编辑，神经信息处理进展3808ing Systems，第33卷，第18661-18673页。Curran Asso-ciates，Inc.，2020年。[24] Bruno Korbar，Du Tran，and Lorenzo Torresani.从自监督同步中协作学习音频和视频模型神经信息处理系统的进展，31，2018。[25] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。着色作为视觉理解的代理任务。在IEEE计算机视觉和模式识别会议论文集，第6874-6883页，2017年。[26] Haifeng Li，Yi Li，Guo Zhang，Ruohu Liu ，HaozheHuang，Qing Zhu，and Chao Tao.基于全局和局部对比自监督学习的hr遥感图像语义分割。IEEE地球科学与遥感学报，第1-1页[27] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在David Fleet、Tomas Pajdla、Bernt Schiele和Tinne Tuyte-laars编辑的Computer Vision-ECCV施普林格国际出版社.[28] Ishan Misra ， C Lawrence Zitnick ， and Martial Hebert.Shuf- fle和学习：使用时序验证的无监督学习。欧洲计算机视觉会议，第527-544页。施普林格，2016年。[29] DeepakPathak、RossGirshick、PiotrDolla'r、TrevorDar-rell和Bharath Hariharan。通过观察物体移动来学习特征。在IEEE计算机视觉和模式识别会议论文集，第2701-2710页，2017年。[30] Rudra PK Poudel，Stephan Liwicki，and Roberto Cipolla.Fast-scnn：快速语义分割网络。arXiv预印本arXiv：1902.04502，2019。[31] Caijun Ren，Xiangyu Wang，Jian Gao，Xiren Zhou，and Huanhuan Chen.基于生成对抗网络的卫星图像无监督变化检测。 IEEE Trans-acti

下载后可阅读完整内容，剩余1页未读，立即下载