没有合适的资源?快使用搜索试试~ 我知道了~
2380像素级损失2D骨干势头编码器视图1视图2正对选择像素级对比度损失2D骨干势头编码器视图1视图2阳性/阴性对选择利用外部深度信息改进像素级对比学习Ahmed Ben Saad1,2 Kristina Prokopetc2 Josselin Kherroubi2Axel Davy1 Adrien Courtois1 Gabriele Facciolo11ENS Paris-Saclay,Centre Borelli2斯伦贝谢人工智能实验室PixPro Pri3D图1.现有的对比学习分割方法与我们的方法之间的视觉比较:PixPro[1](左)不使用任何3D先验,仅依赖于图像块之间的2D距离来区分阳性和阴性样本。Pri3D[2](中)通过从立体数据重建3D场景来使用3D先验,然后利用像素到像素和像素到体素的对应关系。我们建议以更简单的方式使用3D先验知识(右):不需要完整的3D表示。相反,深度图用于正/负对选择,这使得训练更容易,并改善了多个数据集的结果。数据流、2D和3D表示分别由黑色箭头、蓝色箭头和绿色箭头表示。摘要近年来,基于对比学习的自监督表示学习(Self-supervised representation learning,CL)成为研究的热点。这是由于在各种后续任务(特别是分类)上获得了优异的结果,而不需要大量的标记样本。然而,大多数参考CL算法(例如Simplified和MoCo,以及BYOL和Barlow Twins)不适用于像素级下游任务。被称为PixPro的一种现有解决方案提出了一种像素级方法,该方法基于使用整个图像中的作物之间的距离来过滤相同图像的正/负图像作物对。我们认为,这个想法可以进一步增强,通过将外部数据提供的语义在这在本文中,我们将重点关注深度信息,它可以通过使用深度估计网络获得或从可用数据(立体视觉,视差运动,LiDAR等)中测量。场景深度可以提供有意义的线索,以基于它们的深度区分属于不同对象的像素。我们表明,使用这种外源信息的对比损失导致改进的结果,学习表示更好地遵循对象的形状。此外,我们引入了一个多尺度的损失,阐明了问题的训练参数适应不同的对象大小。我们证明了我们的想法在钻孔图像上的突破分割的有效性,我们实现了比PixPro提高1.9%,比监督基线提高近5%我们进一步验证了我们的技术在室内场景分割任务与ScanNet和室外场景与CityScapes(1.6%和1.1%的改进分别比PixPro)。像素级对比度损失像素-体素对比损失像素/像素对应像素/体素对应2D骨干共享权重2D骨干3D骨干视图1视图223811. 介绍深度学习和计算机视觉的研究朝着无监督和自监督学习的方向发生了重要变化[3,4,5]。这主要是由各种应用中大量的未标记数据和标记工作的高成本所驱动的。具体而言,大量的未标记的数据是从遥感。例如,在岩石物理领域,多年来使用超声波和其他类型的传感器进行数据采集,导致了数据档案的巨大积累。而数据标记的任务并不是微不足道的,繁琐和耗时的。因此,在不使用标签的情况下学习表示的动机是非常有前途的。遵循这一趋势,我们已经看到对比学习(CL)方法的出现[6]作为一组有前途的算法,它从数据中学习表示而不需要标签。这些方法适用于计算机视觉[7,8,9,10],其他方法受到它们的启发[11,12],从而改进了ImageNet [13]和CIFAR-100 [14]上的分类任务。最成功的基于CL的方法[8,4,11]依赖于两个重要假设:同一图像的两个变换版本必须具有尽可能“接近”的表示。类似地,不同的图像应该尽这种模式被称为实例歧视。根据这种逻辑,学习的表示对于训练期间使用的转换集是不变的。这导致实例级特征在转移到实例级任务(如分类)时表现良好然而,这并不编码位置信息,这对于像素级任务至关重要[15,16,17,18]。因此,这些表示是很差的语义和实例分割转移。解决这个问题的一个建议是PixPro [1]。该方法背后的想法是通过添加像素级任务来修改BYOL,该像素级任务使用像素级特征(属于两个变换的图像裁剪)之间的2D距离来确定正/负对。更确切地说,小于阈值的距离被认为是正对,并且被拉向彼此。他们还提出了一个额外的模块,用于平滑像素表示。虽然与有监督的预训练相比,这种方法在分割任务上有所改进,但我们认为它可以进一步改进,原因如下:上述正/负对选择过程事实上,迫使紧密补丁的表示相似,使它们在所有方向上的位移都不超过所选阈值,这归结为向数据增强添加小的位移这意味着我们不考虑附近的点可能图2.PixPro的失败案例和+分别对应于两个视图的学习表征由黑色段分开的两个像素在图像(d τ)上接近,该图基于[1]中的图1属于不同的对象。例如,当某些对象遮挡其他对象的部分时。如果距离过滤阈值不够小,或者裁剪位于对象边界上,则可能导致不属于同一对象但被视为正对的特征配对。为了解决这个问题,我们提出了PixDepth。其主要思想是利用外生的深度信息在积极/消极的对选择。图像深度不仅提供关于正确对象边界的非常有用的先验语义信息,而且还防止学习对象边界附近的模糊表示。具体而言,当比较像素级特征时,除了2D距离之外,我们还计算深度差异在相应的位置。如果深度差大于深度阈值,则我们假设对象是不同的。这个额外的约束细化了肯定对的选择,从而在训练中注入更多的语义信息。我们通过在ImageNet数据集[19]上进行预训练并使用使用MIDAS [20]预先计算的深度图,然后在CityScapes数据集[21]上进行微调来演示我们的方法。此外,我们表明,我们可以放弃预训练的单目深度估计器,直接使用大量现有的双目立体数据来预训练PixDepth。此外,我们将讨论阈值参数如何依赖于数据集中对象的规模我们通过ImageNet[19]和Scan- Net[22]的自然图像实验(分别使用单目深度估计和测量深度数据进行预训练)以及钻孔图像的工业用例来展示我们的想法的应用。在这种情况下,我们将使用超声波的传播时间作为深度的指标。我们还提出了一个实验设置来定性分析PixPro和PixDepth学习的表示。这项工作的动机是地质fea-2382一X视图1编码器+投影RGB输入增强重映射+成对距离+重复保持(公式1)一图像视图2动量编码器+投影Lpix(等共享空间增强X'深度视图1深度输入增强深度视图2重映射+成对距离+重复保持(公式2)一深度图3. 我们提出的框架(PixDepth)的详细概述:给定一个输入图像,我们应用一组增强,然后裁剪两个补丁(如[1])。 我们对深度视图做同样的事情。接下来,每个视图都经过目标或动量网络。为了构建正对和负对,深度视图被重新映射到特征图尺寸,然后计算成对绝对差(等式3)以测量图像块之间的深度空间中的距离。这个新获得的遮罩深度有助于网络更好地区分所选的补丁是否属于同一对象。在岩石物理学领域中的纹理检测,并且可以容易地转移到其他应用,在其他应用中,与标记数据相比,该外部信息是广泛可用的。概括起来,我们的贡献是:• 改进PixPro,利用深度的先验知识来改进学习的表示。• 多尺度损失和训练具有多个距离和深度阈值,有助于编码具有不同尺度的对象。• 一个广泛的实验评估,以支持我们的研究结果对不 同 的 数 据 集 上 的 语 义 分 割 的 CityScapes 和ScanNet和地质特征识别的钻孔图像数据集。2. 相关工作对比学习和计算机视觉有许多作品将CL应用于视觉任务[7,8,9,10,4]。最值得注意的是Simplified[8]提出了一个简单的CL框架,它超越了ImageNet分类中的监督预训练,但需要非常大的批量来确保良好的性能。另一方面,BYOL[11]不是一种显式CL方法,而是受到Sim的启发,并使用动量编码器来消除对大批量大小的需求。这些方法的主要限制是无法生成实例级特征,这些特征可以很好地转移到像素级任务。当涉及到图像分割时,[1]提出了对BYOL的修改,通过添加像素级借口任务,通过计算这些作物之间的距离来分离一个图像中两个作物的正对和负对。如果该距离小于给定阈值,则该对作物被认为是正面示例,否则被认为是负面示例。我们的方法在两个方面扩展了这个想法:我们改进了对的选择通过利用深度信息,并且通过考虑多个尺度,我们同时结合不同的阈值以消除对作为超参数的阈值的依赖。Pri3D[2]基于使用先验3D信息来改善CL的类似直觉。作者依靠室内场景的3D重建来构建另一个建议的像素级借口任务。这创建了来自同一场景的不同视图的像素到像素的对应关系以及2D视图和3D网格的表示之间的像素到体素的对应关系。虽然这个想法与我们的想法相当,但我们相信我们的框架更简单,因为我们不依赖于3D重建和神经网络来编码这个3D结构。此外,深度图比Pri 3D使用的完整3D场景更容易获得(来自RGB-D传感器、立体视觉、单目估计)最近,Point-level Region Contrast[23]提出了一种区域级的CL方法,该方法通过直接从不同区域采样相比之下,我们认为,深度信息提供了一个强大的语义提示分割对象,因为他们有不同的深度,从他们的背景。深度估计感知3D世界的视觉能力以及估计物体与源的距离/深度的能力在包括场景理解在内的环境中允许感知深度的细节通常被称为深度线索。它们可以被归类为双眼线索,当用双眼观看场景时,作为运动线索,由观察者的运动或场景中产生,或者作为单眼线索,当2383×××不不不ppnpneΣL−Σ不用一只眼睛观看静态场景当场景的不止一个对象可用时,基于双目立体的深度估计是一种解决方案为了实现这一点,识别来自左相机图像和右相机图像的匹配像素,然后可以使用对应像素位置中的视差(或差异)然而,在许多应用场景中,每次只能对场景进行一次观察为此,单目深度估计方法,例如基于MRF的公式[24],基于几何假设的方法[25,26]或非参数方法[27,28]。最近基于深度学习的技术[20,29]展示了从单个图像估计视差和深度图的能力的巨大进步在我们的工作中,我们使用MIDAS[20],这是一种最近提出的基于Transformer架构的方法,该架构在非常大的不同数据集上进行了训练。3. PixDepth对比学习我们的方法建立在[1]中介绍的像素对比度损失的基础上。 这种损失定义在从同一图像的两个增强视图中提取的像素特征上。更准确地说,给定输入图像,生成两个颜色增强的裁剪 这两个裁剪被进一步调整大小为固定分辨率,并通过常规编码器网络和动量编码器网络[4,11]。所获得的特征图(例如,大小为102488)然后使用像素级投影仪(两个11卷积层)进行投影。像素投影仪的输出已经包含2D位置信息。图2显示了两种作物的特征。加号和圆圈对应于相应的第一和第二视图的第一和第二表示向量[1]的思想是使用来自两种作物的所有像素特征对来生成用于对比学习的正对和直观的、重叠的或空间上接近的位置用于正对。这是通过构造正/负掩模来.1,如果dist(i,j)≤T已经分别被指定为相对于像素i为正(当A图像(i,j)= 1时)和负(当A图像(i,j)= 0时)的视图。两个视图中的像素特征向量是xi和x′j,τ是标量温度超参数。来自第一视图的位于两个视图的交叉处的所有像素被平均以确定损失。类似于第一视图,第二视图计算并平均每个像素j的对比度损失。小批量中所有图像对的平均值表示最终损失。 总体框架如图3的上半部分所示。注意,这种对比损失迫使对应于相同空间位置(或接近,取决于选择)的特征表示接近。然而,我们认为,这一培训过程有两个缺陷:1)作者在对选择中使用单个像素距离阈值,其是特定于像素组的超参数并且基于附近像素属于相同对象的强假设; 2)该逻辑不反映裁剪的块中的结构相似性/差异,这可能潜在地产生矛盾的信号,特别是在一个图像中的对象之间的边界上。第二个问题特别重要,如图2所示。如果我们观察用深色区分的矢量,我们会注意到它们属于两个不同的对象,尽管它们在图像中很接近。PixPro会倾向于认为这对向量是正的,这是负的-谈的是陈述的质量。为了解决这个问题,我们建议修改分配正或负向量对的过程,以便它可以包含一些额外的语义信息。深度贴图是一个很好的解决方案,因为深度的变化可以是对象变化的指示器因此,我们将深度图视为额外的赋值过滤器。3.1. 显示深度信息图3显示了我们的方法的总体概述。我们通过在两个视图的相同位置从深度图中截取作物来增强[1]。在那之后,我们绘制它们的×Aimage(i,j)=、(1)0,如果dist(i,j)>T7、我们的心,延迟调整大小的像素之间的成对差异,哪里是距离阈值,dist是归一化的(from 0到1)2D点坐标之间的欧几里德距离,i和j分别是第一视图和第二视图中的向量的索引然后,像素对比度损失函数[1]被定义为:我J深度作物为了防止作物在2D并且具有相似的深度(例如,前地中的两个不同的物体)。我们将此新选择应用于前一个选择之上因此,我们构建一个新的正/负深度掩码为:A(i,j)=.1、如果|dept h(i)−dept h(j)|≤T′,n/ncos(x,x')/τj∈i深度0,如果|dept h(i)−dept h(j)|>T′(三)Pix(i)= logej∈icos(xi,x'j)/τ+、(二)ecos(xi,x'k)/τk∈Ωi其中,“是深度图上的阈值,然后通过两个掩码其中i是也存在于第二视图中的第一视图像素第二视图中的像素组;A final(i,j)= A image(i,j)× A depth(i,j)。(四)2384不.Σ≤ ≤T ≤ T ≤ TppΣni/j/mn/p不TT.ΣTTpni/j/m1≤i≤n对于每个F。这限制Ti,T′i将其分成n个不相交的特征图Fi1≤i≤n的大小ΣC×H×W。对于每个Fi,我们应用不同的阈值不ΣCityScapes上的语义分割等应用,T3T2T1Lpix(T1)T1T2Lpix(T2). . .AvgTn...Lpix(Tn)图4. 多阈值设置的概述,以考虑不同的规模。我们希望我们的表示能够意识到不同尺度下的相对上下文。在左图中,我们显示预训练数据集′mIoUImagenet 0.3 74.3+ 深度与MIDAS 0.576.90.7 73.9钻孔图像0.374.00.5 72.80.7 70.7表1.变化对微调性能的影响前3行在CityScapes上进行微调,其余行在标记的BoreholeImage数据集上进行微调。每个阈值Ti1in(我们任意选择n=3,1 2 3用于可视化目的)影响对选择过程:如果我们以X标记为中心进行裁剪,则每个磁盘.我不是1≤i≤n和 .蒂1≤i≤n . 每个Fi都被当作一个表示将与 参考作物形成正对 的作物的中心。 在实践中(右),我们将编码器和投影仪的输出按通道划分为n个相等大小的fea,独立特征向量 这导致计算n损失如等式2中的项:cosxk,xk'/τ真映射,然后我们独立地对每个映射应用等式1,相应的门槛。我们比平均所有的贡献Lk(i)=−loge(ij)j∈i、(五)Pixcosxk,xk'/τcosxk,xk'/τ最后的损失计算。e(ij∈i,kj)+e(im)m∈i,k然后,使用掩码A final来定义要在损失(2)中使用的正/负像素的组Ei和Ei。总之,这是一种将深度先验信息合并到学习过程中的方式,而不需要编码器在任何训练级别“看到”深度图。这意味着不需要额外的计算能力和时间同时,积极和消极的选择其中x k表示特征向量的第kXK(x在Fk中的部分)。 的组对于每个k,使用阈值k来不同地获得像素Rki,k。 其余参数与在公式2中,总损失是所有这些贡献的平均值n现在,动词对是基于以下给出的语义信息:LPixMulti(i)=1Lk(i)。(六)这些地图,而不仅仅是投影的2D图像中的距离,这可能最终混合不同的对象。正如我们将nk=1Pix参见下一节,深度信息可以在不同的源中找到,例如深度图,视差图等。因此,我们选择将它们的值在0和1之间进行归一化。重要的是要注意,我们只对深度值之间的差异感兴趣,而不是实际的深度测量/估计。因此,例如,不需要将视差图转换为深度图。3.2. 不同尺度上面描述的配对选择过程取决于两个超参数T和T′。选择这两个总之,我们新特征向量的每一部分都将围绕感兴趣的对象编码不同的比例通过在不同尺度上选择阈值,我们消除了我们的方法对这个超参数的依赖。在实践中,我们为i和′ i选择3个值:0。3,0。5,0。7 .第一次会议。这些值在0和1之间选择,因为深度图和[1]中定义的2D距离都被归一化,因此所有距离都在相同的区间内。我们认为,选择3个值来解释图像上的3个不同尺度足以进行多阈值处理(参见下一节)。当我们在两个超参数上使用这个方法时,同时利用学习的表征。事实上,对象的形状和大小因数据集而异,并且在单个数据集中可能会有很大差异 这导致和的最佳值依赖于预训练数据集(见表1)。 为了在不需要额外处理的情况下缓解这个问题,我们提出了以下过程(如图4所示),该过程允许特征表示的不同部分在不同尺度上进行区分。给定一个输出特征图F,eC×H×W,我们n阈值对的可能组合(以及特征图划分)。4. 实验这项工作的主要动机是由遥感和更具体的岩石物理领域中的地质特征分割驱动的,这促使我们在本研究过程中收集的超声钻孔图像数据集上进行了一系列实验。太复杂了-参数是棘手的,可能会对质量产生负面通过一组来自其他AP的数据集的实验2385图5. 制图表达质量检查概述:将输入图像(左)馈送到编码器中以产生特征图(中间点)。该特征的每个向量近似地编码图像的一个块(网格的一个单元我们选择其中一个向量(黄色),并测量其与其余向量的相似性然后我们绘制一个相似性热图(右)。ScanNet,它帮助我们验证我们的贡献的一般性,并促进我们的结果的再现性。在下面的章节中,我们解释了实验设置,并详细描述了我们研究中使用的数据集,训练设置的配置以及我们视觉检查学习表征质量的方法。4.1. 数据我们研究中使用的钻孔图像数据集是基于超声波(US)成像的油气藏地质力学和地质解释的基础,在石油和天然气工业背景下发挥着重要作用钻孔US图像显示了有关岩石物理特性的有意义的信息,例如崩落-一种应力诱导的地质特征。因此,数据集由该数据集部分基于从公共存储库UK NDR1获得的图像和工业运营商提供的数据。图6展示了与数据集的英国NDR部分相对应的钻孔图像的几个示例。我们使用了从140个不同的井中收集的近27000个图像的各种选择该数据集的UK NDR部分不提供标签,而突破点的像素级注释来自剩余部分。CityScapes是一个大规模数据集,包含来自50个不同城市的街道场景中记录的一组不同的双目立体视觉序列,除了20000个弱注释帧的较大集合之外,还具有5000帧的高质量像素级注释[30]。ScanNet是一个RGB-D视频数据集,包含超过1500次扫描的250万个视图,并标注了3D摄像头姿势、表面重建和实例级语义分割。[22]第20段。4.2. 实例和语义分割我们首先根据后续任务在一个未标记的数据集上预训练ResNet[31]1https://ndr.ogauthority.co.uk图6. 我们研究中使用的英国NDR数据集的钻孔图像示例第一行示出了基于超声波的测量振幅的图像的示例第二行示出了基于渡越时间估计的对应图像。在振幅图像上识别的断点以黄色突出显示。预训练数据集预训练方法IOUImageNet监督69.1钻孔图像Pixpro72.1钻孔图像+渡越时间PixDepth74.0表2.使用BoreholeImage数据集执行突破分割任务预训练数据集预培训方法MiouImageNet监督71.6ImageNetPixpro75.8Imagenet +深度图PixDepth76.935%的Midas训练集PixDepth76.3表3.CityScapes数据集的室内分割任务(i.e. CityScapes 和 Scan-Net 上 的 室 内 场 景 分 割 或BoreholeImage数据集上的突破识别)。然后,我们将这个预先训练的编码器集成到语义分割架构中,在该架构中我们冻结其权重。在这项工作中,我们采用DeepLabV3[32]作为分割模型。接下来,我们继续在错误使用的数据集的相应标记部分上训练分割模型。为了证明我们的方法所带来的改进并进行公平比较,我们报告了与原始PixPro和我们的PixDepth预训练相比,完全监督训练的定量结果。对于BoreholeImage数据集上的Breakouts分割,我们使用ResNet-34编码器和数据集的两个分割进行预训练和微调。结果示于表2中。对于CityScapes数据的实验,我们也使用了ResNet-34编码器,但我们执行了实验的两个变体。在第一个变体中,我们使用ImageNet-1 K作为预训练数据集,使用MIDAS [20]计算单眼深度图。在第二变型中,我们去除了对预训练的单眼深度估计网络(MIDAS)的依赖性,而是直接使用用于训练它的视差图的子集相应的结果示于表3中。对于ScanNet数据集上的实验,我们使用ResNet- 18编码器和相同的数据集进行预训练和微调。结果示于表4中。2386×FF×F输入图像深度图PixproPixDepth输入图像深度贴图PixPro PixDepth图7. 学习表征的质量比较。相似性图中的像素对应于参考特征向量,该参考特征向量与形成特征图的所有其余向量进行比较。请注意,这些图像是验证集的一部分(在训练期间不可见),并且深度图是出于比较目的而给出的,它不会被输入编码器。预训练方法IoU监督44.7PixPro 46.3Pri3D 48.1像素深度49.7表4.使用ScanNet数据集的室内分割任务在预训练阶段,我们使用了SGD优化器,动量为0. 9,线性预热为20个epoch,其余的训练使用余弦退火调度器。我们还将最大学习率固定为0。使用8个NVIDIAV100 GPU 对 ImageNet 和 ScanNet 进 行 了 总 共 500 个epoch和256个批次的在微调阶段,我们使用Adam优化器训练了80个epoch,并提前停止,基本学习率为0。001并且我们使用余弦退火调度器。我们将所有分割任务的批量大小固定为32。表示质量评估为了直观地评估和比较PixDepth和PixPro学习表示的质量,我们提出了图中所示的设置5. 我们取一个输入图像,并将其调整为较大的尺寸(例如896 896),以便输出特征图可以足够大(例如32 32)。该图的每个向量表示原始图像中的一个补丁(该补丁的大小近似于网络的接收场的大小然后,我们选择对应于图像中的不同区域(例如,猫的头部)的特征向量i,j,并且我们测量该向量与中的所有其他向量的余弦相似性,并且我们构建相似性图。ImageNet中的一些示例如图7和补充材料所示。对于PixDepth,我们可以看到,属于同一对象的特征更具有空间相干性,并且与背景的对比度更高。这表明构成对象的特征向量彼此相似,并且与表示背景的特征向量不同该实验提供了在我们的方法中使用深度先验的效果的定性视图。4.3. 结果和讨论表3显示了在突破分割任务中获得的结果。我们观察到,使用PixDepth的渡越时间比PixPro的结果提高了1.9%,2387TTTT联系我们输入GT PixPro PixDepth图8. CityScapes(第一行和第二行)和Breakout Segmentation(第三行和第四行)上的分割结果的一些定性示例。4.9%,超过监管基准。传输时间信息有助于网络区分图像中的真实突破和缺陷,从而获得更好的分割分数。表2显示了CityScapes上的Se-mantic Segmentation的结果。同样,我们的方法比PixPro提高了1.1%,比监督基线提高了5%以上。我们还观察到,随着预训练数据集及其附带的外生数据(具有地面真实视差/深度图的MI-DAS训练集的一部分)的变化,结果仍然比PixPro好0.5%。表4比较了我们的PixDepth预训练与PixPro和Scan-Net上的Pri 3D。我们观察到平均IoU比PixPro提高3.4%,比Pri3D提高0.6%。除了证实在另一项任务上比PixPro有所改进外,这些结果还表明,我们的方法使用更少的可训练参数和更简单的程序,取得了与Pri3D相当的结果。我们还在图8中展示了一些示例,在这些示例中,我们可以定性地看到我们的方法比PixPro执行得更好。这支持了我们的主张,即用于对选择的先验深度信息提高了学习表示的质量。在我们的研究中,使用更大的模型(ResNet-50)进行额外的实验是不可能的,但可以考虑用于未来的工作。4.4. 消融研究为 了 证 明 PixDepth 每 个 部 分 的 影 响 , 我 们 对BoreholeImage数据集上i和′i结果示于表5中。这表明多阈值处理确实略微改善了突破分割任务上的mIoU。但最重要的是,当设置为sin时,它给出的分数更接近使用最佳参数获得的分数T′Tmlou{0.3,0.5,0.7} 73.90.3,0.5,0.70.3,0.5,0.7七十四点二表5.改变阈值和′对漏钢检测任务中分割性能的影响。多个值表示多阈值。角阈值然而,使用超过3个阈值会产生更差的结果。这可能是由于使用太多阈值导致将特征图划分为较小片段的事实。这些较小的特征变得不那么有表现力,因此在对比任务中表现得更差5. 结论我们已经介绍了PixDepth,一个改进的前的基于CL的像素级表示学习的方法主要目标是利用先前的深度信息,其可以使用预先训练的单眼深度估计网络来推断或与图像一起计算/收集。我们表明,这种想法以及使用多个阈值(考虑到不同的尺度在学习表示)的结果在更好的分割分数,提高了学习表示的一致性。我们通过在不同数据集上的多个实验来支持我们的发现,例如在CityScapes和ScanNet上的室内场景分割以及在BoreholeImage数据集上的地质特征识别。未来的工作将集中在探索使用PixDepth与更现代的骨干架构(基于变压器)及其对像素级下游任务的影响。确认包含石油和天然气管理局和/或其他第三方提供的信息。我们感谢ANRT CIFRE博士的支持。MESRI第2020/0153号学校。这项工作是使用来自GENCI-IDRIS(授权2022-AD 011011801 R2)和CentraleSu p e ′ lec和ENS P aris- Saclay的“M e ′ socentre”计算中心的HPC资源进行的,该计算中心由CNRS和R e ′ gion法国巴黎大学提供支持(http://mesocentre.centralesupelec.fr/)。0.10.570.30.374.00.571.40.769.80.30.171.60.372.10.574.00.772.4{0.3,0.7}73.7{0.3,0.7}0.572.6{0.3,0.5,0.7}74.4{0.1,0.3,0.5,0.7}73.72388引用[1] Zhenda Xie , Yutong Lin , Zheng Zhang , Yue Cao ,Stephen Lin,and Han Hu.宣传自己:探索无监督视觉表示学习的像素级一致性。在IEEE CVPR,第16684-16693页[2] Ji Hou,Saining Xie,Benjamin Graham,Angela Dai,and Matthias Nießner. Pri3d:3d先验知识可以帮助2d表征学习吗?在IEEE/CVF国际计算机视觉会议集,第5693[3] Zhirong Wu,Yuanjun Xiong,Stella X Yu,and DahuaLin.通过非参数实例判别的无监督特征学习。在IEEE计算机视觉和模式识别会议论文集,第3733-3742页[4] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE CVPR,第9729-9738页[5] Ishan Misra和Laurens van der Maaten。预文本不变表示的自监督学习在IEEE/CVF计算机视觉和模式识别会议论文集,第6707-6717页[6] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比 预 测 编 码 的 表 示 学 习 。 arXiv 预 印 本 arXiv :1807.03748,2018.[7] 奥利维尔·海纳夫具有对比预测编码的数据高效图像识别。国际机器学习会议,第4182-4192页。PMLR,2020年。[8] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,第1597-1607页[9] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 Advances in NeuralInformation Processing Systems,33:9912[10] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。[11] Je a n-BastienGrill , FlorianStrub , FlorentAltch e´ ,CorentinTallec,Pierre Richemond,Elena Buchatskaya,Carl Doersch , Bernardo Avila Pires , Zhaohan Guo ,Mohammad Ghesh- laghi Azar,et al.引导你自己的潜意识自我监督学习的新方法。NeurIPS,33:21271[12] Jure Zbontar,Li Jing,Ishan Misra,Yann LeCun,andSte´phaneDeny.BarlowTwins:Self-supervisedlearningvia redundancy reduction(英语:BarlowTwins : Self-supervisedlearningvia redundancyreduction《国际机器学习会议》,第12310-12320页。PMLR,2021年。[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。In F.佩 雷 拉 角 , 巴 西 - 地 J. C. 伯 吉 斯 湖 Bottou 和 K. Q.Weinberger,编辑,神经信息处理系统进展,第25卷。Curran Associates,Inc. 2012年。[14] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。技术报告,加拿大安大略省多伦多,2009年。[15] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年[16] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。[17] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,2015年28日。[18] Shikun Liu,Shuaifeng Zhi,Edward Johns,and AndrewJ Davison.带区域对比的自举语义分割。arXiv预印本arXiv:2104.04465,2021。[19] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[20] Rene 'Ranftl,Katrin Lasinger,David Hafner,KonradSchindler和Vladlen Koltun。走向鲁棒的单眼深度估计:混 合 数 据 集 的 零 拍 摄 交 叉 数 据 集 传 输 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,2020。[21] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3213[22] Angela Dai 、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第5828-5839页[23] Yutong Bai , Xinlei Chen , Alexander Kirillov , AlanYuille,and Alexander C Berg.用于对象检测预训练的点级区域对比度在IEEE/CVF计算机视觉和模式识别会议论文集,第16061[24] Ashutosh Saxena,Min Sun和Andrew Y Ng。Make3d:从单个静态图像学习3D场景结构。IEEE Transactionson Pattern Analysis and Machine Intelligence,31(5):824[25] 放大图片创作者:Alexei A.埃夫罗斯和马夏尔·赫伯特自 动 照 片 弹 出 。 在 ACM SIGGRAPH 2005 Papers ,SIGGRAPH计算机协会。[26] 马特奥·波吉,法比奥·托西,和斯特凡诺·马托西亚。学习单目深度估计与无监督的三目假设。在2018年国际3D视觉会议(3DV)上,第324-333页。IEEE,2018年。[27] Kevin Karsch,Ce Liu,and Sing Bing Kang.深度转移:使用非参数采样从视频中提取深度。IEEE transactionson pattern analysis and machine intelligence,36(11):21442389[28] Huihui Xu和Mingyan Jiang。基于非参数学习的傅立叶域单幅图像深度估计。在2018年第二届计算机科学和人工智能国际会议论文集,第334[29] S Mahdi H Miangoleh , Sebastian Dille , Long Mai ,Sylvain Paris和Yagiz Aksoy。通过内容自适应多分辨率合 并 将 单 目 深 度 估 计 模 型 提 升 到 高 分 辨 率 。 在IEEE/CVF计算机视觉和模式识别会议论文集,第9685[30] Marius Cordts , Mohamed Omran , Sebastian Ramos ,TimoScha
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功