没有合适的资源?快使用搜索试试~ 我知道了~
165800利用您的局部和全局表示:一种新的自我监督学习策略0Tong Zhang 1 Congpei Qiu 2 Wei Ke 2 Sabine S¨usstrunk 1 Mathieu Salzmann 101计算机与通信科学学院,瑞士洛桑联邦理工学院 2西安交通大学,中国0摘要0自我监督学习(SSL)方法旨在通过最大化从同一图像的不同裁剪中提取的特征之间的相似性来学习视图不变表示,而不考虑裁剪的大小和内容。本质上,这种策略忽略了两个裁剪可能真正包含不同的图像信息,例如背景和小物体,因此倾向于限制学习表示的多样性。在这项工作中,我们通过引入一种新的自我监督学习策略LoGo来解决这个问题,该策略明确考虑了局部和全局裁剪。为了实现视图不变性,LoGo鼓励同一图像的全局裁剪之间的相似性,以及全局裁剪和局部裁剪之间的相似性。然而,为了正确编码较小裁剪的内容可能完全不同的事实,LoGo促使两个局部裁剪具有不相似的表示,同时接近全局裁剪。我们的LoGo策略可以轻松应用于现有的SSL方法。我们在各种数据集上进行了大量实验证明了其优于现有方法的优越性。值得注意的是,当仅使用1/10的数据时,我们在迁移学习上取得了比监督模型更好的结果。01. 引言0在视觉任务中,监督学习取得了巨大的成功,例如图像分类[20, 25, 26]和目标检测[15,19],最近已经有大量的努力致力于在没有人类注释的情况下学习高级表示。受自然语言处理中的预训练阶段的启发,例如GPT [32]和BERT[13],这种自我监督学习(SSL)方法旨在以无监督的方式学习提取下游任务有用信息的表示,从而提供了一个01我们的代码和预训练模型可以在https://github.com/ztt1024/LoGo-SSL找到。与魏科(wei.ke @ mail.xjtu.edu.cn)联系。0当下游任务的一些注释数据可用时,有效的初始化从何处开始。最近,SSL已被证明与监督预训练一样有效,甚至在某些情况下更有效[6,10]。现有SSL方法背后的基本原理可以追溯到[17,29],其包括学习一种在相同输入的不同视图之间共享的表示,但携带有区分信息。在视觉任务中,通常通过最大化同一图像的两个增强视图之间的相似性,同时使用各种技术惩罚平凡解决方案来实现这一点。例如,对比学习[9,18]包含负对,其中一个视图来自不同的图像,以防止网络不断生成相同的输出;非对比方法[11,16]仅依赖于正对,通过修改反向传播机制来防止崩溃;基于聚类的方法[2,6]执行在线聚类以保持示例表示(聚类的中心)与同一图像的不同视图之间的一致性。直观地说,人们应该期望具有较小尺寸的随机裁剪的表示具有比较大的方差,因为如图1所示,它们可能真正编码完全不同的内容。然而,现有方法鼓励同一图像的所有随机裁剪具有相似的表示。这使得学习过程变得复杂,并且倾向于使网络丢弃有价值的图像信息以实现这种不变性。例如,在[7]中观察到了这一点,其中[6]的多裁剪策略在应用于其他SSL方法(如BYOL[16],SimSiam [11]和MoCo[18])时导致性能下降。在本文中,我们通过引入一种新的多裁剪SSL策略LoGo来解决这个限制,该策略以不同的适应方式利用了不同的局部和全局图像块之间的关系,并且可以轻松集成到现有的SSL框架中。具体而言,我们利用两种不同类型的裁剪:大型裁剪包含输入图像的全局视图,因此非常适合学习视图不变表示;而小型裁剪具有更高的方差,因此更适合学习局部信息。165810(a)0(b)0图1. (a)我们自监督学习策略的概述。为了学习一个视角不变的表示,同时编码关于局部对象的语义信息,我们寻求最大化全局裁剪之间的相似性,同时允许局部裁剪保持彼此之间的距离,从而考虑到局部裁剪可能代表完全不同的对象。(b)在具有ResNet-34主干的ImageNet-100上监控KNN top-1准确率,证明了我们方法在不同的自监督学习策略中的优势。0方差,专注于局部图像区域,从而使模型能够编码背景、纹理和物体等信息。如图1所示,我们设计了一个损失函数,它(i)将同一图像的全局表示拉近到一起,同时鼓励该图像的每个局部表示接近全局表示;(ii)鼓励不同的局部表示保持距离,以考虑局部补丁之间的差异。总之,这使得模型能够在编码不同区域的局部表示之间保持距离的同时,鼓励来自同一图像的所有裁剪的表示在潜在空间中聚类。此外,为了解决传统距离度量在高维空间中可能不可靠的问题[1],我们引入了一种评估两个补丁表示之间相似性的新方法。具体而言,基于这样的假设:同一图像的两个局部裁剪的相似性大于来自不同图像的两个局部裁剪的相似性的概率很高,我们训练一个多层感知机来区分来自同一图像或不同图像的局部裁剪对,并利用其预测作为相似度分数。我们的贡献可以总结如下:0•我们在自监督学习中利用全局和局部视图来编码丰富的语义信息。为此,我们鼓励全局裁剪之间的相似性以实现视角不变性,但允许局部裁剪之间的不相似性以保持局部对象表示的多样性。0•我们引入了可学习的相似度度量,以克服高维特征空间中标准度量的局限性。0•我们的方法适用于不同的自监督学习框架,包括对比学习(例如MoCo [18])和非对比学习(例如SimSiam [11])。0•我们的方法允许网络在较小的数据集上进行训练,这有利于下游任务,其中训练-测试域差距很大。0我们在几个数据集上展示了我们的方法相对于最先进的自监督学习技术的优势。重要的是,我们的策略使得自监督模型在只有1/10的训练数据的情况下超过了其监督对应模型在密集预测任务上的性能。02. 相关工作0自监督学习或表示学习框架可以大致分为两类:一类是在预训练任务上进行训练,例如解决拼图难题[30]或从灰度图像预测颜色[39],另一类是优化不同的学习目标。我们的工作属于第二类,因此我们在下面的讨论中重点关注也属于这一类的方法。对比学习方法。对比学习旨在最大化正样本对之间的相似度,同时最小化负样本对之间的相似度。这通常通过优化InfoNCE损失[31]来实现。为了获得多样性和有区分度的特征表示,对比学习通常利用数据增强。例如,DeepInfoMax[21]及其多尺度版本[3]旨在最大化输入图像的全局和局部特征之间的互信息,即全局池化后的最后一层的特征向量和所有通道上的特征向量。LNCE(z, z+, z−) = − logexp (z · z+/τ)exp (z · z+/τ) + � exp (z · z−/τ),(1)165820在每个位置上。他们的正对是使用图像的单个视图来定义的,这限制了学习表示的多样性。CMC [35]最大化了不同模态的特征表示之间的互信息,例如同一图像的语义地图、YCbCr 或深度地图。SimCLR [9]是第一个对每个图像进行两次增强,并使用两个不同的图像创建扭曲-原始图像的正对和负对。MoCo [18]通过使用存储负对的记忆库来改进对比训练,并避免退化解。MoCo-V2 [10]表明更强的增强和使用多个裁剪可以提高自监督学习的性能。此外,Wang & Isola [36] 在理论上证明了将 InfoNCE损失重新解释为两个项:将属于同一实例的特征对齐和在超球面上传播归一化的学习特征。然而,该理论只适用于对比情况,实证性能改善微不足道。非对比学习方法。对比学习的主要困难之一是定义有意义的负对。为了克服这个问题,BYOL [16]表明只使用正对就足以避免退化解,当利用一个分支作为动量编码器并用于监督另一个分支的孪生网络时。随后,SimSiam [11]提出了一个更简单的孪生网络,认为不需要动量,而需要一个预测器和停梯度。该方法在孪生主干的一个分支上附加了一个预测器,并停止了该分支的梯度向孪生主干的反向传播。基于聚类的方法。聚类本身一直是无监督学习中的一个重要研究方向 [5, 8, 22, 37, 38, 40,41],现在被用于表示学习。例如,DeepCluster [5]交替聚类学习的表示并预测聚类分配;SeLa [2] 同时使用Sinkhorn-Knopp算法学习表示和聚类分配,以进行在线更新;SwAV [6]在孪生网络中使用相同的技术来计算一个视图中的软分配,该视图监督另一个视图中的特征分布。SwAV [6]进一步证明,对每个图像使用多个裁剪有助于它们的训练。然而,SwAV没有考虑多个局部裁剪之间潜在的共享信息的缺乏,这正是我们在这里实现的。此外,上述方法要么需要额外的记忆库[2, 5],要么需要非常大的批量大小 [6]才能产生稳定和鲁棒的优化。最近,基于 Transformer 的Dino [7] 网络是 SwAV的后续工作,它提出使用全局视图作为教师来监督局部视图的概率类似表示。然而,这种方法本质上鼓励局部裁剪与全局裁剪具有相似的表示,即使它们可能包含不同的对象。简而言之,所有现有的方法都鼓励所有的裁剪,无论它们的实际语义信息如何,都具有相似的表示。因此,为了实现视图不变性,它们倾向于丢弃相关的语义信息,从而削弱了将结果表示传递给下游任务的能力。因此,我们提出了一种新的自监督学习策略来解决这个限制。0我们的目标是开发一种能够处理具有不同语义对象的复杂图像的自监督学习方法。我们的方法旨在通用,因此适用于对比和非对比学习策略。因此,下面,我们首先回顾对比和非对比范式,以及每个范式的代表性框架,即 MoCo [18] 和 SimSiam[11]。随后,我们介绍我们的分层局部-全局模型和学习相似度度量的方法。符号。我们使用 τg 和 τl分别表示全局和局部增强的操作集,rg 和 rl分别表示全局裁剪的最小尺寸和局部裁剪的最大尺寸。全局和局部视图,即 ˜xg 和 ˜xl,是通过应用 τg03. 方法论0来获得的。我们的目标是开发一种自监督学习方法,能够处理具有不同语义对象的复杂图像。我们的方法旨在通用,因此适用于对比和非对比学习策略。因此,下面,我们首先回顾对比和非对比范式,以及每个范式的代表性框架,即 MoCo [18] 和 SimSiam[11]。随后,我们介绍我们的分层局部-全局模型和学习相似度度量的方法。符号。我们使用 τg 和 τl 分别表示全局和局部增强的操作集,rg 和 rl分别表示全局裁剪的最小尺寸和局部裁剪的最大尺寸。全局和局部视图,即 ˜xg 和˜xl,是通过应用 τg0和τl应用于同一图像x∈RW×H,其中W和H分别是图像的宽度和高度。类似地,z∈Rn表示由编码器函数fθe: RW×H →Rn获得的潜在表示,z+和z−分别是其对应的正样本和负样本。03.1. 相似度损失0无监督学习特征表示通常通过最大化正样本对中样本的相似度来实现,同时可选择最小化负样本对中样本的相似度。我们的方法可以应用于大多数自监督学习技术。为了说明这一点,我们考虑了两种典型的相似度损失函数:Info-NCE[9,18, 31, 35],在对比学习中常用,以及余弦损失[11,16],在非对比学习场景中经常使用。Info-NCE是由CPC[31]引入的,可以表示为0其中τ是温度超参数,z是由fθe编码的增强图像的特征表示,即z =fθe(˜x)。z+是一个正样本,z−是一个负样本,可以从记忆库[18]中采样或使用大批量大小[9]获得。Lcos(z1, z2) = −h(z1)h(z1) 2·z2z2,(2)Llg = EPZg,Zl [165830图2.我们的LoGo结构(左)和局部亲和度度量fθd(右)。fθe表示特征编码器,包括主干网络和多层感知机。每个图像都被增强为全局和局部裁剪,然后输入编码器。我们通过优化ℓs来最大化全局到全局和局部到全局的相似度,ℓs可以是余弦相似度或InfoNCE损失。同时,我们通过优化学习到的相似度度量的输出来最大化局部裁剪对的不相似度ℓa。注意,在训练fθd时,z1是与编码器分离的,当训练fθd时不会反向传播梯度到编码器。0相比之下,SSL中使用的余弦损失不利用负样本。它可以表示为0其中h是用于预测z的正样本集合的“均值”的MLP层。在这个背景下,SimSiam[11]使用孪生网络并停止对z2分支的反向传播,而BYOL[16]使用动量编码器来更新编码器参数。03.2. 我们的方法0在存在复杂图像内容(例如多个对象)的情况下,生成正样本和可选负样本的现有方法存在一些缺点。首先,根据随机裁剪,同一图像的两个不同视图可能描绘完全不同的内容。相反,两个不同的图像可能共享一些内容,因此来自这些不同图像的裁剪实际上可能描绘相同的对象类别。直接应用现有的自监督学习策略会产生高度嘈杂和潜在矛盾的约束,从而复杂化学习过程。为了解决这个问题,我们利用两种不同类型的裁剪,局部和全局裁剪。具体而言,对于每个输入图像x,我们分别从增强集τg和τl中提取两个全局视图˜xg1,2和两个局部视图˜xl1,2。然后分别优化全局到全局、局部到全局和局部到局部的关系。注意,下面,我们使用ℓs来表示一般的相似度损失,在我们的实验中将是等式1或等式2。全局到全局。由于全局视图包含原始图像的大部分语义内容,我们旨在通过最大化相同类别的全局视图之间的相似度来达成一致0图像,同时在对比情况下最小化不同图像的全局视图之间的相似性。因此,我们将全局到全局的损失写为0L gg = E P Z g [ ℓ s (z g 1 , z g 2 )] , (3)0其中 z g 1 = f θ e (˜ x g 1 ) , z g 2 = f θ e (˜ x g 2 ) , PZ g 是 z g 的分布,其中 z g � P ( z | x g )。局部到全局。我们使用全局裁剪作为其局部裁剪的“锚点”,因为其更大的裁剪尺寸确保它们与局部裁剪共享一些语义内容。因此,我们定义了一个损失函数,使得局部表示更接近其对应的全局表示。因为在这里,全局表示作为局部表示的监督信号,我们要么在动量编码器中固定全局表示,要么在反向传播过程中停止其梯度。这产生了以下损失:0i =1 , 2 ( ℓ s (z l i , sg (z g 1 )) + ℓ s (z l i, sg (z g 2 )))] , (4)0其中 sg ( ∙ ) 表示在 SimSiam 中的停止梯度操作,或者在MoCo中的动量编码器。局部到局部。在存在复杂图像内容的情况下,我们期望来自同一图像的两个局部视图通常描绘不同的语义对象。因此,与其鼓励大多数现有作品中的局部视图相似性,我们鼓励它们的不相似性,从而防止所有局部补丁都收敛到独立于其内容的相同表示的退化解。给定一个亲和函数 ℓ a,我们将最大化局部到局部的不相似性表达为最小化以下损失:0L ll = E P Z l [ ℓ a (z l 1 , z l 2 )] . (5)θ∗d = argmaxθdΩ(θd) ,(7)ℓa = fθ∗d .(8)(9)̸fθeend whileOutput: The encoder network fθe165840虽然原则上可以使用任何标准的相似度度量,例如余弦相似度,作为亲和函数 ℓ a,但特征空间的高维度可能导致学习到无意义的表示。实际上,在高维空间中,有许多方向可以将点推开[1],因此我们需要找到一个仍然编码有意义信息的方向。为了实现这一点,我们利用这样的直觉,即虽然不同的图像可能包含描绘相同语义内容的局部区域,但我们期望同一图像中的局部裁剪之间的关系比来自两个不同图像的局部裁剪更密切。为了编码这种直觉,受到互信息神经估计器(MINE)[4]的启发,我们使用一个辅助回归器 f θ d : R n × R n → R +,它输出两个局部裁剪之间的相似性值。该回归器的参数 θd与我们方法的其他参数一起进行训练。为此,我们寻求最大化成本函数:0Ω( θ d ) = E P Z l 1 , Z l 2 [ f θ d (z l 1 , z l 2 )] − E P Z l 1 �0(6) 其中 z l −是来自不同图像的局部裁剪的局部裁剪,可以在同一批次中随机采样,P Z l 1 � Z l −是两个边缘分布的乘积。通过与编码器 f θ e共同训练,回归器 f θ d将根据特征空间分布调整其相似性值。然后,我们利用训练好的回归器定义我们的亲和函数。也就是说,给定以下内容:0我们定义0然后我们将这个定义的 ℓ a 用于等式 5的损失函数中。换句话说,我们训练一个亲和函数,使得来自同一图像的局部裁剪看起来比来自不同图像的局部裁剪更相似,然后训练编码器以最小化同一图像的局部裁剪之间的亲和度,以解决它们通常描绘不同语义内容的问题。总而言之,我们的自监督学习问题可以被形式化为双层优化问题:0min θe Lgg + Llg +0s.t. ℓa = fθ�dθ�d =argmaxθdΩ(θd),0其中λ是一个超参数,平衡不相似性和相似性项,考虑到ℓa与其他项不同。我们的LoGo自监督学习策略的详细信息在算法1中提供。0算法1 LoGo伪代码0输入:批量大小N,全局和局部增强τg0和τl,初始化:编码器fθe,相似度测量fθd,直到达到时期限制为止0对于j
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功