语义感知自编码器：自监督学习的新突破

190 浏览量更新于2024-06-20 收藏 1.36MB PDF 举报

自监督表示学习的语义感知自动编码器是一种创新的方法，旨在克服传统自监督学习中生成（G）模型与判别（D）模型的局限性。近年来，无监督学习由于自监督学习的进步，特别是G模型和D模型的发展，取得了显著成就。然而，设计D模型往往复杂，且可能存在通用性和解释性上的不足。在计算机视觉领域，D模型通常占据主导地位，但它们在处理复杂的语义信息时可能会过于关注细节，容易导致过度拟合。为此，研究人员开始探索G模型的可能性，如通过经典自动编码器（AE）构建的模型。传统的G模型在自监督任务中的表现不如D模型，原因在于它们倾向于捕获非语义的高频细节，而忽视了概念和语义的理解。本文作者王广润等人提出了一个新颖的语义感知自动编码器（Semantic-Aware AE），旨在解决这一问题。他们的模型利用跨视图学习，将图像的不同视角作为输入和重建目标，通过这种形式引导模型学习语义相关的表示。这种策略借鉴了感知学习的思想，有助于减少对无标签数据的过度依赖，提高模型的泛化能力。为了解决跨视图图像重建任务中的优化难题，他们引入了一个名为语义对齐器的工具。这个对齐器运用几何变换知识来调整AE的隐藏代码，从而增强模型在理解和表达图像语义方面的性能。这一创新使得G模型在自监督学习中展现出更强的竞争力。经过广泛实验验证，包括在ImageNet、COCO 2017和SYSU-30k等大型数据集上的测试，他们的方法证明了其有效性和优越性。通过在GitHub上提供源代码，研究人员希望这一成果能促进自监督表示学习领域的进一步发展。总结来说，本文的核心贡献在于提出了一种结合G模型和跨视图学习的语义感知自动编码器，通过改进优化策略和使用语义对齐器，实现了更高效和具有深度理解的无监督学习。这种方法为提升自监督学习在计算机视觉任务中的表现提供了新的途径。

9666

··

◦

相关工作

SSL. 无监督表示学习的想法可以追溯到很多年前，

例如。

，classical clustering [42].起初它被寄予厚望，

然后由于表现不佳而令人失望。虽然经历了衰退，但

最近又获得了复兴。无监督学习的复兴归功于SSL的

巨大过程，它在NLP [7，17]和计算机视觉[12一般来

说，SSL可以分为两组，

即：

，生成性

（

）和（

）模型。

SSL

中的

模型。虽然

模型在NLP [7，17，20]中

的预训练语言模型中取得了良好的性能，但它们在计

算机视觉中的SSL任务中效果较差。计算机视觉中的第

一组G模型是代理生成任务。典型的工作包括图像去

噪[53]，图像修复 [44]和颜色抖动[64]。虽然他们对

SSL的复兴做出了贡献，但他们的学术代表并没有很

好地推广。第二类是纯生成方法。代表作是BigBi-

GAN [19]。它的初衷是生成性的，而不是歧视性的表

征学习;因此，它的学习特征在图像识别任务中不是很

有帮助。第三类是NLP启发的生成模型。杰出的作品

包括BEiT [3]和iGPT [11]，它们分别受到BERT [20]和

GPT [7]的启发。iGPT使用图像标记作为输入和目标，

这是相对低级的代码。尽管BEiT将掩码语言建模与

DALL E代码结合在一起[46]，但DALL E代码仍然包

含用于图像重建的局部依赖性。因此，这些简单的回

归任务（

例如，

、BEiT、iGPT和MAE [26]）在捕获高

级语义方面存在困难。因此，他们只能在预训练任务

中表现良好，但在直接辨别表征学习任务中表现不

佳，

例如。

ImageNet上的线性评估

请注意，上述大多数方法都是AE，无论

基于CNN [37]或变压器[21]。AE的概念可以追溯到几

十年前，起点不明确/无法追溯[2，36，47]。基本上和

传统上，AE用于生成表示学习，其目的是降维。然

而，AE在区分表示学习中是低效的，因为它浪费了模

型能力，过度拟合语义不可知的局部高频细节[3，

11，19]以进行重建。

SSL

中的D模型。与

模型类似，计算机视觉中的第

一组

模型是代理判别的

任务典型的作品包括补丁排序[18]，解决拼图[43]和旋

转预测[23]。由于代理任务和主任务之间存在间隙，

它们的学习表征不能很好地概括。第二组是目前最有

效的方法，即，对比[12-

[5]的文件。知觉学习缺乏注释，使用跨视图一致来感

知概念和语义.在此基础上，对比度量学习将图像随机

地扩展到不同的视图中，并比较视图之间的然而，这

种表示学习的方式往往会崩溃[4，27，61]。为了稳定

学习，需要精心设计。Simplified [12]采用多节点计算

来扩大批量。MoCo v1/v2 [13，27]、三重态损失模型

[61]、BYOL [25]、DINO [10]和SimSiam

[14]需要无梯度教师（例如，[51]第51话教师的态度三

重损失模型、BYOL和SimSiam [14]需要额外的预测因

子。迪诺需要集中和锐化的意思教师。Most above

meth- ods benefit from synchronous batch normalization

[32]. 尽管最近的VICReg [4]不需要归一化或预测器，

但它需要三个特殊的损失（

即，

方差、方差内和协方

差损失）进行正则化。此外，VICReg中的超参数不易

调整，并且训练VICReg有时不稳定。总之，设计一个

可行

的

D模型可能过于复杂。

此外，文献暗示

模型可能不如

模型一般和可解

释[3，6，26]。具体而言，D模型在微调任务或下游任

务的预训练基础模型中不如

模型有效[6]，并且

模

型在计算机视觉和NLP领域之间的预训练范例中存在

差距[3，17]。此外，D模型比G模型具有更差的可解

释性，例如，因果推理[1]。

方法

3.1.

Vanilla AE（语义不可知AE）

AE是表征学习领域的经典模型基本上，普通AE包

括两个模块，

即

编码器和解码器（参见图3（a）），

其可以分别用两个映射g和f

来

定义，使得：

f：z→h

，

g：h→z

，

∈

，

∈

arg min

（

，

（

g f

）（

））

，

（

）

、

其中，L表示复合函数，

表示可以最小化重构误差

（例如平方误差）的损失函数。

和

是

训练的编码器和

解码器。这个公式表明AE是学习两个复杂的映射，以

最小化输入z和输出（

g f

）（z）之间的误差。因此，

AE的基本目标是学习信息压缩的表示，而这种表示学

习在语义上是无知的。

3.2.

语义感知

为了获得语义感知的AE，前人做了很多努力，提出

了一些优秀的工作，包括变分AE [35]和掩蔽AE [3]。

但这些作品

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

语义感知自编码器：自监督学习的新突破

基于投影卷积的鱼眼展开类无监督全景图像语义分割方法

基于前景感知视觉注意的半监督视频目标分割.docx

2017年夏季感知器：全面机器学习与Python课程

深度学习驱动的图像语义分割综述：现状与挑战

无监督学习：词嵌入探索与应用

了解自监督学习在语义分割中的潜在价值

半监督学习与视觉感知深度学习

语义分割赋能自动驾驶：解锁无人驾驶汽车的感知能力

SimCLR无人驾驶新视界：提升视觉感知能力，赋能自动驾驶

YOLOv8的无监督学习探索：大规模数据下的自主特征学习

最新资源