SimCSE：仅用Dropout实现的简单对比学习

版权申诉

34 浏览量更新于2024-08-04 收藏 3.18MB PDF 举报

"这篇文章主要介绍了丹琦女神的新作——SimCSE，一种简单的对比学习方法在文本嵌入表示上的应用。对比学习近期在AI技术领域备受关注，而SimCSE通过使用dropout作为数据增强手段，取得了令人惊讶的效果。" 在深度学习中，对比学习是一种强大的无监督学习方法，其目标是通过最大化相似样本对之间的相似度，同时最小化不同样本对之间的相似度，从而学习到更好的特征表示。传统的对比学习通常依赖于复杂的数据增强策略来生成不同的视图。然而，这篇文章《SimCSE: Simple Contrastive Learning of Sentence Embeddings》提出了一个新颖且简单的方法，即仅使用dropout这一常见的正则化技术来实现数据增强。首先，SimCSE的创新之处在于它摒弃了传统复杂的增强手段，如插入替换，转而使用dropout。dropout是一种防止神经网络过拟合的策略，它随机关闭一部分神经元。在SimCSE中，同一输入被dropout两次，生成两个不同的表示，这被视为一对正样本。这种方法不仅简化了对比学习的流程，而且在实验中显示出优异的性能。其次，SimCSE还利用了自然语言推理（NLI）的数据作为监督信号，进一步提升对比学习的效果。NLI任务通常包含三元组：前提、假设和标签，其中标签指示前提和假设的关系。通过这种方式，SimCSE可以捕获句子间的语义关系，有助于生成更具有区分性的句子嵌入。论文引用了ICML 2020上的一篇文章，该文章深入探讨了对比学习为何有效。对比学习之所以能成功，关键在于两个目标：对齐（alignment）和均匀性（uniformity）。对齐是指正样本对之间的距离应尽可能小，以保持它们的表示接近；而均匀性则是指随机样本的表示应该分散在超球面上，使得不同样本的表示空间分布广泛。这两个目标的实现有助于在高维空间中形成有意义的特征表示。通过使用dropout和NLI数据，SimCSE成功地实现了这两个目标，并在各种文本理解和聚类任务上展示了强大的性能。这表明，即使是最简单的技术，如dropout，如果正确应用，也能在复杂的机器学习问题中产生显著的影响。SimCSE的成果提醒我们，有时候，回归简单可能是取得突破的关键。对于想要探索对比学习或提升文本嵌入质量的研究者来说，SimCSE是一个值得深入了解的工具。

alignment

计

算

正

例

对

之

间

的

向

量

距

离

的

期望

：

越

相

似

的

样

例之

间

的

alignment

程

度

越

⾼

。

因

为

alignment

使

⽤

距

离

来

衡

量

，

所

以

距

离

越

⼩

，

表

示

alignment

的

程

度

越

⾼

。

uniformity

评

估

所

有

数据

的

向

量

均

匀分

布

的

程

度

，

越

均

匀

，

保

留

的

信

息

越

多

。

可

以

想

象

任

意

从

表

示空

间

中

采

样

两个

数据

和

希

望

他们

的

距

离

⽐

较远

。

他们

的

距

离

越

远

，

证

明

空

间

分

布

越

uniform

。

所

以

uniformity

的

值

也

是

越

低

越

好

。

SimCSE

也

采

⽤

这

两个

指

标来

衡

量

⽣

成

的

句

⼦

向

量

，

并

证

明

了

⽂

本

的

语

义

空

间

也

满

⾜

：

alignment

值

越

低

且

uniformity

值

越

低

，

向

量

表

示

的

质

量

越

⾼

，

在

STS

任

务

上

的

Spearman

相

关

系

数

越

⾼

。

SimCSE

有

两个

变

体

：

Unsupervised SimCSE

和

Supervised SimCSE

，

主

要

不

同

在

于

对

⽐

学

习

的

正

负

例

的

构

造

。

下

⾯

详

细

介

绍

下

他们

的

构

造

⽅

式

。

⽆

监督

SimCSE

Unsupervised SimCSE

引

⼊

dropout

给

输

⼊加

噪

声

，

假

设

加

噪

后

的

输

⼊

仍

与

原

始

输

⼊

在

语

义

空

间

距

离

相

近

。

其

正

负

例

的

构

造

⽅

式

如

下：

正

例

：

给

定

输

⼊

，

⽤

预

训

练

语⾔

模

型

编

码

两

次

得

到

的

两个

向

量

和

作为

正

例

对

。

负

例

：

使

⽤

in-batch negatives

的

⽅

式

，

即

随

机

采

样

⼀个

batch

中

另

⼀个

输

⼊

作为

的

负

例

。

剩余10页未读，继续阅读

普通网友

粉丝: 1277
资源:
5623

SimCSE：仅用Dropout实现的简单对比学习

丹琦女神探讨对比学习新策略：仅用Dropout优化

丹琦女神新SOTA对比学习技术中文效果实证

移动终端无线传输能耗测量与分析

丹琦女神新作：对比学习，简单到只需要Dropout两下.rar

丹琦女神的对比学习新SOTA，在中文表现如何？我们补充实验后，惊了！.pdf

丹琦女神的对比学习新SOTA，在中文表现如何？我们补充实验后，惊了！.rar

中兴EPON培训资料B级教程.pdf

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

OpenArk64-1.3.8beta版-20250104

面向对象（下）代码.doc

最新资源