对比学习驱动文本聚类革新：提升与应用

版权申诉

101 浏览量更新于2024-08-04 收藏 4.49MB PDF 举报

对比学习作为AI技术领域的一大热点，近年来在计算机视觉(CV)和自然语言处理(NLP)领域展现出强大的影响力。文本聚类，作为NLP中的一个重要任务，随着对比学习的引入，其性能得到了显著提升。在NAACL 21年的一篇论文《Supporting Clustering with Contrastive Learning》中，研究者探讨了如何将对比学习应用于文本聚类，以解决传统聚类方法中遇到的难题。在传统的文本聚类中，如果不同类别在初始表示空间中存在较大重叠，聚类算法往往难以有效分离这些类别。然而，对比学习的核心思想是通过比较和区分增强数据对来实现学习。在文本场景下，这意味着生成与原句语义相近的变体，然后调整这些变体之间的距离，使得同源句子靠近，不同源句子远离。论文作者通过实验证明，对比学习策略（Instance-CL）能够有效地解决短文本聚类中的类别重叠问题，使得类别间的界限更加清晰。他们提出的训练框架SCCL（Supporting Clustering with Contrastive Learning）融合了自下而上的实例对比学习和自上而下的聚类学习，这有助于优化类内数据的紧凑度和类间的分离度。通过这种方式，SCCL不仅提高了聚类的准确性，还提升了聚类结果的整体质量。总结来说，对比学习在文本聚类中的应用展示了其在解决复杂数据表示问题方面的潜力，特别是在处理类别重叠和改善聚类效果方面。这篇论文为文本聚类领域的研究者提供了新的视角和方法，预示着对比学习将继续推动NLP技术的发展。如果你对这个话题感兴趣，可以参考论文链接 <https://arxiv.org/pdf/2103.12953.pdf> 或关注“夕小瑶的卖萌屋”获取更多详细解读和资源。

对

⽐

学

习

有

多

⽕

？

⽂

本

聚

类

都

被

刷

爆

了

…

⽂

花

⼩

花

Posy

⼤

家

好

，

我

是

⼩

花

。

对

⽐

学

习

的

⼤

⽕

🔥

越

来

越

旺

了

，

已

然

从

蔓

延

到

NLP

了

。

今

天

给

⼤

家

介

绍

的

正

是

⼀

篇

将对

⽐

学

习

应

⽤

到

⽂

本

聚

类

上

的

⼯

作

，

NAACL21

新

鲜

出

炉

的

paper——

《

Supporting Clustering with Contrastive

Learning

》。

该

⼯

作

在

个

短

⽂

本

聚

类

数据

集

上

取

得

了

显

著

提

升

(

⽐

如

正

确

率

提

升

3%~11%)

。

所

谓

对

⽐

学

习

，

重

点

在

于

对

⽐

，

那

对

⽐

的

对

象

是

谁

？

答

⽈

：

增

强

的

数据

。

假

设

如

果

两个

增

强

句

⼦

的

原句

⼦

⼀

样

，

那

么

拉

近

它

们

，

否

则

推

远

它

们

。

在

领

域

，

对

⽐

学

习

是

和

携数据

增

强

⼀

起

出

道

的

。

给

定

⼀

张

图

⽚

，

⽣

成

不

同

的

变

体

去

增

强

它

，

然

后

⽤

对

⽐

思

想

去

学

习

。

NLP

领

域

也

如

法

炮

制

。

给

⼀个

句

⼦

，

使

⽤

数据

增

强

去

⽣

成

和原句

⼦

语

义

相

似

的

句

⼦

。

⽐

如

下

⾯

的

例

⼦

[1]

：

如

果

两个

增

强

句

⼦

来

⾃

同

⼀个

原句

⼦

，

那

么

它

们

是

同

源

的

，

否

则

是

不

同

源

的

。

本

⽂

发

现

，

利

⽤

对

⽐

学

习

的

特

性

，

即

拉

近

同

源

句

⼦

、

拉

远

不

同

源

句

⼦

，

可

以

解

决

短

⽂

本

聚

类

问题

中

⼀个

令⼈

头

疼

的

问题

——

如

果

学

习

过

程

开

始

时

，不

同

类

别

在

表

示空

间

中

就

彼

此

重

叠

，

那

么

不

管

怎

么

学

习

都

很

难

将

各

个

类

别

区

分

开

。

下

图

是

原

⽂

中

对

⽐

的

原

始

数据

的

分

布

(Original)

和

使

⽤

聚

类

（

Clustering

）

模

型

学

习

后

的

分

布

。

花

⼩

花

osy

2021-04-22

22:20

原

创

夕

⼩

瑶

的

卖

萌

屋

下载后可阅读完整内容，剩余8页未读，立即下载

普通网友

粉丝: 1267
资源:
5619

对比学习驱动文本聚类革新：提升与应用

对比学习有多火？文本聚类都被刷爆了⋯.rar

基于深度学习的文本分类聚类工具源码+项目说明.zip

birch算法文本聚类应用举例 (2).pdf

birch算法文本聚类应用举例 (3).pdf

计算机研究 -中文文本聚类算法的研究与实现.pdf

大数据-算法-模糊文本聚类算法的研究与应用.pdf

论文研究-蚁群优化与模糊聚类结合的文本聚类研究.pdf

MATLAB实验五聚类方法与聚类有效性.pdf

机器学习与人工智能(聚类分析)习题与答案.pdf

聚类方法概述、分类等.pdf

最新资源