预训练词向量优化不平衡文本情绪分类

需积分: 0 152 浏览量更新于2024-08-05 收藏 481KB PDF 举报

"基于词向量预训练的不平衡文本情绪分类_林怀逸1" 文本情感分类是自然语言处理中的一个重要任务，特别是在深度学习领域。在实际应用中，数据集经常出现类别不平衡的情况，即某一类别的样本数量远大于其他类别，这会使得模型在训练过程中倾向于学习那些占优势的类别，导致对少数类别的识别能力下降。传统的解决不平衡问题的方法主要包括代价敏感学习和各种采样策略，如过采样和欠采样。本文关注的是在不平衡数据集上的文本情绪分类，作者提出了基于词向量预训练的任务选择方法。词向量预训练是一种利用大规模无标注数据生成词的分布式表示的技术，如Word2Vec、GloVe等。这些预训练的词向量能够捕获词汇间的语义关系，对于情感分析任务有很好的表现。在该研究中，作者首先通过特定的预训练任务生成有利于小类别区分的词向量，这些词向量在初始化目标模型时使用，目的是让模型在训练初期就能获得对小类别更敏感的特征表示。然后，结合均衡过采样技术，对多数类别进行下采样，以减少其对模型的影响，同时确保模型能保留对多数类别的识别能力，从而达到在特征层面实现类别平衡的效果。实验结果显示，相比于传统的过采样方法，这种结合预训练词向量的策略在大多数情况下能更好地处理不平衡问题，特别是在模型没有严重过拟合的情况下。在存在严重过拟合的场景中，当目标分类数为三时，这种方法的平衡效果尤其显著。此外，论文还探讨了预训练方法与代价敏感方法的结合，表明两者可以协同提升分类的平衡性能。关键词涉及到的关键技术点包括： 1. 不平衡分类：指数据集中不同类别的样本数量差异较大，导致模型训练时偏重于多数类别，忽视少数类别。 2. 情绪分类：自动识别文本中的情感倾向，通常分为正面、负面和中性等类别。 3. 均衡过采样：一种处理不平衡数据的策略，通过对多数类别样本进行下采样，使各类别样本数量接近。 4. 预训练词向量：在大规模语料上预训练得到的词向量，用于捕捉词汇的语义信息，提高模型的表示能力。 5. 代价敏感学习：一种处理不平衡数据的方法，通过调整不同类别的损失权重，使模型对所有类别都给予相同的关注度。这篇论文的工作为不平衡文本情感分类提供了一种新的思路，即通过预训练词向量的选择和均衡过采样，从特征表示层面解决类别不平衡问题，提高了模型在处理小类别样本时的准确性和公平性。这对于实际应用中的情感分析系统设计具有指导意义。

中

文信息学报

２０１９

年

型

在大类别上的精度

，

从而实现比过采样更好的平

衡效果

。

２

基于词向量预训练的不平衡情绪分类方法

２

．１

情

绪分类数据集

本

文使用的数据整理自

“

自然语言处理与中文

计算会议

”

（

Ｎ

ＬＰ＆ＣＣ

）

情

绪分析任务

，

样本数据分

布情况如表

１

所示

。

其中分为无情绪

、

喜好

、

开心

、

惊讶

、

厌恶

、

悲伤

、

愤怒和恐惧八类情绪

，

另除无情绪

类别外其他情绪可归为积极和消极两类

。

本文在该

数据集上划分

、

采样形成多组存在不平衡问题的子

数据集

，

用于验证不同情况下方法的有效性

。

表

１

情绪分类数据集中的样本数量分布

无

情绪积极消极

７

４９０

３

５

１３

２

９９７

喜

好开心惊讶厌恶悲伤生气恐惧

１

８

７９

１

３１０

３２４

１

２３９

１

０１８

５９５

１４５

２

．２

词向

量迁移与预训练任务选择方法

本文提出的词向量预训练方法流程如图

１

所

示

。

其中

，

目标任务指实验既定的分类任务

，

预训练

任务指在既定任务数据集中

，

使用本文提出的预训

练任务选择方法选取部分数据进行的分类任务

。

预

训练词向量指执行预训练任务后分类模型中的词向

量矩阵

。

词向量的迁移指使用预训练词向量初始化

目标任务的分类模型

。

整体流程为在既定任务中选

择预训练任务并训练模型获得预训练词向量

，

该词

向量再用于初始化目标任务模型

，

最终训练目标任

务模型使其在各类别上分类精度平衡

。

图

１

词向量迁移流程图

由于特定模

型预训练所得词向量矩阵在其他模

型上不一定能达到期望的平衡效果

，

所以预训练任

务和目标任务的分类模型均采用

Ｃ

ＮＮ

。

ＣＮＮ

模

型

结构如图

２

所示

。

图

２

文

本

ＣＮＮ

网络结构图

其

中

，

文本矩阵由词的

ｏ

ｎｅ

－

ｈ

ｏｔ

形

式经过词向

量矩阵映射得到

。

假设词向量表示为

瓫

ｎ

∈

ｄ

，

其

中

下标

ｎ

表

示文本中第

ｎ

个

词汇

，

ｄ

表

示词向量的

维度

，

则文本矩阵由词向量按词序拼接组成表示为

式

（

１

）

。

瓫

１

：

Ｌ

＝

［

瓫

１

，

瓫

２

，

瓫

３

，

…，

瓫

Ｌ

］

（

１

）

其

中

，

Ｌ

表

示文本固定长度

。

当实际文本长度

大于

Ｌ

时

，

截

断使其长度变为

Ｌ

，

当

长度小于

Ｌ

时

，

使

用表示未知词的词向量进行补齐

。

其中

，

未知词

的词向量指各维度初始化为

０

的词向量

，

且该词向

量在训练过程中由训练算法进行调整

。

获得文本矩

阵后进行卷积操作

。

假设卷积核为

ｗ

∈

ｄ

ｘ

，

其

中

ｘ

为

卷积核宽度

，

该卷积核对

瓫

ｉ

：

ｉ

＋

ｘ

－

１

进

行一次卷积操

作获得特征值

ｃ

ｉ

表

示为式

（

２

）

。

ｃ

ｉ

＝

ｆ

ｗ

＊

瓫

ｉ

：

ｉ

＋

ｘ

－

１

＋

（

）

ｂ

（

２

）

其

中

，

＊

为对应元素乘积求和

，

ｂ

为

常数偏置

项

，

ｆ

表

示非线性激活函数

Ｒ

ｅＬＵ

。

所

得

ｃ

ｉ

为

文本

第

ｉ

个

词起的一个

ｘ

－

ｇ

ｒ

ａｍ

特

征

［

２

８

］

的

特征值

，

再利

用最大池化操作提取该文本最显著的

ｘ

－

ｇ

ｒ

ａｍ

特

征

，

并与其他

ｎ

－

ｇ

ｒ

ａｍ

特征拼接作为文本特征置于全连

接

层进行分类

。

若使用

Ｗ

ｏｒｄ２Ｖｅｃ

方

法对模型进行初始化

。

假

设任务有三个类别

Ｃ

１

，

Ｃ

２

，

Ｃ

３

，

且各类别中样本均有

相

同语法结构

，

三个不同类别样本中最显著的

ｘ

－

ｇ

ｒ

ａｍ

文

本区域为

［

瓫

ｉ

，

…，

ｃ

１

＿

瓫

ｎ

，

…，

瓫

ｉ＋ｘ－

１

］

，

［

瓫

ｊ

，

…，

ｃ

２

＿

瓫

ｎ

，

…，

瓫

ｊ

＋

ｘ

－

１

］

，［

瓫

ｋ

，

…，

ｃ

３

＿

瓫

ｎ

，

…，

瓫

ｋ

－

ｘ

＋

１

］

其

中对应位置词向量语法特性相同

，

且

ｃ

１

＿

瓫

ｎ

，

ｃ

２

＿

瓫

ｎ

，

ｃ

３

＿

瓫

ｎ

为

不同情感表达词汇

，

在训练

所得词向量空间中

，

相似语法特性的词之间空间距

离较近

［

２

９

］

，

因

此上述区域经过相同卷积核作用所得

文本特征数值

ｃ

相

近

，

模型利用该文本特征不容易

区分文本的情绪类别

。

但模型训练后

ｃ

１

＿

瓫

ｎ

，

４

３１

剩余10页未读，继续阅读

番皂泡

粉丝: 27

预训练词向量优化不平衡文本情绪分类

基于ELMo词向量的textCNN中文文本分类python代码

词向量-基于LSTM+CNN预训练词向量文本分类.zip

word2vec词向量训练及中文文本相似度计算 【源码+语料】

基于预训练词向量的句子分类卷积神经网络研究

下载Facebook预训练fastText词向量模型

CNN在句子分类中的卓越表现：深度学习与预训练词向量

斯坦福glove预训练词向量：探索6B单词集

探索上百种预训练中文词向量及其应用

利用Glove词向量实现高效文本分类方法

直接使用预训练的word2vec词向量加速NLP开发

最新资源

word2vec词向量训练及中文文本相似度计算【源码+语料】