深度学习驱动的文本分类：LSTM与GRU在NLPCC中的应用

需积分: 0 145 浏览量更新于2024-08-05 收藏 316KB PDF 举报

本文主要探讨了"基于递归神经网络的文本分类研究"这一主题，由黄磊和杜昌顺两位作者合作完成，发表于2017年北京化工大学学报(自然科学版)第44卷第1期。该研究聚焦于利用深度学习技术改进文本分类的性能，特别是在处理大量互联网产生的文本数据时。作者首先介绍了递归神经网络(RNN)中的两种关键组件：长短时记忆(LSTM)和门控循环单元(GRU)，这两种结构允许模型在计算过程中保留单词的上下文信息，同时处理序列数据。双向递归神经网络(Bi-RNN)在此基础上进一步增强，它能够同时考虑前后文，更有效地捕捉文本中的语义和语法关系。文本特征的提取是通过RNN对词向量进行计算，词向量作为基本输入单元，提供了丰富的语义和语法表达。这种方法避免了传统文本分类方法中手动设计特征的繁琐过程，具有高度的可移植性。在实验阶段，作者将其应用于第三届自然语言处理和中文计算会议(NLPCC2014)的两个数据集——新华社新闻分类语料和路透社RCV1-v2，取得了显著的F1值提升，分别为88.3%和50.5%，显示出深度学习方法在文本分类任务中的优势。文章的关键技术包括深度学习、LSTM、GRU、双向递归神经网络以及词向量，这些都是现代文本挖掘和自然语言处理中的核心工具。研究结果表明，这种方法不仅提高了分类精度，还简化了预处理流程，对于理解和处理大规模文本数据具有实际应用价值。总结来说，这篇论文通过对递归神经网络的巧妙运用，展示了深度学习在文本分类领域的潜力，并通过实证结果证明了其在提高文本分类性能方面的有效性。这对于理解如何在海量信息时代高效地进行文本分析和信息提取具有重要意义。

第

卷第

期

2017

年

北京化工大学学报

（

自然科学版

）

Journal of Beijing University of Chemical Technology （ Natural Science）

Vol． 44，No． 1

2017

基于递归神经网络的文本分类研究

黄磊杜昌顺

（

北京交通大学经济管理学院

，

北京

100044）

摘要

：

使用基于长短项记忆

（ LSTM）

和门阀递归单元

（ GＲU）

计算节点的双向递归神经网络提取文本特征

，

然后

使用

softmax

对文本特征进行分类

。

这种基于深度学习的神经网络模型以词向量作为基本输入单元

，

充分考虑了

单词的语义和语法信息

，

并且在神经网络的计算过程中严格遵守单词之间的顺序

，

保留原文本中语义组合的方式

，

可以克服传统文本分类方法的不足

。

使用本文所提方法在第三届自然语言处理和中文计算会议

（ NLPCC 2014）

公

布的新华社新闻分类语料和路透社

ＲCV1－v2

语料上进行实验

，

其分类

值分别达到了

88. 3%

和

50. 5% ，

相较于

传统的基线模型有显著的提升

。

由于该方法不需要人工设计特征

，

因此具有很好的可移植性

。

关键词

：

文本分类

；

深度学习

；

长短项记忆

（ LSTM）；

门阀递归单元

（ GＲU）；

双向递归神经网络

；

词向量

中图分类号

： TP391. 1 DOI： 10． 13543 /j． bhxbzr． 2017． 01． 017

收稿日期

： 2016－09－21

第一作者

：

男

，1965

年生

，

教授

E-mail： summer2015@ bjtu． edu． cn

引言

在步入信息时代的今天

，

互联网以惊人的速度

蓬勃发展

，

产生了海量的文本数据

。

如何对这些文

本数据进行有效的文本分类

，

进而发现有价值的信

息一直是人们研究的热点

。

当前

，

针对文本分类方法已经出现了许多研究

。

姚全珠等

［1］

使用

latent dirichlet allocation （ LDA）

模

型对文本进行自动分类

，

将文本表示为固定的概率

分布

，

利用

Markov chain Monte Carlo （ MCMC）

中的

Gibss

抽样进行推理

，

以间接的方式计算模型的参

数

，

从而获得文本在固定主题上的概率分布

，

概率大

的对应为文本的类别

。

张爱丽等

［2］

使用支持向量

机

（ SVM）

算法进行多类别的文本分类

，

该方法主要

使用向量空间模型

，

以此作为特征项

，

将文档构造成

一个高维度

、

稀疏的向量作为文本的特征表示

，

然后

输入到

SVM

分类器中

。

刘华

［3］

使用文本的关键短

语进行分类

，

该方法认为反映文本类别信息的关键

单词或者短语的作用更加重要

，

因此先用统计的方

法抽取关键短语的向量特征

，

然后通过计算余弦相

似度来判断类别

。

随着近年来深度学习方法的兴

起

，

受限玻尔兹曼机也被广泛地应用到文本分类的

方法中来

。Hinton

等

［4］

利用深度玻尔兹曼机模拟文

档

，

自动学习文档的分类特征

，

在英文文档的分类上

取得了良好的效果

。

尽管上述方法在一些实验中已经取得了一定的

效果

，

但是存在两个主要的问题

：

第一

，

它们通常都

是将文本看作由许多单词构成的无机体

，

认为各个

单词是相互独立的

，

并且忽略其顺序

；

第二

，

这些方

法仅仅是把单词看作一个符号

，

记录文本中有无出

现该符号以及该符号对某主题

（

类别

）

的贡献率

，

而

忽略单词本身所代表的语义

。

然而

，

文本中各个单

词之间是相互联系的

，

共同出现才能构成文本所表

达的完整语义

，

并且其顺序非常重要

。

其次

，

文本的

语义是由单词的语义组合得到的

，

如果不能准确捕

获单词的语义

，

那么也难以获取文本的准确语义

。

针对这两个方面

，

本文设计了基于

long short-

term memory （ LSTM ）

［5］

和

gated recurrent unit

（ GＲU）

［6］

的递归神经网络

［7］

结构

，

以

LSTM

或

GＲU

为计算单元的递归神经网络在处理长句子或者长文

本时有独特的优势

，

它能够记住句子中远距离的依

赖关系

，

使得网络能够保留文本的主要语义信息

。

为了验证基于

LSTM

和

GＲU

的递归神经网络模型

的正确性和有效性

，

收集了中文和英文的新闻分类

的数据集

［4，8］

。

运用递归神经网络抽取新闻的特征

向量

，

最后将特征向量传递给

softmax

分类器

，

并对

分类结果进行了比较分析

。

基于

LSTM

和

GＲU

节点的递归神

经网络模型

模型主要包括两个部分

：

第一部分是特征提

下载后可阅读完整内容，剩余6页未读，立即下载

好运爆棚

粉丝: 33
资源: 342

深度学习驱动的文本分类：LSTM与GRU在NLPCC中的应用

基于递归神经网络的文本分类研究.pdf

递归神经网络文本情感二元分类_deep_1earning_2.zip

递归神经网络_Neuraldiagnosis_神经网络故障_recurrentnetwork_递归神经网络_matlab神经_源

递归神经网络与文本分类

ltsm是基于循环神经网络还是递归神经网络

递归神经网络用于文本理解

递归神经网络使用场景

递归神经网络的发展史

前馈神经网络与递归神经网络有什么区别

递归神经网络python

最新资源