改进的短文本层级注意力网络：提升Twitter分类精度

需积分: 0 83 浏览量更新于2024-08-05 收藏 221KB PDF 举报

本文主要探讨了在文本分类这一自然语言处理的核心研究领域中的一个改进问题。传统的Hi-erarchical Attention Networks (HAN)模型，虽然在处理结构明显的长文本如豆瓣、IMDB影评时表现出色，但在处理短文本，如推特、微博等情境下，其效果并不理想。针对这一挑战，研究者程芷怡和马烨在2020年6月提出了对HAN结构的迁移改进方法。首先，问题描述部分明确了研究背景，强调了对现有层级注意力网络进行优化的需求，以适应短文本分类任务，提高准确率。短文本的特性与长文本不同，缺乏明确的层级结构，因此需要对原有的模型进行适应性调整。在相关工作部分，研究者选择了三个基础模型作为参考，包括Zichao Yang在2016年的HAN模型，以及基于卷积神经网络（Convolutional Neural Networks, CNN）的另一种经典文本分类方法。这些基础模型展示了当时在长文本分类中的先进技术水平，但为了应对短文本的特性，作者决定对其进行创新。文章的核心内容包括数据集的选择和预处理，特别是使用Sentiment140数据集，这是一个广泛用于情感分析的短文本数据集。数据预处理阶段可能涉及词汇清洗、标准化、嵌入向量生成等步骤，以准备模型的输入。模型结构设计上，文章重点介绍了如何在基于Gated Recurrent Unit (GRU)的序列编码器基础上，构建层级式注意力机制。这包括字符级别的编码和注意力机制，以及单词级别的编码和注意力机制，这些设计旨在捕捉文本中的局部和全局特征，以提高短文本的表达能力。实验部分详细描述了模型参数的选择和调整，以及与三个基础模型（baseline1、baseline2、baseline3）的性能对比。通过训练结果的比较，研究者分析了模型在短文本分类任务上的改进效果，并对未来的研究方向提出了思考。最后，总结部分回顾了研究的主要贡献，即如何通过迁移和改进现有的层级注意力网络，提升在短文本分类任务中的表现，以及指出可能存在的局限性和未来改进的方向。这篇论文着重于解决短文本分类中的挑战，通过创新的模型结构和细致的实验验证，展示了对现有技术的有效应用和扩展，为自然语言处理领域的短文本处理提供了新的思路和实践案例。

为短文本分类而改进的 attention 层级网络

程芷怡

马烨

2020.6

摘要: 文本分类一直是自然语言处理研究的重要领域。在调研时我们发现，著名的论文 Hi-

erarchical Attention Networks for Document Classication 所描述的结构只适用于有很强结

构性的长文本，而对短文本效果不太好。于是我们借鉴了论文中的结构，将其进行迁移，在

推特的数据集上进行了测试。

关键词: 自然语言处理文本分类层级结构 attention 机制

1 问题描述 2

2 相关工作 2

3 数据集和预处理 2

3.1 数据集 Sentiment140 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3.2 数据处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

4 模型结构 2

4.1 以 GRU 为基础的序列 encoder . . . . . . . . . . . . . . . . . . . . . . . . . . 2

4.2 层级式 attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

4.2.1 字符 encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

4.2.2

字符

attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

4.2.3 单词 encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

4.2.4 单词 attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

4.3 文本分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5 实验部分 4

5.1 模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5.2 baseline 1 的参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5.3 baseline 2 的参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5.4 baseline 3 的参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5.5 训练结果比较 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

5.6 结果分析和 Future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

6 总结 5

下载后可阅读完整内容，剩余5页未读，立即下载

张博士-体态康复

粉丝: 36

改进的短文本层级注意力网络：提升Twitter分类精度

系分论文样例

SVM文本分类的经典硕博论文1

论文1-论文.zip

人工智能基于深度学习论文大合集比如：基础目标分类论文、目标检测论文、面部表情识别论文等等848MB资源包.zip

系分论文写作 （PDF）

csai系分辅导论文范文

分论13组 附件5 论文创新点1

案例分录-论文.zip

系分软考 2009最新论文资料

桌面分框软件，论文专用

最新资源

系分论文写作（PDF）

分论13组附件5 论文创新点1