文本结构混合分层注意力网络提升话题分类准确性

0 下载量 58 浏览量 更新于2024-08-28 收藏 2.22MB PDF 举报
本文主要探讨了"面向文本结构的混合分层注意力网络的话题归类"这一主题,针对当前话题归类模型在处理文本逻辑结构特征和组织结构特征方面的不足。作者提出了一种新颖的模型——TSOHAN(Text Structure Oriented Hierarchical Attention Network,文本结构导向的混合分层注意力网络)。TSOHAN模型将文本的逻辑结构和组织结构视为关键要素,逻辑结构主要包括标题和正文,这些信息对于理解文本主题至关重要;而组织结构则涵盖了从字、词到句子的多层次,通过这种方式,模型能够更精细地捕捉文本的内在联系。 TSOHAN模型采用了两种核心机制来提升其性能。首先,它引入竞争机制,将标题和正文的注意力融合在一起,这种机制增强了文本逻辑结构特征在话题分类中的影响力。通过这种方式,模型可以更好地理解和区分不同话题之间的区别,从而提高分类准确性。其次,模型采用分层的注意力机制,逐层聚焦于字、词语和句子级别,这有助于捕捉文本的宏观和微观层面信息,进一步强化了文本组织结构特征的作用。 实验部分,作者在四个标准的数据集上对TSOHAN模型进行了评估,结果显示,相较于传统的模型,TSOHAN模型显著提高了话题分类任务的精度。这表明,模型的有效性在于它能更深入地理解和利用文本的结构信息,从而在复杂多变的文本语境中更准确地进行分类。 本文的研究主要贡献在于提出了一种新的深度学习方法,即混合分层注意力网络,它通过整合文本逻辑结构和组织结构,有效地提升了话题归类的性能。这为文本分析领域的研究者提供了新的思路和技术工具,特别是在处理大量文本数据时,TSOHAN模型展示了其在提升分类效率和准确度方面的潜力。