集成方法提升阿拉伯语推文自动分类精度

115 浏览量更新于2025-01-16 收藏 819KB PDF 举报

随着社交媒体的普及，推文分类已成为一个热门研究领域，特别是在阿拉伯语环境下，因为这种语言的特殊性带来了额外的挑战。这篇论文探讨了如何通过集成方法提高阿拉伯语推文的自动分类精度，特别关注的是将其分类为体育、文化、政治、技术和一般等类别。作者们，Ahmed N. Abdelaala和Hassan Elmahdya Halawauni，分别来自埃及开罗爱资哈尔大学和Minia大学的计算机和系统工程系，他们针对阿拉伯语推文的预处理进行了深入研究。首先，他们强调了阿拉伯文本预处理的重要性，因为这种语言的特性（如词序和书写方向）与英文不同，需要更精细的处理以提取有效信息。预处理步骤包括移除停用词和标准化文本，以便降低噪声并聚焦于关键信息。文本分类的目标是根据预先设定的类别对文档进行自动归类，这项技术在信息检索、情感分析等领域具有广泛的应用。研究的核心是采用集成学习方法，包括bagging（自助采样法）、boosting（提升算法）和stacking（堆叠分类器）来提高分类准确性。他们选择J48（决策树）、朴素贝叶斯（NB）和顺序最小优化（SMO）作为单一分类器，通过对比这些方法，集成后的模型能够显著提高性能。具体来说，他们发现集成方法使得朴素贝叶斯分类器的准确率提高了1.6%，而顺序最小优化分类器的准确率提升了2.2%。这证明了集成策略在阿拉伯语推文分类中的有效性。论文还指出，他们的研究成果发表在《电气系统与信息技术学报》上，是基于2018年的数据集进行的实验验证。最后，研究者强调了成果的版权归属，即该论文是遵循CC BY-NC-ND许可的开放获取文章，允许在特定条件下分享和使用。这篇论文为阿拉伯语推文的自动分类提供了一个实用的集成方法，不仅改进了单个分类器的性能，也为处理其他类似语言的文本提供了有价值的经验和参考。这对于推动阿拉伯语信息处理和跨文化交流的理解至关重要。

可在www.sciencedirect.com上在线

ScienceDirect

电气系统与信息技术学报5（2018）363

使用集成方法提高阿拉伯语推文的自动分类精度

哈曼湾放大图片作者：Abdelaal

， Ahmed N.作者：Elmahdy

.哈桑·哈拉瓦尤尼

斯

埃及开罗爱资哈尔大学工程学院计算机和系统工程系

埃及

Minia

大学工程学院计算机和系统工程系

接收日期：2015年11月16日;接收日期：2018年2月27日;接受日期：2018年3月17日

在线提供2018年

摘要

近年来，推文分类成为人们感兴趣的话题，特别是对于阿拉伯语。本文根据阿拉伯语推文的语言特征和内容，将其

自动分类为体育、文化、政治、技术和一般等几个预定类别之一，并采用集成方法提高阿拉伯语推文的分类准确率，

主要方法是：在分类之前使用的同一数据集上使用bagging、boosting和stacking，对结果进行验证，并确定最佳分类器

具有较高的准确率。实验结果表明，采用集成方法比采用个体分类器更好地提高了分类精度与使用J48，NB或SMO作

为单个分类器相比，分类器朴素贝叶斯（

）的准确率提高到

1.6%

，分类器顺序最小优化（

SMO

）提高到

2.2%

，最终

决策树（

J48

）分类器达到

电子研究所（

ERI

）。

Elsevier B. V.

制作和托管这是

CC BY-NC-ND

许可证下的开放获取文章

（

http://creativecommons.org/licenses/by-nc-nd/4.0/

）。

关键词：

阿拉伯语推文;预处理;分类;分类器算法;加密方法

介绍

阿拉伯语文本具有与英语文本不同的性质，因此阿拉伯语文本的预处理更具挑战性，也是文本分类之前

的重要技术，目的是从庞大的数据中获取知识，减少处理操作。预处理主要包括许多步骤：去除无用的

词，称为（停用词）如from、in、on等，”[10]“以其字，以其字。文本分类旨在将文档分类到预定义的类别

中。它也被称为文本分类，文档分类和文档分类。

通讯作者。

电子邮件地址：

hammam mohamed36@yahoo.com（H.M. Abdelaal）。

电子研究所（ERI）负责同行评审

https://doi.org/10.1016/j.jesit.2018.03.001

（http://creativecommons.org/licenses/by-nc-nd/4.0/）。

下载后可阅读完整内容，剩余7页未读，立即下载

cpongm

粉丝: 6

集成方法提升阿拉伯语推文自动分类精度

提升阿拉伯语推文分类精度的集成方法研究

阿拉伯语推文分类研究：词嵌入与tf-idf方法比较

HILATSA：阿拉伯语推文情感分析的混合增量学习方法

如何构建一个集成BiGRU、BiLSTM和CNN的深度学习模型，以提升阿拉伯语推文中情感的多标签分类精度？

AraSenCorpus：超450万阿拉伯语推文情感分析语料库

如何利用深度学习技术实现阿拉伯语推文中情感的多标签分类分析？请结合BiGRU、BiLSTM和CNN的优势进行解释。

阿拉伯语-方言分类-纳迪共享任务

基于COVID-19推文的阿拉伯语词嵌入模型研究

阿拉伯语语法错误自动修正系统的创新方法

Ghalatawi: 构建阿拉伯语开源自动更正系统

最新资源