基于二元字母表的文本分类方法的研究

22 浏览量更新于2024-01-14 收藏 553KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于二元字母表的Fatma Elghannam埃及开罗电子研究所阿提奇莱因福奥文章历史记录：接收日期：2018年2019年1月6日修订2019年1月12日接受2019年1月21日在线提供保留字：文本表示文档分类特征提取阿拉伯文文档支持向量机A B S T R A C T在文本分类中，文本必须被转换成适合于学习算法的数值表示。常用的词袋方法的一个主要问题是向量空间的高维数，以及对语言相关工具的需求在本研究中，文本分类是基于一种新的二元字母表的方法来构建特征项。该方法对文本分类领域有两个主要贡献首先，我们已经证明了使用基于标准字母表的常量特征项而不需要文档词汇表的可能性其次，它不需要自然语言处理工具。目前的工作已经证明了阿拉伯语或英语文本文件的集合成功地进行分类与阿拉伯语数据集Aljazeera News上记录的最佳结果相比，它在向量空间中显示出约80%的©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍文本分类是一个具有挑战性的研究课题，由于需要组织和分类的电子文本文件在互联网上不断增长它已成功地应用于各种各样的领域，如新闻分类，垃圾邮件过滤，意见挖掘，信息检索，自动索引，摘要，和其他。文本分类可以被定义为基于内容将自然语言文本分配到一个或多个预定义类别的任务（Ratitiani，2002）。虽然许多研究人员应用各种机器学习算法来研究文本分类器的有效性，但很少有工作考虑探索和分析文本表示方案的可能方式及其对文本分类系统准确性的影响绝大多数研究利用向量空间模型 VSM（Salton等人，1975年），利用袋的话BOW方法（约阿希姆，1998年a，b）。在BOW方法中，文档被转换成加权词的向量。首先，定义语料库中出现的所有单词。然后将每个文本文档映射到其沙特国王大学负责同行审查电子邮件地址：elghannam@eri.sci.eg基于该文档中单词的出现的特征向量考虑下的所有文档的矢量的完整集合产生VSM。文档向量的长度等于所有文档中存在的不同单词的数量。BOW方法的一个主要问题是输入特征空间的维数高和稀疏矩阵庞大，这反过来又影响了学习算法的性能和复杂度。对于一个大的集合，词袋向量空间的维数因此，为了减少词汇量和提高分类精度，大多数研究者通常将两种技术作为预处理任务来实现。首先，删除所有文档中经常使用和常见的单词（所谓的停用词），如代词，命题，冠词和连词等。其次，将所有单词转换为规范形式（如词干或词根）并删除重复的单词。这有助于减少特征空间的维数和内存需求。然而，预处理是进一步的挑战，特别是在包括阿拉伯语在内的高级形态语言的情况下。因此，找到一种方法来执行成功的分类，而不需要依赖于语言的工具是TC领域的主要阿拉伯语属于闪米特语系。这是古兰经的语言，穆斯林的圣书。大约有2.5亿人把它作为他们的第一语言。阿拉伯字母表有28个字母/字符，不像英语是从右到左写的。在这部作品中，字母和字符这两个词可以互换使用。有几种类型的短元音可以使用https://doi.org/10.1016/j.jksuci.2019.01.0051319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com236F. Elghannam/ Journal of King Saud University产生一个字母的不同发音阿拉伯语有丰富的形态学，既有派生词又有屈折词。它有两个性别系统，阳性或阴性和三个动词形式：过去，现在和命令。与其他闪米特语言一样，其主要区别特征之一语言中的每个单词都是一组基本字母（根）加上给定模式的组合由于现代标准阿拉伯语出版物通常不对短元音进行编码，并省略了其他一些重要的语音特征，因此形态歧义程度很高。除了这种复杂性，阿拉伯语正字法规定将某些单词形式与前面或后面的单词形式连接起来，可能会改变它们的拼写，而不仅仅是省略它们之间的空格（Smrz，2007）。这种约定使标记不同单词的语言处理复杂化，因为它们可能被组合成一个紧凑的字母串因此，阿拉伯语的模糊性，无论是由于其复杂的形态性质还是缺乏变音符号，都使得预处理阶段比英语情况更复杂。因此，如果有一种方法可以在不需要NLP工具的情况下成功地执行分类过程，这将是TC领域的一个主要优势。传统的音义关系观是武断的，即词义不受音义的影响。另一种假设，称为声音象征主义，调用非任意性是指特定的声音序列和言语中的特定含义之间的明显联系（Sapir，1929;Nuckolls，1999）。伊本·真尼（死于1001年）的早期研究用他的名言表达了这种天生的语言学理论：阿巴斯遵循声音象征主义的方法，并同意“阿拉伯字母的意义是其声音在良心或灵魂中的回声”。他对阿拉伯字母的特征和意义的研究证明，阿拉伯字母与其3523个词根的意义有50-本研究的动机是声音象征主义的概念。我们的目的是探讨将语音符号概念扩展到文本分类领域的可能性，通过检测字母序列的分布来预测文档类别。在这方面，我们进行了一个初步的实验的基础上的单字字母。该实验的分类精度是合理的。这鼓励我们扩展使用unigram来采用bigram字母表。在本文中，我们提出了一种新的方法来表示文本文档的TC。所有可能的二元语法安排的标准字母表中使用的构造功能。采用二元字母表的词频作为加权方案来表示文档内容。这项工作的文本分类领域的一个主要贡献是使用恒定的预定义的标准特征项，而不是依赖于文档词汇表来提取的功能。这保证了减少文档向量空间随着数据量的增加而急剧增加，从而有助于提高学习算法的复杂性和性能此外，所提出的方法避免了使用标记器，词干分析器或其他依赖于语言的工具，这些工具是复杂的，并且可能会给表示带来噪声，特别是对于包括阿拉伯语在内的高形态语言。除了对阿拉伯文文本分类进行广泛研究外，目前的工作还被用于对阿拉伯文和英文文本集进行分类。拟议办法的特点是：语言无关易于应用，不需要NLP工具。特征项的构造基于标准字母表。特征词是固定的，不受语料库的词汇或体裁的影响。特征项的数量不会随着数据量的增加而增加利用二元字母表的词频构造文档向量。训练和测试数据划分不受特征提取或文档向量计算的影响。第二部分介绍了现有的相关工作。第3节介绍了建议的方法来分类文件。实验结果和分析报告在第4节，最后一节总结本文。2. 相关工作文本分类是文本挖掘领域的重要研究内容之一。文本表示是一个关键的任务，它直接影响到分类的准确性。由于文本不能直接由分类器算法解释，因此需要根据文档内容将其映射为数值权重的向量。下面给出了关于不同文本表示方法的文本分类的概述。目前文本分类的研究主要集中在BOW方法上，每个特征对应于训练语料中的一个词。因此，语料库中出现的所有单词都有助于特征向量配置。为了减少特征空间的维度，许多研究人员使用茎或根（ Syiam 等人， 2006 年 ; Zaeland 等人， 2009; Bahassineet al.2017），其中同一个单词的不同形式被合并成一个单词。特征选择也是一种常见的技术，以减少不相关或嘈杂的条款，目的是提高学习性能和节省计算要求（Guyon和Elisseeff，2003年）。通过使用特征选择技术，例如信息增益、互信息、卡方等，已经进行了各种降维方法。另一种方法是应用摘要器首先提取信息性句子，并从摘要文档中选择最佳单词而不是使用所有单词。Ker和Chen（2000）将基于词频和位置的分类方法结合起来，对新闻语料进行分类，只从标题字段中提取分类知识。他们的结果表明，基于摘要的分类可以达到可接受的性能和较短的计算时间。Al-Thwaib（2014）将汇总的阿拉伯语数据集用作SVM分类器的他的结果表明，与使用所有单词进行特征表示相比，使用从摘要中提取的单词进行改进为了提高分类的准确性，其他作品扩展的表示与额外的信息，如词n-gram和语义知识。单词n-gram可以作为特征术语独立使用，也可以与uni-gram（单个单词）组合使用。Bekkerman和Allan的实验结果表明，与BOW基线相比，仅使用短语作为特征项会导致分类准确率下降。Fürnkranz（1998）使用uni-gram和n-gram的组合作为特征项。他们的分类结果表明，长度为2或3的词序列通常可以提高分类性能，而更长的序列则没有那么有用。尽管N-gram比单个单词更具代表性，但它们分布得如此稀疏，这反过来又引起了维度问题。由于三元组比二元组稀疏，所以大多数研究都集中在组合上使用不同的特征选择技术的一元语法和二元语法。Al-Shalabi和Obeidat（2008）的工作应用了相同的表示方法来分类阿拉伯文文档。他们用●●●●●●●F. Elghannam/ Journal of King Saud University237RP一元词和二元词的分类结果，并与传统的BOW分类结果进行了比较。他们的结果表明，使用N-gram比仅使用单个单词在分类的特征表示中产生更好的准确性。另一种比简单的BOW更丰富的方法是使用本体来表示文档。本体模型保存文档中存在的术语的领域知识。然而，由于缺乏结构化知识库，自动本体构建仍然是一项困难的任务（Harish等人，2010;Zhang等人，2015年）。Bloehdorn和Hessel（2004）提出了一种将背景知识中的概念合并到文本文档表示中的方法。他们的实验表明，将概念集成到特征表示中可以改善分类结果。 Yousif等人的工作。（2017）提出了一种使用阿拉伯语WordNet AWN词库作为词汇和语义源的阿拉伯语TC方法。他们提出了一种基于AWN和语料库文档中关系频率的加权方案。分类结果表明，他们提出的方法优于BOW方法。虽然上述方法集中在单词上来表示文档，但其他方法使用了替代方法，其中它们处理字符以应对形态处理。Kanaris等人（2007年）提出了字符级的n-gram与线性分类器的框架基于内容的反垃圾邮件过滤。他们的结果表明，字符n元语法是比单词标记更可靠的特征，尽管它们增加了维度问题。在（Berger et al.，2005年）。Santos和Zadrozny（2014）的工作提出了一种用于词性标注的深度神经网络。他们的方法以单词为基础，在单词级提取的字符级特征形成分布式表示。Khreisat（2006）提出了一种使用字符三元组频率的阿拉伯语文本分类。每个文档和所有其他文档之间的距离是基于三元组频率分布测量的。她比较了两种距离测量方法，Manhat-tan和Dice。Sawaf等人（2001）提出了一种基于字符的分类器来处理稀疏数据问题，而不是通过形态学规则进行特征约简。他们从文本连续序列的两种类型的单位：全形式的话届每一个字母称为一个gram;由两个字母组成的术语称为bigram。为了构造特征项，生成用于特定语言的两个字母表字母的所有可能的排列，例如aa、ab、ac、.zy，zz.一组对象的排列称为置换。所生成的项的数量等于不同标准字母表字母的数量的置换P。Permutation（2018）定义了一些有序排列的排列，其中重复的r个对象来自n个不同的对象：nn哪里- r是选择来构造术语的字母的数量。- n是不同的标准字母表字母的数量对于二元语法项，r = 2英语字母表由26个字母组成，从n = 26。因此，所采用的英文二元字母排列（允许字母重复）的总数为676个术语，这代表了英文文档的构造特征的数量。基本的阿拉伯字母表包含28个字母，从敬在目前的工作中，当构建阿拉伯语的特征时，我们排除了出现在二元组列表中的双字母（例如而初步实验表明，它们的消除对分类过程的性能没有有效的影响。此外，如果同一个字母在一个单词中出现两次，中间没有元音，则无法直接检测到双字母。在这种情况下，字母只写一次，并在其顶部放置一个短元音因此，对于阿拉伯语来说，从r个对象中取出的一些有序排列的排列P-没有重复-n不同的对象是由Permutations（2018）定义的：nPrn！或字符三元组。他们在一个大型阿拉伯语语料库上进行了最大熵文本分类实验，你-你！第二条;第二十八ð2Þ没有预处理步骤。3. 基于二元字母表的文本分类所提出的文本分类方法首先通过构造仅基于标准字母表的二元组的特征项来开始然后对阿拉伯文文档进行简单的预处理，仅限于正字法规范化，而对英文文档不进行预处理对于每个文档，基于该文档中的二元语法项的出现概率来计算文档向量最后采用k折交叉验证技术，并使用流行的SVM分类器对文档进行分类。以下各节介绍了现行办法的详细步骤。3.1. 特色建设目前的文档分类方法采用标准字母表来构造特征词.生成的特征标准，不受语料类型和实义词的影响.字母是创建特征的基本种子因此，阿拉伯语双字母排列的总数是756，表示阿拉伯文文档的构造特征数。应该注意的是，除了使用有限数量的特征的好处之外，与BOW方法相比，在所提出的方法中构造特征本身的过程节省了大量任务，例如标记化和文本清理。3.2. 文本预处理在阿拉伯语中，一些字符由于它代表的几个声音而具有不同的形状。例如，Alif，阿拉伯字母表中的第一个字母，也是其中最常用的字母，因为它代表了几个声音，它有不同的形状（，）来识别每个声音。Ha（英文字母H的对应物）有不同的和独特的形状。哈（Ha）的最终形状看起来完全像女性的塔玛布塔（Marbootah）。在目前的工作中，预处理步骤仅限于正交归一化阿拉伯字符的形状。将不同的aleph形状“、"归一化为”“，将Ha形状”“归一化为”"。然而，在我们的实验中发现，阿拉伯字符的正字法规范化对238F. Elghannam/ Journal of King Saud University-¼文本分类器的性能。这是-在我们看来-由于事实上，这些信件一般比那些在语料库作为一个整体少得多。因此，在传入的作品中可以绕过归一化步骤。应该注意的是，在BOW模型中通常使用的许多预处理步骤，包括功能词的清理和将词减少到它们的词干或词根，都被有意地避免。其目的是评估和检查的准确性，目前的方法来分类文件使用最简单的步骤。由于预处理在很大程度上取决于所使用的语言及其结构，因此每种语言需要不同的NLP工具。因此，在保持良好性能的同时绕过这些步骤对于分类过程是显著的益处。对于英文文档，在以下情况下未应用预处理步骤：所有.3.3. 文档向量计算下一步是对语料库中的每个文档进行评分。目标是将每个自由文本文档转换为可用作机器学习模型输入的数字向量文档向量是从文本数据和特征词中导出的，它们描述了文档中二元特征词的出现情况，将每一个二元计数视为一个特征。在文献中有各种表示或权重方法用于TC，我们选择了简单的词频调整文档长度，称为归一化词频ntf（t，d）。术语频率tf（t，d）是术语t在文档d中出现的次数。归一化的术语频率NTF（t，d）是术语在特定文档D中出现的次数，由该文档中存在的术语的总数归一化。ntf（t，d）值的范围从0到1。ntft;d tft;d中的项数很明显，文档向量的长度等于构造的特征项的总数，这取决于所使用的语言。3.4. 特征选择并不是所有的两个字母的组合在语言中都是常见的其他因素的存在不会对分类过程产生有效影响。因此，为了减少向量空间的维数和不相关（噪声）特征的存在，需要应用特征选择。特征选择阶段确保那些高度偏向特定类别标签的特征被挑选用于学习过程。之一在TC文献中使用的用于特征选择的最常见方法是卡方v2统计。它已被证明在分类阿拉伯文和英文文本时具有很高的准确性（Joachims，1998 a，b;Anitha等人，2013年; Al-Tahrawi和Al-Khatib，2015年）。v2 statis- tic计算项t和特定类i之间缺乏独立性。设n是集合中文档的总数，pi（t）是包含t的文档的类i的条件概率，Pi是包含类i的文档的全局分数，F（t）是包含项t的文档的全局分数项t和类i之间的项的v2-统计量定义如下（Aggarwal和Zhai，2012）：3.5. 机器学习过程在构造文档向量之后，可以应用选择合适的分类器的阶段。我们的目标是找到算法，达到接近最大的准确性，同时最大限度地减少训练所需的计算时间。有许多分类器已被用于文本分类。SVM已经证明，由于其高精度和处理大特征空间的固有能力，它非常适合于文本分类（Anitha等人，2013;CristianiniandShawe-Taylor，2000;Joachims，1998 a，b）.支持向量机的主要原理是在搜索空间中确定能最好地区分不同类的分离器。分离过程取决于超平面两侧的最大距离和训练样本中最近的向量。SVM的一个优点是，由于它试图通过检查特征的适当组合来确定特征空间中的最佳区分方向，因此它对高维非常鲁棒（Aggarwal和Zhai，2012）。训练支持向量机需要解决一个非常大的二次规划（QP）优化问题。 SVM分类器寻找一个最优的分类超平面，使每一类到该超平面的距离最大，同时使训练数据误分类的风险最小。序列最小优化（SMO）是一种用于解决支持向量机训练过程中出现的优化问题的算法它把这个问题分解成一系列最小的可能的子问题，然后用解析法求解SMO是支持向量机算法的WEKA（Witten和Frank，2005）版本，用于构建模型。在我们的实验中，使用k倍交叉验证技术（k =10）对数据集进行了在这种技术中，原始数据集被随机划分为k个子样本。单个子样本被保留作为用于测试模型的验证数据，其余k 1个子样本被用作训练数据。该过程重复k次，k个子样本中的每一个都只使用一次作为测试数据。然后可以对k个结果进行平均以产生最终估计。值得注意的是，在目前的工作中，我们不需要分别对训练集和测试集进行特征提取或项加权其中特征项是标准的，并且不从文档内容中提取。同时，一个文档的术语权重计算不受其他文档的影响。其他使用BOW和TF.IDF的作品需要分别对训练集和测试集进行特征预处理和加权4. 实验研究我们已经进行了实验，分类文本集合使用所提出的方法在四个阿拉伯语数据集和四个英语数据集。尽管如此，我们还是对阿拉伯语TC进行了更多的研究在实验中，精确度，召回率和F-测量被用作测试的性能指标。在进行的所有实验中，使用10倍交叉验证技术训练分类器。进行了四个不同的实验。 Weka （ Witten 等人， 2016 ）和 Rapid Miner（Rapid Miner Project，2013）工具。下面将介绍和讨论所使用的数据集、进行的实验结果、性能评估、特征约简的细节以及结果分析v2itn·Ft2·pit-Pi 2Ft·1-Ft·Pi· 1-Pið4Þ路段因此，在当前的工作中使用v2-统计量来确定阿拉伯TC的最具鉴别力的特征;选择前p %的特征来构建分类器。在第4.2、4.4、4.5的实验期间，对不同p值的结果进行了检测。4.1. 数据集在我们的研究中，使用了八种不同的阿拉伯语和英语数据集，如表1和表2所示。F. Elghannam/ Journal of King Saud University239表1实验中使用的阿拉伯语数据集数据集文件数量班数Alkhaleej新闻20004Alj-News927009Alj-News515005BBC-阿拉伯新闻47637表2实验中使用的英文数据集数据集文件数量班数BBC-英语新闻22255路透社R87674820Ng18,82120主体性10,00024.1.1. 阿拉伯语数据集4.1.1.1. Alkhaleej 新闻数据集。 Alkhaleej-2004 数据集由 MouradAbbas（阿拉伯语语料库该数据集包含5690个文档，对应近300万个单词。每个文档都标有以下四个类之一“国际新闻”、“本地新闻”、“体育”和“经济”。我们随机选择了一组2000个文档，平均分布在四个类中。4.1.1.2. 半岛电视台新闻9类数据集（Alj-News 9）。Alj-News 9 Ara-bic Dataset包含2700个新闻文章文档（ArabicCorpora-每个文件都标有以下九个类别之4.1.1.3. 半岛电视台新闻5类数据集（Alj-News 5）。Alj-News 5是另一个不同的数据集，包含1500个新闻文章文档（阿拉伯语语料库-每个文档都标有以下五个类别之一：“艺术”、“经济”、“政治”、“科学”和“体育”。Alj-News 5被其他研究人员使用（Chantar和Corne，2011;Al-Tahrawi和Al-Khatib，2015）。实验结果表明，该方法的分类结果与Alj-News 5上的其他研究结果有很好的对比4.1.1.4. BBC-阿拉伯语新闻数据集。该数据集包含从BBC阿拉伯语网站收集的4763个BBC阿拉伯语新闻文档（Saad和Ashour，2010）每个文档都标有以下七个类别之一4.1.2. 英语数据集4.1.2.1. BBC英语新闻数据集。该数据集包含来自BBC 新闻网站（Greene和Cunningham，2006）的2225篇文章，对应于2004-2005年五个主题领域的故事每件物品都标有以下五个类别之一{‘business’,4.1.2.2. Reuters-21578数据集（Reuters R8）。该数据集于1987年出现在路透社新闻专线上，并通过人工分类，在这个版本中考虑了单一主题。我们使用R8版本，它包含分布在8个类中的7674个文档{Acq原油，赚取，谷物，利息，货币-外汇，船舶，贸易}。4.1.2.3. 20 Newsgroups数据集（20Ng）。原始数据集是大约20，000个新闻组文档的集合，平均分布在20个不同的新闻组中。Cachopo（2007）通过删除一些重复、空消息和PGP密钥来准备原始数据集在我们的实验中，使用Cachopo版本它包含分布在20个类中的18，821份文件4.1.2.4. 主观性数据集。该数据集包含来自互联网电影数据库IMDb（烂番茄和情节摘要电影）的两部电影的10，000个评论片段。他们假设烂番茄页面上的所有片段都是主观的，而IMDb情节摘要中的所有句子都是客观的。这基本上是正确的;但情节摘要偶尔会包含被错误标记为客观的主观句子（Pang和Lee，2004）。4.2. 阿拉伯语词汇中的二元字母分布本实验旨在研究阿拉伯语词汇中二元字母的分布情况.在这个实验中，卡方被用来衡量每个特征的重要性。该实验分别使用四个阿拉伯语数据集对文档进行分类。在研究卡方项权重的结果中，发现有典型的125个项具有零权重，这在所有四个阿拉伯语数据集上都是一致的。这占阿拉伯语特征词总数的16%。据观察，这些二元语法术语几乎不出现在数据集词汇表中。因此，我们认为这些术语在阿拉伯语词汇中很少见，也很难出现。因此，可以安全地从特征列表中删除罕见二元语法项的列表，如将在下一个实验中示出的。这个例子揭示了阿拉伯语词汇表中的零权重罕见二元语法实验是：（，）。4.3. 二元字母表方法的验证在这个实验中，我们分别使用SVM-SMO分类器和二元字母表向量表示对不同的阿拉伯语和英语数据集进行分类。实验的目的是找出该方法是否适用于分类阿拉伯语或英语文档。分类器采用10倍交叉验证技术进行训练。对于阿拉伯文文档，使用631个特征（不包括第4.2节中描述的零权重稀有特征的全部特征）应用实验。对于英文文档，在实验中使用了677个特征词（全特征）。表3和表4显示了不同阿拉伯语和英语数据集在精度、召回率和F-测量方面的总体分类准确度汇总。在表3中，可以看出，在四个阿拉伯语数据集上，F测量结果落在（0.949）和（0.874）之间的范围内，Alj-News 5数据集具有最高的F测量，而BBC-阿拉伯语数据集具有最低的F测量。在表4中可以看出，在四个英语数据集上，F-测量结果落在（0.937）和（0.710）之间的范围内，路透社R8数据集具有最高的F-测量结果。表3SVM-SMO在不同阿拉伯语数据集上的分类精度。路透社的索内尔由于阶级分布数据集精度召回F-measure对于这些文档是非常倾斜的，两个子集合R10和阿尔哈利0.9050.9050.905R90（分别包含10和90类）通常被认为是Alj-News90.9300.9300.930用于文本分类任务。Cachopo（2007）确定了R10上10个最常见的类中的8个只有文件Alj-News5BBC-阿拉伯语0.9490.8740.9490.8740.9490.874240F. Elghannam/ Journal of King Saud University表4SVM-SMO在不同英文数据集上的分类表6使用不同的%特征选择时与基线的平均精度偏差。数据集精度召回F-测量离子而20Ng数据集具有最低的。有许多百分之三十0.014与影响分类精度的数据集相关的因素。百分之二十0.030这包括数据集类型，实例和类的数量，百分之十0.067现有类中文档的重叠、噪声数据的存在以及类之间的干扰。更详细的研究和比较与其他作品在阿拉伯语文本分类将在下面的实验。4.4. 特征空间约简对分类精度的影响实验进行了不同的特征空间，以研究所选择的特征数量对所实现的准确性的影响。最初，特征按卡方加权，并按其权重升序排列。然后，特征尺寸被定义为全特征的100%、90%等，直到10%（其中全特征在阿拉伯语中= 756）。分别在不同的阿拉伯语数据集上用10折交叉验证技术训练分类器表5显示了使用卡方特征选择器的不同百分比的最高排名特征之间的准确性结果的详细视图表中的各列显示了所选特征的百分比、所选特征的相应数量以及不同阿拉伯语数据集的记录F度量表6示出了在不同百分比的最高等级特征处与基线的平均偏差值分类准确性结果在F-测量方面用公式表示，如图2和3所示。1和2. 这些图示出了使用卡方特征选择器所选择的特征百分比数对不同阿拉伯语数据集上所实现的准确度的影响图1显示了不同数据集上不同百分比的最高排名特征图图2显示了不同数据集与基线的准确度偏差，具有不同百分比的最高排名特征。其中基线是全功能时的精度。从表5中可以清楚地看出，对于所有数据集，是在全功能上实现的。然而，从表6中可以清楚地看出，即使是高达50%的完整特征的选定特征，所有数据集的准确度结果也没有显著变化（小于1%）。在全特征的（40当使用10%的全特征时，观察到精度严重下降约7%。表5阿拉伯语数据集上的不同特征选择和相应的F-测度Fig. 1. %特征选择和相应的分类精度。图二、使用不同的%特征选择时与基线的精度偏差结果表明，所提出的方法可以使用近似相同的全效率，只考虑50%的全功能，即378阿拉伯语的条款，而不是756。尽管与全特征情况相比，分类器效率在10%处恶化，但分类器仍然以合理的结果工作。这表明存在大约（10-50）%的二元字母表术语在分类过程的文档表示中起着至关重要的作用。更多细节和与其他方法的比较将在下一个实验中介绍4.5. 与其他阿拉伯语TC方法的Alj-News 5的详细分类结果很高-为了更仔细地分析结果，并与其他方法的准确性进行比较，请将其点亮。与前人在该领域的研究工作进行直接比较的阿拉伯语TC. 之间这些困难的以下：否10.90.80.70.60.50.40.30.20.10AlkhaleejAlj-News9Alj-News5BBC-阿拉伯语%功能选择0.120.10.080.060.04AlkhaleejAlj-News9Alj-News5BBC-阿拉伯语0.02090% 80% 70% 60% 50% 40% 30% 20% 10%%功能选择F-measure偏差英国广播公司-英语0.9260.9260.926功能选择平均偏差路透社R80.9380.9370.937百分之九十0.00020Ng0.7110. 7100.710百分之八十0.000主观上0.8110.8110.811百分之七十0.001百分之六十0.002百分之五十0.003百分之四十0.007%特征选择数量的特征阿尔哈利新闻9新闻5英国广播公司阿拉伯语百分百7560.9050.9300.9490.874百分之九十6800.9050.9300.9490.874百分之八十6050.9050.9300.9490.874百分之七十5290.9040.9280.9490.874百分之六十4540.9030.9260.9440.872百分之五十3780.9020.9250.9460.871百分之四十3020.9000.9210.9400.867百分之三十2260.8940.9160.9300.861百分之二十1510.8750.9000.9140.846百分之十750.8410.8590.8900.799F. Elghannam/ Journal of King Saud University241基准阿拉伯语数据集，在某些情况下，使用的数据集不可用，研究人员随机选择原始数据集的不同数量的文档，每个类的不同数量的实例，不同的训练和测试集组织，以及所选特征的数量缺乏清晰度。因此，选择Alj-News 5进行比较，因为其他工程可以获得其测试结果。在Alj-News 5上使用当前二元字母表方法应用SVM-SMO分类器的详细结果如表7所示，显示了每个类别的精度，召回率和F-测量如第4.3所述，使用10倍交叉验证技术训练分类器。如表7所示，最高的F-测量值是所有类别的总体加权平均表8示出了相应的混淆矩阵，其指示被正确预测的标签，并且非对角线条目指示错误，例如，将16个标签“艺术”替换为了衡量所提出的方法的成功，将结果与其他两项工作进行了比较;系统1，由Chantar和Corne（2011）提出，以及系统2，由Al-Tahrawi和Al-Khatib（2015）提出，用于相同的数据集Alj-News5。由于特征空间的维数在分类过程中有重要的影响，因此在比较中也考虑了这一点表9列出了Alj-News 5数据集上三个系统的最佳总体F度量和选择的特征数量尽管很难进行准确的比较，但对结果的分析表明：系统1使用BPSO-KNN（二进制粒子群优化）-KNN）作为特征选择方法。他们应用了预处理步骤，包括删除停用词和罕见词，没有应用词干。他们在Alj-News阿拉伯语语料库（Alj-News 5）上对不同的分类器进行了实验，得到了最好的结果（F-measure = 0.931）。然而，由于用于构建分类器的大量特征（2967），该准确度值是以高存储器需求为代价的。目前的工作所获得的结果优于system 1的f-措施（0.949），也为所使用的功能（5 2 9）的数量。此外，在当前方法中，为了实现与系统1获得的近似相同的精度（0.930），仅可以使用266个特征，如表5所示。表7Alj-News 5上SVM-SMO的按类别划分的准确性类精度召回F-measure艺术0.9370.9370.937经济0.9460.9300.938政治0.8900.9130.901科学0.9800.9670.973体育0.9930.9970.995加权平均值0.9490.9490.949表8Alj-News 5的混淆矩阵一BCDE分类为28111611A =艺术22791630B =经济14927421C =政治2622900D =科学1000299E =体育表9在Alj-News 5数据集上为三个系统选择的总体最佳F度量和特征数量。工作F-measure数量的特征System10.9312967System20.893135二元字母表0.949529他们应用了几个预处理步骤，包括停止词删除和词干提取。使用PN分类器对阿拉伯文文档进行分类。在他们的工作中，为了进一步减少特征的数量，卡方被用于特征选择，并且每个类中只有1%的特征被选择来构建分类器。他们在Alj-News阿拉伯语语料库（ Alj-News 5 ）上使用 135 个特征的结果是（ F-measure =0.893）。该方法在f-测度（0.949）上具有优越性。虽然系统2使用了一个强大的算法PN分类器，它有内存限制。因此，有必要减少在其工作中实施的功能数量。在这方面，应用另一个实验来测试使用与系统2中使用的相同数量的特征的当前结果表明，二元字母表在135个选定的特征上达到0.913，而系统2在相同数量的特征上达到0.893。除此之外，所提出的方法已经证明了高精度的结果;在该领域有两个基本的显着贡献。首先，分类过程中使用的特征是标准的，与文档内容分离，因此不会随着数据量的增加而增加;这是保持内存需求的重要问题至少是这样第二，无需复杂的NLP工具即可获得结果。因此，我们躲过了几种语言的一项艰巨任务，特别是包括阿拉伯语在内的高屈折语言。5. 结论在这项工作中，我们设计了一种新的二元字母表的特征构建方法及其在文本分类领域的应用采用二元字母表的词频作为加权方案来表示文档内容。该方法是语言独立的，不需要NLP工具。使用SVM-SMO分类器，该方法已被证明能够成功地分类在阿拉伯语数据集上的实验结果表明，该方法只考虑50%的二元字母表项，即，378个特征。目前的方法有两个主要贡献.首先，特征是标准的，并且与文档的内容分离;这有助于随着数据量的增加而降低高维数其次，分类过程可以在不需要复杂的NLP工具的情况下执行，特别是对于包括阿拉伯语在内的高引用.. 第17集9.4 TheFamous Famous（1998）H. 阿巴斯，Aggarwal ， C.C. ，翟角，澳 - 地（编）， 2012. 挖掘文本数据。 Springer Science&BusinessMedia.Al-Shalabi河，奥贝达特河，2008年用基于n-gram的文档索引改进KNN阿拉伯语文本分类.在：第六届信息学和系统国际会议的会议记录，pp。 108比112Al-Tahrawi，M.M.，Al-Khatib，S.N.，2015.使用多项式网络的阿拉伯语文本分类。J. 沙特国王大学Comput. INF. Sci. 27（4），437-449。Al-Thwaib，E.，2014.作为阿拉伯文文本分类特征选择的文本摘要。计算机世界Sci. INF.Technol. J. （WCSIT）4（7），101-104。242F. Elghannam/ Journal of King Saud UniversityAnitha，N.，Anitha，B.，Pradeepa，S.，2013.情感分类方法。Int. J. 创新。Eng.Technol. 3（1），22-31.阿拉伯语语料库- Alj-News，2004年。2016年9月7日，从https://filebox.vt.edu/users/dsaid/Alj-News.tar.gz检索。2013年1月最后一次访问阿拉伯语语料库2018年9月4日，从sites.google.com/site/mouradabbas9/corpora检索。Last access on January 2018.Bahassine，S.，Madani，A.，基西，M.，2017.使用新词干分析器进行特征选择和决策树的阿拉伯语文本分类。J. Eng. Sci. Technol.12（6），1475-1487.Bekkerman，R.，Allan，J.，2004.在文本分类中使用二元组。技术报告IR-408，智能中心。信息检索，马萨诸塞大学阿默斯特分校。Berger，H.，Köhle，M.，Merkl，D.，2005.电子邮件分类中文档表示对分类器性能In：ISTA（pp.19-30）。Bloehdorn，S.，Hessel，A.，2004.基于语义特征的文本分类的提升。在网

下载后可阅读完整内容，剩余1页未读，立即下载