基于模糊软集的文本分类模型CBFSA的研究及应用效果分析

55 浏览量更新于2024-01-18 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于模糊软集的关联规则文本分类Dede Rohidina，Noor A.Samsudinb，Mustafa Mat Derisba印度尼西亚Telkom大学计算机科学系b敦侯赛因大学。计算机科学与信息技术，马来西亚阿提奇莱因福奥文章历史记录：收到2019年2020年3月9日修订2020年3月31日接受2020年4月9日网上发售保留字：文本分类模糊软集关联规则A B S T R A C T文本分类是必不可少的，以搜索更容易和适当的信息。它被广泛应用于市场营销、安全、生物医学等领域除了它的有用性，可用的分类器容易受到两个主要问题，即长的处理时间和低精度。它们可能是由文本分类问题中存在的大量数据引起的。在本文中，我们提出了一个模型称为基于类的模糊软联想（CBFSA）。该模型是关联规则方法和模糊软集模型的结合。我们使用模糊软集关联规则挖掘生成分类器和模糊决策集的FP软集建立分类器。我们对20个新闻组数据集上20个类文档的实验表明，CBFSA比其他软集分类器：软集分类器（SCC），模糊软集分类器（FSSC）和混合模糊分类器（HFC）更此外，它也表明，CBFSA是更准确和有效的其他关联分类器相比，如基于关联的分类（CBA）方法。©2020作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍分类是学习目标函数f的任务，该目标函数f将每个属性x映射到预定义的类标签y之一（Tan等人，2006年）。在机器学习的背景下，分类是模式识别的一种形式，这是监督学习。分类的对象可以是文本、图像、音频或视频。分类过程可分为两个阶段：分类模型的形成和对分类模型的评价。在分类模型的形成阶段，我们将找到一个特定的模式，将训练数据映射到其类别标签。模式可以是分类规则或数学公式。然后，利用该分类模型对每个测试数据进行分类预测。预测测试数据的能力被用作衡量模型分类准确性*通讯作者。电子邮件地址： dede. tass.telkomuniversity.ac.id （ D.Rohidin ）， aza-h@uthm.edu.my（N.A. Samsudin），mmustafa@uthm.edu.my（M.M. Deris）。沙特国王大学负责同行审查文本分类是对文本的分类，其中对象是文档。文件不能直接分类。用于待分类文档的技术之一是将其变换成向量空间模型（Salton等人，1975年）。该模型是一个矩阵的表示，该矩阵将每个文档与文档集中出现的所有不同术语进行映射。矩阵的大小是巨大的，它成为一个问题，在精度和处理时间。准确率低、处理时间长是文本分类研究者改进方法的一个契机。在数据挖掘中，关联规则是一种非常知名的模型。该模型由Agrawal（1993）提出。关联规则广泛应用于分类问题。关联规则的优点是能够在大型数据集中挖掘参数之间的关联。与此同时，Moltodov在1999年引入了软集作为一种新的数学工具（Molodtsov，1999）。Maji在模糊集上扩展了软集，称为模糊软集（Roy和Maji，2007）。软集合和模糊软集合在各个领域，特别是决策领域得到了成功的应用。目前，软集和模糊集在分类中的实现。软集合的优点是处理不确定、模糊或含糊的对象。软集理论不受任何限制，使用方便，易于推广关于近似描述（Herawan和Deris，2009年）。在本文中，我们介绍了一种新的方法来解决文本分类的问题。我们的新模型结合了https://doi.org/10.1016/j.jksuci.2020.03.0141319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com802D. Rohidin等人 /Journal of King Saud University- Computer and Information Sciences 34（2022）801- 812图4.1. 研究框架。规则方法和模糊软集的概念。本文的主要贡献如下：a. 提出了一种结合联想法和模糊软集的文本分类方法b. 编译一个算法并在文本文档c. 对所提出的方法进行了精度分析，并与其它方法进行了精度比较.本文的讨论分为几个部分。第一部分是引言。相关工作见第二部分。第三部分讨论了模糊软集关联规则的基础知识。第4节和第5节给出了文本分类的模糊软集关联规则的实现，并对实现结果进行了分析，将该方法与其他方法进行了比较。结论和未来的工作在第六部分。2. 相关作品文本分类是文本挖掘中的一个重要研究方向。在分类中应用了多种方法。第一种方法使用了一种基于统计的方法，如支持向量机（SVM）图4.2. FSAR-M算法.Σ！ð ÞffgD. Rohidin等人 /沙特国王大学学报-计算机与信息科学34（2022）801-812803（Ramanathan和Sharma，2017; Joachims，2002），k-最近邻（k-NN）（Lakshmi Priya等人，2012; Mohamed，2017），朴素贝叶斯（ Maitra 等人， 2018 ）和 Rocchio （ Rocchio ， 1971;Joachims ，1997），深度学习（Chen等人，2014; Joulin等人， 2017），复杂网络（Arruda等人， 2016年）。第二种方法使用关联方法。数据挖掘中的关联方法综合了关联和分类的功能。关联方法分为三个阶段：生成规则，建立分类器，预测未知的类标签。生成规则的目的是生成由训练数据形成的所有频繁规则项。由此产生的规则集称为CAR。大多数关联分类器通过支持度、置信度或规则长度对CAR进行排序这种排序旨在使规则具有高置信度或高支持度，从而比另一个规则优先处理。构建分类器的目的是在CAR中选择一条规则作为分类器。预测阶段的目标是为测试数据中的所有用例分配类标签。基于关联的分类（CBA）是第一种基于关联的分类方法，由Liu提出等（1998）。在生成规则阶段，CBA使用CBA-RB算法，这是Apriori算法的修改。CBA- CB用作建筑物分类器。CBA-CB综合考虑规则的覆盖率和错误率来选择分类器。在CBA之后，又有许多其他的联想方法被引入。在2001年，（Li等人，2001）提出了基于多类关联规则的分类（CMAR）。他们使用FP-增长算法作为规则生成器。基于类的关联分类方法（CACA），由（Tang and Liao，2007）提出。CACA算法利用QR树将加工规则挖掘和分类器建立结合在一起。基于预测关联规则（CPAR）的分类算法采用Yin和Han（2003）提出的贪婪算法作为规则生成器。通常，关联方法集中在生成规则和构造分类器。文本分类的另一种方法是使用软集模型，称为软集分类器。考虑到这一点，该方法利用两个软集合之间的相似性或解决决策问题。Musrif介绍了一种基于软集的分类方法，称为软集分类器（ Musrif ，Sengupta和Ray，2006）。该方法用于自然纹理的分类。SSC已经成功地从Bordatz纹理专辑中选择了25个纹理类，并具有14个纹理特征。SSC基于软集解决方案对数据测试进行分类，以解决决策问题（Roy和Maji，2007）。2012年，Bana Handaga提出了一种模糊软集分类器（FSSC），用于数值数据的分类。FSSC基于两个模糊软集之间的相似性对数据测试进行分类，这是由Samanta等人提出的（Majumdar和Samanta，2008）。2013年，Bana Handaga推出了新的软基于集合的分类方法这种方法称为混合模糊软集和模糊C均值（HFC）。在他的研究中，HFC曾经对20Newsgroup数据集的文档进行分类。据报告，HFC优于基于统计学的方法：SVM、k-NN、Rocchio和Bayes（ Handaga 和 Deris ， 2013 ）。他还报告说， HFC 也优于 SSC 和FSSC。虽然已经介绍了各种方法，但仍然受到精度低和处理时间长的限制。准确率和效率仍然是文本分类中的主要问题3. 理论背景现在，我们将介绍一些基本理论，这些理论对发展我们提出的方法是有用的。3.1. 软集理论定义1.设U是初始论域集，E是参数集。设P（U）表示U的幂集一对（F，E）称为U上的软集，当且仅当F是E到P（U）的映射，由fE：E给出P UU上的软集可以由有序对的集合表示：FE¼fx;fExjx2E;fEx2PUg例1.例如，我们计划购买智能手机时会考虑以下功能：触摸屏（x1英寸）、面部识别（x2）、手指扫描仪（x3 英寸）、互联网连接（x4）和GPS（x5）后看成6给定智能手机esfu1;u2;u3;u4;u5;u6g，我们计算出这六个智能手机具有触摸屏和互联网连接，fu2;u4g具有面部识别，u2;u3;u5指纹扫描仪和u 2;u4;u5;u6 GPS。这样的问题可以使用软集模型来描述，其中宇宙U/fu1;u2;u3;u4;u5;u6g，的参数E^fx1;x2;x3;x4;x5g，映射函数fE为：fEx1fu1;u2;u3;u4;u5;u6g;fEx2fu2;u4g;fEx3<$fu2;u3;u5 g;fEx4 <$fu1;u2;u3;u4;u5;u6 g;fEx 5¼ fu2;u4;u5;u6 g购买智能手机的软集模型是：FE¼fx1;fu1;u2;u3;u4;u5;u6g;x2;fu2;u4g;x3;fu2;u3;u5g3.2. 模糊软集理论在模糊集合中，我们知道lX是隶属度。lX是将集合的每个成员映射到interval [0 1]处的值的函数。数学上，应该写为lX：U！1/20;1]。模糊软集是模糊集合中的一种扩展的软集模型。形式上，U上的模糊软集定义如下：定义2. 设U为论域集，E为参数集。设PS（U）表示U的模糊集的幂集。设A∈E，一对（F，A）称为U上的模糊软集，当且仅当F是A到PS（U）的映射，由fA：A！请注意，U上的模糊软集合FA可以用有序对的集合来表示。FA¼fx;fAx=x2A;fAx2PSU g实施例2.基于示例1，我们通过考虑属于每个智能手机的功能的质量来了解更多细节。例如，属于智能手机ui的触摸屏质量分别为0.2，0.8，0.6，1，0.4，0.6，那么我们可以将fAx1的触摸屏质量映射为：fAx1;fu1;0：2;u2;0：8;u3;0：6;u4;0：3;u5;0：4;u6;0：6g对于其他参数：fAx2f u2;0：6;u4;0;4gfAx3fu2;0：5;u3;0;3;u5; 0：2gfAx4;fu1;0：3;u2;0：4;u3;0：8;u4;0;3;u5;0：2;u6;0：4gfAx5;fu2;0：2;u4;0：1;u5;0：6;u6;0：9g那么，用于购买智能手机的模糊软集模型变为：F A 1/4 × 1; F A 1; 0：2 × 1; F A 2; 0：8 × 1; F A 3; 0：6 × 1; F A 4; 0：3 × 1;F A 5; 0：4 × 1; F A 6; 0：2 × 1; F A 2; 0：8 × 1; F A 3; 0：6 × 1; F A 4; 0：2× 1; F A 6; 0：2 × 1; F A 2; 0：8 × 1; F A 3; 0：6 × 1; F A 4; 0：3 × 1; F A 5;0：4 × 1; F A 6; 0：6 × 1; F A 6; 0：6 × 2; F A 6; 0：6 × 1; F A 6; 0：6 × 2; FA 6; 0：6 × 1; F A 6; 0：6 × 1; 0：6 × 2; F A 6; 0：6 × 1; 0：6 × 2; F A 6; 0：6 × 1; 0：6 × 2; 0：6 ×x2;fx5;f）\XFDX轴XXFX配置FA）FBjfAx\fByjminfAx;fByjFd804D. Rohidin等人 /Journal of King Saud University- Computer and Information Sciences 34（2022）801- 8123.3. FP-Soft集的模糊决策集模糊参数软集（Fuzzy Parameter Soft Set，FP-Soft Set）是模糊参数软集在区间[0 1]上的一个加权值。 2011年。例如，基于有序对的集合定义了论域U上的FP-软集合FXFx¼flXx=x;fXx：x2E;fXx2;lXx 2½0;1]g用FPS（U）表示U上所有FP-软集的集合。如果项目集合X和Y之间的关联规则，由以下形式表示：X Y，其中X= I，Y= I，且X Y=I。X被认为是前件，Y被认为是后件。模糊软关联规则是关联规则的一种扩展它是模糊软集表示的关联规则（Rohidin等人，2017年）。设X和Y分别是模糊软集FA和FB.F A和F B是U上的模糊软集，其中A，B ∈ E，A\B = /. F A）F B的形式表示FA和FB之间的关联规则。我们可以把FA）FB的语义挖掘理解为FX2FPS<$U<$，则FX的模糊决策集，记为Fd，使用属性x0s（x2A，模糊隶属度lf一个大的）值定义为Fd<$fldu=u：u2Ug以及具有属性y0s（y2B具有模糊隶属度lfBy）。模糊软集关联规则的支持度和置信度定义如下：其中它是U上的模糊集，其隶属函数ld为X超级FA FBjfAx\fByjjminfAx;fByj2定义为）jUj¼jUjl¼1XlxXfxu1x2suppX实施例3.基于示例1，为了做出好的决定，jfAxSupplierFA）FB超级F AjfAxð3Þ我们给每个特征一个权重。例如，权重是触摸屏（x1）=0.6，面部识别（x2）=0.2，手指扫描仪（x3）=0.5，互联网连接（x4）=0.9和GPS（x5）=0.8。我们其中jUj是U的基数，并且|f Ax|是fAx的标量势。实施例4. 例2，例如，设A = {x }，B = {x}，其中A，可以说一个FP-Soft的问题集是：2 1Fx¼f0：6=x1;fu1;u2;u3;u4;u5;u6g;f 0：2=x2;fu2;u4g;B.FA，FB是U上由函数定义的两个模糊软集FA 和fB。0：5=x3;fu2;u3;u5g0： 8=x5;fu2;u4;u5;u6g模糊决策集Fd为：fAx2f u2;0：6;u4;0;4gX2019 - 01- 1500：00 0X¼fu1 ;u2 ;u3 ;u4;u5 GfBx1fu1;0：2;u2;0：8;u3;0：6;u4;0：3;u5;0：4;u6;0：6g模糊软关联规则是FA）FB{人脸识别（x2）}）{触摸屏（x1）}SupFA）FB最小值0;0：2磅;最小值0：6; 0：8磅;最小值0;0：6磅;最小值 0：4;0：3磅;最小值 0;0：4磅;最小值0;0：6;0;0：3;0;0j最小值0;0：6;0：3; 0;0j最小值0;0：6;0：3;0：15j6j6 j6 j6会议FA）FB最小值0;0：2单位;最小值0：6单位; 0：8单位;最小值0;0：6单位;最小值 0：4单位;最小值 0;0：3单位;最小值0;0：6单位;最小值0：6单位;0：3单位;最小值0：6单位;0：3单位;0：6单位; 0：3单位;0：9单位0： 6 0： 4jj0： 6; 0： 4jj0：6 0： 4 j1根据最高会员价值0. 60做出决定，将购买的智能手机为u2。3.4. 模糊软集关联规则形式上，关联规则定义为如下：让Ii i1; i2;···; i mg，是属性的集合， ij ， j = 1 ， 2 ， . . m 是属性项。设一组事务D<$ft1;t2;···;tmg，每个事务tk都有一个项集，即tk<$ftk1;tk2;···;tk ng。一个asso-这意味着具有触摸屏和面部识别的智能手机也具有支持度= 15%和置信度= 90%。4. 基于模糊软集和关联规则的在本节中，我们提出了我们提出的方法，称为基于类的模糊软联想（CBFSA）。该方法分为三个阶段：预处理，数据准备，¼FXjsuppXj×.ΣD. Rohidin等人 /沙特国王大学学报-计算机与信息科学34（2022）801-812805图4.3. FSAR-B算法图4.4. FSAR-P算法分类.预处理的输入是文本文档，输出是向量空间矩阵。数据准备的输出是以术语x文档矩阵（TDM）表示的训练和测试数据。使用CBFSA的分类过程包括三个阶段：生成规则，建立分类器和预测类。图4.1显示了研究框架。4.1. 预处理预处理是文本处理的第一阶段。这个过程包括标记化、停用词删除和词干提取。tokenization是将字符串序列分解为单词、关键字、短语、符号和其他称为token的元素的功能。标记可以是单个单词、短语，甚至是整个句子。标记化过程可以检索文档。停止词删除过程删除没有什么价值的常见单词，如非字母字符和标记-上标签。然后，通过停止词去除来消除无意义的词，例如“an”、“the”、“they”等。词干提取是去除单词中的普通词尾和词尾变化的过程。所有的文档都被标记为特征向量或向量空间模型（VSM）。在给定文档中出现的用作特征的不同单词的子集（Manning等人， 2009年）。4.2. 数据准备4.2.1. 降维文本分类的主要问题是文本数据的高维性。另一方面，有些特征与已有的决策类无关，因此它的存在不是必要的。使用的数字对复杂性和准确性有很大影响。降维是通过消除不相关特征和冗余特征来选择特征的过程。降维是文本分类中的一个关键阶段，因为数据是不相关的，并且冗余会降低该过程的准确性或时间。许多研究人员都在关注这个问题。维度技术分为两大类：特征选择和特征提取。4.2.2. 模糊软集表示VSM假设每个单词是特征空间中的一个维度。词空间维数是语料库中的词的数量t。文本或文档di中的每个术语ti具有相关联的权重wij。一个文档di可以表示di^w1 j;w2 j;···w ij具有某些项t的n个文档的集合可以由项文档矩阵（TDM）表示，其中w ij是项i在文档j中出现的频率，而|不||D|并且分别表示术语和文档的数目。因此，我们有以下TDM矩阵：ðÞ67-62377DFII806D. Rohidin等人 /Journal of King Saud University- Computer and Information Sciences 34（2022）801- 812表4.1简单的数据。交易/参数1234567类U10.30.540.70.20.50.40.2CL1U20.30.430.730.60.480.70.8CL2U30.750.30.40.50.680.50.75CL2U40.930.540.50.90.750.40.2CL1U50.90.930.680.90.480.430.2CL1U60.50.60.50.450.530.780.93CL2U70.40.540.50.450.680.70.93CL2U80.30.780.780.450.730.50.4CL1U90.680.570.440.50.50.80.93CL2U100.50.40.60.40.680.680.8CL2U110.20.20.60.20.30.50.6CL2U1200.80.400.60.40.3CL1表4.2为了给文本构造更多的权重机制，采用了文档频率权重。通常，由于在文档集合中很少出现的特征是有价值的，因此使用逆文档频率idf，并且其计算为. DDF我其中，dfi是术语i的文档频率，.Dt1t2···ttd111岁以下W12···wt1软集的模糊表示可以通过将矩阵TD的加权方案从词频加权方案转化为tf-idf归一化加权方案来获得证据是TDM¼d26 .W12.W22···wt2 7被B所示Handaga（Handaga and Deris，2013）et all.六四....... 5提案1. 以术语-文档矩阵形式呈现的文档，其中使用TF-IDF归一化权重方案计算权重，重量wij使用不同的加权方案计算。如果定义为模糊软集。项ti出现在文档dj中，则权重wij = 1，否则wij = 0，称为二进制权重方案。词频（tf）给每个特征一个权重，这个权重与它在给定文档中出现对tf进行了规范化，以防止长文档出现偏差，证据在术语权重向量中，术语是参数。tf idf归一化加权系统的输出值在0和1之间，或者对于文档中的每个术语为[0，1]。在这里，tf-idfnormalized是一个模糊近似函数，TFIIfii¼maxffiig项为[0，1]。其中f 是术语i在文档j中的频率。表4.3项目集（L-1）。项目集支持4.3. 模糊软集分类现在，我们将详细介绍CBFSA如何用于解决文本分类问题。该描述附带在简单情况下的实现。{1}下一页{1}、{2}0.77250.69754.3.1. 生成规则作为规则生成器，我们引入了{1}第三节0.665规则挖掘算法FSAR-M。该算法的目标是{4}0.7075是在大数据中找到一个叫做类关联的相关数据表4.4明确的汽车。{5} 0.615规则（CAR）的模糊软集模型。该算法是Apriori算法的一种修改，主要修改属于计算支持度和置信度值的过程（Rohidin et al.，2019年）。我们使用Eqs。（2）和（3）统计支持和信任度。主要内容如下：（图） 4.2）。FSAR挖掘算法分为三个阶段。阶段1（第1-然后取1-项集L1，C1中的频繁项具有最小支持度以上的隶属度，称为minsupp.阶段2（第3 -15行）：使用Lk生成所需的规则，递归方法从第二遍开始。生成候选人C kidf¼log2wij<$tfijidfi<$tfii日志2Dnw 1 nW 2N···wtn项目集（C-1）。项集fs-Support{1}下一页0.6075{1}、{2}0.6975{1}第三节0.665{4}0.6125{5}0.615{6}0.4325{7}0.25号规则项集fs-Supportfs-Confidence类R1{2，3，5}0.550.98C1R2{1 2}0.510.84C1R3{1 4}0.580.95C1R4{2 4}0.520.85C1R5{3 6 7}0.520.99C2R6{5 6 7}0.561.00C2R7{1 7}0.521.00C2D. Rohidin等人 /沙特国王大学学报-计算机与信息科学34（2022）801-812807Lk-1。计算每个候选Ck的支持度值（第6从minsupp上的候选Ck集生成k-频繁项集（Lk）。当Lk变为空时，迭代将终止第3阶段（第16行）：将所有k-频繁项集（Lk）连接为CAR。4.3.2. 建筑分级机构建分类器的目的是找到CAR的一个简单子集，并将该子集定义为分类器。因此，我们介绍了模糊软关联规则建立分类器（FSAR-B）算法。该算法使用FP-集的模糊决策集（Eq. ① ①）。规则包含训练数据中被选作候选分类器的项。所选择的规则将形成FP-Soft集，并且FX将构造模糊决策集。完整的算法如下：（图。（第4.3段）该算法包含每个de D的迭代任务，并且de D将为每个选定的规则计算参数FPS找到包含项目d的所有规则（第2-7行）。对规则进行排序基于FPS并插入一个或两个具有C的最高阶的规则（第9-10行）。最后，使用修剪过程来处理重复的规则。4.3.3. 未知类对象这个阶段是最后一个阶段，目的是为未知的类对象分配一个类。因此，我们介绍了模糊软关联规则预测类（FSAR-P）算法。该算法基于参数Wr来预测新对象的类别。Wr在FPS和置信度规则的乘积内，Wr（r） = FPS（r）*置信度（r）。算法的细节见图4.4。我们在数据测试中设置了每个数据。首先，在D中取一个新的数据，找到C中包含项d的所有r。计算选定规则的FPS（第3根据Wr对r进行排序，并选择Wr最高的规则。使用选定规则的类设置新对象的类（第114.4. 为例在本小节中，我们将通过一个案例研究来说明分类过程如何使用CBFSA。假设我们有12个文本文档，分为两类。在预处理和数据准备之后，我们有七个特征，如表4.1所示。前10个作为训练数据，后2个作为测试数据。因此，从训练中，我们有U={u1，u2，u4，u5;u6，u7，u8，u9，u10}是训练数据集，Utest= {u11，u12}是测试数据集，E ={x1，x2，x3，x4，x5，x6，x7}是参数集。现在，我们使用CBFSA。4.4.1. 生成规则在这段时间里，我们使用FSAR-M算法从训练数据中构建所有可能的规则。首先，计算每个特征的FS支持度。使用公式2，3。然后，我们将获得项集CL 1的fs-Support，如表4.2所示。当阈值（最小支持度）为60%时，将获得项集-L1。当阈值（最小支持度）为60%时，将获得项集-L1。使用L1生成以下C-2项集：{1.2}、{1.3}、{1.4}、{1.5}、{2.3}、{2.4}、{2.5}、{3.4}、{3.5}和{4.5}。Cal-计算C-2的fs-Support，采用min-support = 60%和min-confidence =85%。重复该过程，直到达到停止条件。所以，我们得到了表4.4中的CARS。4.4.2. 建筑分级机现在，我们将从CAR生成一个分类器。在表4.4中，CL1类的规则是R1、R2、R3和R4。而从图5.1. 术语在集合中的分布。5XXXXX5511234567：：：XXXXX808D. Rohidin等人 /Journal of King Saud University- Computer and Information Sciences 34（2022）801- 812图5.2. 在tf-idf标准化过程之后，集合中所有文档中的术语分布。训练得到的数据：U1、U4、U5和U8是具有CL1类的数据。使用FSAR-B算法，生成分类器如下lR4 时间：2019-05-1800：00： 00如下：首先，我们找到具有最高精度的规则进行分类U1。模糊决策集Fd是Fd1/f0：348=R1;0：168=U 四分之一英寸0： 3x; 0： 54x; 0： 7x; 0： 2x;0： 5x; 0： 4x; 0： 2x0：1=R3;0：148=R4g。因此，lFdu的最大值为0.348，并且这意味着R1是对U1进行分类的精度最高的规则。R1/4 fx2;x3;x5g;R21/4 fx1;x2g;R31/4 fx1;x4g和R41/4 fx2;x4g：我们可以如下构造R上的FP-软集合FX同样的方法，找到准确率最高的规则对U4进行分类U5，和U 8。的模糊决定设置Fd对于U4来说，F0 3xR2 R3 0 54xR1 R2 R4 0 7xR1Fd/f0：35 8=R1;0：294=R2;0：36 6=R3;0：28 8=R4g。别名：MaxX¼f：=1;f;g;：=2;f;;gl;gl：=3;f甘草酸;X0：2=x4;fR3;R4g计算每个RlFdu0：366，R3是对U4分类精度最高的规则。模糊决策集Fd对于U5，Fd1/f0：41 2=R1;0：36 6=R2;0：3 6=0 54þ 0 7þ 0 5;0：366=R4g：因此：MaxlFd=0：412，R1是最高精度lR1¼五分之一0： 348分类U5的规则。U8的模糊决策集Fd为Fd<$f0：458=lR2lR32019 - 01-1800：00：00电话：+86-021-8888888传真：+86-021 - 88888888R1;0：21 6=R2;0：1 5=R3;0：24 6=R4g。因此：MaxlFd（u）=0.458R3为最高精度的规则来分类U 8。因此，CL 1的最高精度规则是{R1，R3}。接下来，以同样的方式，我们发现CL 2的最高精度规则是{R5，R6}。所以，ARC是{R1，R3，R5，R6}。见表4.5。4.4.3. 预测类别最后一个阶段是预测测试数据的类别我们的数据测试是U测试1= 0：2x1; 0： 2x2; 0： 6x3; 0： 2x4; 0： 3x5; 0： 5x6; 0： 6x 7表4.5ARC。0：8 x2; 0：4 x3; 0：6 x5; 0：4 x6; 0：3 x7检查R1，R1包含以下功能x2、x3和x5，它们也可以在Utest1上使用。因此，我们可以计算-后期Wr（R1）=（0.2 + 0.6 + 0.3）* 0.98 = 1.08。接下来，检查和计算R3、R5和R6的Wr：Wr（R3）=（0.2 + 0.2）* 0.95 = 0.39Wr（R5）=（0.6 + 0.5 + 0.6）* 0.99 = 1.58X规则项集fs-Supportfs-Confidence类R1{2，3，5}0.550.98C1R3{1 4}0.580.95C1R5{3 6 7}0.520.99C2R6{5 6 7}0.561.00C2D. Rohidin等人 /沙特国王大学学报-计算机与信息科学34（2022）801-812809图5.3. 比较CBFSA和Soft Set Classifier的准确性。Wr（R6）=（0.3 + 0.5 + 0.6）* 1 = 1.40因为R5 = 1.58是比将Utest1分配给R5类更大的Wr因此，Utest1的预测类是CL2。同样，Utest2的预测类是CL1。5. 结果和讨论为了评估CBFSA方法的性能，我们进行了深入的实验。在本节中，我们将报告CBFSA和另一个分类器之间的比较性能。图5.4. CBFSA和关联分类器的比较精度。×××810D. Rohidin等人 /Journal of King Saud University- Computer and Information Sciences 34（2022）801- 812图5.5.平均准确度比较。5.1. 处理20个新闻组数据集在这项研究中，我们使用了来自Usenet新闻组的20个新闻组数据集。该数据集包括18.846篇文章，分布在20多个类别中。文件分布见表4.3。输出标记化是一个矩阵VSM，其中矩阵的大小为173，734 18，846。这意味着矩阵有173，734个术语和18，846个文档。因此，元素的总数是3.2742 109。然而，非零元素的数量仅为2，952，519或0.09%。这意味着VSM非常稀疏。图5.1显示了集合中的术语分布。接下来，我们删除停止词，使停止词中的术语数变为119，并且整个术语减少到75，749个术语。波特词干分析器用于减少术语的结尾。使用porter-stemmer后，矩阵VSM的大小变为60，053 18，846，非零元素的个数为2，124，099（0.19%），集合中的完整项减少到60，053项。在数据准备中，我们使用卡方方法进行特征选择，并使用tf-idf加权法生成模糊软集数据表示。为了提高存储效率，将TD矩阵以稀疏矩阵的形式保存。图5.2是在tf-idf最后，将TD矩阵作为输入，采用CBFSA算法进行分类。考虑到模糊值较小，且每类文档数不同，根据每类文档数的不同，使用的最小支持度在0.005 ~ 0.77之间变化。使用最小置信度等于85%，结果见表5CBFSA成功地实现了76.05%的平均准确率，最高准确率为90.80%来自rec.sport。曲棍球类，最少57.14%来自Misc.forsale类。在分类器上的规则数方面，CBFSA给出了一个691规则，其中至少2个规则的和规则来自于talk.politics.mideast类，最大有效数的规则多达125条。sys.mac.class.5.2. CBFSA与其他分类器的性能比较在本节中，我们将讨论CBFSA与软集分类器家族和关联分类器家族的性能比较。软集合分类器由SSC、FSSC和HFC表示。以CBA和CBA+表示的关联分类器。SSC、CBA和CBA+使用的数据是清晰的数据集，而FSSC、HFC、和CBFSA是模糊的。为了从模糊集得到清晰集，我们使用区间，其中0≤lXx 0： 5映射到0，否则映射到1。

下载后可阅读完整内容，剩余1页未读，立即下载