埃及信息学杂志：基于拓扑的文档特征选择方法

106 浏览量更新于2023-12-09 收藏 431KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志19（2018）129全文基于拓扑的文档分类特征选择O.G. El Barbary，A.S.萨拉马埃及坦塔大学理学院数学系阿提奇莱因福奥文章历史记录：2017年6月11日收到2017年11月3日修订2018年1月5日接受在线提供2018年保留字：信息检索系统文献分类拓扑空间特征选择近开集粗糙集A B S T R A C T特征选择是如何选择数据核中文档的最佳子集以用于数据挖掘或应用的方法。本文介绍了一种利用拓扑空间开发信息检索系统的新技术首先，我们介绍了拓扑信息检索系统（TIRS）的定义作为一个推广的信息检索系统。其次，我们应用一些拓扑近开集，这些系统的特征选择。讨论了这些系统中关键词的不可否认性，并给出了它们的应用提出并研究了表示文档空间中文档之间关系的序关系©2018制作和主办由Elsevier B.V.代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍全球网络的开始已经比以前更大，通过信息检索技术的演变作为一个很好的替代去当地图书馆寻找信息，人们可以在网上搜索。因此，过去几年中，人工搜索信息与计算机辅助搜索信息的实际数量发生了根本性此外，许多文件集的自动信息检索有助于阅读、理解、索引和跟踪大量数据。为此，文档检索、计算语言学和文本数据挖掘领域的研究人员正在努力开发新的方法来处理这些数据[1这种表示遭受两个主要的挑战，特征选择的问题，和高维的问题。在词袋模型中，文档中的每一个词都可以被选为一个特征，特征空间的维数相当于所有文档中不同词的数量。*通讯作者。电子邮件地址：ualbarbari@su.edu.sa（O.G.El Barbary），dr_salama75@yahoo.com（A.S. Salama）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier的部分。词在文档中、组中以及整个集合中的出现率对于信息检索过程是非常重要的。术语选择的方法有很多种，本文将提出一种新的基于拓扑学的术语选择方法。拓扑空间（近开集）的概念是近年来数据分析的主要有力工具之一。近开集理论是近年来出现的一个新的研究领域，它在化学、物理等领域的信息分析中有着广泛的应用。本工作的原则是把一个起点，使用拓扑结构的信息检索中的应用。粗糙集理论是Pawlak于1982年提出的一种数学工具[7]，它支持不确定性推理，但仅限于定性。这一理论的基本概念和关系已在[8，9]中作了研究。拓扑学是数学的丰富领域，几乎存在于数学的所有分支中;此外，它还用于许多实际应用。我们认为拓扑近开集是从不完全信息表中提取知识和数据处理的中心基础[10本文提出了一种基于拓扑近开集概念的拓扑信息检索系统。这些系统中使用的知识构成了一个信息检索系统。在这个系统中，每个文档都由它在一个有限的关键字集上的值表示。我们定义了该系统的关键字集的拓扑基。利用拓扑信息检索系统，可以进行近似检索.在一般拓扑学的基础上，介绍了拓扑系统我们建议https://doi.org/10.1016/j.eij.2018.01.0011110-8665/©2018制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com¼ ðÞ2 gQ2sSB-S--ð Þf2gf2galleryð Þ ¼ ð Þ2 ×100（） 2ð ÞS130O.G. El Barbary，A.S. 萨拉马/埃及信息学杂志19（2018）129-132并考察了表示文档空间中文档之间关系的顺序关系。近似检索是通过对唯一查询的约简来实现的。这是使用拓扑方法完成的，例如拓扑近开集及其推广。2. 特征选择特征选择是导致原始数据集降维的过程。选择项集应该包含关于原始数据集的足够或更可靠的信息。为此，使用了许多标准[16应用特征选择有两种方法，第一种是向前选择，从没有项开始，一个接一个地添加项，在每一个项处添加减少错误的项。第二种是从所有项开始并逐个消除它们的向后选择。因此，消除减少最大误差的一个，希望没有进一步消除误差。3. 特征选择方法许多特征选择方法都依赖于对特定数据集的特征进行统计或信息论分析。对于文本学习任务，主要是对给定文本数据集的词汇特定特征进行计算，以发现优秀的术语特征。尽管统计数据本身并不关心文本的含义，但这些方法对文本学习任务很有用[19]。许多特征选择方法描述了一种称为RELIEF的统计特征选择算法，该算法使用实例库学习为每个特征分配一个相关权重[20]。此外，特征选择不仅应取决于特征和目标概念，还应取决于归纳算法。4. 拓扑和粗糙集一个子集U的族s是一个拓扑空间be拓扑空间，如果它满足下列条件：1. u;U2s。2. s在uninformed union下关闭。3. s在有限交集下闭合。U属于s的子集称为开集。拓扑空间的开集可以是复杂的，但它们可以用一组简单的特殊开集来描述。此外，许多拓扑概念可以用这些更简单的基或次基元素。正式地说，如果非-U空开子基表示b的一个子族的并。如果所有有限交构成一个基，则族d_s是一个子基。clX\fYU：XY;U-Y2sg和intX[fYU：YX;Ys分别是X <$U的闭包和内部。近似空间是一对AU;R，其中R称为等价关系或不相容关系。此外，委员会认为，1/2x]R;x2U是包含元素x的等价类。5. 拓扑信息检索系统我们将信息检索系统定义如下：IRS1/4DS;KW;fCs：s2KWg;ffs：s2KWg，其中DS是文档的单位KW是属性的集合，其中Cs是属性值。最后，fs是系统的信息函数。在多信息检索系统（MIRS）中，每一个属性kW 定义了一个关系R sC sby d;cR sc fsx. 通过这种方式，文档空间的每个元素都可以通过关键字的子集SB2KW来描述，称为SB-描述并由SB d表示。SB描述SB d定义如下：SB d fd，则SB两个C。2将信息检索系统扩展为拓扑信息检索系统（TIRS），是通过熟悉值域Cs上的一般关系R→Cs×Cs来实现的。通过对集合Cs的一般关系的重要性，我们可以对关键字值进行对于每个R s<$C<$;C<$C s;s2SB，我们定义拓扑ss，它有fRs<$C<$;C<$Csg作为一子基地。TMIRS是一个拓扑信息检索系统？属性值SB的拓扑系统描述了属性值的语义接近度，并提供了一种简单方便的工具，用于通过有限且非空的关键字集来告知有限的小册子集。在TMIRS中，我们可以在拓扑上区分属性值CCs。如果论域中的元素d∈DS具有fs∈d∈C，我们说文档d的关键字是由关于拓扑的拓扑粗糙对识别的ss。对于C语言Cs，integerC s是文档的集合，这些文档肯定属于C语言。另外，clC是可能属于C的文档的集合。集合CsclC是那些文档的负区域，它肯定不属于C。这种解释延伸到宇宙的元素，如下所示如果d是全域DS的文档，例如fsdC，则：● integer C的属性值肯定属于d的文档值。我们说integerC是d的确定值。● C的属性值可能属于d的属性值。我们说clC是d的可能属性值。● Cs-Cl的属性值C s-cl的属性值肯定不属于d的属性值。我们将拓扑多值信息检索系统分为单粒度拓扑信息检索系统和多粒度拓扑信息检索系统。在单粒度拓扑系统中也就是说，fs d Rs C;CCs对于每个文档和每个关键字s都是单例的，在多类拓扑信息检索系统中没有这样的限制6. 拓扑信息检索系统近似地，关键字可能彼此不明显，因为它们在拓扑空间中可能具有相同的内部近似和封闭近似。更具体地说，两个属性值C;C0和Cs无法从每个属性值中辨别出来另一些，表示C=C0如果和只如果intCintC0和clCclC。很容易看出，C2t是集合2Cs上的等价关系。子集C∈Cs的等价类表示为1/2C]ts 并且是商集2 Cs= Ct的元素ðÞ2●2ð Þð Þ好ð Þ ð Þ？联系我们：O.G. El Barbary，A.S. 萨拉马/埃及信息学杂志19（2018）129-132131实施例6.1.假设一组文档（DS），每个文档都有多个关键字（KW）。因此，一个给定的文档可以通过几个关键字来表征。设DS= {d1，d2，d3，d4}，KW = {{KW 11，KW 12，KW 13}，{KW21，KW 22}，{KW 31}，{KW 41}，{KW 51}}使得d1 = {KW13 ，KW 21 ，KW 31}，d2= {KW 12 ，KW 21 ，KW 41}，d3={KW 12，KW 22，KW 31，KW 51}并且d4= {KW 11，KW 22，KW 41，KW 51}。如上所示，R w块被命名为R sd1、R sd2、R sd3和R sd4。为了得到可由R w识别的拓扑基本集，我们构造了拓扑空间C s;s ss，其中Ss是由子基S^fRs_d_d生成的拓扑：第二节. 4克。的基地的这拓扑是给定通过 b¼fRsdi\Rs=dj=i;j=1; 2; 3; 4g，因此我们有b={d1，d2，d3，d4，{KW 21}，{KW 13}，u，{KW 12}，{KW 41}，{KW 22，KW 51}}。现在如果我们考虑一文件di 与的关键字C0 <$fKW11;KW 51 g，则内部近似integerC0 <$u和clC0 <$d4因此，C0在我们的拓扑空间中不可定义。但C0可以近似使用拓扑粗糙对u;d4。因此，根据拓扑粗糙对的解释，我们只能说属性值7. 拓扑信息检索系统中的文档分类TIRC的目的是根据某些知识将集合的文档分组为类或类别。给定拓扑KW是Cs上的一种拓扑分类，或称类拓扑分类，它代表了信息检索系统S的一种知识。关于信息检索系统S关于属性s2的这种特定类型的知识KW被定义为Cs的子集的集合，表示为L1，并且被定义为：LI¼fCs：s 2I;8s通过形成子集Cs，我们能够表示某些文档被重新分类或分配到索引中的类别S塞特岛我们将集合LS定义为：LS¼fE\Cs：Cs2LI;E2Ca=Cssg;其中E\Cs¼[fC\Cs：C2Eg：集合LS是分配给类别的类的集合。n在我们的拓扑单粒度信息检索系统。设LS是一个拓扑分类，而CLS是一个不动集S的拓扑分类. 我们使用通常的粗糙集解释;因此，给定属性值cs2C，使用以下解释：如果csintC，则我们说cs必然属于范畴S，用拓扑分类规则8. 实验8.1. 预处理在对测试数据进行特征提取之前，对文本进行了一些预处理。所有的实验都是在对文本进行规范化处理后进行的。在规范化过程中，文本被转换为UTF-8编码，标点符号和非字母被删除。它们是出现在文本中的非常常见的词，没有什么意义;它们只起句法作用，但不指示主题。这些停用词对信息检索过程有两种不同的影响。它们的使用频率很高，往往会削弱不常用词之间频率差异的影响，从而影响检索效果。识别停用词列表或包含这些词的停用列表以便从文本处理中消除它们对于信息检索系统是必不可少的。我们探讨了停用词的使用及其对阿拉伯语信息检索的影响。根据阿拉伯语结构，创建了一个通用停止列表和特性而不添加任何添加物。8.2. 实验评价8.2.1. 分类模拟结果输入数据：（关键字，文本），输出：根据拓扑结构的特征选择对文档进行分类。我们使用了大约130个由人类从语料库中选择的关键词。在信息检索内容中，精确度和查全率被定义在一组检索到的文档（例如，由web搜索引擎为查询创建的文档列表）和一组相关文档（例如，互联网上与某个主题相关的所有文档的列表）的表达式中，参见。本案无关精度是正确结果的数量除以所有返回结果的数量也就是说，文档di的精度（Pdi）是检索到的文档（Ret di）与查询相关的相关文档（Rel di）的交集的基数除以检索到的文档的基数Pdi j Reldi\Retdij= jRetdi j：精确度是二手的，召回率是搜索返回的所有相关文档的百分比。这两个度量有时一起使用，以表示称为F度量的系统的单个度量。回忆是正确结果的数量除以应该返回的结果的数量文档数据的调用（R_di_i）是检索到的文档（R_t_di_i）和与查询相关的相关文档（R_l_di）的交集的基数除以相关文档的基数：Rdi j Reldi\Retdij= j Reldi j：c s！n.● 如果cs2cl<$C<$，则我们说cs可能属于范畴F测度（F<$di <$）是2倍精度的除法，n，由拓扑分类规则cs！n.注意，在定义中使用的条件intCs\clCmu查全率是查准率和查全率F di2×Pdi×RdiPdi R diLS的作用，确保了属性值不能肯定地分配给类别S，同时可能分配给另一个类别m。因此，我们不能肯定地将一个属性值分配给两个不同的类别。拓扑分类规则允许我们表示知识，而不需要辨别信息检索系统的所有关键字。8.3. 实验数据为了评估我们的方法的性能，我们在我们的系统中采取的性能指标精度（P）和召回率（R）●●132O.G. El Barbary，A.S. 萨拉马/埃及信息学杂志19（2018）129-132表1基于TIRC方法的文本分类的精确率、召回率和F-测度字段名称精度召回F-measure医学0.670.910.77艺术0.740.660.69商业0.720.840.77政治0.980.790.87技术0.570.860.68科学0.440.750.55历史0.670.840.75体育0.590.640.73健康0.810.950.87经济学0.590.790.69生物学0.780.980.88我们的实验，训练系统使用从互联网上收集的文件。我们的数据是由半岛电视台新闻，金字塔报大报，Al-Watan纸，Al Akhbar，Al Arabiya和维基百科的自由百科全书和更多。在我们的语料库中的文件的数量是1819个文件，它是约26.4兆字节。语料库涉及体育、计算机、政治、经济等多个领域，分为11个大领域和24个子领域。从评估结果中提取测量精度、召回率和F-测量，结果如表1所示。本文用两两比较的方法来评价文献检索系统的检索效率。查全率和查准率的比较允许检索效率的排名。表1的F测量精度是超级场生物学中记录的最大结果，其达到0.88。这是由于高召回率为0.98。如果我们计算所有实验的平均值，则F测量的精度约为0.75。这对于文档分类来说是一个很好的结果9. 结论和今后的工作提出了一种基于邻域的信息检索方法。该模型具有许多优点，如拓扑信息检索系统，提供近似检索可能会发挥重要作用，在现有的信息的广泛发展。此外，我们可以将特征选择视为一种用更简单的分类器替换复杂分类器（使用所有特征）一个（使用特征的子集）。我们提出了一种新的技术，利用拓扑空间的术语选择。另外，介绍了拓扑分类方法。引用[1] Abd El-Monsef ME，El-Sayed Atlam，Amin M，El-Barbary O.阿拉伯文文献分类：比较研究。J Comput 2011; 3（4）.[2] Abd El-Monsef ME，El-Sayed Atlam，Amin M，El-Barbary O.字段关联词与朴素贝叶斯分类器基础上的阿拉伯文文档分类。IJCSI 2011; 8（3）.[3] El-Sayed Atlam，El-Barbary O.结合FA词和向量空间模型的阿拉伯语文本分类。Inf-Int Interdisciplinary J 2013; 16（6）（A）：3517- 28.[4] Atlam El-Sayed，El-Barbary O.使用模糊本体论的阿拉伯文摘要。Int J InnovativeComput 2014;10（4）：1351-67.[5] 巴巴里使用字段关联词和K-means聚类进行阿拉伯文文档分类。中国科技期刊2015;30（3）：287-99.[6] 巴巴里利用阿拉伯文的分形形态学和最大熵进行阿拉伯文文档分类。Br J MathComput Sci 2016;14（3）.[7] 帕夫拉克Z 粗糙集IJCIS1982;11：341-56.[8] Pawlak Z，Skowron A. Rough Sets：Some extensions. Inf Sci2007;177：28-40.[9] PawlakZ，Skowron A. 粗糙集与布尔推理信息科学2007;177：41-73.[10] Rosario SF，Thangadurai K. Karur和Tamil Nadu，RELIEF：特征选择方法。Ijird，2015; 4（11）.[11] Salama AS，El-Barbary OG.数据粒化的新拓扑方法。J Software Eng Appl 2013.doi：https://doi.org/10.4236/jsea网站。2013.67B001，1 -6.[12] Salama AS，El-Barbary OG.拓扑学在计算机编程中的未来应用。Life Sci J 2014;11（4）：168-72.[13] Salama AS，El-Barbary OG.词汇挖掘和文档分类的新方法。Life Sci J 2014：84-91.[14] Salama AS ， El-Barbary OG. 粗糙集理论的多重拓扑近似。 Int J GranularComput，RoughSetsIntellSyst2012：1-19.http：//doi.org/10.1504/IJGCRSIS.2013.054120。[15] Salama AS，El-Barbary OG.数据集知识发现的模糊粗糙集和模糊ID3决策方法。JFuzzy Set Valued Anal 2012 ： 1-25. http://doi.org/10.5899/2012/jfsva-00118 网站。[16] 詹尼克·斯特根，莱昂·德钦斯基，里卡多·坎波斯，奥马尔·阿隆索.时间与信息检索：特刊介绍。Inf Process Manage 2015; 51（6）：786[17] Silvestri Fabrizio，De Francisci Gianmarco，Morales Roi Blanco.进入新闻：使用隐藏字幕的在线新闻检索。Inf Process Manage 2015;51（1）：148-62.[18] 沙克利·阿扎德拉希米·拉兹欧文国王使用语言建模框架从可比语料库中提取翻译用于跨语言信息检索。 Inf Process Manage 2016;52（2）：299-318.[19] 朱威廉。覆盖粗糙集的拓扑方法。Inf Sci， InfComput Sci Intell Syst Appl2007;177：1499-508.[20] 张振军，姜波，邱飞跃，王丽萍，基于混合粒子群优化的双层加权多视图聚类。Inf Process Manage 2016; 52（3）：387

下载后可阅读完整内容，剩余1页未读，立即下载