粒子群分类在教育数据挖掘中的应用：基于群体智能和教育分类的有效性研究

191 浏览量更新于2024-01-14 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于群体智能的教育数据分类安瓦尔·阿里·叶海亚也门Thurday大学计算机科学和信息系统系沙特阿拉伯Najran大学计算机科学和信息阿提奇莱因福奥文章历史记录：2017年6月4日收到2017年8月1日修订2017年8月15日接受2017年8月24日在线提供保留字：粒子群分类Rocchio算法教育数据挖掘问题分类BloomA B S T R A C T本文探讨了粒子群分类（PSC）在教育数据挖掘领域的分类任务的有效性更具体地说，它建议PSC设计一个分类模型，能够将问题分类到布卢姆分类法的六个认知水平。为此，本文提出了一种新的专门的初始化机制的基础上Rocchio算法（RA），以减轻对PSC性能的不利影响的维数灾难。此外，在基于RA的PSC问题分类模型的设计中，研究了几种特征选择方法在此过程中，收集了教师课堂问题的数据集，用Bloom的认知水平手动注释，并转换为向量空间表示。使用该数据集进行了几次实验，结果表明，由于维数灾难，标准PSC的性能较差。然而，当使用所提出的基于RA的初始化机制时，获得了平均性能从0.243到0.663的显著改善。此外，结果表明，特征选择方法在基于RA的PSC的性能中起作用（平均性能范围从0.535到0.708）。最后，基于RA的PSC的性能（平均性能= 0.663）和七种机器学习方法（最佳平均性能= 0.646）之间的比较证实了所提出的基于RA的PSC方法的有效性。©2017作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍粒子群优化（PSO）是一种基于群的优化方法，其灵感来自鸟群和鱼群的社会行为（Poli等人，2007年）。简单地说，PSO维护一个粒子群，其中每个粒子由搜索空间中的一个位置定义，该位置表示手头优化问题的潜在解决方案。在PSO过程中，每个粒子飞过搜索空间，并通过将其当前和最佳位置的历史的某些方面与群中一个或多个成员的历史相结合来调整其位置以利于更好的位置。经过多次迭代，整个群体就像一群集体觅食的鸟一样，向最佳位置移动（Engelbrecht，2006）。传统上，PSO已经成功应用-*地址：沙特阿拉伯纳季兰大学计算机科学和信息系统学院。电子邮件地址：aaesmail@nu.edu.sa沙特国王大学负责同行审查然而，在最近几年中，已经报道了其应用于其他领域中的问题的显著增长。数据挖掘是这些领域中的一个，其中PSO被应用于诸如聚类、分类、特征选择和离群值检测之类的问题（Grosan等人，2006;Martens等人，2011年）。对于分类，PSO最近才通过一种特定的PSO变体（称为粒子群分类）获得越来越多的关注（Nouaouria和Boukadoum，2010;Nouaouria等人，2013），尽管其首次应用于分类可以追溯到2004年（Sousa et al.，2004年）。从那时起，累积的证据表明PSC是一种合适的和有竞争力的技术，可以有效地应用于要求苛刻的数据分类问题，特别是当需要准确但可理解的分类器时（Abraham等人， 2007年）。教育数据挖掘（EDM）是一个新兴的数据挖掘领域，专注于开发用于探索教育系统或过程中产生的独特类型的教育数据的方法（Romero和Ventura，2013）。在EDM以及其他数据挖掘领域中，分类是一项主要任务，它出现在不同的环境中，并应用了不同的技术。对EDM分类工作的彻底审查，在五项关键EDM调查中报告（Baker和Yacef，2009年; Peña，2014年; Pena等人，2009 年;罗梅罗和文图拉，2007年，2010年）揭示了http://dx.doi.org/10.1016/j.jksuci.2017.08.0021319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com36A.A. Yahya/ Journal of King Saud University我我G我我我我我G我我我专门用于数据分类的PSO的特定分支（称为PSC）尚未被研究用于教育数据的分类。因此，本研究提出以普通话水平测试（PSC）建构教学效能模型中的分类成分，将教师的课堂提问分为此外，为了减轻维数灾难的不利影响，这是高维数据集的固有问题，本文提出了一种新的专用初始化机制，是基于一个特定的信息检索算法，称为罗奇奥算法。提出基于RA的初始化机制的基本原理可以表达如下：在许多复杂的研究中，初始化机制对于进化算法的关键作用，例如，已强调了PSO（Jabeen基本上，PSO维护一群代表给定优化问题的潜在解决方案的粒子与每个粒子相关联的是表示粒子的位置和速度的两个值。此外，每个粒子都有一个学习组件，它融合了两种类型的信息：认知信息（粒子自己的经验）和社会信息（整个群体的经验）。虽然认知信息代表了粒子在其历史上所获得的最佳解决方案，但社会信息是群体所获得的最佳位置。齿轮和社会信息一起被用来计算粒子的速度，然后计算它们的下一个位置。通常情况下，粒子群算法开始于随机初始化粒子然后，粒子从一个位置移动到另一个位置，以寻找更好的解决方案例如，2009年; Omran和Al-Sharhan，2008年; Pant等人，二○ ○八年;Parsopoulos和Vrahatis，2002年; Uy等人，2007; Xue等人，2014;Zhang等人，2009年）。尽管如此，一些研究已经开始开始标准PSO算法质疑这种在高维空间中的作用（Kazimipour等人，2014; Xue等人， 2014年）。更具体地说，据报道，先进的通用初始化机制在高维空间中表现不佳，因此许多进化算法的性能显着恶化或者，一种新的趋势已经开始关注于开发专门的初始化机制，以提高高维空间中进化算法的性能（Ma和Vandenbosch，2012;Xue等人， 2014年）。专门的初始化机制利用特定问题的知识，以确定一个有前途的区域在搜索空间中的演变可以发生。在基于中心的采样理论中引入了一个特定的区域，该区域已被证明对进化算法的初始化有希望（Rahnamayan和Wang，2009 b，2009 a）。根据该理论，搜索空间的中心区域包含具有更高概率的点以更接近未知最优解。在此基础上，提出了用RA来确定数据分类搜索空间的中心区域，从而保证PSC粒子的良好初始化。此外，由于特征选择在数据分类中起着至关重要的作用，特征选择方法对拟议的基于RA的PSC的效果进行了研究。更具体地，使用以下四种特征选择方法来研究基于RA的PSC的性能：词频（TF）（Xu和Chen，2010）、互信息（MI）（Yang和Pedersen，1997）、X平方（V 2）（Galavotti等人，信息增益（IG）（Mladenic，1998）。最后，通过将其结果与以下机器学习（ML）方法（Mitchell，1997）的结果进行比较，验证了所提出的基于RA 的 PSC方法：k- 最近邻（kNN），朴素贝叶斯（NB），支持向量机（SVM），决策树算法（J 48），基于规则的ML算法（RIPPER，JRip），自适应Boosting方法（AdaBoost）和贝叶斯网络（ByesNet），这些方法已应用于相同设置下的相同数据集。本文的其余部分组织如下：下一节详细描述PSC。随后的部分介绍了所提出的基于RA的PSC技术。在第4节中，关于PSC、EDM和特定问题任务的最新文献分类是综述此后，第5节介绍如何PSC应用于问题分类任务。事后对于每个粒子i随机初始化粒子对于每个粒子i确定粒子适应度值，fi如果fi优于fbi//fbi是当前局部最佳位置则bi=pifbi=fi//bi是当前局部最佳位置如果fi优于fg//fg是当前全局最佳位置的适应度则pg=pifg=fi//pg是当前全局最佳位置端，对于每个粒子i计算粒子速度，v i//等式1更新粒子位置，P1//等式2结束时结束端更正式地说，如上述标准PSO算法所示，PSO维护M个粒子群，其中每个粒子由三个N维向量组成（N是维度的的搜索空格）：的电流位置（pi），前最佳位置（bi）和速度（vi）。每一个粒子移动在搜索空间内以可适应的速度迭代，并在存储器中保留它曾经到达的最佳位置。粒子群优化算法的目标是不断地寻找更好的位置并更新pi和bi通过将vi坐标添加到pi并从一次迭代中调整vi对于一个粒子i，在时间t+1时的速度是它在时间t时的速度的线性组合，到时间t和它的当前位置之间的差，以及总群找到的最佳位置和粒子的当前位置之间的差。vt1w：vttc1：U 0;1bt-ptc2：U 0; 1bt-pt 1实验结果在第6节中给出，并在第7节中讨论。最后，在第8节中，提出了得出的结论。2. 粒子群分类在许多领域，PSO是解决复杂优化问题最广泛使用的技术之一（Engelbrecht，2006）。其中表示速度值必须在一定范围内由两个参数：Vmin和Vmax定义。每个人的位置然后，在下一步骤中，通过将其当前位置和其速度相加来计算物品iA.A. Yahya/ Journal of King Saud University37·我我我pt1¼ptvt1对Tmaxð2Þ迭代或直到一些系统是基于通用的方法，如图1所示。它从训练数据的预处理步骤开始，即特征选择和提取，然后将训练数据转换为满足其它停止标准，例如相对于最优解的最小误差自1995年成立以来，PSO已被应用于各种问题，并且对于其中许多问题，特定于问题的特性促使PSO变体的开发（Hasanzadeh等人，2013; Li 等人， 2012 年）。例如， PSC 基本上是 PSO 变体（Nouaouria等人， 2013年）开发，以解决数据分类任务。PSC的主要思想是将一个给定的分类问题转化为一个最优化问题，并根据一些预先指定的措施，使用粒子群算法来找到最优的分类器。为此目的，已经开发了两种类型的PSC变体：基于规则的PSC和基于最近邻的PSC（Martens等人，2011年）。在基于规则的PSC中，分类器是以“IF-THEN”规则的形式表示的规则集合基于数据的类型，分类的或连续的，已经开发了两种规则表示方法（Sousa等人，2004年）。对于分类数据，使用二进制表示，而对于连续数据，使用更复杂的表示对于基于最近邻的PSC，分类器是N维空间中的一组原型向量，表示类的质心，并且PSO的作用是找到每个类的最佳表示质心（Nouaouria和Boukadoum，2010;Nouaouria等人， 2013年）。通过测量新数据实例与先前找到的原型向量的距离来执行对新数据实例的分类3. 基于Rocchio算法的粒子群分类在本节中，详细描述了所提出的基于RA的PSC。简单地说，它是一种基于最近邻的PSC，具有特殊的初始化机制，以克服维数灾难对PSC性能从分类系统的角度来看，基于RA的PSC系统是一组二元分类器，其中分类器表示给定类别的最佳质心。基于RA的PSC合适的代表。然后，粒子群算法被应用于寻找最优分类器能够有效地分类测试数据，根据预先指定的评价措施。在这样做时，PSC维护M个粒子的群，其坐标是给定类的不同暂定质心。换句话说，每个粒子有2N个分量对应于N维候选质心位置和速度.在训练阶段，PSO迭代细化的位置，找到最好的分类器，代表类的质心。在随后的测试阶段中，使用类实例评估发现的质心在测试集。在下文中，描述了所提出的基于RA的初始化机制的动机、基本原理和细节。通常，在进化算法中，初始种群的个体使用均匀随机分布随机初始化。有很强的直觉，更好的初始化个人帮助算法实现更好的结果。在此基础上，许多先进的初始化机制已被研究，以提高进化算法的性能例如PSO（Jabeen等人，2009年; Omran和Al-Sharhan，2008年;Pant等人，2008; Parsopoulos和Vrahatis，2002; Uy等人，2007;Xue等人， 2014年）。最近，已经发表了关于初始化机制到高维域的可扩展性的一些研究（Kazimipour等人，2014，2013; Xue等人，2014年）。他们调查了当数据的维度超过一百个变量时，使用通用初始化机制的优势是否仍然显著。在这些研究中，已经表明，人口的均匀性显着下降的数据维数的增加。这证实了在高维空间中会遇到均匀性损失，而不管进化算法、初始化器或问题的类型如何（Kazimipour等人，2014年）。根据这些发现，一些研究者开始考虑设计特定任务初始化机制，作为通用初始化图1.一、PSC的发展过程38A.A. Yahya/ Journal of King Saud University我X1-X2-X3-X4-X4-X5-X4-X4-X5-X4-X4-X5-X4-X4-X5-X4-X机制，以便在将其应用于高维域时提高 PSO 的性能（ Ma 和Vandenbosch，2012; Xue等人，2014年）。这些机制基本上是基于确定有前途的区域在搜索空间中初始化的进化算法。在Rahnamayan和Wang（2009 b）中引入了搜索空间中的一个特定区域，该区域已被证明是初始化进化算法的有希望区域。根据这项研究，搜索空间的中心区域是一个有希望的区域，因为它包含更接近潜在解的概率更高的点此外，它已被证明，接近潜在的解决方案的概率直接增加与搜索空间的维数。换句话说，离中心较近的点与未知解的平均距离较低，并且对于更高的维度同样急剧在此基础上，当初始化发生在更接近搜索空间的中心时，它们有更高的机会更接近未知解，并且平均而言，它们与解的距离也更低。此外，对于更高的尺寸，所提到的有利的增加。考虑到搜索空间中心区域的优势，它已被用于开发进化算法的通用初始化机制（Rahnamayan和Wang，2009 a，2009 b）。在上述进步的推动下，研究提出了一种新的专用初始化机制，以提高PSC在高维数据分类中的性能。所提出的机制是基于一种信息检索算法，称为Rocchio算法，它提供了一个特定的识别数据分类搜索空间的中心区域。RA是一种有效的信息检索算法，它最初被设计用于在查询全文数据库时使用相关反馈（Rocchio，1971）。当它用于分类时，它为每个类c生成原型向量，该原型向量是属于类c的整个训练集向量的平均向量。为了对新数据实例进行分类，计算新数据实例的向量与每个原型向量之间的相似度，并将其分配给具有最大相似度的类。更正式地，类c的质心被计算为其成员的向量平均或质心，如下所示：~lc1~vd3jDc jd2Dc其中Dc是数据集中类为c的数据实例的集合。当它被用作PSC粒子的初始化机制时，给定类别c的质心被用于如下初始化每个粒子i：~pc~lc~ai4其中~lc是平均值，使得mj是在Dc中的所有数据实例上的维度j的平均值是随机向量，使得a j是小随机数，在区间[-R，R]中为维度j独立生成的值，使得生成的粒子落在以mj为中心的范围[mj-R，mj+R]中。值得一提的是，基于RA的初始化机制在计算上并不昂贵，因为向量计算一次，然后用于生成每个粒子的初始向量。4. 文献综述近年来，来自教育来源（系统和流程）的教育数据爆炸式增长，是教育机构面临的一个重大挑战。EDM是一个新兴的数据挖掘领域，它关注于开发用于探索教育数据的方法。它建立在数据挖掘的基础上，商业和生物学等领域（Romero和Ventura，2013年）。与其他数据挖掘领域一样，分类是EDM的一项基本任务。它代表了迄今为止出版的著作的实质性部分，因为在教育中，教师和教员根据学生的行为和知识水平和动机对他们进行分类。Hämäläinen和Vinni（2010）概述了典型的教育数据分类问题和方法。在这项工作中，EDM分类任务的几个例子，如分类的学生关于EDM的具体分类任务，即问题分类，在以往的许多工作中已经有所涉及。在这些作品之一中，（Fei等人， 2003），使用人工神经网络，即反向传播神经网络，将问题分类为三个难度级别，即容易、中等和困难。所得结果以F-测度值计接近78% 。Cheng 等（2005）提出了一种基于决策树的考试试题库自动分类方法，根据试题库的难易程度，根据学习者的个人背景，选择适合每个学习者Chein和Liau（2004）设计了一个针对特定关键词的汉语问句的自动分类器Ince（2008）提出了三种人工智能方法：人工神经网络、支持向量机和基于自适应网络的模糊推理系统，作为在智能学习环境（如E-learning或远程教育平台）中实现精确问题级别诊断、智能问题分类和问题模型更新的手段在基于网络的E-learning环境下，通过对一门本科课程的测试部分，考察了这些方法的有效性和性能，观察了学生对问题的回答、问题的难度以及由高斯正态曲线确定的问题等级对问题分类能力的影响。以分类正确率为指标进行的对比试验性能分析表明，基于自适应网络的模糊推理系统的分类性能优于人工神经网络和支持向量机。在Karahoca et al. （2009），利用快速探索随机树算法建立了一个试题分类模型，用于确定计算机自适应考试系统中试题的难度。本文还研究了题目池大小对问题分类的影响，发现题目池大小对问题分类有重要意义Nuntiyagul等人提出了一个有趣的问题分类工作。（2008年）。在这项工作中，一个自适应的学习辅助工具，用于管理问题库。该工具能够自动帮助教育用户将问题分类到预定义的类中，并通过指定类和/或难度级别来正确地检索问题。该系统在准确性和用户满意度方面进行了测试和评估。Kavitha等人（2012）提出了一项将问题分类嵌入智能辅导系统的最新工作。在这项工作中，一个规范的参考是用来分类问题的基础上，项目的难度。问题分类最近在在线问答论坛中得到了解决，如 StackExchange和Quora，这是一种越来越受欢迎的教育资源。对于这样的系统，Eric等人提出了一种多标签分类系统，该系统使用线性支持向量机和整个特征集的精心选择的子集来自动标记用户的问题以增强用户体验。（2014年）。虽然在大多数上述审查的作品，分类-问题的选择是基于难度的水平，最近，A.A. Yahya/ Journal of King Saud University39基于Bloom分类认知水平的问句分类已有多篇文献报道。在Haris和Omar（2013，2015）中，使用基于规则的方法来开发对计算机编程课程的笔试试题进行分类的试题分类模型。其目的是为讲师提供一种工具，从笔试问题中评估学生的认知水平。初步的实验结果表明，根据Bloom分类法对问题进行自动分类是一种可行的方法。在Omar等人（2012）、Fattah等人（2007）中提出了另一种基于Bloom的税收规则的考试问题的基于规则的问题分类模型该系统包括试题编辑模块、试题检索模块、试题分析模块和试卷生成模块。问题分析模块使用在问题中找到的关键词基于试卷中的Bloom分类法来确定每个问题的难度水平。在Abduljabbar和Omar（2015）中，使用支持向量机，朴素贝叶斯和k-最近邻处理Bloom认知水平的问题分类，有或没有特征选择方法，即卡方，互信息和奇数比。一个组合算法被用来集成的三个分类器的整体实力。该分类模型在应用互信息时取得了最高的分类结果，这被证明是有前途的，可以与其他类似的模型相媲美。在Jayakodi et al.（2016）中，使用具有余弦相似性算法的WordNet根据Bloom的分类学学习水平对给定的考试问题进行分类。问句分类模型由标记模式生成模块、语法生成模块、语法分析器生成模块和余弦相似度检验模块组成。这些数据是从Wayamba大学计算机和信息系统系的课程中提取的一组考试问题。结果表明，分类模型的性能是一致的领域专家提供的约71%的场合。在Yusof和Hui（2010）中，提出了一种基于Bloom分类法的问题分类模型来对考试中的项目进行分类。该模型采用人工神经网络的方法，它是使用缩放共轭梯度学习算法训练。研究了几种数据预处理技术和特征约简方法。实验结果表明，该模型能提高收敛速度，文档频度是最有效的特征约简方法。在Yahya等人（2013），Yahya和ElBashir（2014）中，三种机器学习方法，即k-最近邻，朴素贝叶斯和具有不同术语选择方法的支持向量机的有效性被研究用于将教师的课堂问题分类到Bloom分类法中确定的不同认知水平。收集问题的数据集，并手动注释与布卢姆的认知水平和预处理的几个步骤已被应用到这些问题转换成适合机器学习方法的表示。结果表明，机器学习方法优于基于规则的方法，支持向量机优于k-近邻和朴素贝叶斯。在Dubey和Goyal（2016）中，开发了一种问题分类模型，用于对堆栈溢出上提出的问题进行分类，堆栈溢出是一种流行的社交网络来源，根据Bloom的分类法，技术问题和答案对教育领域有用。LDA是一种三层贝叶斯模型，它首先对每个项目进行降维，然后对包含未标记和已标记项目的集合使用k-means算法得到结果。最初，使用这种方法获得了30.2%的准确度，并且进一步增强了其他功能，如得分，答案计数和视图计数，获得了56.33%的准确度。从前面的工作中，很明显，在Bloom的分类认知水平的基础上的问题分类任务的兴趣正在增长，由于其对教育系统和电子学习平台的影响。如可以观察到的，在大多数工作中，问题分类模型是被开发用于模拟教育实践的特定教育系统内的嵌入式组件，诸如智能辅导系统、试题库问题系统、自动测试生成系统、自适应测试系统、问答系统等。在教育系统中整合布卢姆分类法的兴趣日益增长，反映了它对许多教育实践的重要性。由于本研究的目的是使用最新的最先进的方法开发一个问题分类系统，因此对EDM中的数据分类进行全面的回顾是有用的。为此，采用了五项关键调查作为信息来源（ Baker 和 Yacef， 2009 年 ;Peña，2014年; Pena等人，2009年;罗梅罗和文图拉，2007年，2010年）。每一次调查都审查在特定时间间隔出版的EDM作品，并根据预先指定的分类法对其进行分类。对这些调查进行了分析，特别注意分类工作和所采用的分类方法。如图2所示。贝叶斯网络，决策树，神经网络和回归方法主导其他分类方法。这些方法的优势是它们能够捕获类属性之间的依赖关系并避免过度拟合的直接结果（Hämäläinen和Vinni，2010）。此外，对这些调查的分析表明，在EDM中仍然有许多尚未探索的分类方法。基于群智能的方法是这些方法的突出示例，尽管它们在不同领域中解决数据挖掘任务方面已被证明是成功的，但尚未被探索用于EDM分类（Grosan等人，2006; Yahya等人，2014年）。这可以归因于EDM领域的相对新生阶段PSO和蚁群优化，用于处理优化任务而不是分类（Nouaouria等人， 2013年）。与PSC在EDM分类中缺乏应用相反，正因为如此，将PSC应用于其他领域中的数据分类的兴趣已经显著增长，并产生了两种类型的PSC模型：基于规则的PSC和基于最近邻的PSC（Martens等人，2011年）。由于这项研究的兴趣在于最近邻PSC，以下审查仅限于最近邻PSC工程，无论其领域如何。此外，为了便于组织，被审查的作品分为三类：PSC模型，基于标准粒子群算法的PSC模型、基于改进粒子群算法的PSC模型以及应用于高维数据分类的PSC模型在第一类中，标准PSO已被用于许多作品。例如，在Tewolde和Hanna（2007）中，标准PSO用于开发PSC，用于实现基于单个和多个表面的数据分离方法，用于对来自加州大学欧文分校（UCI）机器学习库的乳腺癌数据进行分类。实验结果表明，优秀的分类准确率，从97%到100%，由这两种方法。在Tsai and Yeh（2008）中，PSC方法被开发用于库存分类问题，其中库存物品基于特定目标或多个目标进行分类应用所开发的产品定价模型对某印刷电路板制造企业1101个产品的库存数据进行了实证分析，47家供应商表明，PSC相对于实践中常用的那些方案而言表现较好。在Ng et al. （2009），基于标准PSO的PSC模型40A.A. Yahya/ Journal of King Saud University图二、EDM文献中以前分类方法的统计被开发并用于执行多类图像的无监督聚类。从不同的多类图像数据集的实验结果表明，PSC产生更好的和更一致的结果，在聚类特征和子分类识别方面比k-means算法。Liu等人所（2010），基于标准PSO开发了PSC模型用于数据聚类。在该PSC模型中，四个聚类有效性指标（基于欧氏距离的PBM，核函数诱导的CS，点对称性和流形距离）被用作适应度函数。在31个数据集（人工、合成大小的数据和UCI数据）上的实验结果表明，在聚类准确性和鲁棒性方面，具有流形距离指数的PSC在Nebti和Boukerram（2010）中，PSO，蜜蜂算法，人工蜂群优化，多层感知器，以及混合多层感知器和蜜蜂算法被应用于手写阿拉伯数字识别问题（选自MNIST数据库）。实验结果表明，PSC算法的性能优于人工蜂群算法和多层感知器算法，但不如蜜蜂算法和多层感知器与蜜蜂混合算法，后者的性能最好。在Kalyani和Swarup（2011）中，标准PSO被用于开发用于大规模电力系统静态安全评估的PSC。在IEEE14总线、IEEE 57总线和IEEE 118总线系统的数据集上的实验结果表明，PSC产生相当高的分类准确率和低的误分类率。在Wang和Ma（2014）中，提出了一种基于标准PSO和k-最近邻算法的新型PSC，用于诊断两个运行点（600-MW和480-MW）下发电厂热力系统中的故障。对五个 UCI 数据集（ Diabetes ， Glass ， Heart ， Iris ，Wisconson）的实验结果证明了该方法的有效性。应该指出的是，标准PSC并不总是PSO作为基于最近邻的分类模型是有效的，并且因此已经开发了PSO的不同变体，并将其用于最近邻PSC的开发在Owechko等人（2004）提出了一种基于序列方程扩展粒子群算法的PSC，并利用Haar小波和边缘对称性特征对红外图像进行了分类。实验结果表明，该方法能够快速有效地检测出场景中的多个目标。在O'Neill和Brabazon（2006）中拟议的方案支助费用高于或符合所有四个数据集的最佳报告结果。在Omran和Al-Sharhan（2007）中，提出了一种新的PSO变体，其中不需要参数调整。它在PSC模型中用于分类合成，MRI和卫星图像。实验结果表明，所提出的PSC优于国家的最先进的算法。在Cervantes et al. （2009），提出了一种基于自适应密歇根粒子群算法（AMPSO）的PSC模型，该模型中的每个粒子代表解空间中的一个原型，并使用改进的粒子群方程进行进化，同时考虑了粒子的竞争和合作。在7 个 UCI 数据集（ Balance Scale 、 Bupa 、 Diabetes、Glass、Iris、Thyroid和Wisconsin）上的实验表明，AMPSO算法总能找到比标准PSO算法更好的解。此外，AMPSO与一些最常用的分类算法具有竞争力。Chen等人提出了一种基于量子的粒子群优化算法（QPSO）。（2008）并用于开发用于基因表达数据分析的PSC。在QPSO算法中，更新规则是粒子间最优位置的平均值和一个收缩-膨胀系数的组合。在四个基因表达数据集（大鼠CNS数据集、GAL数据集和两个酵母细胞数据集）上的实验表明，基于QPSO的PSC总是能够获得效果显著的分区，是一种很有前途的基因表达数据聚类工具。随着人们对使用PSC进行分类的兴趣的增长，有几个缺点：欧洲核研究组织对其有效性提出了质疑。一个主要的问题，一直受到相当大的关注是它在高维数据分类的有效性。这一问题最初在De Falco等人的研究中得到解决。（2005年，2007年）A.A. Yahya/ Journal of King Saud University41并将所得结果与9种经典分类算法的结果进行了比较。在这些研究中，研究了类数、数据大小和维度对PSC有效性的影响。在九个UCI数据集上进行实验：卡片，糖尿病，玻璃，心脏，马，虹膜，Wdbc，Wdbc-I和葡萄酒。在这些数据集中，类的数量从2到6不等，维度从4到58不等，大小从150到768不等。结论是PSC分类精度随数据集类别值的增加和数据集大小与维数乘积值的增加而降低。Nouaouria和Boukadoum（2009年，2010年）通过研究PSC在更复杂数据集（具有19个类别、2103个数据实例和64个空间维度的物质数据集的荧光测量）上的性能，对这一结论提出了质疑。结果表明，粒子群优化算法的性能是积极的，当使用的数据值的限制机制。进一步的调查进行，以评估在何种程度上的泛化，以前的结论，持有三个额外的数据集的大小为2103，16000和3823;尺寸为64，16和64;和类数为19，26和10。研究结果表明，具有额外应对机制的PSC作为一种分类工具具有很好的潜力，即使对于具有大量实例和多类的高维问题空间也是如此。总之，上述审查揭示了一些发现，推动当前工作。首先，指出了基于Bloom分类法的问题分类对于网络学习系统和平台的重要性。第二，尽管PSC应用领域广泛，但没有关于PSC应用于EDM的工作报告。第三，研究表明，标准PSC的性能随着数据维数的增加而下降，当使用应对机制时，PSC的性能有所提高，但是，以前的工作都没有研究初始化机制对PSC在高维数据分类中性能的影响。5. 基于RA的PSC教育问题分类在教育中，教学效能是一个多维的概念，它被定义为教师向学生灌输知识和技能以及改变学生行为的能力。教师的提问能力是衡量教学效果的重要指标之一。汉密尔顿，一个早期采用者的重要性，收购和发展的提问技能，被引述说，问题是核心的有效教学（拉姆齐等人， 1990年）。有效教学的本质与好的提问密切相关，这是目前普遍存在的一个事实（Ornstein，1987）。在教育实践中，提问是课堂上最常用的教学干预，因为教师在讲座中出于各种目的提出许多问题（例如，培养兴趣和批判性思维技能）（ Levin和Long ，1981）。基于分类的分析是分析教师问题最常用的方法之一在此背景下，已经开发了许多分类系统（Bloom等人， 1984年），布鲁姆分类法是最图三. 布卢姆形式，如智能辅导系统，自动生成测试系统，题库管理系统，自适应测试系统，问答系统，等等。考虑到这一点，基于RA的PSC提出自动分配一个BCL给给定的教师的课堂问题，如下面的子部分所描述的。5.1. 收集教育问题数据问题数据集是在2011和2012学年的三个学期的时间段内从纳季兰大学的计算机科学课程的讲师收集的一组问题。数据收集的程序是基于讲师谁被要求保持记录的问题，他们直接向他们的学生在课堂上。所有讲师都被告知布卢姆的分类法和这项工作的目标。应该提到的是，由于EDM领域的出现，基准数据集的可用性仍然是一个挑战（Woolf等人，2013年），尽管目前的一些努力，如来自匹兹堡科学学习中心的Datashop（Koedinger等人，2008年），它提供了许多教育数据集，并促进数据分析。关于已在本工作中使用的收集的问题数据集，其在几个先前的研究中使用（Yahya等人，2013; Yahya和El Bashir，2014），目前可用于基准测试。表1显示了一个问题样本及其对应的BCL类。5.2. 问题预处理由于文本数据不适合大多数分类器学习算法，因此将问题数据集转换为表1问题数据集示例。突出的例子。它是由本杰明·布鲁姆开发的，他发现-本文将认知领域中的学习分为六个层次，即布卢姆的认知层次（BCL），并将它们按层次结构进行组织，如图1所示。3.第三章。从上面可以看出，教师在课堂上的问题的自动分类是建模教学效果的关键组成部分。除此之外，如第3节所述，自动问题分类是许多基于计算机的教育系统和电子学习平台中的关键组件。BCL问题示例知识有限自动机的主要组成部分是什么描述简单SQL检索查询应用程序如果应用快速选择查找中位数的数字列表会有什么结果？右线性文法与左线性文法的比较分析。综合你如何用图来模拟这个问题你认为应该使用哪种语法42A.A. Yahya/ Journal of King Saud Universityð我我我我我我I1在我I1在我I1在使用了一些有争议的术语计算上更容易的术语选择我I1在DBCL我DBCL我jjN.q;TrAKJKjqPT。ﬃﬃtﬃﬃfiﬃdﬃﬃﬃfﬃﬃﬃﬃtﬃﬃﬃﬃﬃqΣ2我X.第十章Σ适当的表示（例如，向量空间表示）。通常，数据预处理涉及语言学、形态学和统计分析的步骤，例如标记化、词干提取和特征选择。以下小节描述了应用于问题数据集的预处理步骤5.2.1. 标记化（术语提取）令牌化涉及将文本流分解为有意义的令牌，也称为术语，如符号，短语和单词。通常，标记化从定义标记的含义开始，通常以正则表达式的形式。对于问题数据集合，该术语被定义为非空字符的最大序列，其中所有字母都是小写形式。因此，分词包括将问题文本简化为小写字符并生成其术语集。5.2.1.1. 删除无用的术语。在英语语言中，有一组单词对文本分类没有信息，称为停用词（最常用的单词），如亲名词，介词和连词。英语中的停用词包括大约400-500个单词，如'the'，'of'，'to'，... 事实证明，去除停用词对文本分类非常有用（Silva and Ribeiro，2003）。在本书中，Salton（1989）中定义的停用词被删除了。除了停用词，以下三组也被删除：● 标点符号。所有的标点符号。● 号码纯粹由数字组成的术语。● 低频术语。频率小于3的项5.2.2. 产生在语言形态学中，词干提取是将词形变化还原为词根或基本形式的过程，称为词干，其可能与该词的形态词根不同词干提取通常通过从术语中删除任何附加的后缀和前缀来完成，以提高分类精度。已经应用了词频逆文档频率（ TFIDF ）形式的二进制加权（Reintiani，2002）。首先，问题qj中每个项tk的tfidf计算如下：tfidftk;qtftk;q×log0@NTr15tk其中tf（tk，qj）表示tk在qj中出现的次数，N（Tr）表示训练集Tr中的问题数量，并且N<$qtk;Tr<$k表示Tr中遇到qtk项tk的问题数量。项权重的计算如下w=0;q= 0tft; q6k¼1（b）j其中T是Tr中唯一项的数量。5.2.5. 向量空间表示在该步骤中，每个问题qj被表示为项权重

下载后可阅读完整内容，剩余1页未读，立即下载