混合参数化模型在处理问题数据集中的性能分析

60 浏览量更新于2024-01-14 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报通过新的混合参数化模型Masurah Mohamadb，f，Ali Selamata，b，c，e，J.，Imam Much Subrotod，Ondrej Krejcarea媒体和游戏卓越中心（MagicX），马来西亚科技大学，81310 Skudai，Johor Bahru，Johor，Malaysiab马来西亚科技大学（UTM）工程学院计算机学院，81310 Skudai，Johor Bahru，Johor，MalaysiacMalaysia Japan International Institute of Technology（MJIIT），Universiti Teknologi Malaysia Kuala Lumpur，Jalan Sultan Yahya Petra，54100 Kuala Lumpur，Malaysiad印度尼西亚三宝垄苏丹阿贡伊斯兰大学Universityof Hradec Kralove，Rokitanskeho 62，500 03 Hradec Kralove，Czech Republicf马来西亚霹雳州塔巴路塔巴校区霹雳州玛拉科技大学计算机与数学科学学院，邮编：35400阿提奇莱因福奥文章历史记录：收到2018年2019年3月17日修订2019年4月13日接受在线发售2019年保留字：软集理论粗糙集理论参数选择神经网络混合方法不平衡数据A B S T R A C T这项工作的目的是分析新提出的混合参数化模型在处理有问题的数据的性能。本文将重点介绍三种类型的问题数据：i）大数据集，ii）不确定和不一致的数据集，iii）不平衡的数据集。该混合模型是一个集成的三个主要阶段，其中包括数据分解，参数约简和参数选择阶段。采用软集和粗糙集理论三种主要方法对优化参数集进行约简和选择，并利用神经网络对优化后的数据集进行分类。该模型可以处理可能包含不确定、不一致和不平衡数据的数据集。因此，引入了一个额外的阶段，即数据分解，并在预处理任务完成后执行，以管理大数据问题。不平衡的数据集被用来评估所提出的混合模型在处理有问题的数据的能力。实验结果表明，该混合模型可以应用于任何类型的数据集，特别是复杂数据集。©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在我们以前的工作中，提出了一种新的混合参数化模型，集成了两种数学方法，软集和粗糙集理论。由于软集理论和粗糙集理论在处理不确定性和不一致性数据方面的优势，本文选择了软集理论和粗糙集理论来构建该模型。这两个模型被整合，因为它们中的每一个都将弥补另一个所提出的参数化模型包括几个重要阶段，用于在执行决策过程之前处理数据。一些阶段通讯作者： Malaysia Japan International Institute of Technology （ MJIT ），Universiti Teknologi Malaysia Kuala Lumpur ， Jalan Sultan Yahya Petra ， 54100Kuala Lumpur，Malaysia.电子邮件地址：aselamat@utm.my（A. Selamat）。沙特国王大学负责同行审查所涉及的工作包括数据预处理、参数约简和参数选择。实验结果表明，该方法可以帮助被选分类器确定最优约简集，并将其用于分类过程。本文提出了一种扩展以前的研究，通过提高混合模型的能力，在识别最重要的属性的大型不平衡数据集的分类过程。本研究考虑并分析了两个问题：数据集的规模和类型或类别。根据以前的研究（Mohamad等人， 2017年; Mohamad等人， 2017），数据集的数量是影响实验结果的因素之一。这可能会影响整个分类任务框架的实施。例如，一些参数化方法无法同时管理或分析大量数据。不仅参数化方法无法处理数据，而且处理器和参数化工具也面临这种困难。当处理大数据时，这个问题变得更加严重，研究人员需要考虑许多问题，例如处理时间和存储可用性，这些问题可能与决策过程中大数据的实施相关（Arnaiz-Gonzálezhttps://doi.org/10.1016/j.jksuci.2019.04.0091319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comðÞðÞð ÞðÞ⊂¼ðÞ788米Mohamad等人 /Journal of King Saud University- Computer and Information Sciences 33（2021）787- 797例如，2016年）。数据预处理和参数约简是数据挖掘中经常强调的重要过程之一，特别是在处理大数据时。如果这两个过程被误导，可能会产生不一致和不确定的决策（Houari等人， 2016年）。数据集的类别（如不平衡数据）也可能导致不一致和不准确的结果。不平衡的数据包括类别的不均匀分布或数量上的差异（Wang等人，2016年）。这些数据集由不同的类别组成，如实数、整数和标称值，将在第4节（实验工作和结果讨论）中详细解释。如果在数据收集阶段忽略不平衡的数据集，并且没有进行适当的分析，就可能得到有偏差的结果。此外，大多数研究工作建议优先实施在执行决策过程之前或期间已经清理和平衡的标准数据集（Zhou等人，2017年）。这些过程也可能产生有偏差的结果，导致不正确的结果分析（Derrac等人，2013年）。因此，为了处理大规模不平衡数据集，本文提出了一种新的参数化模型，该模型综合了多种数学方法：软集理论和粗糙集理论作为参数化方法，神经网络作为分类器。该模型可以适应不确定和不一致的数据问题，也能够管理大量的数据集。软集和粗糙集理论被选中，因为他们在处理不一致和不确定的数据集的能力。这些理论已经在各种研究工作和不同的应用领域中得到实施和证明（Luo等人，2016年; Meng等人，2016年）。大多数研究已经将这些理论应用于处理近似问题、特征缩减、特征选择方法或甚至作为分类方法（Azar等人，2016; Raza等人，2016年;Mohamad等人，2016年）。本文还提出了替代步骤，即SRS标识符，以帮助所提出的模型在确定最佳优化的参数集。这些的详细解释建议的步骤在方法一节中解释最佳优化参数集将用作决策分析过程的输入。分类过程是一项数据分析任务，通常用于测试任何机器学习方法的性能。由于神经网络具有分析复杂数据的能力，因此使用神经网络进行分类过程。神经网络是一种众所周知的方法，可以代替人类活动来处理复杂的变量和复杂的关系，并且已经被许多研究人员成功证明，如Lam et al.（2014）和Weng et al.（2016）。神经网络也被称为人工神经网络（ANN），其可以应用于不同的应用领域以及诸如预测、分类、优化和回归的问题（Paradarami等人，2017年; Kim等人，2017年）。希望所提出的工作可以成为大数据预处理任务中的一种替代参数化模型。本文共分五个部分。第一节介绍了重点问题，而第二节介绍了重要主题的背景知识第3节解释了拟议工作的方法，第4节介绍了实验结果与讨论。最后，第5节根据前面几节的结果分析总结了拟议的工作2. 背景知识本节讨论相关主题的几个基本概念，以提供对软集和粗糙集参数约简方法以及作为良好分类器的神经网络技术的理解。软集和粗糙集参数约简方法都是处理不确定和不明确数据的方法。这两种方法都应用数学概念来确定重要的属性或参数，通常被决策者用来解决许多复杂的问题。2.1. 软集参数约简方法软集参数约简是将软集理论作为处理不确定性问题的参数化工具的一种方法。它是由Molodtsov在1999年发起的，目的是改进模糊概念，该概念也用于处理不确定性和模糊问题。Molodtsov曾声称软集合理论更容易理解和实现与模糊集合理论的兼容软集合理论还实现了近似理论，使非数学专家能够理解理论的整个结构它被用来解决所需的问题，而不是只集中在物理部分。软集理论在参数化过程中不施加任何限制，因为它应用近似方法来初始化每个对象。因此，正如Molodtsov所强调的，任何类型的参数化方法都可以在数字、函数、映射、单词和句子的帮助下实现（Molodtsov，1999）。由于软集合理论在解决不确定性问题上的能力，许多研究者将其与其他数学理论相结合，以解决所需的问题。一些混合理论是孟等人（2011）提出的软粗糙模糊集和软模糊粗糙集，冯等人（2011）提出的软粗糙集和杨等人（2013）提出的多模糊软集。大多数混合理论的提出是为了概括所选理论的功能。因此，许多研究者倾向于测试软集理论本身或其混合理论在不同应用领域的能力，特别是作为一种参数选择方法。以下定义是软集理论在参数化过程中如何工作的基本公式。基本公式取自Molodtsov定义2.1a.设U表示论域的集合，E表示参数的集合。一对F;E 被定义为一组当F是集合E在集合U的所有子集。对于esA;Fe 可能被认为是集合或软集合F的近似集合;E.因此，软集不是脆集。近似集由不同类型的值组成，例如缺失值或不确定值。2010 年， Herawan 应用并改进了这一理论。在 Herawan 等人（2010年）中，Herawan通过使用最大支持对象来分析疑似流感患者来实现软集理论。他还提出了多值信息系统的多软集近似理论（Herawan等人，2010年）。论域的软集也可以看作是一个二值信息系统。因此，决策过程可以通过使用二进制值表示来进行。定义2.1b给出了软集合中的参数如何在论域集合中约简定义2.1 b.对于全域U上的软集F;E和usU。一个对象u是一个最优决策，如果u最大限度地支持E。这个公式是从定义2.1c和定义2.1d推导出来的。定义2.1c.定义2.1c：设F;E是论域U和A E上的软集。A被定义为必不可少的，如果U=A U=E。否则，A被设置为0。该定义用于参数缩减过程，而不修改最优和次优决策集。fBx：Bx\XSðÞ¼ ðÞM. Mohamad等人 /沙特国王大学学报-计算机与信息科学33（2021）787-797789定义2.1d. 让软集F;E是宇宙U的集合，一个女的。A是E的一个约简集当且仅当A是一个必不可少的且被E的所有集合支持的约简集。上述定义已被用作参数减少过程中的指导方针，也在选择最佳和次优参数集。该算法通过添加步骤4进行修改，以选择最优化的属性集。这些定义和软集参数缩减步骤的实现软集参数缩减过程的步骤如下：准备数据集并转换为二进制表示0和1格式。基于属性值识别约简集计算每个约简集的权重。通过选择最高数量的属性集来选择最优化的约简集2.2. 粗糙集参数约简方法粗糙集理论是一种能够有效管理不确定或不完整数据的著名理论。粗糙集是由Pawlak提出的，具有与其他理论类似的功能，如模糊集、贝叶斯推理和证据理论（Pawlak et al.，1998年）。粗糙集的主要思想是用上下近似之间的边界区域来表示近似概念。粗糙集理论已经被扩展和推广到许多应用领域，例如模式识别、决策分析、图像处理、归纳推理和机器学习（Feng等人，2011年）。下面的段落定义了Pawlak提出的粗糙集理论的基本概念。当集合在论域集合中不能定义或识别时，则将该集合定义为粗糙集或不精确集。数据有可能不是数据集中的成员或其同伴。对于信息系统S U;A;XU和BA。每XU，B定义为X的上近似;Bω<$X<$，当Sx2UB定义为X的下近似;Bω<$X<$，当x2UfBx：BxXg.粗糙集是从上近似和下近似运算的减运算中得到的。粗糙集也被称为边界集，它是任何数据的隶属度集的一部分。因此，它适用于许多情况，并解决不同类型的问题，如数据简化，并行处理和识别隐藏数据的模式（Pawlak，1997）。在这项工作中，主要关注的是评估粗糙集理论的能力，在辅助软集理论，以确定最佳的数据集，特别是对大数据集的问题。以下步骤描述了在粗糙集参数约简过程中执行的过程。所有的过程都包括前面定义的数学公式。该粗糙集参数约简算法已通过添加步骤6进行修改，以选择最优化的约简集。● 准备数据集。● 数据离散化。● 形成mxn兼容性矩阵。● 计算兼容性函数。● 识别缩减集。通过选择约简集中属性集的最大数量来选择最优化的约简集报道这两种理论之间整合的几项研究工作可以在Meng et al.（2011），Montazer et al.（2015）和Ma et al.（2016）中找到。Raza等人将粗糙集理论作为一种参数约简和选择方法进行了改进。（2016），Chen et al.（2016），Chen et al.（2016）.所有提出的方法表明，粗糙集理论可以提高决策过程的性能，并能够减少任何任务的处理时间，特别是在参数约简和选择过程中。2.3. 参数化过程参数化过程通常在数据预处理任务之后和执行数据分析之前进行。参数化过程包括两个过程：参数减少和参数选择。参数化过程的输出是由参数化方法生成的优化属性集。已经提出了许多参数化方法，这些方法基于不同的方法，例如过滤器、包装器和嵌入式（Chormunge等人，2018年）。每一种方法都有其优点和缺点.在解决给定问题时，应考虑适当选择需要应用于参数化过程的方法。参数约简过程也称为属性约简或特征提取。它用于根据一定的标准和指定的特征减少数据集的属性数量。通常，不确定性和不一致的数据集将被消除，以避免数据分析过程中的误解。已经提出了不同的算法和方法，例如具有可变精度粗糙集的增量算法（Chen等人，2016）和使用Copulas和LU分解的降维（Houari等人， 2016年）。参数选择是在数据集的可用属性中选择最重要的属性的过程。有些方法能够同时进行约简和选择过程。参数选择是数据集用于确定最佳解之前的重要过程之一。通常用于参数选择的公知方法和算法是SVM、随机森林、决策树、ReliefF和Fisher评分（Zhou等人，2017; Masetic等人，2016年）。2.4. 神经网络神经网络也被称为人工神经网络（ANN），是一种可以完成各种决策任务的机器学习技术。神经网络模仿人脑的处理任务。神经网络具有人工神经元或节点和节点的连通性两个特征人工神经元代表信息处理单元，它是神经网络处理的主要组成部分人工神经元有三个基本组成部分：i）一组来自不同输入的连接链接，称为突触，其特征在于使用重量或强度为w ki，其中i<$1; 2;.. . ii）一个积分器，用于将输入信号Xi加权相加具有突触强度Wk i，以及iii）用于限制神经元的输出yk的幅度的激活函数f（Weng等人，2016年）。最常见的神经网络层分为三层：输入层、中间层和输出层。中间●●●●●×海拔790米Mohamad等人 /Journal of King Saud University- Computer and Information Sciences 33（2021）787- 797层也称为隐藏层，可以由多个层和隐藏节点组成。神经网络可以用于识别特征和独立参数之间的复杂关系，以确定高多项式参数、分类、预测和优化的相互作用（Paradarami等人，2017年）。神经网络由于其简单性而得到了广泛的应用。它容易应用于不同的应用领域，并且可以在解决问题时返回良好的结果（Massimiani等人，2017年）。反向传播和前馈是经常用于解决问题的神经网络算法的示例（Kim等人，2017年）。神经网络在以前的工作中实现，被证明有能力处理复杂的数据集（穆罕默德表1关于不平衡、不一致和不确定数据问题的现有工作现有混合模式一种系统的网上银行欺诈检测方法，使用三种算法：对比模式挖掘，神经网络和决策森林（Wei et al.，2013），使用模糊化、内核和惩罚因子预测蛋白质相互作用热点的多标准优化分类器（Zhang等人，2014）和一种基于模糊粗糙集和进化算法的新方法来提高一个神经网络分类器的性能（Derrac等人，2013年）。例如，2017年; Mohamad等人， 2018年）。2.5. 现有相关工程最近，研究人员倾向于整合一种以上的方法来创建混合模型。这是由于每种方法在处理不同类型的数据问题，特别是大数据方面的能力。大数据由不同类型的数据集组成，其中大多数是模糊和不平衡的（Ahmad等人，2017年）。这些类型的数据集确实需要一个有效和高效的数据不确定（Uncertainty）基于优势的邻域粗糙集（DNRS）的实现，以使用并行处理来减少大数据集的属性（Chen et al.，2016），一种新的多标签数据属性约简方法，包括互补决策约简、基于可扩展性矩阵的方法和启发式算法（Liet al.， 2016）和改进的基于优势的粗糙集方法（IDRSA），后者被提出来处理复杂和不确定的名义属性（Azar等人， 2016年）。分析模型，以产生有效的决策。以下段落描述了几个现有的参数化模型，这些模型处理有问题的数据集，特别是大数据和不平衡的数据集。如今，管理大数据最流行的方法是使用MapReduce数据处理模型。 MapReduce用于通过以有效的方式实现并行处理来处理和产生大型数据集（Triguero等人，2015年）。它在处理大数据方面提供了许多好处，包括减少处理时间和内存空间的使用。实现MapReduce 的一些研究是分层属性约简算法（ Qian 等人，2015）、安全智能医疗监测和警报系统（Manogaran等人，2017）和大数据物联网中特征选择的四层架构模型（Ahmadet al.，2017年）。大多数研究都声称，在他们提出的框架和模型中实现MapReduce可以提高数据处理性能。一些研究人员提出了混合模型来解决多类数据问题，而不是在处理大数据问题时实现MapReduce。混合模型可以定义为集成的许多模型中的一个以上提出混合模型可能是为了克服现有单一模型在处理任何特定问题时的弱点并提高其性能（Mohamad等人，2016;Paradarami等人， 2017年）。为了更有针对性，本文将列出几个与突出的数据问题有关的混合模型，如不平衡数据、不一致和不确定数据问题。两个以上模型的组合可能会产生复杂的模型，难以理解和执行。表1中列出了已提出用于解决突出问题的一些现有混合模型。3. 方法所提出的方法包括几个阶段和子过程。数据集的大小必须在决策分析过程开始时确定。重要的是要指定数据的大小，因为不是所有的参数约简方法都能够一次处理大数据。所有数据必须经过评估过程，以确定数据集的大小。如果数据量大于10,000，则需要对数据进行分解，否则采用软集和粗糙集混合参数化模型对数据进行处理。图1所示的框架在本研究中应用，以下小节解释了每个特定过程。3.1. 第1阶段：数据集收集数据集收集阶段是从不同资源获取所需输入数据的过程。在数据收集过程中考虑了以下问题：数据的大小（大数据集），ii.数据的特性（不确定和不一致的值），以及iii.不平衡数据（在数据划分方面3.2. 第二阶段：数据预处理收集的数据将经过几个过程，以执行分类任务。这些过程包括数据格式化、数据标准化和数据随机化。根据分类任务期间使用的方法或软件，将原始数据形成所需的方案。基本上，数据是通过使用m n矩阵，包括决策类，数据列的结尾。格式化后的数据然后被归一化，以使每列的值更小，以提高计算机处理性能，并减少内存使用。此外，将对标准化数据进行随机化，以避免任何偏倚问题并提高分类任务的准确率。3.3. 阶段3：数据分解此阶段在数据完成预处理任务之后，并且当数据或实例的大小超过10，000时应用。它已被提出作为处理大规模数据的替代方法，而不是使用大数据分析工具。处理时间和操作成本是本研究中实施切片技术大多数数据处理方法需要很长时间来分析大数据集，并且需要昂贵的高性能工具来处理数据。通过将实例总数除以10，000，数据将被分成若干组。如果计算包含余数，则组数将加1。设G被定义为组的数量，D被定义为数据的数量。G¼D=10000磅1磅如果G包含余数，则M. Mohamad等人 /沙特国王大学学报-计算机与信息科学33（2021）787-797791Fig. 1. 混合模式的拟议框架。G¼G12例如，如果总数据为12，000，则需要将数据除以10，000。答案是1，余数是2,000。因此，答案必须加1，即1 + 1 = 2。在这种情况下，数据应被划分或切片为2个组，每组的实例数将平均分布。切片技术仅在实例数超过10，000时执行10,000是一个常数。将常数值定义为10，000的原因是，由普通处理器（而不是超级计算机）执行的大多数参数减少方法只能管理这个值或更少。如果要分析的实例超过10，000个，处理器要么需要更长的时间来处理，要么无法执行亲。cess在所有。如果实例的数量等于或小于10，000，则将执行下一个过程，即阶段4（如图1所示）。这种切片技术在以前的实验工作中已经测试过几次（Mohamad等人， 2017年; Mohamad等人， 2016年）。3.4. 第四阶段：软粗糙集参数约简过程阶段4是混合参数化过程。它分为四个部分，其中第1部分将执行软集参数化过程，第2部分将执行粗糙集参数化过程，第3部分将执行优化参数选择过程，第4部分将执行数据集成过程。第1和第2部分在第3阶段完成后执行。同时第3部分←←[←[792米Mohamad等人 /Journal of King Saud University- Computer and Information Sciences 33（2021）787- 797是在两个部分都完成后执行的。第1部分和第2部分都产生了各自的最优约简集。这些输出被标记为软集（SS）优化的数据集和粗糙RS优化数据集。然后将这些输出数据集整合为一个集合，作为分类过程的输入第1部分和第2部分都是一个接一个地顺序执行的，以确保生成最优约简集然后，应用软粗糙集（SRS）标识符，以选择最佳的优化输入的分类任务。基本上，SRS识别器选择最大数量的属性集作为下一阶段要处理的集合。用于选择由SRS标识符实现的优化的约简集的算法可以在Mohamad等人中识别。（2017年）。第4部分仅在数据大小超过10，000时执行，如第3阶段所述。根据在数据分解阶段期间产生的组的数量，重复第4阶段多次。3.5. 阶段5：分类任务分类任务是需要执行的最后一个阶段。经过清理和简化的数据集已准备好用作任务的输入。可以应用任何分类器来执行分类任务。将使用几种标准评价措施评价从这一阶段获得的结果。3.6. 拟议的混合模式据我们所知，软集理论和粗糙集理论是处理不确定和不一致数据的最有效的理论之一（Ma等人，2017; Du等人，2016年）。提出混合模型的主要目的是有一个很好的参数化方法，能够处理不确定和不一致的数据。软集参数化方法的基本概念本身在生成优化约简集方面有其自身的弱点。Maji等人提出的算法。（2002）是不能生成优化和次优化的约简集的方法。同时，Kong等人提出的算法具有其自身的局限性（Ma等人，2017年）。当许多研究人员通过改进基本理论或将其与其他理论混合来提出软集参数化方法的若干增强时，这一点得到了证明（Mohamad等人，2017年）。本研究将软集理论与粗糙集理论相结合，克服了软集理论的不足。将粗糙集参数约简方法与软集参数约简算法相结合粗糙集利用近似理论，能够成功地处理不确定和不一致的数据粗糙集理论的基本概念已经通过各种研究工作得到增强，例如改进的基于优势的粗糙集方法（Azar等人， 2016）和基于优势的邻域粗糙集（Chen et al.，2016年）。使用以下定义说明如何执行在数据分类过程中，D：X被定义为软集参数约简过程，Y被定义为粗糙集参数约简过程。X和Y都产生了一个最优约简集，定义为SX和TY。H被定义为D的混合参数化过程，当ST，其产生结果Z，其是来自需要按顺序执行的两个集合的优化的约简集合。因此，Z ST和Z可以用于D中以提高分类性能。选择过程的输入是从软集和粗集参数约简过程生成的优化约简集的列表。每个集合都是基于已被选为优化约简集的属性数量进行评估的。如果所产生的约简集合大于1个值，则SRS标识符将在可用集合中选择所产生的属性值的最大数目。如果产生的约简集等于1，则产生的约简集将直接用于下一过程。然后，选择属性值最多的约简集进行第二次评价在第二个评价过程中，将考虑两个评价问题1. 最高属性值是否等于原始数据集的属性数？2. 最高属性值是否有多个约简集？如果两个条件都满足，则SRS识别器将选择第一约简集合作为优化约简。然后，优化的reduc- tion集将被用作下一个过程的输入。4. 实验工作和结果讨论进行了各种实验，以评估所提出的方法的性能。两个重要的软件包，Matlab R2014a和粗糙集探索系统版本2.2（RSES），用于确保实验工作的顺利执行。几乎所有的数据处理过程都是使用Matlab执行的：数据预处理阶段，软集参数约简阶段和分类阶段。均值- while RSES仅用于粗糙集参数约简过程。正确选择了19个不平衡数据集这些数据集是从www.keel.es网站下载的，该网站被称为基于进化学习的知识提取（KEEL）数据库。4.1. 数据描述拟议的工作没有将不平衡的数据集纳入拟议的方法，而是考虑分析大型数据集。大多数以前的工作没有包括一个大的数据集进行处理和测试。许多超过1000个实例的数据集被忽略，没有进行测试。因此，所提出的方法在处理大数据方面的性能没有得到真正的测试和验证。不平衡数据是在给定类中不均匀分布的数据集。大多数数据被归为阴性类，最少的数据被归为阳性类。一些数据集由多类不平衡问题组成。这些数据集被分为三类，i）1.5和9之间的不平衡比率，ii）高于9的不平衡比率和iii）多类不平衡问题。这些不平衡的数据集还包含不确定和不一致的数据问题。通过列出数据集的名称、实例数、属性数、数据类型、缺失值和实例比率来呈现数据。每个数据集的详细信息见表2、表3和表4。4.2. 评估措施本研究的目的是根据几个标准，如在参数约简过程和分类过程¼ ×ð Þ- 四分之一¼ ×ð Þ¼ ×ð Þ= 1/4 ×100= 1/4 ×100M. Mohamad等人 /沙特国王大学学报-计算机与信息科学33（2021）787-797793表2不平衡比率介于1.5和9之间。数据集实例数数量的属性数据类型缺失值实例不平衡率（%）段0230819房没有阳性= 14.25阴性= 85.75车辆084618整数没有阳性= 23.53阴性= 76.47页面块0547210雷阿尔没有阳性= 10.21阴性= 89.79玻璃杯02149房没有阳性= 32.68阴性= 67.32哈伯曼3063整数没有阳性= 26.46阴性= 73.54表3不平衡比率高于9。数据集实例数数量的属性数据类型缺失值实例不平衡率（%）元音098813雷阿尔没有阳性= 9.11阴性= 90.98shuttle-c0-vsc418299整数没有阳性= 6.72阴性= 93.28鲍鱼1941748名义实际没有阳性= 0.77阴性= 99.23kddcup222541名义实际没有阳性= 0.99阴性= 9.01淋巴造影正常纤维化14818标称值没有阳性= 4.05阴性= 95.95shuttle-2_vs_533169整数没有阳性= 1.48阴性= 98.52表4多类不平衡问题。数据集实例数数量的属性数据类型缺失值实例不平衡率（%）彭巴斯蒂110016房没有阳性= 33.9阴性= 66.1避孕14739实际名义没有阳性= 34.6阴性= 65.4皮肤科36634整数是的阳性= 15.27阴性= 84.73汽车15915房没有阳性= 5.88阴性= 94.12班车21759房没有阳性= 0.12阴性= 99.88甲状腺72021实际名义没有阳性= 2.64阴性= 97.36Ecoli3367房没有阳性= 1.38阴性= 98.62酒17813房没有阳性= 40阴性= 60过程中，属性的数量，减少过程后被淘汰的时间和每个数据集在分类过程中。对所得结果进行了分析，净现值TN100 7TN-FN标准评估措施，以确定拟议方法在对选定数据进行分类方面的表现。采用准确率（ACC）、特异率（SPEC）、敏感率（SENS）、阳性预测值（ PPV ）、阴性预测值（ NPV ）、阳性预测值（NPV）、阳性预测值（NPV）、阳性预测值（NPV）和阴性预测值（NPV）等指标评价该方法的有效性和有效性。F措施2精确度×召回率精确度和召回率4.3. 结果讨论ð8Þ预测值（NPV）和F-测量值。下面使用真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）公式（Son等人，2012年; Hu等人， 2010年）。ACCTPT3003TPTNFPFN规格TN 100 4公司简介SENS召回TP100 5TPFFNPPV PrecisionTP100 6公司简介在所有选定的数据集上进行了几个实验工作后，结果表明，所提出的模型是有效的和高效的，可以实现任何类型的数据集在任何分类问题。表5、表6和表7提供了分类准确率、不使用任何参数化模型的属性数量以及实施所提出的模型（混合参数化模型）时的属性数量方面的实验结果的细节该模型的性能进行了比较，与其他三个混合模型，即GA-CFS，WRAP-RS和PCA-秩。GA-CFS是基于相关性的特征选择和遗传算法的结合，WRAP-RS是包装子集评估和随机搜索方法的结合，而PCA-Ranker是主成分方法和ranker方法的结合。这些混合参数化模型是表5包含1.5和9之间的不平衡比率的数据集的准确率（%）数据集属性数PR后的属性数没有PR与工作人员代表GA-CFSWRAP-RSPCA排名段019594.592.298.399.5297.83车辆018690.191.376.465.9664.18页面块010594.592.294.695.3896.36玻璃杯09578.184.490.673.3677.10哈伯曼3380.480.484.874.8471.57794米Mohamad等人 /Journal of King Saud University- Computer and Information Sciences 33（2021）787- 797表6包含不平衡比率高于9的数据集的准确率（%）数据集属性数PR后的属性数没有PR与工作人员代表GA-CFSWRAP-RSPCA排名元音013510098.610095.3498.28shuttle-c0-vsc49310098.510093.4499.89鲍鱼198899.899.898.999.2399.23kddcup41410010010010099.73淋巴造影18710010010097.9797.97shuttle-2_vs_59210010010010099.91表7包含多类不平衡问题的数据集的准确率（%）数据集属性数PR后的属性数没有PR与工作人员代表GA-CFSWRAP-RSPCA排名彭巴斯蒂16698.898.197.634.4559.36避孕9971.971.959.746.7852.82皮肤科34599.487.910049.7391.53汽车15895.994.483.353.4670.44班车9499.499.510093.8494.3甲状腺211996.998.196.394.3896.69Ecoli7588.989.15462.577.68酒13497.510010063.4897.19被选为基准方法，因为它们能够预测决策过程中使用的最佳属性。它们在识别和消除不重要和冗余的属性方面是有效的（Koc等人，2012; Bouhana等人， 2013年）。如所呈现的，由SRS标签表示的所提出的模型对于所有类别的数据集都表现良好。该分类器返回的准确率超过80%，使用由所提出的模型生成的优化属性集。不幸的是，避孕药数据集未能成功分类的分类器，返回的准确率只有71.9%。结果表明，该模型不仅不能辅助分类器，而且另一种混合模型也不能生成最优属性集。4.3.1. 约简属性如表5、表6和表7所示，所有三个类别的所有数据集的属性均减少，但哈伯曼和鲍鱼除外19。属性比原来的属性数量减少了50%以上。所提出的方法表明，大多数数据集，其中包含一个不平衡的比率在1.5和9之间的分类性能获得了相当高的准确率相比，分类结果，没有实现任何参数化模型或其他混合模型。同时，表6表明，所提出的方法在对高于9个数据集，其中除了元音0和shuttle-c 0-vcs 4数据集之外，结果与基准方法相似。表7列出了包含多个类别不平衡问题数据集的数据集该方法在葡萄酒数据集上的性能最好，得到的结果为100%，与基准方法的差异约为2.5%。可以得出结论，用少量的属性就可以获得良好的分类结果。4.3.2. 处理分类任务所需的时间处理时间是在决策过程中评价任何方法的性能时必须考虑的另一个因素。减少处理数据所花费的时间，而不是减少属性的数量，也可能影响产生的结果。数据量越大，分析过程所需的时间就越长。图2显示了处理不平衡数据集所花费的时间的结果。处理时间由术语TIME WPR和TIME PR表示，其中TIME WPR表示在分类任务期间不应用参数减少过程所花费的时间。TIME PR表示当应用参数减少过程时执行分类任务所花费的时间。在执行分类任务期间记录处理时间，并以秒为单位进行测量。如图所示。 2、四个数据集，segment 0、pageblock 0、kdd-cup和 dermatology ，显示出处理时间的改善，尤其是在 kddcup 和dermatology 数据集上。在不使用任何参数化模型的情况下，kddcup和皮肤科的处理时间超过50 s，而kddcup需要302.4 s，皮肤科需要51 s完成。这是因为两个数据集都包含大量的实例和属性。然而，所提出的模型只花了不到一秒钟的时间来帮助分类器完成对数据集的分析不幸的是，所提出的模型并没有真正帮助分类器在分类任务中对基于shuttle-c 0-vsc 4和笔的数据集进行分类。两个数据集的处理时间从0增加到0.01秒。总体而言，这证明了在数据分析过程中处理大量数据集时需要参数化模型，以减少处理时间。此外，还可以通过考虑使用高性能处理器来减少处理时间具有可以以较小单位测量时间的软件是有益的，使得可以精确地测量处理时间。4.3.3. 关于总体业绩的该模型的整体性能不仅通过查看准确率来衡量，还通过考虑精度，召回率和F-测量值来衡量。总体而言，所有数据集均在未使用任何参数化模型的情况下成功分类。然而，处理时间和可用空间是决策者可能面临的两个主要问题这些问题可以通过实施数据参数化方法来消除。所得到的结果证明了实施参数化方法的重要性即使所获得的结果与不实施任何参数化方法所获得的结果不完全相同，它们仍然M. Mohamad等人 /沙特国王大学学报-计算机与信息科学33（2021）787-797795图二. 处理时间的性能评价。对某些数据集的准确率达到70%以上，满足要求。实验结果还表明，该模型能够有效地辅助分类器处理不平衡数据集。除甲状腺和ecoli数据集外，所有数据集的F-测量值均超过50%，证明了这一点。在表8结果表明，所有的参数化模型成功地帮助分类器时，使用的数据集分类为不平衡的比率高于9，其中的精度，召回率和F-措施的值几乎达到或达到1。

下载后可阅读完整内容，剩余1页未读，立即下载