缺失值数据集处理的ILA4算法

62 浏览量更新于2024-01-16 收藏 951KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报ILA 4：克服机器学习数据集中的缺失值Ammar Elhassan，Saleh M.Abu-Soud，Firas Alghanim，Walid SalamehSumaya公主技术大学，安曼11941，约旦阿提奇莱因福奥文章历史记录：收到2020年2021年2月7日修订2021年2月19日接受2021年3月9日网上发售保留字：缺失数据归纳学习噪声数据不完全删除策略最常见值A B S T R A C T本文介绍了ILA4：一种用于处理缺失值数据集的新算法。ILA 4的灵感来自于一系列ILA算法，这些算法还可以处理丢失的数据，并进行了进一步的增强。ILA4应用于具有不同完整性的数据集，并且还与用于处理具有缺失值的数据集的在大多数情况下，ILA4产生了良好的性能，与许多已建立的处理缺失值的方法相当，包括基于最常见值（MCV），最常见值限制到概念（MCVRC）的算法，以及那些使用删除策略的算法ILA 4还与三种已知算法进行了比较，即：逻辑回归，朴素贝叶斯和随机森林; ILA 4获得的准确度与这三种算法获得的最佳结果相当或更好版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍处理用作机器学习资源的数据集中的缺失值是一项重要任务和关键问题，特别是在使用完整可用数据很重要的情况下。我们知道，即使有大量的数据可用，其中缺失值的比例对于学习模型来说往往太大。因此，研究人员必须决定是忽略缺失值的记录，还是找到一种方法来处理这个问题，并用正确的值来替代它们。第一种选择并不构成正确的方法，因为可以想象，某些缺失值对于归纳过程是重要的。例如，患者数据中的性别数据值是学习的重要特征，缺失值将显著影响乳腺癌诊断等场景的准确诊断的可能性。其他情景包括银行账户持有人在决定发放贷款或其他贷款的过程*通讯作者。电子邮件地址： a. psut.edu.jo （ A.Elhassan），abu-soud@psut.edu.jo （ S.M.Abu-Soud ），f. psut.edu.jo（ F.Alghanim ），walid@psut.edu.jo（W.Salameh）。沙特国王大学负责同行审查睿的此外，如果数据集中缺失值的比例很高，删除将显著降低学习数据的深度，从而阻碍模型有一个强有力的论据解决缺失值问题，更有效的，不那么全面的解决方案，以提供最佳的可靠性作为应用的预测模型的工作基础，这，传统上，是专为完整的数据集，使这些模型适用于不完整的数据集，而不是简单地删除实例和绕过它们。这与为缺失值分配重要性以最大限度地提高预测模型的有效性的论点是一致的（Joseph，2019）。作者认为不可能全面解决所有缺失值情况，但是，如（Acuna和Rodriguez，2004）所示，当缺失数据占总数据的比例小于1%时，这种情况被认为是微不足道的，而高达5%的比例被认为是可管理的。然而，超过5%阈值和接近15%的比率需要应用多方面的治疗方法，最后，超过15%的比率往往会对机器学习模型数据集中缺失值的影响在几个方面很重要，包括但不限于：(i) 效率下降。导致提取的模式和类别较少，统计内容较弱。https://doi.org/10.1016/j.jksuci.2021.02.0111319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报4285(ii) 数据准备和分析并发症。因为大多数学习模型都是为完整的数据集设计的。(iii) 缺失数据集和完整数据集之间的差异经常导致偏差学习，包括过拟合和欠拟合(iv) 数据缺失的原因也多种多样，包括不正确的测量，错误的传感器/算法，人为错误，审查/匿名数据等（Angelov，2019; Barnard和Meng，1999; Wohlrab和Fürnkranz，2009）。用于处理缺失数据值的已知方法可以分类如下（Barnard 和Meng，1999）：(i) 删除策略，忽略缺少特征/属性值的数据实例。(ii) 统一处理方法，对所有场景应用相同的解决方案（任意值、忽略值、共同值和特殊值策略）(iii) 个案处理办法。与上述（ii）相反，这些是特定于情况/场景的，并应用悲观价值，预测价值和分布式价值策略。就缺失数据值的处理时间/阶段而言，技术分为两个选项：预诱导：其中在诱导阶段之前，缺失值被来自源数据集的相应属性值替换，以及在诱导期间：其中在诱导过程期间处理缺失数据。这里，用于处理缺失数据值的技术被嵌入为归纳学习算法中的一个步骤。这就要求仔细分析所考虑的算法，以最大限度地提高其准确性，并能够有效和高效地处理缺失的数据值。本文中的工作采用了后一种情况，并受到以前工作的启发（Abu-Soud，2019），它利用了以前研究工作中的ILA算法（Tolun和Abu-Soud，1998）。对用于处理完整数据集的ILA算法进行了改进，使其能够处理含有缺失值的数据集。新的，定制的技术被引入处理丢失的数据值，这些都是为ILA算法设计的。新算法ILA4构成了这项工作的主要方面，并且能够在学习数据集中缺失值的建模中产生良好的精度。本文分析了该领域的相关工作，给出了示例来说明模型和思想，并进行了更多的实验，从不同的角度证明了所提出的算法的优势。ILA是一个强大的归纳算法，旨在生成更少数量的最一般的规则。ILA生成的规则在预测隐样本和测试样本时具有较高的准确性。因此，增强ILA以处理具有缺失值的数据集会产生一种新的算法，该算法利用了ILA的强大功能，并增加了处理噪声数据的能力。这个算法被称为ILA4，它是本文的重点。本文的组织如下：ILA及其版本是DIS-ILA及其版本是在第3节中简要讨论了ILA，然后在第4节中详细讨论了ILA的工作原理。在第5节中，对处理缺失值的新模型（称为ILA 4）进行了全面讨论，然后在第6节中与ILA结合，随后在第7节中显示了所建议方法的说明性示例。第8节讨论了许多实验和结果，从多个角度显示了新方法的可行性。在接下来的部分中，描述并简要讨论了相关的工作和一些类似的算法和模型2. 相关工作缺失值及其插补（MVI）问题一直是机器学习相关研究的焦点。这是由于世界各地有大量的数据，其中有很大比例的不完整性和缺失值。为了解决这个问题，已经做了许多研究，每一个都从不同的角度解决这个问题。作者在（Farhangfar等人， 2007）提出了一个处理缺失值的框架。该框架由三个主要单位组成i) 平均值预插补，其中缺失数据值被用于通过快速线性平均值插补方法进行插补的值十倍替换ii) 置信区间的应用，其中使用基数填充法插补每个缺失数据值，此外，使用置信区间过滤插补值。iii) 增强，这个单位接受最好的硬化质量估算值。一组16个数据库被用来测试这个框架。实验结果表明，平均而言，基于框架的方法产生最高的准确率之间所考虑的方法。Tresp等人（1985年）的作者提出了一种使用额外类别来替代缺失数据值的方法。虽然这种方法应用起来更简单，但在分析结果数据时，它并非没有其固有的问题。 Jerez等人（2010）介绍了评估在预测乳腺癌患者复发的背景下使用的不同缺失数据插补方法的性能的工作。研究的方法包括多重插补、Warm-deck和Mean等统计技术。它还包括机器学习方法，如k-最近邻，自组织映射和多层感知器。研究结果表明，基于机器学习技术的插补方法在预测过程中优于作者在（Acuna和Rodriguez，2004）中进行了一项研究，对数据集进行了实验，以评估以下方法对修复缺失值时误分类错误率的影响：病例删除方法、平均值插补、中位数插补和KNN插补程序。该研究使用了参数分类器（LDA：线性判别分析）和非参数分类器（KNN：K-最近邻）来评估错误分类率。作者得出结论，在包含少量缺失值的实例的数据集中，两种类型分类器的病例删除和插补方法之间没有太大差异。然而，对于具有令人窒息的缺失值实例百分比的数据集，情况并非如此;KNN插补似乎比其他方法表现得更好，因为当缺失值百分比增加时，它对偏差更鲁棒。在后来的研究中（Farhangfar等人，2008），作者使用六种不同的插补方法研究了缺失数据的影响。其中五种是单插补方法，包括平均值，温暖的甲板，朴素贝叶斯，框架与温暖的甲板，框架与朴素贝叶斯，而第六种是多重插补方法，即多分类回归。在15个数据集上对RIPPER、C4.5、KNN、多项式核支持向量机、RBF核和朴素贝叶斯等6种常用分类器的分类精度进行了测试。在一个实验中，朴素贝叶斯插补给出了RIPPER分类器的最佳结果，对于多项式A. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报4286核分类器对于RBF核和KNN，应用插补框架是最好的在另一个实验中，一些分类器，如C4.5和朴素贝叶斯被发现是缺失数据抵抗，即，他们可以产生准确的分类在缺失数据的存在，而其他分类器，如KNN，SVM和RIPPER受益于插补。Barnard和Meng在1999年的工作中回顾了Rubin的多重插补方法，该方法包括三个步骤：a）通过使用来自插补模型的独立抽取来插补未观察到的数据来创建完整的数据集，b）通过将每个生成的数据集视为真正的完整数据集来执行数据分析，以及c）以适当的方式组合来自完整数据分析的这篇综述（Barnard和Meng，1999）的重点是估算模型的建立本文综述了Rubin方法在医学研究中的三种应用这些应用包括估计艾滋病诊断后的报告延迟，研究随机实验中缺失数据和不依从的影响，以及处理美国国家健康和营养检查调查（NHANES）中作者发现，鲁宾的多重插补方法是一个强大的工具，当处理无响应的公共使用数据文件，如在第三个当用于处理不完整的数据和分析完整的数据，如在第一和第二应用程序，它被认为是一个有效的统计工具，因为概念和实现简单。Wohlrab和Fürnkranz，2009年）的作者经验性地比较了在传统的分离和征服规则学习算法中处理数据集中未知值的几种方法他们区分了三种一般方法和八种策略：a）删除策略：忽略具有未知值的示例，b）忽略值，任何值，特殊值和公共值策略：对所有示例统一处理未知值，c）潜在值、预测值和分布式值策略：未知值的处理取决于示例。所有八种策略都使用UCI机器学习数据库库进行了评估。在这项研究的几项发现中，作者得出结论认为，一般来说：预测特定策略对特定数据集的适用性并不简单。删除策略的效果显著低于其他策略，因为它降低了学习资源的深度。当缺失属性值的行较少时，处理策略的选择变得重要。悲观策略和任何策略倾向于对估算属性的使用有偏见，特别是与分布式和预测值策略相反，分布式和预测值策略能够保持对这些属性的潜在偏好悲观策略和特殊策略结合在一起，是超过一半数据集的最佳方法在（Schafer，1997）中，提出了两种MVI方法来处理多个变量的缺失值;它们是：i）使用Bestrom来预测多变量正态分布（MVNI）的缺失值，这种方法假设插补模型中的变量相互遵循MVNI。通过为每个变量选择合适的回归模型，完全条件规范（FCS）（Van Buuren等人，1999）方法通过克服MVNI假设实现了更大的灵活性。这种方法的局限性是基于不同的理论假设，不能满足时间序列数据，包括趋势和季节性，因此，它们的应用可能不可靠的时间序列传感器数据。对于时间序列数据，并且从工业应用的角度来看，特别强调物联网（IoT）、智能制造应用和数据，作者在（Liu et al.， 2020）对比了MVI技术，其包括当特定传感器数据缺失时利用来自地理上接近的传感器的数据，与使用来自类似模式传感器的（高相关性）数据而不管地理位置。他们声称，由于固有的大量传输数据，有必要对由于单个事件而导致的多个传感器的大量数据丢失因此，作者研究了单变量时间序列数据的MVI，并提出了一个迭代框架，使用多分割大间隙（通过重建和随后的级联）来解决这个问题。实验结果表明，显着的改进，尤其是在均方根误差指标的已知方法。通过对代谢组学数据集进行实验并使用调查/比较分析方法来对比模拟框架中的插补方法，进而通过应用于真实数据来验证所述方法，（Do等人，2018）设法评估了30多种方法，以验证每种方法的能力：i）从数据驱动的相关网络重建生化途径，ii）增加统计能力，同时保留已建立的代谢数量性状基因座的强度。作者得出的结论是，基于k-近邻的方法在有效性和计算成本方面表现良好，其次是利用链式方程的多重插补的方法作者（Raja和Thangavel，2020）应用无监督机器学习来估算缺失值。他们开发了基于Rough K-means质心的方法;这是一种通过软计算和聚类方法相结合针对缺失值不一致性的新解决方案。他们将他们的方法与利用以下模型作为基础的方法进行了比较：Rough K-means参数，K-means 参数， Fuzzy C-means 质心， K-means 质心和 Fuzzy C-means参数，并对UCI基准数据集进行了实验，获得了良好的结果皮肤科使用基于决策树的建模，模糊聚类和迭代学习方法的组合，作者在（Nikfalazar等人，2020）提出了DIFC;一种新的MVI方法。针对5种现有技术方法的实验：迭代模糊聚类决策树和决策森林的拆分和合并● IBLLS-基于迭代双聚类的最小二乘框架● 支持向量回归● EMI-平均值和协方差矩阵的估计6个已知的UCI数据集：AutoMPG、Adult、Housing、Yeast、Pima、CMC和GermanCA（具有不同频率和类型的分类和数值缺失值）表明，DIFC在准确性方面更有效，并且在处理不同缺失值情况时更灵活。其他关于MVI的更全面的调查包括（Lin和Tsai，2020），他们回顾了100多项研究，时间跨度为10年至2017年;作者讨论了作为MVI一部分面临的许多技术问题，包括数据集选择、缺失率、方法和评价指标;因此突出了现有文献的局限性在（Rashid和Gupt，2021）中，作者断言了机器学习MVI方法的潜在估算价值，但与基于统计的方法相比，对它们的典型时间成本提出了警告在他们的工作中，作者回顾了几个●●●●●●●A. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报4287与预定义的基线MVI算法相比，MVI方法侧重于效率，k-最近邻，支持向量机，模式/中位数和朴素贝叶斯。他们的工作还包括方法结果以及扩展潜力。3. ILA家族ILA于1998年作为一种归纳学习算法发布（Tolun和Abu-Soud，1998），在90年代中期作为连接专家系统和决策支持系统的结构引入之后（Abu-Soud，2020）。1999年，该框架的修改版本使用称为DCL的新算法构建（Abu-Soud和Tolun，1999）。DCL通过在LHS中使用OR运算符创建规则，极大地提高了对不可逆示例同时，已经开发了ILA的显著修改版本ILA-2（Tolun等人，1999年）。原ILA生成的规则具有100%的确定性，而新的ILA-2生成的规则具有不确定性。为了利用在具有并行处理能力的机器上运行的并行系统的能力，在2000年引入了修改的ILA版本，在2009年进行的一项博士论文研究中发现，ILA也可以用于分布式在过去的两年中引入了新的想法，包括修改ILA的新功能，这些功能专注于数据集中的相关特征，以创建一个仅具有相关特征的简化数据集。新的ILA算法被称为ILA 3，显著提高了ILA的效率，同时将准确度保持在可接受的水平（Abu-Soud和Al Majali，2018）。最后，ILA被发现对各种研究领域都很有用，例如文本到语音，名词和口头阿拉伯语句子分类以及入侵检测（Abu-Soud，2016）。3.1. 国际法协会的说明ILA工作中的主要过程对于很好地理解如何处理和定制缺失值是相关的。ILA是一种归纳学习算法，其能够通过分析没有缺失值的离散训练数据来产生一组分类规则。该算法以迭代方式工作。在每次迭代中，它搜索可以对最大数量的训练实例进行分类的规则。一旦这样的规则被识别，那些训练数据实例就被标记为已处理，并且因此在随后的周期中被丢弃。此外，覆盖这些实例的规则被添加到累积规则集。换句话说，ILA应用每类规则，其中规则归纳将当前类中的示例与剩余类中的示例分开。其最终结果是过程类似于规则的有序列表，而不是决策树。为了分析ILA中的流程，我们将使用一个示例天气资料（经轻微修改）如表1所示。该数据集包含十四行（m = 14），每行具有四个属性（k = 4）和一个决策（类）属性{P，N}（n = 2）中的两个可能的分类值。在数据中，属性（1）“冷，冷。由于n = 2，算法将生成2个子表（ST），如下所示。表2是算法第二步的基础，如下所示：Setj=1 ，在这种情况下，组合属性为： {Outlook} 、 {Temper-ature}、{Humidity}和{Stormy}。注意，ST. Next j增加到2时，这些组合中的任何一个都不存在值，2的组合为：{Outlook，Temperature}、{Outlook ， Humidity} 、 {Outlook ， Stormy} 、 {Temperature ，Humidity}、{Temperature，Stormy}和{湿度，暴风雨}。对于值{Clear，Stifling}（3次）出现在第一个ST中而不是第二个ST中的最高出现次数的组合{Outlook，Humidity}，因此，将max-combination设置为规则1：如果前景是明确的，湿度是令人窒息的，那么设置决策=N。ILA算法重复地将相同的步骤应用于第一ST 1中剩余的未标记行（3和5）。通过重复上面的因此，行3和行5被标记为已分类，并且规则2被添加到规则集：规则2：如果Outlook是Frost且Stormy是True，则设置decision =N。通过将第3行和第5行标记为已分类，ST1中没有更多数据需要处理，我们可以考虑下一个ST（2）。当j被设置为1时，{Outlook}的因此，这些行被标记为已分类，规则4被添加到规则列表中。规则3：如果前景是多云，那么决策是P。在ST 2中的剩余行中（即，2，3，5，6和7）没有任何属性的单一值出现在ST2中而不是ST1中因此，j增加1为2，并且生成2属性组合，并且组合{Outlook，Stormy}的值此值是最大出现次数，因此第2、3和6行被标记为已分类，并遵循以下规则（规则4：表1天气数据。例如观温度湿度暴风雨类1明确温暖窒息假N2明确温暖窒息真N3多云温暖窒息假P4霜定期窒息假P5霜冷舒适假P6霜冷舒适真N7多云冷舒适真P8明确定期窒息假N9明确冷舒适假P10霜定期舒适假P11明确定期舒适真P12多云定期窒息真P13多云温暖舒适假P14霜定期窒息真NA. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报表24288决策类从原始训练集生成两个子表ST1原始示例新例子观温度湿度暴风雨决定11明确温暖窒息假N22明确温暖窒息真N63霜冷舒适真N84明确定期窒息假N145霜定期窒息真NST2原始示例新例子观温度湿度暴风雨决定31多云温暖窒息假P42霜定期窒息假P53霜冷舒适假P74多云冷舒适真P95明确冷舒适假P106霜定期舒适假P117明确定期舒适真P128多云定期窒息真P139多云温暖舒适假P规则4：如果前景是霜，风暴是假的，那么决定是P。在该ST中保持未分类的行（即，行5和7）中，发现组合{Outlook，Humidity}的值因此，第5行和第7行将被标记为已分类，并生成以下规则：规则5：如果前景是清晰的，湿度是舒适的，那么决定是P。由于ST 2中的所有行现在都被标记为已分类，并且没有其他ST要处理，因此算法终止。4. 处理缺失值如前所述，用于处理缺失数据集值的方法有很多且各不相同，包括在规则生成过程之前执行数据处理的方法，以及都是根据特定的归纳算法设计的对于后者，有必要对归纳算法进行分析，以充分了解其特点和内部过程，从而设计出最有效的处理方法。第3.1节中的天气示例表明，ILA通过从数据集表中创建ST分区来工作，每个类值一个分区，随后突出显示当前子类中出现的最高组合，并特别排除其他ST/分区，它从当前组合中生成规则。如前所述，ILA对完整和离散的数据集进行操作。当处理缺失值时，ILA将现有ST中的缺失值替换为具有最大出现次数的相应组合中的值，作为规则生成的参考，因此，对ILA的感应功率产生不利影响表3显示了用于说明上述想法的数据集快照考虑{outlook}属性，我们可以看到值我们还可以看到当考虑这些属性值的缺失值因此，值对于复合属性值（如该组合将作为缺失值替换规则的基础，因为其具有最大发生率。表3数据集缺少值。子表1Outlook温度清澈温暖明白–清除常规潮湿常规子表2Outlook温度–冷湿暖–冷多云明显冷–冷清除常规多云常规多云温暖ILA在每个ST上重复工作，直到所有行都被分类;具有缺失值但确实出现在其他ST中的一些行未被标记/分类。随后类似地处理剩余的行以生成规则。这样做的原因是在所述行内存在缺失值的情况下，所述行具有源自手头的属性的域的值，使得那些行在其他ST中不具有特征。用这种方法，产生规则，并随后对所述行进行为了演示该想法的主要方面，考虑ST1（表4）中具有属性值“-Cold Comfy”的第3行--- N只有这一排的“在这种情况下，将此外，{Stormy}属性下第二次出现的重要的是，指定用于缺失值替换的值在当前ST中产生处理行的最大出现次数。在上面的示例中，由于我们的第2行未标记，因此可以将三个可能值中的任何一个候选值指定为缺失值的替换源A. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报4289表4两个ST。子表1原始示例新例子观Temp湿度暴风雨决定11明确温暖窒息–N22明确––真N63–冷舒适–N84明确定期–假N145潮湿定期窒息–N子表2原始示例新例子观Temp湿度暴风雨决定31–温暖窒息–P42潮湿–窒息假P53–冷–假P74多云–舒适真P95明确冷舒适假P106––舒适假P117明确定期舒适–PFig. 1. ILA 4组成。在这一行中;这样我们就有了一个规则，我们对这一行进行了分类。图中的流程图。 1给出了算法的高级描述，详细的逐步算法在算法1中说明。值得注意的是，步骤11是构成如图1和2所示的新算法ILA 4的原始算法（ILA）的主要修改。下面的1和2。根据设计，ILA 4预计会有点耗时且效率较低;这并不会降低算法的有效性，因为它离线处理数据，其中处理速度比在线算法的影响要小。这个效率问题已经在原始算法ILA中得到了解决（Abu-Soud和Al Majali，2018）。5. 典型案例研究作为ILA 4操作的说明，并且为了将结果与原始完整数据集进行比较，让我们重新考虑表1中给出的天气训练集，但是在随机删除一些值之后，如表5所示。对于 j = 1 ，属性组合包括： {Outlook} 、 {Temper- ature} 、{Humidity}和{Stormy}。注意，这些组合的值在ST 1中没有特征，但在ST2中没有。因此，j增加到2，并且新的组合是：{展望，温度}，{展望，湿度}，{展望，暴风雨}，{温度，湿度}，{Temperature，Stormy}和{Humidity，Stormy}。A. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报4290图二. ILA4摘要。考虑到{Outlook，Temperature}组合，我们发现值：对于- ”，其具有缺失值并且位于具有公共值的相同组合下;清除。因此，缺失值可以暂时由“暖”替换，这会导致出现两次。对于第二个组合“Frost，Regular”，只有一个实例可用。如果我们继续寻找出现频率最高的组合，我们会在{Outlook，Humidity}下找到'' Clear，Stifling '，在{Temperature，Humidity}下找到''Regular，Stifling'，每个组合出现三次。由于两者具有相同的出现，算法将考虑第一个组合以将它们出现的行（即1、2和4）标记为已分类，并生成以下规则：规则1：如果前景是明确的，湿度是窒息，那么决定是N接下来，根据ILA，对第一个ST中剩余的未标记示例（第3行和第5行）重复步骤4至步骤9。当重新应用步骤4到9时，我们在{温度，湿度}下找到一个因此，行5被标记为分类，并且以下（规则2）被添加到规则集：规则2：如果温度是正常的，湿度是令人窒息的，那么决策是N。按照算法的步骤11，只有一行（行3）保持未标记有也在ST 2中的组合{温度、湿度}下的值“冷、舒适”的唯一组合这意味着我们无法使用此组合生成规则在这种情况下，根据建议的方法，并且如前所述，第3行中的{Outlook}的缺失值可以由值“Cloudy”或“Frost”替换，此外，在同一行中，对应于{Stormy}属性只能替换为“True”值。如上所述，该算法选择在当前ST内产生所处理行的最大基数的值。在我们的示例中，因为只有第3行未标记，所以来自第3行的任何候选值都适合替换当前行中的缺失值;例如，“Clear”，因此生成以下规则：规则3：如果天气晴朗，温度寒冷，湿度舒适，那么决策是N。并且该行被标记为已分类。由于ST 1的所有行现在都被分类，因此移动到下一个ST（2）。将j设置为1，{Outlook}的根据步骤4，这些行被标记（分类），并且规则4随后被添加到规则列表规则4：如果前景是多云，那么决策是P。在ST 2中的剩余行中（即，2、5和7）任何属性的单个值均未出现在ST 2中而未出现在ST 1中。因此，j增加1为2，并且生成2属性组合，并且在将第7行中的{Stormy}下的缺失值替换为“false”之后，组合{Humidity，Stormy}的值“Comfy，false”在第5行和第7行此值是最大出现次数，因此第5行和第7行被标记为已分类，并生成以下规则规则5：如果前景是霜冻，风暴是假的，那么决定是P.A. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报表42914291具有缺失值的天气数据示例。例如观温度湿度暴风雨类1明确温暖窒息–N2明确––真N3–温暖窒息–P4霜–窒息假P5–冷–假P6–冷舒适–N7多云–舒适真P8明确定期–假N9明确冷舒适假P10––舒适假P11明确定期舒适–P12多云定期–真P13多云温暖舒适假P14霜定期窒息–N由于n = 2，ILA 4中的第一步生成两个ST，如表6所示。在该 ST 中保持未分类的最后一行（即，行 2 ）中，发现组合{Outlook，Stormy}的值因此，第2行将被标记为已分类，并生成以下规则规则6：如果前景是霜冻，风暴是假的，那么决定是P.现在，由于ST 2中的所有行都被分类并且没有ST剩余，所以算法到达终止点。为了将该示例中由ILA 4获得的结果与通过在原始数据集上应用ILA获得的结果进行比较，注意，这里由ILA 4生成6个规则，而由ILA生成5个规则，并且由ILA 4在原始数据集上生成的规则的准确度为%92.3，这在具有非常小的数据集的示例中是不错的在接下来的部分中，为了证明ILA 4的可行性和准确性，将在不同大小的数据集上进行许多实验。6. 实验结果如上所述，有必要替换缺失数据值，使得归纳算法适用于大容量的不完整数据集。因为这些算法从一开始就被设计成专门在完整的数据集上操作在这个过程中的优先事项是尽可能少地损害感应模型的准确性在不同规模的数据集上进行了一系列实验，从不同的角度对ILA4进行了这些实验将在以下段落中详细讨论可以评估处理具有缺失值的数据集的归纳算法的方法之一是具有完整值的数据集，并随机地移除某些值作为具有一定百分比的缺失值，并针对所得数据集子系统地运行算法，然后将结果与从完整数据集生成的规则进行比较。为此，将ILA4应用于几个大小不同的数据集。测试数据集（Balance、Vote和Monk 1）来源于加州大学欧文分校的机器学习库以及Domain Theories，如表7所述。在该实验中，原始数据集的预定百分比的值（10% 、30%和50%）被替换为空值。然后将ILA 4应用于这些数据集;将ILA 4针对现在不完整的数据集生成的规则与原始数据集生成的规则进行比较由于这些结果更接近，ILA4的有效性是好的。结果示于表8中。这些结果是从五次实验中获得的结果的平均值，包括生成的规则的数量、条件，以及以秒为单位的执行时间。从结果中可以明显看出，这些参数测量所建议系统的准确性是非常重要的。这里的准确性是指ILA4可以用尽可能多的正确值替换缺失值的程度，以及生成的规则可以尽可能正确地对数据集中的示例进行分类的程度。表9显示了应用于三个数据集时的ILA4算法准确度（以缺失值百分比区分）。如表中所示，算法的准确性随着缺失值的百分比增加。尽管如此，即使有50%的缺失值，我们仍然看到ILA4的准确率（90%）很高。请注意，在原始数据集（缺失值为0%）上应用ILA 4的准确度始终为100%。这里的原始数据集被用作其他数据集的基准在第二组实验中，针对已知的处理缺失数据值的方法（包括删除策略、最常见值以及限制于概念的最常见值）来分析ILA4准确性。使用来自上表6的相同数据集，实验中的主要步骤是：i. 用空值（10%、30%和50%）随机替换原始数据集中的值。ii. 重复实验五次，并考虑准确度平均值。iii. 对这些数据集应用ILA。iv. 将结果与对相同数据集应用ILA 4获得的结果进行比较。实验显示了ILA4与建议的定制方法处理缺失数据值对三个数据集的效果，然后将其与使用三种处理缺失值的方法（删除，MCV和MCVRC）对相同数据集的ILA效果进行对比表8显示了ILA 4的性能，表10如ILA 4与上述三种方法的比较分析（表13）所示，由于算法删除了具有缺失值的每一行，因此Delete方法在各种方法中表现最差，尽管执行时间很长。这是合乎逻辑的，因为事后看来，数据集中数据实例的丢失降低了模型学习资源的深度。接下来是最常见值策略，因为它保留了用于学习的数据实例的原始数量。最佳的比较性能来自MCVRC策略，该策略替换每个类值的缺失值，而不是对整个数据集这样做A. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报表42924292包含按决策类划分的缺失值的训练集ST。ST1示例编号：old new观温度湿度暴风雨决定1 1明确温暖窒息-N2 2明确--真N6 3-冷舒适-N8 4明确定期-假N14 5霜定期窒息-NST2示例编号：old new观温度湿度暴风雨决定3 1-温暖窒息-P4 2霜-窒息假P5 3-冷-假P7 4多云-舒适真P9 5明确冷舒适假P10 6--舒适假P11 7明确定期舒适-P12 8多云定期-真P13 9多云温暖舒适假P根据ILA的步骤2，处理表4中的第一个ST：表7域.域特性僧侣 1投票余额属性数6 + 1 16 + 1 4 + 1实例数从网站https://sci2s.ugr.es/keel/missing.php-下载，具有不同的大小（一个小的和两个大的）和不同百分比的具有缺失值的示例。表14显示了这些数据集的详细描述。实验表明，ILA4的结果是可比的每个属性的平均值类值的数量2.83 2 52 2 3与其他三种算法。表15显示了详细结果。从表中注意到，ILA 4的正确分类实例的准确性与其他算法相当，执行时间实例在类值百分之五十是0百分之五十为161.33%是民主党38.67%是共和党L型46.08%，B型7.84%，R型在第二个实验中，ILA 4与其他著名的决策树算法，即：J 48和JRip在两个数据集：井字和海耶斯-罗斯进一步比较。表16显示了这些数据集的特征。该实验表明，ILA4的结果是相当的ILA4产生相对最好的结果，因为它处理了阻碍其他方法的大多数问题。ILA 4利用MCV策略的优势，通过考虑当前类值的值来替代缺失值，而不影响ILA内发生的过程。正如预期的那样，这三种方法的执行效率比ILA 4更高，这是因为这些方法中的归纳算法接收到的数据集经过预处理，使得所有缺失值都已被替换，而在ILA 4中，算法必须将缺失值作为归纳阶段的一部分进行处理。表13显示了ILA 4和ILA使用3种方法的准确度比较。该表强调了ILA4在大多数测试用例中的优势。为了将ILA4算法与其他一些著名的算法进行比较，我们还进行了另外两个实验。这些实验在具有Intel Core i9- 9900 K Coffee Lake8核、16 MB高速缓存和16线程的机器上使用Weka 3.9.4执行。5-折叠交叉验证用于测试数据集的构造。在第一个实验中，ILA4与三种算法进行了比较，即：Logistic回归，朴素贝叶斯和随机森林算法。在这个实验中使用了三个数据集，即：乳腺癌，市场营销和蘑菇数据集。这些数据集是也可以使用决策树算法。表17显示了详细结果。从表中可以看出，ILA4在决策树算法的准确性方面表现良好，但执行时间略长。7. 总结和结论本文介绍的工作介绍了一种新的方法来替换用于机器学习技术的数据集中的离散缺失值。该方法是适应与ILA归纳学习算法，已证明归纳的有效性。因此，通过添加新功能来调整这种方法，从而创建处理范围，处理更多具有缺失实例的数据集，以用于ILA;这种添加与类似的常见算法不同。实验测试和比较的有效性和准确性分析，利用常见的方法来取代缺失值，包括MCV，MCVRC和删除策略。实验测试证明了所提出的方法和系统的可行性，在生成规则的数量和复杂性方面都取得了良好的结果。在执行时间方面，在归纳过程中，新方法的设计固有的成本可以忽略不计。表8ILA4结果与具有不同缺失值率的测试数据集的对比。僧侣1投票平衡%缺失值零百分比百分之十百分之三十百分之五十零百分比百分之十百分之三十百分之五十零百分比百分之十百分之三十百分之五十数量的规则3232363942434650303307311323平均条件3.283.313.253.213.453.443.483.43.413.383.433.42执行时间1.721.82.22.54.174.194.214.260.870.91.11.3A. Elhassan，S.M. Abu-Soud，F. Alghanim等人沙特国王大学学报表94293ILA4针对具有不同缺失值率的原始测试数据集的准确性。僧侣1投票平衡%缺失值零百分比百分之十百分之三十百分之五十零百分比百分之十百分之三十百分之五十零百分比百分之十百分之三十百分之五十准确度（%）100999591100979690100989489表10ILA在不同缺失数据率下对测试数据集的性能僧侣1投票平衡%缺失值百分之十百分之三十百分之五十百分之十百分之三十百分之五十百分之十百分之三十百分之五十数量的规则344042454755313318343平均条件3.413.573.713.53.523.413.43.423.45执行时间1.392.02.23.74.13.80.50.81.0表11ILA对不同缺失率的测试数据集的性能僧侣1投票平衡%缺失值百分之十百分之三十百分之五十百分之十百分之三十百分之五十百分之十百分之三十百分之五十数量的规则313841454453310307335平均条件3.43.1

下载后可阅读完整内容，剩余1页未读，立即下载