模糊K-顶匹配值的缺失数据插补方法在多重分类技术中的应用

194 浏览量更新于2024-01-17 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于模糊K-顶匹配值的Azza Alia，Mervat Abu-Elkheirb，Ahmed Atwanc，Mohammed Elmogya，a埃及曼苏拉大学计算机和信息学院信息技术系b埃及开罗德国大学媒体工程与技术学院计算机科学系c沙特阿拉伯阿拉尔73222，北部边境大学计算和信息科学学院。阿提奇莱因福奥文章历史记录：收到2022年2022年11月14日修订2022年12月16日接受2022年12月22日在线提供保留字：缺失值填补模糊聚类Expectation–Maximization Algorithm冷冻疗法用链式方程进行多元插补A B S T R A C T当变量或观测值缺失时，会出现缺失数据。研究人员排除或估算受影响的变量和数据。本研究提出模糊K-顶匹配值（FKTM）缺失值填补。它用基于类似记录的智能估计值插补缺失的数值和分类数据使用期望最大化，它采用模糊聚类来找到一组相似的数据，并估计它们。我们将FKTM与免疫疗法和冷冻疗法的原始数据集进行了比较。多重分类技术用于插补数据集。随机森林的效果最好，冷冻治疗为93.3%，免疫治疗为85.6%。所提出的方法相比，利用支持向量机的多变量插补链方程（MICE）。该方法以82.2%的准确率击败了MICE。在冷冻疗法数据集上，所提出的方法以86.6%的准确率超过了现有的策略用Levene和Shapiro-Wilk检验插补后数据的同方差性和正态性。建议的插补过程对数据集没有不利影响。最后，执行时间和插补值的RMSE确定三个数据集不同的样本量和数据维度。所提出的系统具有快速的执行时间和低RMSE。所提出的FKTM在实验中工作良好，看起来很有前途。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍缺失数据可能以缺失值或变量的形式出现，这两者都是经济学中常见的问题（Zhang，2016）。当一个变量部分缺失时，某些单位所需的信息将不会被收集。无答复在任何调查中都很常见无应答可能意味着拒绝回答任何问题（单位无应答）或拒绝回答特定问题（问题无应答）（项目无应答）（Nikfalazar等人，2020年）。这两种形式的不答复率因调查而由于调查中没有包括基本问题或信息是秘密的，因此可能会丢失整个变量（Khan和Hoque，2020）。*通讯作者。电子邮件地址：melmogy@mans.edu.eg（M.Elmogy）。沙特国王大学负责同行审查通常情况下，调查是为特定目的而创建的，不包括非必要的变量当存在缺失数据时，一种常见的方法是研究整个数据集。当数据中不存在全部变量时，模型中忽略了这些变量当数据缺失时，分析通常是在完整的实例上进行的缺失数据的另一种典型方法是通过为缺失的观测值赋值来生成“完整”数据集（Bertsimas等人， 2017年）。有些方法为每个观测值分配许多值，或者完全避免分配显式值。尽管如此，我们还是使用“估算”来指代任何试图解决缺失数据问题的方法，尽管它通常指的是分配显式值的方法。大多数调查已经包括没有答复的单位的估算值。这些值通常是根据响应来预测的，如果完全缺乏变量，这是不可能的。但是，如果在另一个数据集中发现缺失变量，则可以插补完整数据集。部分缺失变量和插补之间的关键区别在于，在后一种情况下，插补的源数据来自不同的数据收集或时代（Mittag，2013）。https://doi.org/10.1016/j.jksuci.2022.12.0111319-1578/©2022作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. 阿里，M。Abu-Elkheir，A.Atwan等人沙特国王大学学报427软计算被视为当前计算范式的对立面，后者可以用硬、脆、僵硬、不灵活和愚蠢等词来表示。软计算可以是模仿自然对象（如动物、植物和人类）的软、自适应和智能性质的尝试。它包括几个概念和策略来克服现实世界中出现的障碍（Alamoodi等，2021年）。我们的现实似乎是不精确的、模糊的和难以描述的，这导致了几个问题。例如，测量量的不确定性源于测量方法的内在波动。由于这些从源收集数据的设备的外部或内部影响，其价值被忽视了。有各种各样的技术来处理数据中的缺失值，但没有一个比其他的更好（Bystrov，2000）。对缺失值问题的唯一通用有效的解决方案是从数据集中移除所有缺失值（Salgado等人，2016年）。因此，不同的情况需要不同的反应。此外，缺失机制决定了缺失数据处理策略的有效性。因此，当提供变量X和Y时。缺失值有三种类型：（1）完全随机缺失（MCAR）：响应概率依赖于X但不依赖于Y，（2）缺失随机（MAR）：响应概率与X无关，Y，和（3）不可重复的缺失数据是最难解决的问题，但也是最有可能发生的问题（Little和Rubin，2019）。MCAR数据的不可预测性远远高于MAR数据。不可预测：响应的可能性受因素X和Y的影响。实际上，满足MCAR假设通常具有挑战性。MAR假设用于大多数缺失数据方法。缺失值的插补方法可以根据数据结构分为参数法和非参数法。如果用户可以依赖地提供数据集的参数形式，则参数插补方法是有利的。如果消费者不知道数据集的真实分布，非参数插补是一个很好的选择。非参数插补，设计用于高样本数的场景，可以通过捕获数据集中的结构来产生更好的拟合。另一方面，非参数插补在高维中也很常见。维数灾难非常常见，如果数据太接近，小样本设置中的非参数拟合方法可能会拟合异常（Hoti和Holmström，2004）。有几种方法可以处理数据集中的缺失值。有四种不同类型的方法：（1）在避免缺失数据时丢弃缺失值是直接解决问题的方法。它有一个全面的案例分析，以及一个可用的案例分析。(2)单值插补，包括使用平均值、最小值、最大值、最频繁值、. . 等等，和单值随机填补，它更正式地执行属性。(3)多值插补，其中数据集被视为多变量结果，其中任何部分都可以缺失。(4)基于模型的插补，其中缺失数据可以通过证明具有缺失的信息因素在错误中处理（Salgado等人， 2016年）。目前，基于机器学习的用于估计缺失值的方法是决策树（RossQuinlan等人，1994）、神经网络（Zhang等人，2003）、懒惰树（Friedman等人，1997）和动态路径生成（White，1987）。然而，由于这些方法可能会在估算过程中破坏数据集的原始分布，因此它们并不能充分解决缺失值问题。此外，某些机器学习算法仅限于离散数字。这些方法的插补结果可能会干扰数据集的原始分布，因为连续特征在处理之前被离散化。在许多情况下，提高准确性和确定性需要大量的时间和金钱。软计算可以被认为是快速发展的计算智能（CI）领域的基础。计算智能的关键特征是基于软计算。因此，它包括认知计算，这不是从经典理论，如遗传算法（GA），神经网络（NN）和模糊逻辑（FL）（Rajasekaran和Pai，2003）。当涉及到学习和曲线拟合时，模糊逻辑、概率推理和分类大多与神经计算近似推理有关。模糊逻辑系统（FLS）基于启发式知识形成规则，并使用样本数据在很大范围内调整规则（Silva-RamIrez和Cabrera-Sánchez，2021）。在本文中，我们打算使用软计算，特别是模糊系统，估计在给定的数据集MAR和MCAR的缺失机制。所提出的系统假设在数据采集过程中外部和内部环境的情况相同。在正常过程中，会出现错误，导致缺失值。通过整合不同的软计算策略，在几种情况下都取得了良好的效果。该系统将模糊期望最大化算法和k近邻算法相结合，寻找模糊K顶匹配值（FKTM）。本文提出了一种新的缺失值填补方法FKTM。用依赖于与缺失值记录相当的记录的智能猜测来填充数值和分类缺失值，可以减少有偏猜测。它识别出一组可比较的数据，并利用模糊期望最大化算法和模糊聚类方法得出一个估计值。然后使用kNN来找到最接近的匹配值。使用两个免费提供的自然数据集，免疫疗法和冷冻疗法，我们比较了FKTM的性能与原始数据集的性能。对于分类，使用随机森林（RF），逻辑回归（LR）和支持向量机（SVM），RF实现更高的结果。冷冻治疗的准确率为93.3%，免疫治疗的准确率为85.6%建议的方法也比较一个众所周知的插补方法称为多元插补链式方程（MICE），它采用了SVM分类。在免疫治疗数据集中，建议的技术优于MICE，准确率为82.2%。将所提出的技术使用Levene和Shapiro- Wilk统计检验分析了所提出的技术，并表明它们在三个不同规模的数据集上测试了该算法的执行时间和插补误差，结果表明该算法具有高效的执行时间和较低的误差。论文的其余部分安排如下。第2节介绍了这些原则。缺失值插补的相关途径和方法见第3节。在第4节中讨论了所提出的系统，包括基础理论、FKTM算法和说明性示例。第5节检查了免疫治疗和冷冻治疗中的拟议系统性能，并将拟议系统性能与MICE进行了比较。最后，我们在第6节中总结了这项研究●●●●●●●A. 阿里，M。Abu-Elkheir，A.Atwan等人沙特国王大学学报4282. 预赛模糊集理论有着悠久而辉煌的历史。亚里士多德提出了例如，“排中律”断言任何命题必须是真（T）或假（F）。Eukasie-wicz（Breuer，1972）是第一个提出第三个区域（T和F之外）的人。提供了第三个值的T和F之间的数字，其可以被解释为“可能的”。在他的里程碑式的著作《模糊集》中，扎德建立了模糊集理论的数学，并通过研究四值逻辑、五值逻辑和无限值逻辑，扩展了模糊逻辑。根据这一思想，隶属函数（或值F和T）应扩展到实数范围[0，1]。模糊隶属度函数表示对象与模糊性质的相似性。隶属函数包括模糊集传达的所有信息（Dubois和Prade，2012）。模糊系统有两个主要的品质，帮助他们在某些情况下表现得更好模糊系统非常适合于不确定或不精确的推理，特别是对于具有难以推导的数学模型的系统在不完全或不明确的知识下，利用估计值进行决策也是可能的。灰色或模棱两可的信息在科学中被视为非黑即白的数学事实。人类和模糊系统可以使用启发式语言规则时，没有数学模型的问题（阿隆索道德等， 2021年）。FL仅计算实例的模糊相似性，并得出结论（Fahiman等人，2017年）。它们可以在嘈杂的环境中有效地工作因此，它们不需要对缺失数据进行初始估计他们还可以轻松处理错误的数据。缺失值插补域需要能够快速有效地处理不精确数据的方法模糊方法适用于基于所述原因的缺失数据的插补（Amiri和Jensen，2016）。期望最大化插补（EMI）中使用了著名的EM技术的基本原理。期望步骤（E-Step）和最大化步骤（M-Step）是EM算法中的两个关键阶段（Junninen等人，2004年）。在插补缺失值之前，使用E-step技术计算平均值和协方差值。因此，这些值用于插补缺失数据。最大似然法用于根据输出数据获得最佳均值和协方差值。因此，使用M步修改均值和协方差值以增强插补值。可以重复该操作以提高插补质量（Rahman等人， 2016年）。3. 文献综述缺失值处理已经看到了来自统计学习理论的机器学习算法和方法的最大研究和使用。基于机器学习的插补方法是涉及采用无监督或监督学习来构建预测系统以管理缺失数据的复杂方法。与其他插补方法一样，这些方法依赖于数据中非缺失值的信息来估计缺失数据估计值。如果所提供的数据提供了解决缺失值的重要信息，则可以保持具有高预测准确度的插补（Emmanuel等人，2021年）。本节包含相关研究，包括关于缺失值插补问题的最新研究结果。这是一个热门的研究课题，许多研究都在讨论这个问题。例如，Li et al. （2021）提出了两种算法：联合模糊C-均值和VQNN（模糊量化最近邻）填补（JFCM-VQNNI）和联合模糊C-均值和拟合VQNN填补（JFCM-FVQNNI），通过考虑JFCM-VQNNI和JFCM-FVQNNI算法中的聚类原则和充分提取模糊数据，缺失值被处理为决策特征，并且为具有至少一个缺失值的对象提供预测。JFCM-VQNNI方法通过比较可比较的项目和聚类，并使用不可区分的矩阵、容差关系和模糊隶属关系来找到可能最近的填充值。JFCM-FVQNNI算法使用JFCM-VQNNI方法对每个聚类中实例的相关特征的模糊隶属度进行综合检查。通过评估高度相关的决策特征，JFCM-FVQNNI技术执行模糊决策隶属度修改，在每个项目的连接集群，以填补缺失值更精确。根据测试，推荐的JFCM-FVQNNI和JFCM-VQNNI算法在五个数据集上提供了可接受和可容忍的插补性能。Karmitsa等人（2022）提出了一种缺失值插补方法，该方法结合了基于聚类线性回归的两种众所周知的技术：线性回归和聚类。与不完整的数据点相比，估计缺失值。基于加权的插补方法采用类似的概念。尽管如此，在每个聚类中采用线性回归技术来正确预测缺失值，这与聚类同时进行。使用合成和真实世界数据集验证了所建议的技术，在具有清晰结构和缺失数据的MCAR和MAR数据集中证明了插补的低于25%的百分比。Huang等人（2020）通过创建基于GA的集成FCM插补技术来估计数据集中的缺失值。利用遗传算法对FCM模型中的两个关键参数：隶属度和聚类中心进行了优化。FCM使用聚类方法来处理缺失的变量。采用基于矩阵的综合插补技术的有效性通过使用纽约市曼哈顿出租车全球定位系统（GPS）数据在±5%和±10%标准分别为0.576和0.785。另一方面，欧几里德距离比曼哈顿距离表现得更好。Razavi-Far等人（2020）提出，kEMI和kEMI+是缺失数据插补的两种方法，分别基于预插补的kNN算法和后插补的期望最大化算法。前者是一种局部搜索技术，试图自动计算出k的理想值。相比之下，后者从最好的k-NN学习全局相似性来模仿缺失的分数。kEMI+使用信息融合方法来组合使用Dempster-Shafer融合模块的顶部估计，以达到最终估计。他们能够处理数字和类别信息。本文提出的缺失数据填补算法在21个具有不同缺失率和缺失率的数据集上进行了测试，结果表明它们是有效的。Rantou等人（2017）考虑了结构时间序列模型的插补方法，Arima模型的状态空间表示和卡尔曼平滑，线性和样条插值，指数加权移动平均（EWMA）和整体平均值都被使用。使用统计程序R，他们检查并测量了在单变量时间序列数据设置中插补程序的性能。插补策略进行了对比，使用两个错误度量，MRSE和MAPE，并解决了三种主要类型的时间序列模式他们根据A. 阿里，M。Abu-Elkheir，A.Atwan等人沙特国王大学学报429在两个数据集上进行实验，美国银行数据和法国流感数据，缺失率为0.8。实验结果表明，在处理单变量时间序列的价值数据时，采用卡尔曼平滑和线性插值的结构模型比其他算法有更好的性能。Morid et al.（2017）通过研究有效的时间特征工程和减少，缺失值估算和变点检测方法，产生了基于相似性的分类模型，具有足够的准确性。他们使用分段聚合近似策略来提取细粒度的时间特征，并提出了一种简单的机制来估算时间特征中的缺失值。根据他们的发现，k-NN技术在预测早期重症监护室（ICU）死亡方面优于相关基准。通过开发和改进基于相似性的时间序列分类的时间特征工程和约简方法，他们为时间序列分类和早期ICU死亡率预测做出了贡献。他们提出了一种基于邻接的插补方法，如果缺失值的先验值不可用，则用其后验值替换缺失值，或者如果其后验值不可用，则用其先验值替换缺失值。如果两者都已知，则插补值是先前值和后验值的平均值。无论使用何种距离函数，都可以进行拟议的插补。它们通过使用具有细粒度时间特征（F）、缺失值插补（I）、特征权重分配（W）和变点检测（C）方法（kNN-TSC-FIWC）的kNN算法来提供基于相似性的时间序列分类。在窗口大小为1时，不进行变点检测的准确度为0.72，进行变点检测的准确度为0.80。Wellenzohn等人时间序列中的插补缺失值（2014年）通过创建前k个案例匹配（TKCM）来创建数据流。对于每个时间序列，TKCM构建了一组参考时间序列，并使用参考时间序列中的类似历史事件计算插补它们支持非线性连接和相移时间序列。由于TKCM对连续缺失值有反应，因此当缺失值块时，插补值的准确性不会受到影响。他们使用了真实世界和合成数据，包括南蒂罗尔州地质时间序列的SBR数据集，航班和氯数据库。Pforte等人（2017）使用称为马尔可夫链蒙特卡罗的贝叶斯方法来填补时间序列空白并生成误差限，反映插补的置信度。整个方法都是用开源工具编写的，比如R和JAGS，以使其他用户可以访问它，并确保任何结果都是可重复的。实验基于ESPON数据库。然而，它提供了一个广泛的方法来填补时空数据序列中的缺失数据作为一种方法。因此，它可用于估算也是空间层次一部分的短期时间序列的数据。Pratama et al.（2017）回顾了缺失数据处理方法，从传统方法（如删除、均值和模式插补）到现代方法。他们还讨论了一些合理的方法来估计缺失值，以供其他研究人员在此缺失值填补。由于根据称为缺失机制的几个问题会出现缺失数据，因此他们在不同条件下进行了数据测量。缺失机制可以是MAR、NMAR和MCAR。Pampaka et al.（2016）使用其数据集建立了一种使用多重插补（MI）处理缺失数据的程序。程序首先识别缺失数据，然后调查缺失数据模式，其定义数据集中可能与插补模型中使用的缺失值相关的变量，然后插补缺失数据以产生“m”个完整数据集，然后使用其插补数据集运行感兴趣的模型，最后组合其模型的参数，并报告最终模型。MI的发现是令人鼓舞的，特别是考虑到大量的缺失数据（超过60%的辍学率）以及它在“简单”二进制变量上缺失的事实。测试的模型是高度不精确的（NagelkerkeAzur等人（2011年）介绍了链式方程（MICE）多变量插补。考虑到估算方法中使用的变量，其操作前提是缺失值为MAR。MICE方法采用了一系列回归模型，每个缺失数据的变量都有条件地根据数据中的其他变量建模每个变量，例如，具有逻辑回归的二元变量和具有线性回归的连续变量，可以根据其分布来建模。这一系列工作应继续下去，直到似乎已经取得一致重复此过程，直到所有提供的变量都已插补。在这些周期后保留最终插补，得到单个插补数据集。数据集的信息密度将决定插补的准确性。如果数据集包含无相关性的自变量，则插补将不正确。Orczyk和Doroz Rafaeland和Porwik（2021）估算了缺失数据，并在单个特征上独立使用了k-NN 分类器。这个方法叫做（k-NNI）。与传统方法不同的是，传统方法只能在插补过程中使用完整的向量，该方法一维子空间允许使用尽可能多的数据此外，由于每个特征是单独处理的，因此可以同时并行处理它还消除了对任何类型的数据标准化或扩展的需要。表1总结了文献综述中使用的方法。插补和缺失数据研究的重点是它们提供无偏估计的条件。这些约束经常被违反。文献中使用的基于机器学习的插补算法利用记录相似性或特征相关性（Chen等人，2017年）。这些基于机器学习的缺失数据填补方法可以根据搜索和填补过程的相似性结构分为两种类型（Feng等人，2015年）。第一组包括缺失数据填补方法，该方法在数据结构中寻找全局相似性。相比之下，第二类包括在数据结构内寻找局部相似性的技术。大多数相关的作品只关注其中的一个类别。一个FKTM建议作为一个独特的缺失值填补方法，以克服这个问题。它通过使用基于与缺失数据相似的条目的智能猜测来填充数值和分类缺失值，从而减少有偏它使用通过期望最大化的全局相似性和通过k-NN的它使用模糊为了填补缺失值，此外，基于k-NN局部相似性的插补寻找记录之间的局部相似性模式来插补缺失的分数。4. 拟议系统在处理现实生活中的分类任务时，丢失或未知的数据是模式识别系统必须处理的普遍问题。在数据挖掘中，最困难的任务之一是缺失值填补。在预处理步骤A. 阿里，M。Abu-Elkheir，A.Atwan等人沙特国王大学学报430表1文献综述总结。研究分析方法数据集准确度（%）Li等人（2021）Karmitsa等人模糊环境中的缺失值插补预处理JFCM-VQNNI和JFCM-FVQNNI自动驾驶LRCleveland，Pima，小鼠蛋白表达，酵母，基因表达鸢尾属植物，葡萄酒识别，小鼠蛋白表达。100，克利夫兰。60.6皮玛八十一点八–（2022年）Huang等人（2020年）不完整数据综合插补基于遗传算法的TSPLIB1060，红葡萄酒品质，鲍鱼出租车GPS78.5缺失数值Razavi-Far等人（2020年）Rantou等人缺失数据插补处理缺失KEMI和KEMI+状态空间表示，卡尔曼平滑，14个数据集单变量时间序列数据––（2017年）Morid等人（2017年）值插补缺失值线性和样条插值、EWMA和总体均值邻接插补死亡率数据集82时间特征Wellenzohn等人（2014年）Pforte等人（2017年）时间序列数据中缺失值的插补缺失数据TKCM马尔可夫链蒙特卡罗4-时间序列数据集ESPON数据库––Pampaka等人归责处理缺失数据MIDropout数据集–（2016年）使用多个插补Azur等人（2011年）奥尔奇克和多洛兹链式方程多元缺失值小鼠k-NNI儿童WINE，WDBC，CTG，MESS，–酒97.6 WDBC 93.1 CTG拉斐尔和波尔维克（2021）归责MESO，墨西哥81.4，MESS。57.7，MESO。97.3，我的天八十三点八在数据挖掘中，数据集中的缺失值应该在用于分类、关联规则或聚类之前被提取或估计。由于目的是插补缺失数据，因此插补值是每个模型的重要决策变量。我们的FKTM算法然后使用k次出现的值来确定缺失值。我们使用模糊期望最大化技术，它通过扫描平均相对较小比例的数据来有效地响应top-k查询，而不是简单的方法，它必须扫描整个数据集以确定top-k最具可比性的实例。我们设计了一个框架，通过建议一个合适的值来处理缺失值;见图。1.一、其价值是pow-由模糊系统和成员操纵。每一个数据集被认为是一组实例.每个实例都是从数据传感器获取的。传感器的总数被认为是数据集的维度。在收集数据的过程中，不同的因素会影响数据值，导致缺失值。缺失值会影响回归、预测和分类过程，并可能导致原始数据分布丢失。反过来，我们设计了我们的框架来模拟这种情况下，并寻求一个合理的插补方法。拟议框架使用任何分类数据集，在相同的情况和假设下收集不同的实例。由于每个数据集中的属性（列）是在数据收集过程开始时分配的，因此它们是固定的，并且不会在所有数据集实例中更改。因此，每个实例都是在收集其他实例的相同状态下收集的，这是我们提出的算法的基本假设Fig. 1. 拟议的框架。A. 阿里，M。Abu-Elkheir，A.Atwan等人沙特国王大学学报431半]2半]半 - ]Rithm。接下来，该框架包括一个负责在数据集中随机创建缺失值的过程。遗漏的值随机出现在不同的列中，除了具有给定百分比的类/标签。该框架将不完整的数据集分为两组以应用建议的算法：set包含完整实例，而第二个包含不完整实例。该算法接受分离的实例分为两组，并返回一组新的估算的实例。该算法被称为模糊K顶匹配，FKTM。它的目的是扫描一组完整的实例，并返回最近的K个完整的实例。当前未完成的实例应类似。对于不完整实例中的每个缺失值，FKTM创建一个具有m个值和隶属度为1的模糊集，其中m是完整实例的总数。换句话说，FKTM假设丢失的值可以是先前出现的值不完整实例的任何值接下来，FKTM每次扫描一次完整实例，并计算当前未完成实例与所有完整实例之间的总距离反过来，FKTM更新每个扫描迭代的模糊集一个元素，更新当前，完整和不完整的实例之间的相异性。由于相异性计算的完成，FKTM根据隶属度值对模糊集合中的元素进行降序排序。最后，FKTM选择顶部最近实例的相同值来填充遗漏的值一个不完整的例子FKTM的过程对不完整实例集中的每个实例重复，以产生新的估算集。算法1分步显示FKTM算法FKTM使用欧几里德距离来测量完全V（C）和不完全V（I）之间的总距离。例如，参见等式（1）。距离<$jVC- VIj1基于上述内容，所提出的框架引入了原始数据集中的缺失值，从而导致数据集中已经缺失的实例。使用FKTM插补这些缺失实例，得到插补数据集。数据被分成训练集和测试集来评估这个系统。训练集用于ML模型训练，测试集用于测试模型，测试预测用于获得评估结果。算法1：模糊K顶匹配算法输入：数据集包含缺失值输出：插补数据集1. topK={dummy1，，dummyk}，score（dummyi）=02. kMin分数= 0//topK缓冲区3. 对于p= 1到N，4.对于所有列表List（1 = I =M）执行5.设item-ide， e[I]>为列表中的第p6.//Score（e）是用距离计算的。7.评分（e）= 08.对于q=1到M，9.分数（e）=wI e q-wI-1eq110.端11.//在PDF中建模剩余的值。12.Update-gPDF（gPDFi;e I）13.// Topk缓冲区正在更新。14.如果Score（e）> kMinScore，则15.如果e！topK然后16.令z为具有最低得分的topK元组。17.topK = topK -{z}18.topK = topK U {e}19.end if20.kMinScore = min{Score（x）|x 2topk}21.end if22.//计算置信度23.l函数¼S;101-D24.端25.return（topk，lfunctionn）;26. 端接下来，我们将讨论一个具有缺失值的数据示例，以及如何使用所提出的方法对该值进行插补。表2显示了缺失值的数据（见表3和表4）。从上一个表中，所有数据都已完成，但第7行有几个步骤。第一步是计算第7行和所有行中的数据之间的增量D，如下所示D7-1¼ j15： 0- 15： 0jj 16： 0- 15： 9jj 14： 3- 14： 1jj 0： 3D7-2¼ j 15： 0- 15： 2jj 16： 0- 15： 7jj 14： 3-13： 9j j 0： 9D7-3¼ j 15： 16： 0- 15： 2jj 16： 0-15： 8jj 14： 3- 14： 1jj14：3 - 14：1 j j 15： 0- 15：0jj 16： 0- 15： 9j j 14： 3-14： 2 j j 14： 3- 14：2 jj14 ： 3 -14：2 j j 15：0- 15：0 16：0- 15：7 14：3 -14： 514： 82019-05-1500： 00下一步是计算隶属函数。模糊集合的隶属函数是经典集合的隶属函数指示器功能它是模糊逻辑中表示真值程度的值的扩展。真理的程度常与概率混淆.尽管如此，它们在本质上是不同的，因为模糊真理指的是在定义不清的集合中的成员资格，而不是事件或条件发生的可能性。隶属函数在所有可能的值的域上操作，并且具有从0到1的值范围。它可以通过Eq计算。（二）、l函数¼fS;1-Dg2表达式（1-D）表示它离源S有多近1功能：1功能16： 2;16：1- 0： 4; 16： 5;16：1- 0： 8; 16： 1;16：1- 0：4l函数¼f16：1;0：7;15：8;0：1;15：9;0：4;16：2;0：8;16：5;0：2;16：1;0：6g从l函数来看，第7行中的缺失值更接近第4行，因此缺失值将为16.2。表2具有缺失值的示例数据。U= ei2 W俄.西R1R2R3S115.015.914.116.1215.215.713.915.8315.215.814.115.9415.015.914.216.2515.315.714.516.5615.216.014.116.1715.016.014.3？A. 阿里，M。Abu-Elkheir，A.Atwan等人沙特国王大学学报432¼ð Þ ¼ð Þ ¼ð Þ ¼ð Þ我-我ti1表3值越接近缺失值。表5免疫疗法数据集细节（Khozeimeh等人，2017 a）（Khozeimeh等人，2017年b）。D7- 4D7- 60.4 16.1× ×表4插补后的数据U= ei2 W Rs Sr1r2r31 15.0 15.9 14.1 16.15疣类型足底22例，普通型47例，21均6分类面积67治疗缓解分类是/否表6冷冻疗法数据集细节（Khozeimeh等人，2017 a）（Khozeimeh等人，2017年b）。特征属性类型值5. 实验结果7治疗反应分类是/否5.1. 数据集我们使用UCI在线存储库中的两个知名数据集来评估FKTM插补算法。第一个数据集是免疫疗法（ Khozeimeh et al. ， 2017 a ）（ Khozeimeh 等人， 2017 年 b ）。第二个数据集是冷冻疗法（Khozeimeh等人，2017 a）（Khozeimeh等人，2017年b）。数据集包含数值和分类特征。缺失值在某些单元格中随机创建，在其他单元格中随机选取。通过将缺失值设置为"？” 随意这两个数据集有90个实例和7个实值属性。免疫治疗和冷冻治疗数据集的具体情况分别见表5和表6我们在纯数据集中人为地引入缺失值，准确度tppntpfpfntn灵敏度TPRtptpn.特异性TNRtnfpn精密PPVtptpfpð3Þð4Þð5Þð6Þ随后通过所提供的方法进行估算因为我们知道故意生成的缺失数据的原始值，所以我们可以评估策略插补依据-错误率¼ j近似值-精确值j7精确值缺失的数据量会影响数据质量（Junninenet al.，2004年）。有许多不同类型的缺失数据。例如，每个记录在一种情况（类型）下可能只有一个缺失值，而每个记录在另一种情况下可能有多个缺失值，尽管两个数据集可能具有相同的缺失值总数。此外，值缺失的可能性与缺失值几乎没有关系（Rubin，1976）（Schneider，2001）。因此，缺失值通常是随机的，难以表达。因此，在这个实验中，我们使用了几种类型的缺失数据，如简单，中等，复杂，混合。5.2. 性能度量建议的方法的插补精度使用五个众所周知的评估标准进行评估，包括准确性，灵敏度（TPR），特异性（TNR），精密度（PPV）和错误率。我们现在将简要地定义评估标准。设N为虚构缺失值的个数，O i（1≤i≤N）为人为制造的第i个缺失值的真实值，I i为第i个缺失值的估算值（Junninen et al.，2004年）。以下为─mulae可用于计算措施：其中tp;fp;fn;和tn真阳性、假阳性、假阴性和真阴性都是可以互换使用的术语。真阳性率、真阴性率和阳性预测值分别是TPR、TNR和PPV的缩写。整个测试数据集产生的正确预测的百分比将准确性定义为性能统计。灵敏度是预测的真阳性占测试中所有阳性预测的真阴性占数据集中所有阴性的百分比预期真阳性占所有预测阳性的百分比称为精确度。误差率是预期值和实际值之间的差值除以实际值。由模型或估计量预测的值（样本或总体值）与观察值之间的差异通常使用均方根误差（RMSE）来测量RMSE是预期值和观测值之间差异的二阶样本矩的平方根的二次平均值，如公式（8）所示（Chai和Draxler，2014）。你是我的朋友。ﬃﬃﬃybﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃyﬃﬃﬃΣﬃﬃ2ﬃﬃRMSE¼¼Nð8ÞDvS前kS特征属性类型值D7-10.316.1××1性别分类49名女性和41名男性D7-20.915.8××2年龄数值15–56D7-30.60.215.916.2×S4×16.23之前经过的时间治疗数值0D7-50.816.5××4疣数数值1–19215.215.713.915.8315.215.814.115.91性别分类43名女性和47名男性415.015.914.216.22年龄数值15–67515.315.714.516.53之前经过的时间数值0615.216.014.116.1治疗715.016.014.316.24疣数数值1–125疣型分类足底9例，普通54例，6区域数值27两个4A. 阿里，M。Abu-Elkheir，A.Atwan等人沙特国王大学学报433其中N是预测值的数量，y是第i个预-类，即类的模式（分类）或意味着前-指定值，而ybidiction（回归）的个别树。随机决定-i是第i个实际值。当在用于估计的数据样本之外进行计算时，偏差被称为预测误差或残差。我们还将使用RMSE来分析我们提出的方法。此外，我们使用Shapiro-Wilk（Shapiro和Wilk，1965）统计检验，该检验检查样本来自正态分布总体的前提。另一个统计检验检查所有输入总体具有相同方差的断言，这是零假设。多重假设检验（Shaffer，1995）也与Bonferroni校正（Perneger，1998）结合使用，后者将预先设定的显著性阈值（I型错误率）除以假设检验运行的次数。这种方法是臭名昭著的过度正确，降低了测试的统计能力，特别是当假设的数量很大或测试是紧密相连的。我们采用了双样本t检验，因为理论上的零分布是不可用的（Keselman等人， 2004年）。硬件和软件信息包含在我们的实现环境中。建议的解决方案在一台配备i7 CPU、4 GB DDRAM和NIVIDA GeForce 920M显卡的机器上进行了测试。另一方面，软件环境提供MATLAB 2016 x64位和CUDA7支持。5.3. 结果使用三个分类器来评估所提出的插补方法FKTM的有效性。初始分类器是SVM。支持向量机是一种监督学习模型，它使用学习方法检查数据进行分类和回归分析SVM训练方法构建一个模型，该模型基于被单独识别为属于两个类别之一的训练示例的集合将新实例分配给两个类别之一，使其成为非概率二进制线性分类器。SVM模型将实例表示为空间中的点，这些点被映射以将各种类别的示例分开一个显著的距离。随机森林（Random Forests），也称为随机决策森林（RandomDecision Forests），是许多独立决策树的集合，它们作为一个分类系统一起工作。它是一种集成学习方法，用于分类，回归和其他任务。它涉及训练大量的决策树，然后输出ests解决了决策树过拟合其训练集的问题。Logistic回归是最后的分类器。在其最基本的形式中，逻辑回归是使用逻辑函数来描述二元因变量的统计模型逻辑回归用于回归分析，以估计逻辑模型的参数（二元回归的一种形式）。具有两个可选值（如通过/未通过）的因变量在理论上由二元逻辑模型中具有标记为“0”和“1”的两个值的指示变量表示。逻辑模型中标记为“1”的值的对数几率因为标记为“1”的项目的概率在0和1之间波动，所以逻辑函数将对数几率转换为概率。用于评估所提出的模型的两个数据集被分为训练与验证和测试两部分，其中80%用于训练，10%用于验证，其余10%用于测试。训练数据集是机器学习模型用来学习或拟合模型参数的数据集。验证数据是一组用于微调模型参数的数据。测试集是主要用于评估完全指定模型的性能的数据集合为了了解建议的FKTM估算方法的有效性，使用三种分类器SVM、随机森林和逻辑回归对原始数据集进行分类独立计算原始和插补数据集的结果。然后比较所获得的结果数据5.4. 讨论原始冷冻治疗数据集的准确性优于SVM分类器中的插补冷冻治疗数据集另一方面，原始免疫治疗数据集的准确性低于插补数据集的准确性，这意味着插补的提议方法可以获得正确的值，导致分类的不正确的图2示出了基于SVM分类器的原始数据集和插补数据集之间的不同度量的比较，包括灵敏度、特异性和精度值原始冷冻治疗数据集的灵敏度图二.基于S

下载后可阅读完整内容，剩余1页未读，立即下载