混合贝叶斯网络和张量因子分解用于乳腺癌复发预测的方法研究

201 浏览量更新于2024-01-14 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报混合贝叶斯网络和张量因子分解缺失值填补方法改善乳腺癌复发预测Mahin Vazifehdan，Mohammad Hossein MoattarMohammed，Mehrdad Jalali伊朗马什哈德伊斯兰阿扎德大学马什哈德分校软件工程系阿提奇莱因福奥文章历史记录：2017年7月27日收到2017年11月20日修订2018年1月10日接受在线提供2018年1月13日保留字：乳腺癌复发缺失值插补分类张量分解贝叶斯网络A B S T R A C T数据挖掘和机器学习方法可用于预测乳腺癌复发。然而，真实的数据集经常由于各种原因而包含缺失值本文提出了一种基于属性间依赖性和不完全属性类型的混合插补在将数据集分成两个离散的数值子集后，使用贝叶斯网络对离散字段的第一个缺失值进行插补然后，利用张量分解，构造由前一阶段的填充子集和数值型缺失值子集组成的综合数据集，对两个连续型缺失值进行插补，提高了插补精度。我们在三个数据集上评估了所提出的方法与六种填补方法，即平均值，Hot-deck，K-NN，加权K-NN，张量因子分解和贝叶斯网络，并使用三种分类器，即决策树，K-最近邻和支持向量机进行递归预测。实验结果表明，该方法的预测精度平均提高了0.26.此外，在特异性、灵敏度和准确性方面，所提出的方法的预测性能优于所有其他估算-分类器对。©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍目前，乳腺癌是伊朗第二大致命癌症经过多年的研究和探索，在疾病的预测、诊断和治疗等各个领域仍有许多根据最新的统计数据，伊朗每年平均新发乳腺癌病例约为10 000例。在这些病例中，大约2500名患者失去了生命（Sharfian等人，2015年）。女性约占乳腺癌患者的98%，值得注意的是，伊朗女性乳腺癌诊断的平均年龄比世界平均年龄低十年（Sharfian et al.， 2015年）。*通讯作者。电子邮件地址： mahinvazifehdan@mshdiau.ac.ir （ M.Vazifehdan ）， moat-tar@mshdiau.ac.ir（M.H. Moattar），jalali@mshdiau.ac.ir（M. Jalali）。沙特国王大学负责同行审查复发是乳腺癌的主要问题之一，这意味着癌细胞在手术或相关领域再生长的可能性。术后复发的可能性随时影响乳腺癌患者的生活。因此，复发预测是成功治疗该疾病的主要因素（Kim，2012）。尽管如此，在医疗数据集中收集了大量的患者信息。为了从收集的患者数据中获益并提高预测的准确性，许多研究人员利用数据挖掘和机器学习方法来预测乳腺癌（Choi和Jiang，2010）。分类算法被广泛用于从数据集中发现有价值的信息，这些信息可以应用于现实世界。分类的目的是预测数据集中每个现有样本的类别标签（Zheng et al.，2014年）。基于特征数、实例数、类别数和不平衡程度的不同，分类方法的结果也不同。然而，数据集并不总是完整的。它们通常在某些样本中包含缺失值。这是利用数据挖掘方法进行乳腺癌预测的主要挑战。这可能是由于不同的原因，例如缺乏病人的反应，人为错误或收集信息的系统故障。虽然一些学习算法可以与收入-https://doi.org/10.1016/j.jksuci.2018.01.0021319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com176M. Vazifehdan等人/沙特国王大学学报数据量大，大多数都不能处理缺失值。它们丢弃包含至少一个缺失值的样本，或者为相应的属性分配一个有效值（Zhengetal.，2014; García-Laencina ， 2015; Tutz and Ramzan ， 2015;Little and Rubin ，2002）。删除不完整的数据是一种可接受的方法，但仅当有一小部分缺失值时，即，百分之五随着缺失率的增加，使用这种方法会导致有价值的信息丢失。因此，缺失值的插补对于使用数据挖掘工具进行有效预测是必要的（García-Laencina，2015）。自1980年以来，已经提出了许多缺失数据填补技术（García-Laencina，2015）。参考文献Little和Rubin（2002）提到了可能影响插补方法性能的三种缺失值模式：1）完全随机缺失（MCAR），当缺失值属于不依赖于观测数据或缺失数据的实例时。 2) 随机缺失（MAR），其中缺失值属于仅依赖于观测数据而非缺失数据的实例。最后，3）当缺失值属于依赖于未观察到的数据的实例时，缺失不在随机域（ MNAR）。大多数研究假设缺失值的模式是 MAR （García-Laencina，2015; Dauwels等人，2012年）。因此，在本研究中，也做出了同样的假设本研究的主要目的是提出一种插补方法，使用两种方法的混合，以提高乳腺癌复发的预测由于离散值和连续值的同时存在，特别是在医学数据集中，我们首先利用贝叶斯网络对离散缺失值进行填补。然后，我们使用了重建的数据集的张量因子分解，以提高插补的性能此外，我们将所提出的方法与基于张量的插补（Dauwels等人，2012）和贝叶斯模型（Rancoita，2014）以及其他一些众所周知的方法，例如三个数据集上的均值、热甲板、k-最近邻和加权K-NN。最后，三个分类器，即支持向量机（SVM），决策树（DT）和K最近邻（KNN）应用于插补数据集上预测乳腺癌复发。本文的其余部分组织如下：第2节回顾了以前的研究，包括乳腺癌复发预测和缺失值的填补。第3节介绍了本文所使用的材料和方法。第4节提出了新的估算方法。第5节解释了实验研究的细节并讨论了结果。最后，第六部分对全文进行了总结和归纳2. 相关作品在这一节中，以前的工作是相关的乳腺癌复发预测或缺失值填补。Jerez-Aragonés et al.（2003）提出了一种决策树和神经网络的组合，以基于临床和实验室数据预测不同时间段的乳腺癌复发。提出了一种新的决策树--样本分割控制归纳法（CIDIM），用于选择最相关的诊断因子，该决策树是一种表示特征间关系的有效工具。其次，选定的因素已被用作神经网络系统的输入。Sun等人（2010）检查了使用三种分类器（线性SVM、SVM-RFE（Wilin，2009）和L1正则化逻辑回归（Ng，2004））评估乳腺癌复发预测的双向方法的性能。两个数据集，即Nature（Van't Veer等人， 2002）和JNCI（Buyse，2006）进行实验，其中一个作为训练集，另一个作为测试集。他们还为他们的方法开发了一种特征选择方法Kim（2012）研究了一种基于SVM的诊断模型来预测乳腺癌复发（即BCRSVM），并将其与其他两种方法进行了比较，即，神经网络和回归模型。Wang（2014）提出了SMOTE、PSO和三种流行的分类器（包括C5、Logistic回归和1-NN）的组合，用于预测乳腺癌患者的5年生存率。SMOTE是一种基于过采样的方法，它在少数类中创建新的合成实例以平衡数据集。特征选择也使用PSO算法进行。他们的结果表明，SMOTE，PSO和C5的混合是所有可能组合中的最佳框架Batista和Monard（2003）提出了三种插补方法，即Hot-deck、mean和k-nearest neighbor，并在四个数据集上进行了比较。这些方法使用两种方法进行评估，即C4.5决策树和CN2（Clark和Niblett，1989）。Farhangfar等人（2008）检查了六个分类器的效果，即，C4.5，k-最近邻，RIPPER（Cohen，1995），朴素贝叶斯和SVM与RBF和多项式核的15个数据集，缺失率为5%，10Jerez（2010）研究了三种统计插补方法，即，意思是，热甲板，和他们的混合和三个机器学习方法，即，k-最近邻、自组织映射（SOM）（Kohonen，1995）和多层感知器（MLP）（Bishop等人， 2013）乳腺癌数据。他们还介绍了用神经网络预测乳腺癌复发作为最终目标。他们的工作结果表明，ML方法优于统计算法。Dauwels等人（2012）利用张量（特别是CP和归一化CP因子分解）对医疗问卷中缺失的数据进行插补。他们将该方法与平均值、k-最近邻和迭代局部最小二乘法进行了比较（Cai等人，2006），缺失率为10%、20%和30%。实验结果表明，张量填补优于其他方法。Aydilek和Arslan（2013）提出了一种优化的模糊c均值与支持向量回归的组合方法（Vapnik等人，1996）和遗传算法用于缺失值的插补。他们认为遗传算法优化模糊c-均值参数，包括聚类数和加权因子。将该方法与缺失率为1%和5-25%增量为5%的模糊c-均值、SVR遗传（SvrGa）和零尽管在与乳腺癌复发预测相关的研究中获得了可接受的结果，但从缺失值填补的角度来看，它们并不被认为是复发预测的改进，并且它们的局限性在于使用旧的统计方法。关于先前的缺失数据估计，应该注意的是，它们中的大多数填充缺失数据而不考虑属性之间的依赖性和不完整属性的类型面对缺失值时，分类器通常要么去除包含缺失值的实例，要么使用各种嵌入方法进行估算。根据我们的研究和学习，我们将插补模型分为四组，如图1所示。虽然许多其他的估算方法也适用于这些类别，但我们仅举几个例子。本文还从每一组中选择了具有代表性的方法，既评估了所提出的方法的准确性，又创建了一套新的和众所周知的方法。3. 材料和方法以下是本文中使用的每种插补方法和每种预测模型的简要说明。插补方法是三种方法M. Vazifehdan等人/沙特国王大学学报17723AB¼64725× ×pi-q ir1图1.一、缺失值填补方法的分类插补模式包括三种统计模型、两种基于ML的模型和一种基于统计的模型。3.1. 插补法3.1.1. 均值/众数插补该方法是最早和最流行的模型之一，其以不同的名称而闻名，例如均值插补（Jerez，2010）、均值替换（Dauwels等人，2012），最常见的方法（Purwar和Singh，2015）等。在该方法中，通过使用观测数据的平均值（对于连续属性）和相应属性的最频繁值（众数）（对于离散属性）来估算缺失值（Zheng等人，2014; Little和Rubin，2002; Cohen ， 1995; Vapnik 等人， 1996; Purwar and Singh ，2015;Malarvizhi and Thanamani，2012）.参考文献（Malarvizhi和Thanamani，2012）指出，中位数和标准差的插补误差率这种方法的一个缺点是没有注意到属性之间的依赖关系3.1.2. 热甲板插补热甲板是一个古老的统计模型。该过程如下：将每个不完整的记录与所有其他示例进行比较，并将相应记录的缺失值替换为最相似记录的相同属性的值。均值法和热甲板法属于单一方法，这意味着它们仅用单个样本来估算缺失值，但它们的主要缺点是缺乏对属性之间相关性的关注另一方面，由于与每个示例进行比较，计算成本可能会增加（Clark 和 Niblett ， 1989; Cohen， 1995; Purwar 和Singh，2015; Malarvizhi和Thanamani，2012）。3.1.3. K-最近邻插补K-NN（Cover and Hart，1967）是最常用的机器学习方法之一。在该模型中，每个样本的缺失值被插补为训练空间中的k个最相似的邻域值。邻居的平均值用于数值属性，而众数值用于离散属性（Zheng等人，2014; Little和Rubin，2002; Cohen，1995; Vapnik等人，1996;Purwar and Singh，2015）.两个参数在插补性能中起着重要的作用，它们是近邻数和距离度量。欧几里德距离是用于此目的的众所周知的距离度量，我们在实验中应用它如下：vutX1/1其中，n是每个实例的属性的数量，pi是p个实例中的第i个属性值KNN的缺点之一是它对k的高度依赖性，并且它通常对5到10之间的k值给出可接受的和可靠的答案，而更高的k会产生负的结果。对插补性能的负面影响（Tutz和Ramzan，2015）。K-NN插补在基因数据上的效果优于参考文献（Troyanskaya，2001）中提出的均值和奇异值分解（ SVD ）方法。 ‘Hot-deck’ is also known as the KNNimputation where k =3.1.4. 加权K-NN模型在K-NN模型中，为了填补缺失值，第一近邻和第k近邻是同等重要的，而第一近邻一般比其他近邻重要。因此，加权K-NN被定义为开发的K-NN模型，以便为任何邻居分配特定权重，其中第一个邻居（最近）具有最高权重值，第k个邻居（最远）具有最低权重值（Tutz和Ramzan，2015; SolaroEmail等人， 2017年）。3.1.5. 张量模型张量或多维数组被称为超矩阵。它们是向量（一阶张量）和矩阵（二阶张量）的扩展，引入了高阶数组（N>2）。例如，一个三阶张量是一个包含元素 Xi;j;k 的数组。张量分解是由 Hitchcock（Hitchcock，1927）提出的。张量因子分解通常是一项计算昂贵的任务，但精度很高（Yang，2017）。Tucker和Canonical Polyadic（CP）是两种常用的张量分解模型。特别地，CP首先将整个张量划分为秩一张量，然后使用张量乘法，最常用的类型是克罗内克，它重建主张量。两个矩阵A2RI×J和B2RK×L的Kronecker积可以如下获得（Acar，2009）：11 Ba 12 B.. . a 1 JB一架21Ba22B.. . a2 jB. ... ... ... ......你好。a I 1 Ba I 2 B. a IJ B张量用其他特征的线性组合重建缺失值。设x是一个大小为IJK的三秩张量，R是破矩阵的个数或张量的秩，则CP分解由大小分别为I×R，J×R和K×R的因子矩阵A，B和C构成，使得下面的公式适用于所有的i1/4值。. I，jl. J和k 1... K：XRdp;q¼ð1Þ公司简介air bjr ckr2003年178M. Vazifehdan等人/沙特国王大学学报Þ1/1k¼1jr krr1ir1/1k¼1ijkr1ir小克尔克我CP因式分解的主要目标是最小化主张量的重建误差率，使得一阶张量的总和与原始张量具有最小的差异，并且下面的f函数具有最低值（Wang等人， 2017年）。参数值。EM方法的主要缺点是使用局部搜索函数来构造M步中的最佳DAG，而局部搜索需要大量的计算时间。因此，Ref。Rancoita（2014）采用了可用的全局搜索函数，如K2局部搜索（Little和Rubin，2002），分支定界（BB）（DefA;B;C XJXK阿克斯-XRa B C2Þ ð4ÞCampos，xxxx），动态规划（DP）（Silander和Myllym，2004）和线性整数规划（IP）（Jaakkola和Meila，CP分解不能很好地填补缺失率高的缺失数据，但提出了改进的CP模型，即加权CP算法（CP-WOPT），考虑用与原张量大小相同的权张量来填补缺失值。因此，f函数可以用公式表示如下：2010年，为此。学习过程通常从运行K2算法开始，以找到改进的解决方案。如果在一段时间内获得最佳网络结构，则停止或返回进程;否则，采用其他方法（BB、IP）之一或DP）取决于变量的数量来应用fA;B;C XJXK fwx-XR一 BC2ð5Þ其中，w是非负权重张量，其可以针对所有i^l. I，jl. J和1/4…K（Acar等人，（ 2009年）：3.2.1.决策树决策树是一个有监督的模型，是一个有用的，理解-W1/4。1如果x i;j;k已知ð6Þ一种简单易行的分类方法其输入和输出ijk0if xi;j;k 是未知的分别标记为训练数据和有组织的顺序树结构。其基本优点之一可以说是3.1.6.贝叶斯网络模型贝叶斯网络被称为信念网络，并且它也属于概率图形模型家族（Dauwels等人，2012; Franzin等人，2017; Dempster等人，1977;DeCampos，xxxx）。该网络由一个有向无环图（DAG）组成，其中节点与属性相关联，表示属性之间的依赖关系和离散变量集合上的联合概率分布Pr M_n。贝叶斯网络可以被表示作为一三重M¼ O G;X;P哪里G <$$>VG;EG<$是X个变量的依赖图，包括VG作为一组m个节点（每个变量一个节点）和EG作为一组变量之间P是一组条件概率，PrMXijPAi，其中PAi是指Xi依赖于它们的节点（称为Xi的父节点，它可以是空的或变量VG的子集）。贝叶斯网络的主要能力是它的马尔可夫结构，这意味着每个属性Xi可以有条件地独立于非后代，同时具有其父属性（pai）。贝叶斯网络可以将联合概率分布表示为以下等式：P rMX1.. . XmYPrMXijPAi7我尽管贝叶斯网络可以快速地进行学习和推理，但它仍面临着重大挑战。此方法主要用于包含离散二进制数据的数据集，每个属性Vi通常具有有限数量的值（Vi1.. . v in - 是的虽然它可以用连续值进行训练（Rancoita，2014）。贝叶斯网络一般有两个问题工作：网络结构和学习其参数。在网络结构中，试图为给定的数据库检测最佳DAG。另一方面，参数学习是指根据相应的数据集设定条件概率分布的参数。期望最大化算法（ EM ）（ Franzin等人， 2017;Dempster等人，1977）是贝叶斯网络中最好的方法之一。这是一个重复的过程，用于估计最高概率，其中仅观察到总数据的子集。因此，它的优点是它可以用缺失数据成功训练。该方法包括两个步骤：第一步是预测步骤（E-step），它计算数据的对数概率，并在此基础上表征当前网络结构和网络参数。在最大化步骤（M-step）中，我们开始寻找用于最大化前一步概率和更新网络结构的参数。重复该过程，直到它既不增强网络结构，把复杂的问题分解成更小、更简单的问题。分类过程包括通过从根节点到叶节点的遍历来标记输入实例，叶节点是类标签。决策树的构建涉及两个问题：（1）只要训练集实例被准确分类，树就可以生长。(2)修剪，直到不必要的节点被消除，以提高整体精度（Zheng et al.，2014年; Buyse，2006年; Jaakkola和Meila，2010年）。C4.5是一种决策树，对于离散和连续数据。因此，我们从这种方法中受益于我们的分类任务。3.2.2. K-近邻分类器该方法是一种众所周知的基于实例的方法。新实例的标签类别是使用属于训练实例的k个最近邻标签中的大多数基于一定的距离度量来预测的K-NN涉及两个重要问题：（1）近邻数（k），（2）距离测度（d）。如果邻居的数量较低，则离群值示例可能影响结果，而大量邻居可能面临不相关数据的干扰（Zheng et al.，2014; Buyse，2006;Clark and Niblett ， 1989; Purwarand Singh ， 2015; Cortes andVapnik，1995）。在这项研究中，可以使用交叉验证程序来获得最佳邻居数。3.2.3. 支持向量机支持向量机（Cortes和Vapnik，1995）是一种基于核的方法，也被广泛用于分类。如果训练集是线性可分的，则SVM使超平面具有最大边缘 ; 否则，它被映射到其他具有更大维度的空间以线性可分（Vidyasagar，2017）。虽然SVM特别适用于包含两个类的数据集，其基本思想是找到两个类之间的最佳区分，但也有方法将其扩展到多类数据集，一对一（One against all，OAA）和一对一（One against one，OAO）。OAA方法需要k个分隔符用于k类分类，使得每个分隔符用于将一个类与所有其他类分开。而OAO方法为每个可能的类组合创建二进制向量机（每个可能的类组合一个二进制向量机）。OAA算法通常被认为是k（k- 1）/2二进制向量机（Choi和Jiang，2010）。第1页ijk第1页ijk3.2.预测模型M. Vazifehdan等人/沙特国王大学学报179X×4. 该方法如前所述，贝叶斯网络是表示变量之间的条件依赖关系的强模型，但由于条件密度的先验知识的必要性，该模型缺乏对连续变量的推广。因此，贝叶斯网络适用于有限域变量数据的缺失值填补。另一方面，张量因子分解通过其他特征的线性组合（不一定是连续或离散的）来估计缺失的特征，因此估计值通常是精确的。然而，在存在大量缺失值的情况下构造张量是错误的。因此，为了更好地估计值，在所提出的方法中，首先使用贝叶斯网络估计分类值，然后将部分完成的数据集馈送到张量因子化方法，用于插补连续缺失值。张量因子分解学习表示变量的张量的不同维度之间的潜在结构和依赖关系。这一性质无疑是其他缺失值插补方法所缺乏的优势。当贝叶斯网络可以对相对较少的变量之间的依赖关系建模时，张量因子分解是捕获高维数据中依赖关系的有效方法。另一方面，贝叶斯网络以条件概率函数的形式表示依赖关系，这是难以估计的，并且高度依赖于先验假设。图 2显示了缺失值植入的建议框架，特别是用于预测乳腺癌复发。该框架由四个部分组成：将原始数据集分解为离散属性集和连续属性集，贝叶斯网络插补，使用张量的重建和插补以及分类器的类预测由于在缺失值插补之前是否对数据进行预处理很重要，因此应该说明我们没有对数据进行任何预处理在第一步中，我们将整个数据集垂直拆分为两个子集：一个具有连续缺失属性的子集和一个分类缺失属性的子集其次，贝叶斯网络，计算可能值的概率然后，最可能的值替换离散缺失值。对每个缺失值重复此过程，直到完成离散数据集Omid数据集分类属性的贝叶斯网络模型如图所示。3.第三章。在估计非数值缺失值后，使用张量重建离散插补子集和数值缺失数据子集的集成数据集;并且使用此重建也插补连续缺失值只要满足收敛条件，就执行重构过程。也就是说，连续估计值之间的差异被最小化，并且在下一次迭代中不会发生变化我们应用均方差（MSD）作为收敛性度量，其公式如下：nMSD¼1=n1/1其中输出i（t）表示第t次迭代中的估计值，n表示缺失值的总数。在填补缺失值后，SVM，DT和K-NN分类器应用于完整的数据集进行预测。所提出的方法总结如下：输入：1.具有缺失值的n×d原始数据集输出：1. 的nd插补数据集2. 使用插补数据集预测乳腺癌复发步骤1：将数据集分成连续值和离散值两个子集。图二. 拟议的框架。180M. Vazifehdan等人/沙特国王大学学报图三. Omid数据集中离散属性的依赖图。步骤2：使用贝叶斯网络插补离散缺失值子集。第3步：离散插补子集和连续缺失值子集的积分。第四步：. 将数据集转换为张量。. 将整个张量划分为一阶张量。. 创建与原始张量大小相同的非负权重张量.对连续缺失值进行插值，利用CP-Wopt函数重构秩1张量，重复上述过程直至收敛。步骤5：返回原始数据集的现有数据并保留插补值。步骤6：通过完整的插补数据集应用分类模型（DT，K-NN和SVM）。5. 评价实验的主要目的之一是检验几种插补方法对后续预测模型精度的影响。我们首先详细描述我们的真实数据集和实验设置，然后进行性能评估和分析。5.1. 数据集我们使用了2000-2010年期间收集的伊朗马什哈德Omid医院的女性乳腺癌数据集。该数据集包括217例病例的临床和实验室数据，22个变量，即年龄、身高、体重、总生存期（周期治疗完成前的入院时间）、种族、地点、婚姻状况、肿瘤大小（T）、受累细胞数量（N）、转移（M）、癌症部位、患者最后状况、家族史、成瘾、放疗、化疗、激素治疗、分期、最终状态、PR、ER和HER2。这些变量已得到Omid治疗中心的批准。无病生存期（DFS）被假定为目标分类，在医学上是指从患者入院到患者疾病复发的时间段DFS值范围为0至149个月;因此，我们将其分为4类：在第一类中，复发病例属于前11个月（该组中的病例数为60例），在第二类中，复发病例范围为11至34个月（51例），在第三类中，复发病例范围为34至56个月（51例），在第四类中，复发病例范围为56至149个月（55例）。缺失率最高的是HER，为29.41%。每个变量的统计信息和缺失百分比的简要描述见表1。217个实例中只有96个实例完成。此外，为了评估所提出的方法的性能，我们使用了两个已知的数据集：Wisconsin和Cleveland，这两个数据集可供UCI机器学习库中的研究人员免费使用（Blake和Merz，1998）。因此，Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis-Wis数据集的基本信息总结见表2。5.2. 评估设置在一般情况下，实验是在一个系统上实现的硬件特性，包括英特尔酷睿7 3.40 GHz，16 G RAM，2 TG硬盘和Windows 7。我们采用Matlab（R2014a）以及张量神经网络（Bader和Kolda，2015）和Poblano神经网络（Dunlavy等人，2010年）用于执行本文中使用的方法。5.3. 评估设置为了评估所提出的方法用于缺失值估计的性能，我们插入了不同的量（即，5，10和M. Vazifehdan等人/沙特国王大学学报1810¼¼我表1Omid数据集用于乳腺癌复发预测的属性缺失（%）方差平均值/众数类型（范围）属性号0163.0761.34数字（32年龄1038.21154.19数字（135高度20188.0162.04数字（39重量30979.5446.46数字（0总生存期40.691.571分类（1民族500.151二进制地方63.460.111二进制婚姻72.760.652分类（1不84.150.891分类（1N900.080二进制M107.260.261二进制侧1100.171二进制最后一个条件120.690.192二进制家族史135.190.091二进制成瘾1400.241二进制放疗1500.061二进制化疗1600.250二进制激素治疗170.340.422分类（1阶段184.840.581分类（1最终1920.414.040二进制PR2020.763.971二进制儿2129.410.661分类（1HER222表2本文使用的数据集的基本信息数据集记录属性缺失值纯记录Omid21722是的96威斯康星56932没有569克利夫兰30313是的29715%）的随机缺失值，甚至是不包含缺失值的威斯康星数据集由于我们的真实数据集具有各种范围，因此我们使用归一化均方根误差（NRMSE）比较了插补方法的准确性，该归一化均方根误差可以定义如下（Dauwels等人，2012年）：属于第二类的正确分类的数量。另一方面，假阳性和假阴性分别给出了在第一类中被错误预测的实例的数量，而它们属于另一类，以及在第二类中被错误预测的实例的数量，而它们属于第一类。当类的数量超过两个时，NRMSE¼1r1Xx-x02ð9Þ为了提高分类器的性能，我们必须获得上述方程，每个类别单独，这样每个类别被认为是头等舱其中xi是实际值，xi是估算值。xmax和xmin分别为最大值和最小值其中一个最流行的和众所周知的措施，检查的分类性能是准确性，这是适用于递归预测在这项研究中。它是指模型正确预测未观察到的病例的类别标签的能力（García-Laencina，2015）。此外，敏感性和特异性措施已被用来分析正确和不正确的决定，由相应的分类器。这三项措施可以计算如下：所有其他类别都是第二类。在计算上述方程（Eqs. 10将所提出的缺失数据填补方法与六种填补方法进行了比较，平均值、热甲板、K-NN、加权K-NN、基于张量的插补（Dauwels等人，2012）和贝叶斯网络插补（Rancoita，2014）。在文献中，上述方法以相同的方式应用于数值属性和类别属性。这些方法不对不同的变量使用不同的范例。因此，我们将这些方法应用于离散值和数值。我们准确度TP公司简介灵敏度TPTPFFN特异性¼TNð10Þð11Þð12Þ首先清空整个数据集的5%、10%和15%。然后，我们通过插补方法估计缺失值，并使用NRMSE测量将结果值与实际值进行比较（公式10）。（9））。表3一些插补和预测模型的参数参数法任务FP-100其中TP、TN、FP和FN表示真阳性、真阴性，最近邻数= 5;距离=标准化欧几里德K-NN插补假阳性和假阴性。例如如果核函数= RBF; RBF核的阶数= 4 SVM预测数据集有两个类，true positive表示属于第一类的正确分类数，truenegative表示属于第一类的正确分类数。最近邻数= 5;距离= Pearson相关k-NN最大值-最小值n1/1我182M. Vazifehdan等人/沙特国王大学学报表4缺失率为5-15%的三个数据集上插补方法的NRMSE数据集插补方法NRMSE（越小越好）缺失率：5%遗漏率：10%遗漏率：15%Omid是说0.310.340.36热甲板0.660.740.82k-NN0.540.700.73W-knn0.370.400.42张量0.180.210.25贝叶斯网络0.150.170.20该方法0.090.120.16威斯康星是说0.320.330.34热甲板0.350.370.38k-NN0.270.290.32W-knn0.170.190.21张量0.110.170.20贝叶斯网络0.090.150.17该方法0.060.110.13克利夫兰是说0.330.350.35热甲板0.550.590.62k-NN0.580.610.63W-knn0.350.370.38张量0.160.210.24贝叶斯网络0.130.190.22该方法0.080.110.14在这项工作中，5折交叉验证程序，以评估预测模型。数据集随机分为5倍。一个折叠被认为是测试和所有其他的培训。为保证结果的稳定性，实验次数为5次。我们只报告了每个实验的平均结果。表3介绍了插补和分类方法的参数设置。5.4. 实验结果根据所提出的方法对缺失数据进行插补，以提高乳腺癌复发预测。表4显示了三个数据集（Omid、Wisconsin和Cleveland数据集）上估计方法的NRMSE结果也参见图 4用曲线说明了结果。在这些结果中，图四、Omid、Wisconsin和Cleveland数据集插补方法的NRMSEM. Vazifehdan等人/沙特国王大学学报183与其他方法相比，该方法的错误率最低（对Omid数据集的NRMSE为0.12，对Wisconsin数据集的NRMSE为0.10，对Cleveland数据集的NRMSE为0.11）。在这些结果中，所提出的方法获得了最低的错误率，优于其他方法。正如预期的那样，由于离散分类属性的数量多于连续属性，基于贝叶斯网络的插补性能优于张量插补。在这些数据集上，W-KNN、KNN和Hot-deck在处理连续缺失值时效果不佳表5示出了分类器的结果（等式5）。10该方法取得了最好的结果，平均准确率为89.29%，灵敏度为78.55%，特异性为92.83%，C4.5分类器，具有更高的准确性相比，基于张量的填补和贝叶斯网络填补。同样的结果也显示在图中。五、6. 讨论和结论乳腺癌的复发甚至会影响患者在决策树KNNSVM手术后多年的生活。近年来，机器学习和数据挖掘方法越来越多地改善了预测，并帮助了医疗专业人员。从收集到的医疗数据中提取经过验证的信息被认为是一项重大挑战。随着癌症患者尤其是乳腺癌患者的增多，对这一领域的研究显得尤为重要。医学数据中缺失值的存在是该领域的主要挑战。缺失值的精确估计，这导致更好的决策，或至少帮助专家为此目的，是有价值的癌症诊断和复发预测。本文提出了一种新的缺失值填补方法，该方法考虑了变量间的依赖关系和不完全变量的类型，这对使用张量和贝叶斯网络进行分类和数值填补有表5Omid数据集上的乳腺癌复发预测准确性，插补缺失值为10%C4.5k-NNSVM灵敏度特异性精度灵敏度特异性精度灵敏度特异性精度是说75.3791.9287.7870.4790.2185.1653.7072.3669.79热甲板76.6592.3588.3070.7190.5285.6148.7070.5767.70k-NN77.4292.4888.7271.0990.6285.7158.8572.4970.83W-knn76.6492.3188.4771.4990.6285.7563.7072.3670.83张量77.6392.6088.9471.7990.8186.0855.6273.7071.87贝叶斯网络77.2192.4088.5071.3690.7085.8055.6272.9570.40该方法78.5592.8389.2971.9990.8086.1658.7573.0771.35图五、DT，K-NN和SVM模型在Omid数据集上用于乳腺癌复发预测的分类准确性，灵敏度和特异性184M. Vazifehdan等人/沙特国王大学学报变量提出的方法来取代缺失数据也进行了评估，使用几种不同的插补方法，包括- ing平均值，热甲板，K-NN，加权K-NN，张量和贝叶斯网络使用NRMSE准则。虽然张量网络和贝叶斯网络都能够填补缺失值，但它们分别在连续和离散缺失数据填补方面更有能力。我们还使用了三种预测模型，即SVM，K-NN和DT以及三种流行的准确性，灵敏度和特异性指标来预测乳腺癌复发。这些措施是使用5倍交叉验证应用于所有数据集创建的插补方法。最后，实验结果报告每个估算分类对。实验结果表明，该方法能有效地提高数据质量和预测质量，在后续分类中比其他方法更有效不幸的是，我们的方法受到一些限制，如缺乏合适的预测与RBF核的SVM和更多的计算开销比所有其他方法，由于检查收敛。然而，我们试图获得以下目标：1）改善乳腺癌复发预测2）提出一种方法来输入缺失数据3）注意属性和不完整属性类型未来的工作可以集中在数据的噪声消除，特征选择和使用其他分类模型，以提高预测精度。此外，虽然贝叶斯网络和张量分解是由于它们在以前的报告中的有效性而被选择的，但是可以评估其他缺失值估计方法（即，深度神经网络或基于聚类的方法）。确认作者对马什哈德的Omid肿瘤和治疗中心提供的女性乳腺癌数据表示感谢。引用Acar，E.，2009年无监督多向数据分析：文献综述。IEEE Trans.Knowl. Data Eng. 21（1），6阿卡尔湖 et. al，10月，pp. 701Aydilek，I. B.，Arslan，A.，2013.一种基于支持向量回归和遗传算法的模糊c均值缺失值填补方法。信息科学(Ny)233，25-35。Bader B.W.，Kolda T.G.，

下载后可阅读完整内容，剩余1页未读，立即下载