乳腺癌诊断数据缺失值填补方法的改进

172 浏览量更新于2024-01-14 收藏 755KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于增强型简约自适应粒子群算法改进张量分解的乳腺癌诊断数据缺失值填补Atefeh Nekouie，Mohammad Hossein Moattar伊朗马什哈德伊斯兰阿扎德大学马什哈德分校软件工程系阿提奇莱因福奥文章历史记录：2017年10月21日收到2017年12月13日修订2018年1月19日接受2018年1月31日在线提供保留字：乳腺癌的诊断粒子群贝叶斯网络支持向量机A B S T R A C T癌症是指一组细胞显示不受控制的生长、侵袭和转移的疾病。数据挖掘和机器学习是临床诊断的常用方法。该领域的一个重要问题是这些数据通常包括缺失值，这降低了诊断准确性。本文提出了一种改进的张量分解方法来估计缺失数据。当张量方法试图估计缺失值时，数据集中应该有一个类平衡，在数据不足的情况下，张量不能正确估计数据。在该方案中，粒子群优化算法与自适应调整（RAPSO），这是改进的混沌搜索来解决这个问题。在该方法中，为了抑制粒子群算法的随机初始化，采用了一种独特的方法和贝叶斯网络。最后，通过不同的分类器和RMSE测度对疾病诊断的准确率进行了评价.结果表明，该方法在RMSE、准确性、灵敏度和特异性方面均优于其他方法©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍由于人为错误、不同解释和管理者的失误等原因，医疗数据容易丢失。在一个典型的案例中，临床工作人员的不同解释可能会导致病历中的一些偏差。缺失值或假值可能会显著影响建模和分析结果（Bai等人，2015年）。如果删除这些缺失的信息，可能会导致某些关键信息的丢失。识别缺失数据可能非常重要，但不幸的是，大多数方法都是基于数据完整的假设开始的。如果不填补缺失的数据，分析结果可能是可疑的。数据分析的第一步是识别缺失数据的值（Bai等人， 2015年）。今天，癌症的风险正在增加，其治疗是困难的。根据世界卫生组织*通讯作者。电子邮件地址： nekouieatefeh@mshdiau.ac.ir （ A.Nekouie ），moattar@mshdiau. ac.irM.H. Moattar）。沙特国王大学负责同行审查通过早期诊断进行治疗（Chen等人， 2011年）。可以通过不同的方法预测癌症的发展，使得人们可以遵循有效的方法来预防癌症（Yan等人， 2013年）。同时，应重视疾病的早期诊断，以延长患者今天，技术用于数据分析，研究人员在这方面使用数据挖掘和机器学习方法（Kourou等人，2015年）。然而，基于关于缺失值估计的研究，机器学习方法由于其单变量性质而不能正确地估计大量缺失数据，这导致相对较高的误差。关于以前的缺失数据估计，应该注意的是，它们中的大多数都填充了数据，而不管属性及其类型之间的依赖关系。本文的目的之一就是关注这些问题。当面对缺失值时，分类器通常会选择删除包含至少一个缺失值的实例，或者忽略它，或者使用插补方法对其进行基于先前的研究，张量方法由于其多变量性质、收敛速度和高精度以及低计算工作量而可以估计缺失数据而几乎没有误差（Tan等人，2013年）。张量是一个多维排列，张量的阶是指它的维数。CANDECOMP/PAR-AFAC（CP）分解通常用于张量分析。CP分析的目的是确定基质因子。在https://doi.org/10.1016/j.jksuci.2018.01.0061319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com288A. Nekouie，M.H.Moattar/ Journal of King Saud University该方法在每一阶段中，将其中一个矩阵因子视为变量，其余矩阵因子假定为常数。在这种情况下，问题变成了最小二乘问题。张量具有某些挑战，例如确定张量阶数、在数据不足的情况下缺乏适当的解决方案以及不适合非数值数据（Dauwels等人，2012年）。在本文中，我们尝试使用具有自适应调整的粒子群算法来解决第二个挑战（Jiang等人， 2015年）。本文的主要贡献实际上是提出了一种抽样方法，以弥补张量方法的主要弱点，这是数据不足，并试图克服的问题，估计离散和连续的缺失数据在一个统一的框架。本文的其余部分组织如下。第二节介绍了缺失数据填补方法的相关工作。材料和方法，包括张量分解和贝叶斯网络将在第3节简要介绍。缺失数据插补的拟定方法将在第4节中充分解释。实验和结果在第5节中讨论。最后，第六部分给出了结论和未来工作的展望。2. 相关作品一般来说，医生会增加他/她对疾病的了解，以便以后进行诊断（Purwar和Singh，2015）。在分析过程中，研究人员面临的最具挑战性的决策之一是选择最合适的方法来处理缺失数据。有不同的方法来填补缺失的数据。统计方法是典型的应用方法之一，包括回归、平均等. （Jerez等人， 2010年）。本文从缺失数据的补偿和以疾病诊断为主的方法两个方面对以往的方法进行了2.1. 缺失数据插补Archana Purwar等人（Purwar和Singh，2015）使用了K均值和多层感知器（MLP）的组合模型，其中K均值用于补偿缺失数据，MLP用作分类器。Folguera等人使用自组织用于获得缺失数据的映射（SOM）（Folguera等人，2015年）。事实上，SOM是一种强大的多变量数据分析方法，提供了很好的估计。Dauwels等人应用张量方法来补偿缺失数据（Dauwels等人，2012年）。张量是一种多维排列，它可以在非常大的数据中识别所需的元素。Di Nuovo使用模糊C均值，这是最常用的模糊聚类算法，用于输入缺失数据（Di Nuovo，2011）。在（Kiyani和Atashi，2014）中，使用数据挖掘算法来开发基于数据挖掘的预后模型，用于预测乳腺癌复发。然后，使用809例乳腺癌患者的数据，每个患者18个特征。考虑到该数据集中数据丢失相对较高，仅665例患者的信息适用。由于剩余记录中存在缺失值，因此通过期望最大化（EM）算法近似计算这些值2.1.1. 缺失数据填补2.1.1.1. 卑鄙的手段。通过平均值补偿缺失数据事实上，变量的平均值可以替代缺失值（Purwar和Singh，2015）。在这种方法的缺点中，可以指出忽略了现有变量之间的关系简单来说，当数据集的变量包括离散值时，该方法不能为这样的变量提供良好的性能，因为它近似于未定义的值。2.1.1.2. 紧急降落。在热甲板方法中，基于与最近邻的相似性来完成缺失数据的补偿（Jerez等人， 2010年）。这意味着如果缺失的记录与其每个相邻记录相似，则将其替换。hot-deck的一个方面是测量两对数据点之间的相似性。通常，该方法分几个步骤运行在第一步中，数据被划分为聚类，在第二步中，每个样本被绑定到最近聚类的缺失数据。然后，在预期的聚类中，使用完整的记录来填充缺失值，这是通过计算聚类的平均值来完成的。2.1.1.3.KNN方法。KNN是一种著名的基于实例的方法。KNN涉及两个重要问题：（1）邻居的数量和（2）距离度量。如果相邻样本的数量较少，则离群样本可能会影响结果，而大量的相邻样本可能会面临不相关数据的干扰在使用最近邻补偿缺失数据的情况下，应做出几种选择（Tutz和Ramzan，2015）。该方法首先选择k个最近邻，然后将所有近邻中最常见的值作为标称属性。此外，平均值用于数值属性。2.1.1.4. 加权KNN。在KNN模型中，为了填补缺失值，第一个邻居和第k个邻居同等重要，而第一个邻居通常比其他邻居更重要。因此，加权KNN被定义为开发的KNN模型，以便为任何邻居分配特定的权重，其中第一个邻居（最近）具有最高权重，第k个邻居（最远）具有最低权重值。2.1.1.5. 贝叶斯网络插补。贝叶斯网络又称信念网络，属于概率图模型族.该网络是由一个有向的非循环结构，建议现有变量之间的概率分布。贝叶斯网络被定义为一组离散变量（X）上的联合概率分布（prM）网络可以是定义为一个三分集（M<$$>u;X;P<$），其中u<$$>Vu;Eu<$是指变量的依赖关系图，Vu是m个节点的集合，Eu表示变量的连接边的集合，P是条件分布的集合（pr M<$X ijPA i<$）。PAi指的是图中X i所依赖的节点（该集合也可以是空的）（Rancoita等人，2016年）。在这种方法中，学习和推理是快速完成的。在训练贝叶斯网络之后，开始数据的估计。贝叶斯网络用于数值和非数值变量，它们考虑了变量之间的依赖关系，然而，它对非数值变量的效果更好。2014年，一篇论文使用贝叶斯网络来寻找实验室变量之间的依赖关系并填充缺失值（Rancoita et al.，2016年）。在近似缺失值之后，允许将决策树应用于完整的数据集。在（Rancoita等人，2016），缺失值的近似通过EM结构完成。仿真结果表明，该方法比其他方法具有更好的性能。2.2. 分类方法肿瘤诊断的分类方法很多，本文就其中的一些分类方法进行综述Chen等人用A. Nekouie，M.H.Moattar/ Journal of King Saud University289我JRðÞ¼ ð Þ¼ ðXÞ× ×X粗糙集-支持向量机（RS-1JKR2SVM）用于确定乳腺癌因素的有效性（Chen等人， 2011年）。 RS是一种智能数学方法，fA;B;CXXxijk-Xairbjrckri<$1j< $1k<$1r1ð4Þ就是选择最好的特征在特征约简后，使用SVM分类器进行诊断。与神经网络、随机森林等方法相比，该分类器具有更好的泛化能力。Zheng等人使用了K-means和SVM算法的组合（Zheng等人，2014年）。使用K-means算法以支持向量机算法作为分类器，对良恶性肿瘤的潜在模式进行识别。Karabatak和Murat研究了贝叶斯分类，认为它是最简单和最强大的CP分解不能很好地填补缺失率高的缺失数据，但提出了改进的CP模型，即加权CP算法（CP-WOPT），考虑用与原张量大小相同的权张量来填补缺失值。因此，f函数可以如下获得：XX XK （。X！）2乳腺癌分类方法（Karabatak，2015）。在他们的论文中，提到贝叶斯方法不能计算后验概率，由于这个问题，他们使用fA;B;Ci<$1j< $1k<$1世界新闻报xijk-r1airbjrckrð5Þ加权朴素贝叶斯模型3. 材料和方法其中w是非负权重张量，其可以初始化为对于所有的i/1... I，jl.J和1/4…K：W. 1如果xi;j;k已知63.1. 张量Ijk¼0如果x是;j;k 未知数张量是多维排列，其维数称为张量的度。具有三个或更多维度的排列被称为高阶张量（Tan例如，2013年）。张量是分析大规模缺失数据的一种重要方法。今天，张量的分析被用于不同的领域，如心理学，化学计量学，信号处理，生物信息学和计算机视觉（Mørheimer，2011）。在这种类型的分析中，高阶张量可以近似为-3.2. 贝叶斯网络贝叶斯网络又称信念网络，属于概率图模型家族该网络由有向无环图（DAG）组成，其中节点与表示属性之间的依赖性和联合概率分布Pr M的属性相关联在一个collec-X数据集的离散变量贝叶斯网络可以由一组一阶张量项来模拟CP的目标分析的目的是找到基质因子（Dauwels等人， 2012年）。当表示为三元组MG;X;P，其中GVdency图G;EG是依赖-得到了矩阵因子，并对其进行了张量积，称为Kronecker张量因子是从众多类型的大型数据集中发现信息的重要框架。张量面临某些挑战，例如数据不足或类别不平衡。为了解决这些问题，本文提出了RAPSO算法三次张量的分析如下。在下面的等式中，A、B和C是通过分析主矩阵而获得的矩阵。RX轴A：;rB：;rC：;r1r1实际上，A2RI×J和B2RK×L矩阵的Kronecker积用AB表示这个乘积的结果是一个Ik×JL维的矩阵。该乘法表示如下：26a11B·· ·a1nB37..X变量包括一组m个节点（每个变量一个节点）和一组作为变量之间依赖关系的边; P是一组条件概率：Pr M<$X ijPA i<$其中PA i指X i依赖于它们的节点（称为X i的父节点，它可以是空的或变量VG的子集）。主要能力贝叶斯网络的关键是它的马尔可夫结构，这意味着，每个属性Xi可以有条件地独立于非后代，同时具有其父属性（Pai.因此，贝叶斯网络可以显示联合概率分布，如下式所示：1. 一个人的生活 . . XmYPrMXijPAi7我贝叶斯网络可以学习随机变量之间的复杂关系，因此，用于逼近和分类。在一些基于贝叶斯网络的建模问题中，网络结构生动，但网络参数容易计算。挑战性的任务之一，AB64.. ...75ð2Þ贝叶斯网络是理解经验的图结构，或者找到完整数据的可能结构，a m 1 B···amn B张量用其他特征的线性组合重建缺失值。设x是一个大小为IJK的三秩张量，R是破矩阵的个数或张量的秩。CP因式分解由大小分别为I×R、J×R和K×R的因子矩阵A、B和C创建，使得以下等式对于所有值i1/4 1.I，jl... J 和k1/4... K：R这是一个NP难问题。虽然有许多学习贝叶斯网络的算法，但大多数都需要一个完整的数据集（Riggelsen，2006）。贝叶斯网络中常用的算法有期望最大化（EM）、数据扩充（DA）和边界与折叠（BC）等.在这方面，EM算法可以采用不完全集合的结构和参数，但具有较高的计算要求。该方法通过迭代和平均来逼近缺失数据。DA算法类似伊克��r1ð3Þ但由于采用预定密度函数和抽样方法（如Monte Carlo）随机选取样本，其收敛性令人怀疑。此外，BC方法使用CP分解的主要目标是使主张量的重构误差率最小化，使得一阶张量之和与原张量的差最小，且其后的f函数值最小。多密度函数，并以加权方式执行平均。不幸的是，在贝叶斯网络中，没有合适的方法可以在不迭代的情况下获得精确的近似分布（Riggelsen和Feelders，2005）。290A. Nekouie，M.H.Moattar/ Journal of King Saud University不X¼3.3. 简化自适应粒子群优化算法基于神经科学，心理学，认知行为和行为科学的先前研究，计算和人工智能领域的群体智能概念于1989年引入（Marini和Walczak，2015）。元启发式优化方法是近年来使用较为频繁的成功方法之一。它是解决优化问题的一种智能分配和集体主动的模式。粒子群优化算法（PSO）是由Kennedy和Eberhard于1995年提出的。PSO几乎用于所有的计算智能和优化应用。PSO有一些缺点。其中最突出的提高搜索算法的收敛速度和精度对提高数据自动生成的效率和质量具有重要意义。因此，可以使用简化的自适应粒子群优化（RAPSO）。该方法提高了收敛性，并防止陷入局部最优。实际上，RAPSO算法将种群分为三组，并分别为每个部分确定惯性权重（w）。在这方面，惯性权重起着显着的作用，在收敛速度和算法的精度。此外，w直接应用于粒子的位置，在这方面，它与直接应用于粒子的PSO中的w在RAPSO中，w根据等式计算。其中t和T分别是当前迭代和最大迭代。该算法导致摆脱局部最小值并促进全局搜索（Jiang等人， 2015年）。第二平均适应度，记为F0avg。利用F0avg，可以避免较穷个体带来的不利影响.这可以更清楚地反映当前适应度最大的个体之间的收敛程度。RAPSO算法将种群分为3部分，分别确定各部分的惯性权重。然后，相应地设置人口这些设置提高了全局和局部搜索之间的收敛速度和平衡。RAPSO使用以下三种范例来选择用于下一次迭代的粒子（Jiang等人， 2015年）：1- 如果fi大于第二个平均值，即F0avg，则可以得出结论，颗粒接近溶液。此外，颗粒的位置不会发生显著变化2- 如果fi在第一个平均值favg和第二个平均值F0avg之间，则可以说该部分中颗粒的性能是平均的。3- 如果fi小于F0avg的第二平均值，则可以注意到这部分群体中的颗粒的性能较低（Jiang等人， 2015年）。3.4. 混乱术语“混沌理论”起源于这样一个事实，即通过这种现象描述的系统通常具有混沌和无序的外观。事实上，混沌理论的发展是为了找到一个明显随机数据的序列或顺序。近年来，混沌系统引起了人们的广泛关注。实验结果表明，用混沌信号代替随机信号是显而易见的，尽管事实上没有数学，w w ww1阿利科斯。泰普8个数学证明（Gandomi等人，2013年）。例如，在evo-I¼最新动态最大值-最小值200定义1（适应度值）：优化算法的主要部分是适应度定义。在我们提出的框架中，其目的是为少数类生成样本，适应度与粒子到同一类样本的接近程度成正比，并与粒子到其他类样本的平均距离成正比因此，第i个粒子的适应度函数fi定义如下：第1页 XdXi-Xj-1XdX-Xj9在粒子群优化算法（PSO）等启发式算法中，混沌序列与随机序列相比，提高了算法的效率指标。基于混沌的方法可以成功地取代许多随机发生器的应用，由于他们增加了搜索能力的随机过程。另一方面，该方法具有不同的特点，可以很容易地适应不同的问题。对于混沌生成，有不同的映射器。表1给出了一些最流行的混沌函数。3.5. 支持向量机我-我XjRCiniXj2Ci在机器学习中，支持向量机（SVM）是一种其中，第一项表示粒子Xi与其他类别的n-ni个数据点的平均距离，第二项表示该粒子与具有相同标签的ni个数据点的平均距离在上面的等式中，Ci是与X具有相同标签的类，并且n是原始数据集中的数据点的总数在Eq.在公式（9）中，当粒子的平均类间距离显著高于平均类内距离时，粒子更适合。定义2（粒子的第一平均适应度）：在PSO中，假设当前种群的大小为N，则使用以下等式获得粒子的平均适应度（f avg）（Jiang etal.， 2015年）：N最强大和精确的方法。作为一种最佳分离器，该技术在不同应用的数据分类中显示出良好的效率。如果训练集是线性可分的，SVM生成具有最大间隔的超平面;否则，它被映射到其他更大维度的空间以线性可分。在两类学习任务中，SVM的目标是找到最佳分类并区分训练数据中两个类的成员。如果存在无限数量的超平面，SVM只考虑具有最大类间隔的超平面作为解决方案。为了使支持向量机能在更大的空间内工作，可以采用多项式核函数、径向基函数和S形函数。虽然SVM特别适用于包含两个类的数据集，其基本思想是寻找最优判别式fav g1fN1ð10Þ对于两个类之间的数据集，也有一些方法可以扩展到多类数据集：一对一（OAA）和一对一（OAO）。OAA方法需要k个分隔符用于k类分类，在计算粒子的平均适应度后，找到更高的适应度，并再次计算粒子的平均适应度（Jiang等人， 2015年）。定义3（第二平均适应度）：当计算当前平均适应度favg;时，找到适应度大于favg的粒子这样，每个分隔符都用来将一个类与所有其他类分开。而OAO方法为每个可能的类组合创建二进制向量在OAA算法中一般认为是k（k-1）/2二进制向量机。本研究采用OAA法。我A. Nekouie，M.H.Moattar/ Journal of King Saud University291. CircaCirclemapx 1/40：1A=0.5，b=0。2x¼xb-sin2pxmod10nn1我我表1混沌映射混沌映射方程初值控制参数Logistic映射xn1<$$>Axn1-xnx0< $0： 31 A = 3.7帐篷映射（xnxn0：7

下载后可阅读完整内容，剩余1页未读，立即下载