支持向量机在癌症疾病诊断中的比较研究"——埃及信息学杂志论文总结.

124 浏览量更新于2023-12-10 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Egyptian Informatics Journal（2010）11，81开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章支持向量机在癌症疾病诊断中的比较研究纳赛尔·HSweilama，*， A.A. Tharwatb， N.K. Abdel Moniemca埃及吉萨开罗大学理学院数学系b埃及吉萨开罗大学计算机信息学院业务研究和决策支助系c埃及吉萨开罗大学国家癌症研究所统计系收稿日期：2010年1月5日;接受日期：2010年2010年11月4日在线提供摘要支持向量机已经成为一种越来越受欢迎的机器学习工具，涉及分类，回归或新颖性检测。训练支持向量机需要解决一个非常大的二次规划问题。传统的优化方法由于内存限制不能直接应用。到目前为止，存在克服了上述缺点，效果良好。介绍了另一种用于训练支持向量机的粒子群优化算法--量子粒子群算法。介绍了最小二乘支持向量机（LSSVM）和有效集策略.在乳腺癌数据集上对这些方法的结果进行了测试，并与精确解模型问题进行了比较。©2010计算机和信息学院，开罗大学。由爱思唯尔公司制作和主持All rights reserved.*通讯作者。电子邮件地址： n_sweilam@yahoo.com （新罕布什尔州）Sweilam ）， assemthar-wat@hotmail.com （ A.A. Tharwat ），nermeen2000@hotmail.com ， ner-meenka2000@yahoo.com （ N.K.Abdel Moniem）。1110-8665© 2010 开罗大学计算机和信息学院。制作和主办Elsevier B.V.保留所有权利。开罗大学计算机和信息系负责同行审查。doi：10.1016/j.eij.2010.10.005制作和主办：Elsevier1. 介绍癌症是一组疾病，其中体内细胞生长，变化和繁殖失控[1]。通常，癌症以其起源的身体部位命名;因此，乳腺癌是指起源于乳腺组织的细胞的不稳定生长。一组快速分裂的细胞可能形成一个肿块或一团额外的组织。这些肿块被称为癌症[2]。癌症可以是癌性的（恶性的）或非癌性的（良性的）。恶性肿瘤渗透并破坏健康的身体组织，更多详情见[3]。癌症检测已成为模式识别领域的一个重要研究领域。本文旨在展示一个综合的观点，实施自动诊断系统的乳腺癌检测，并分类癌症患者通过构建一个关键词乳腺癌诊断数学模型;支持向量机;粒子群优化算法;量子粒子群算法;二次规划;最小二乘法ð Þ¼ ð·þÞB-g“X最大值w/x最大值b≥1;i/1;. ;N2ð Þð Þ ¼XX我我1/1nþ2 f-g新罕布什尔州82号Sweilam等人使用支持向量机的非线性最优分类器。由于正确决策的重要性，计算了支持向量机的不同训练方法，即粒子群优化（PSO）方法、量子粒子群优化（QPSO）方法、二次规划（QP）方法以及支持向量机的修正学习问题，即最小二乘支持向量机（LSSVM）的分类精度分类系统在医疗诊断领域的使用正在逐渐增加，毫无疑问，对患者数据的评估和专家的决定是诊断中最重要的因素。然而，用于分类的专家系统和不同的人工智能技术最大限度地减少了由于缺乏经验的专家而可能发生的错误，并且还提供了在更短的时间内进行更详细检查的图图1显示了分类系统设计的各个阶段。从反馈箭头可以明显看出，这些阶段是相关的。相反，它们是相互关联的，根据结果，人们可能会回到重新设计早期阶段，以提高整体业绩。2. CAD系统模式识别在癌症领域的主要目的根据FNA的计算机辅助诊断（CAD），这取决于计算智能。3. 支持向量机（SVM）Vapnik[6]提出的SVM已被广泛研究用于分类，回归和密度估计。SVM试图找到一个超平面w·xb0;xi2Rn它将数据点xi（意味着给定的类在平面的同一侧），其对应于给定的决策规则： gxsignw x b。这里的问题是这个平面是如何确定的？SVM选择离数据点xi最远的分离超平面w·xb 0，即具有最大裕度的分离超平面（图2）。其基本思想是，远离任何观察到的数据点的超平面应该最小化使在对新数据进行分类时做出错误决定。准确地说，在SVM中，到最近数据点的距离被最大化。设给定l个模式，每个模式由一对fxi;ygN：a vectorxi2Rn组成和相关联的标签 yi1;让XR是的空间的模式，Y1; 1是标签的空间。SVM方法旨在找到一个如下形式的分类器诊断是为了解决模式分类的困境，其中使用预先描述的输入特征集来确定患者是否患有特定的疾病这可以帮助在亲-yx符号N1/1aiyiKxi;xb#ð1Þ诊断过程，即用于分类任务的计算机辅助诊断（CAD）系统，其中某些特征（临床发现）用于将病例分配给代表诊断的特定模式（恶性或良性）因此， CAD系统可以在（ 1）减少误诊的数量和（2）减少达到诊断所花费的时间方面提高医生的表现，这是CAD系统的如果保持在可接受的水平，其他性能指标，其中ai是正实常数，b是实常数，一般地，Kxi;xh/xi;/xi，h·;·i表示内积运算，并且/x是从原始空间到高维空间的非线性映射。假设数据集可以被高维空间中的线性超平面分开，这将导致：不我在这种分离超平面不存在的情况下，引入松弛变量n，即y½wT/nxxx xb] ≥1-n;i1;. . . ;N乳腺癌可以通过仔细研究临床ð3Þ病史、体格检查和乳腺摄影或超声成像。然而，乳腺肿块的确诊只能通过细针穿刺（FNA）活检、空芯针活检或切除活检来确定。ni≥ 0;i 1/4;. ;N根据结构风险最小化原则，风险界限通过以下最小化问题最小化：在这些方法中，FNA是获得乳腺活检的最简单和最快的方法，并且对患有囊状填充囊肿的女性有效。研究工作在威斯康星州诊断-最小J1w;nw;n1 wT wc2N1/1ni4诊断乳腺癌（WDBC）数据的产生是出于仅基于FNA准确诊断乳腺肿块到根据（3），将拉格朗日函数构造为：如下所示：为了提高乳腺癌检测的准确性和效率，许多研究项目都集中在开发乳腺癌FNA的癌症，包括图像分析和计算智能[4，5]。在这项研究中，我们专注于L1w;b;n;a;bJ1w;n-XN-1/1N1/1阿岛y½wT/xib] -1ni图1分类系统设计的基本阶段binið ¼ÞXXX我ð Þ¼ h ðÞ拉吉吉ð Þ ð Þ我ð Þ¼X支持向量机用于癌症疾病诊断的比较研究图2二维训练集的分离超平面（w，b）[5]。其中ai> 0;bi> 0;i 1;. . N是（3）的拉格朗日乘数。最优点将在拉格朗日函数的鞍点，即。最大值最小值L1w;b;n;a;b6w;bw; b;n通过将偏微分与零相等，将获得以下等式：然而，当核矩阵（或线性SVM的原始数据矩阵）不适合主存时，这些算法不再适用。为了解决更大的问题，已经创建了利用SVM问题的独特方面的专用算法。这些可以分为三类。4.1. 子集选择算法@L1@w<$0;w<$4N1/1aiyi/xi子集选择方法牺牲了解决方案中的某些精度@L1@b¼0;N1/1aiyi¼0ð7Þ为了将优化问题分解成可管理的部分，我们使用拉格朗日乘子ai一SVM的优化方法，称为Chunking[9]，依赖于@L1@n <$0;0 ≤a ≤ c;i<$1; 2;. ;N将（7）代入（5）中，将出现以下二次规划（QP）问题：只有支持向量有助于最终模型，其他数据点对解决方案无关紧要。因此，在Chunking中，首先使用数据的任意子集来生成具有一般-目的QP包。只有支持向量被重新-N最小Q1aai¼1我-1N2i;j¼1 aiajyiyjKxi;xj保留，其余的数据被丢弃。然后添加额外的数据以完成子集，并确定新的QP解决方案这是重复的，直到其中K x i;x j/x i;/x j称为核函数（图3示出了具有核函数的SVM的架构）。通过求解上述QP问题，Eq.（8）在不违反《地理标志》的情况下，得到了（7）中的所有约束、高维空间中的超平面和（1）中的原始空间中的分类器。4. 支持向量机训练算法综述实现SVM学习算法需要解决QP问题。最初，应用现有的通用二次优化算法来解决SVM问题[6]。例如，拟牛顿方法（如MINOS[7]）或他们的优势是，他们是现成的，所以可以立即利用，他们也提供了高数值精度。对于每个数据样本都是如此。只要支持向量的核矩阵可以存储在主存中，分块方法就可以工作。如果不是这种情况，则需要替代方法，例如分解。在分解方法中，数据（以及相应的参数）被分成许多固定大小的集合，每个集合称为工作集。优化发生在每个工作集上，同时保持其他参数固定。这有效地对参数的子集执行坐标下降。流行的软件实现SVMLight[10] 和 SVMTorch[11] 使用分解策略。序列最小优化（SMO）算法[12]是使用两个数据点的工作集的分解的极端形式。可优化的最小工作集如果SVM分类的约束（3）成立，则为2。SMO算法利用了标准支持向量机的优化子问题在此条件下可以求解的þþ2X新罕布什尔州84号Sweilam等人图3SVM的结构分析。SMO比Chunking具有更好的缩放特性，并且减少了对主存的需求。流行的软件实现LIBSVM[13]实现了SMO的变体，用于分类，回归和单类学习设置。4.2. 迭代算法梯度下降可以应用于原始SVM优化问题，从而产生迭代算法。迭代方法的主要优点是，它们产生的算法步骤很少，因此易于实现。缺点是，在一般情况下，他们表现出线性收敛，所以比标准的QP求解器慢。4.3. 开发替代SVM公式通过修改Eq. （4）在Eq. （3）简化所得到的优化问题是可能的。这可能涉及通过修改误差泛函或惩罚来简化或减少约束的数量。例如，一种称为拉格朗日SVM（LSVM）[14]的方法使用学习公式，这导致依赖于求解线性不等式系统的LSVM有公式：a¼Q-1eQa-e-ba 11这导致以下迭代方案，ai1¼Q-1eQai-e-bai12Mangasarian在条件b2=C下证明了从任意起点的全局线性收敛性.<：温度范围-;否则PXXi; ddXi; ddXi; ddðþ Þy第一部分O我一我2I j我 J我Ji;di;d一1/1j1I j我1/1我我i¼1i我我i;di;d1122i;di;di;di;di;di;di;di;di;dDðtþ1Þy0i;dDi;dD.100X XX[1/2]8>-我...Pi;d粒子群算法是一种随机搜索算法，(e) 随机初始化粒子速度0 606max 为计算和快速收敛能力。PSO是一种基于种群的启发式搜索技术，i= 1，2，.. . ，p，d 1; 2;. ;'。(f) 评估成本函数值（等式（八）i;d d粒子表示搜索空间内的潜在解决方案。每个粒子都有一个位置向量Xi，一个速度向量Vi，最佳拟合pbesti所遇到的位置‘最小/a最小/a最小1/1j11/1粒子，并且所有粒子的最佳位置gbest在使用设计空间坐标，i=1，2，. ，p.当代。粒子群算法的更新方程为普贝斯特我ð0Þð0Þ如下所示：Vit1w Vit1 c1 r1Xpbestit- Xit(g) 将/ai /ai和pbestiai设置为i= 1，2，.. . ，p.(h) 设置最小的和最小的最小的和最小的和最小的最小c2r2Xit1 Xit Vit1ð13Þ我我在一个100英尺的地方。优化w w其中参数c1和c2被设置为恒定值，(a) 使用以下公式更新惯性权重w：w<$tWmax-(b) 更新粒子速度矢量V1，V2，V1。最大值-最小值itermax通常取为2，r1和r2是两个随机值，uni-(c) 更新粒子位置向量一次。使用形式上分布在[0，1]中，w是控制ai1¼ai1.前一个速度对新速度的影响。对于（d）评估成本函数第二部分在Eq.（13）被称为“认知”字符min /ap P'aiajy yKxi;xj-PNai. 使用1第三部分是设计空间协调员at1; i <$1; 2;. ; d.(e) 如果/a1/pbest，则/pbest/a1;<5.1.1. 粒子群算法在SVM中的应用[16]我我我最好是四分之一。(f) 如果/gbest不是1000C最高温度-最高摄氏度<0i;dD. -在量子物理学中，具有动量和能量可以用波函数w（方程式（17））。所以在量子模型中，粒子的运动状态1/4sumV- sumV-150因此，拉格朗日乘子1不满足这两个约束Naiy 1/ 4 0; C P aiP 0; 8i.5.1.2. 基于粒子群优化的初始化(a) 设置常数wmin，wmax为惯性权重方程（13），病人：没有。的迭代。 C：由用户定义的常数，使得CP aiP 0; 8i，参数c1和c2被设置为恒定值，如等式2所示。（13）、itermax：最大数量。迭代次数，Vmax最大速度，d：粒子数。(b) 设置常数t=0。设置随机数种子。(c) 随机初始化颗粒位置 a0.002R×t.我i;d2结果i;di;dD86新罕布什尔Sweilam等人可以用波函数来表示粒子的速度和位置。同时，基于海森堡测不准原理，粒子的速度和位置无法同时精确在位置和时间的情况下，粒子的出现概率可以由相应波函数w的概率密度函数表示。为了便于分析，粒子被认为是在一维空间中运动。假设p是Delta势场的中心，那么Delta势谷中粒子的势能为：V x-cd x- p16粒子的波函数可以由上式得到：ai6C.(d) 对于i= 1，2，.. . ，p，d= 1，2，. ，1wxpLωexp-kp-xk=L17支持向量机在癌症疾病诊断中的比较研究87.！BB联系我们●-rN半]联系我们r●ð Þ¼þXMXMXMXMN1/0BN þ¼由方程式（17）中，依赖于势谷宽度的参数L用于确定搜索域。粒子根据以下迭代方程移动：化问题基本上仍然是相同的。此外，由于H是对称的，因此问题是要解决：1minQaBaTHBBaB-aTe-HBNaNaB12B BPi1;P i2;. ;中P受Ty影响不1/11/11/11/1ð18ÞaB≥0C1-aB≥ 0PP id¼/×P id1-/×P gd;/1兰特19先令x id¼PP idh× j mbest d-x idj×lnx 1=u;u是随机变量<$20 <$其中mbest是粒子群的中间位置（pbest）;PPid是Pid和Pgd之间的随机点，h是QPSO算法的唯一参数。一般来说，h一比零0： 5MAXITERT=MAXITER0.05在哪里T是当前迭代次数，MAXITER是最大迭代次数。5.2.1. 基于QPSO的SVM训练算法使用QPSO求解SVM方程（8）需要● 最优性的标准● 分解问题● 一种扩展QPSO优化SVM子问题的方法最优性的标准。Karush-Kuhn-Tucker（KKT）条件是最优性的必要和充分条件。由于H是一个正半定矩阵[18]（所用的核函数是正半定的）。分解问题。这里提出的分解方法是由于[19]，并在可行方向的方法上工作。该方法的思想是在目标函数W上找到最陡的可行上升方向d（如等式2中所定义）。（3）），条件是只有q分量是非零值。对应于q分量的ai将被包括在工作集中。寻找近似值一种基于QPSO的SVM训练算法● 初始化● 满足线性约束需要满足约束条件06ai6C的Ty1/4● 初始解的构造：●设c2½0;C]=R，且c（某个正整数）为6min（+ve个示例，即（yi1/2），-ve个示例的数量，即（yi 1/2 -1））。●随机挑选共c个阳性例子，c个阴性示例，并将它们对应的ai初始化为c。通过将所有其他ai设置为零，初始解将是可行的。值2c给出初始支持向量的总数，并且由于这些初始支持向量是随机选择的，因此建议c的值保持较小。重复分解问题● 根据y i以递增顺序对训练向量进行排序哇我。为工作集B选择q个变量。剩下的lq个变量（集合N）被固定在它们的当前值。假设q是偶数，初始化所有的粒子被初始化，使得满足一个TyB一个T yN 0这是按照以下方式完成的：D等于解决以下问题：最大化rWaTd根据yT d<$0;di≥ 0;如果ai<$0di≤0;如果ai<$Cdi2 f-1; 0;1g jfdi：di不ð21Þ● 把粒子群中的每个粒子都设为q维向量。给每个粒子加上一个随机的q维向量d，使其满足，条件是该粒子仍然位于超立方体0;Cq中。以这种方式初始化群确保初始群位于可行解集P PAPaT yN中，允许群的正确性由可行方向定义如果y d等于零，则表示符号为Di和yi之间的匹配必须等于Di和yi之间符号不匹配的元素的数目。此外，d应选择为使上升方向WaT d最大化。有必要重写目标函数Eq。（8）作为仅依赖于工作集的函数把a分成两组，一组B，一组N。如果a、y和H适当地重新排列，我们有a¼。 aB组;Y ¼。YB;H ¼。HBBHBN 2200将迭代次数设置为零使用QPSO优化W on B。重复(a) 评估每个颗粒的性能Wa(b) 计算每个粒子的新Pid(c) 评价新的Pgd(d) 通过Eq. （十八）、(e) 通过等式2评估每个粒子的随机点PP_id。（十九）、aNYNHNBHNN(f) 将每个粒子移动到其新位置，根据等式（20）、因为只有一个B会被优化。Q1被改写为一个B。如果不包含B的项被丢弃，则最优使T T1转到步骤（a），直到终端条件满足（由用户设置）。●●●●●●最好是¼1MPi¼1M1M1Mð23Þ88新罕布什尔Sweilam等人n2联系我们Fððþ Þ训练数据库测试数据库评估分类器评估分类器（即交叉验证）BUILD SVM分类器已知类别已知类别拆分数据库直到满足将优化后的ai从B返回到原始变量集。● 终止并返回a。算法的复杂性上述算法的复杂性取决于每个步骤中的拟合函数的评估，其仅仅是对所使用的内核K x i; x j的评估，其重新计算。需要O（d）操作，其中d 是训练数据的大小。线性方程组，其产生QP问题的解。因为集合A在开始时是未知的，所以通过添加和删除约束并测试解决方案是否仍然可行来迭代地构造它。算法集合A的构造从初始活动集合0包含有界变量的索引（说谎L L因此可以推断出分解的顺序为O（Nlog（N）），拟合函数的求值顺序为O（N），因此总时间顺序为O。O N logN。5.3. 使用有效集策略的二次规划中等规模算法是一种有效集策略（也称为投影方法），类似于Gill等人在[20]中描述的方法。它已被修改为线性规划（LP）和二次规划（QP）问题。该算法的基本思想是找到活动集A，也就是说，这些不平等的约束是充满平等的。如果集合A已知，则KKT条件简化为一个简单的图4不可行解的精细缩放。在可行域的边界上），而在F01;. ;N A0是自由的（位于可行区域的内部）（图1）。4）。然后重复执行以下步骤，k= 1，2，.. . ：1. 求出KKT系统中Fk中所有变量的解。2. 如果解是可行的，找到Ak中违反大多数KKT条件的变量，将其移动到Fk，然后转到1。3. 否则，在可行域的边界上找到新旧解之间的中间值，将一个有界变量从Fk移动到Ak，然后转到1。在步骤3中获得的中间解计算如下：gak-1，最大g[0，1]（affine scaling），其中a-k是步骤1中线性系统的解，即新的α k位于α k-1与α k的连线上，见图13。四、而最佳的发现，如果在步骤2中没有违反-ing变量留在Ak中。算法复杂度有效集算法需要ON2N内存，其中N是无界自由变量的个数。5.4. 最小二乘支持向量机SVM分类器的最小二乘版本由分类问题公式化为[21]：癌症数据库数据预处理缩放图5癌症诊断模型的方法学。●支持向量机在癌症疾病诊断中的比较研究892P¼nkw kL P w; b;a;f！ w ¼我爱你12C@f我12nKLKK ‘KK‘我@图9测试数据的阳性预测值，40-60%训练测试分区。SVM-PSO算法具有最高的精度。1CXn221/1@ωωωωXωð24Þ@w我以yihw：xiib1-fi;i1;2;. 为准。 . ;n@Lωwω;bω;aω;fωn-Xaωy0根据等式（19），它们的对偶问题建立如下：@fP iið26ÞXnXn@Lwω;bω;aω;fω ！aω¼CfLD2k wk21/1 fi-j1aifyi½wxib] -1fig：2025@fLPwω;bω;aω;fω ！yihw·xiib-1ni¼0其中ai是拉格朗日乘数（可以是正的或负），现在由于来自Kuhn-Tucker条件[18]的等式约束可以直接写成以下线性方程组的解[18]ð27Þ其中，z=1/2x Ty1;x Ty2; ;. . ;x Tyn];y1/2y1;. . . ;yn];~1½1;. . . ;1];e1/2e1;.. . ;eN];a1/4/2a1;. . . ;aN]解决方案也是gi-甚至比图6测试数据的校正率值，40ð28ÞMercerX¼ZZT;其中XyyxxLSSVM使用一组线性方程进行训练，而SVM使用二次优化问题，则X AB是方程AX B的解，通过部分旋转的高斯消去法计算[22]，这是一种技术，图7测试数据的特异性值，40-60%训练测试分区。SVM-PSO算法具有最高的精度。图8测试数据的灵敏度值，40-60%训练测试分区。SVM-QPSO算法具有最高的精度。图10测试数据的阴性预测值，40 -60%训练测试分区。SVM-QPSO算法具有最高的精度。测试分区 SVM-PSO算法具有最高的精度。我们使用LSSVM。minni2我90新罕布什尔Sweilam等人--支持向量机用于癌症疾病诊断的比较研究算法复杂度高斯消元法通过“n（n + 1）/2”除法、“（2 n 3 + 3 n 2 5n）/6”乘法和“（2 n 3 + 3 n 2 5 n）/6”减法求解n个未知数的n个方程组，总共大约“2 n 3 /3”运算。所以它的复杂性ON3。6. 方法图11测试数据的错误率，40-60%训练测试分区。SVM-PSO算法的误差最小。图5描绘了通过使用缩放（我们将每个属性线性缩放到[0，1]的范围）预处理数据的癌症诊断模型的所提出的方法，预处理的数据被分成训练和测试（独立）数据集。训练数据集用于构建SVM分类器。有效性图12使用PSO训练SVM得到的分类器的受试者工作特征（ROC）曲线。曲线下面积为0.96281。图13通过QPSO训练SVM得到的分类器的受试者工作特征（ROC）曲线。曲线下面积为0.95983。90新罕布什尔Sweilam等人使用SVM分类器区分癌症患者与非癌症对照的灵敏度和特异性来评估使用分类器创建的每个分类器的分类结果。SVM分类器是为各种特征组合而构建的，直到SVM分类器的分类准确度达到其最大值。分类准确性的估计值通过使用交叉验证方法计算，其中验证数据集用于评估泛化误差。构造分类器（即训练SVM）的四种不同方法是：1. 粒子群，2. 量子行为粒子群，3. 二次规划采用有效集策略，4. 最小二乘支持向量机线性方程组部分主元的高斯消去法实验在UCI的威斯康星州乳腺癌数据库（WDBC）上进行[23]。分析了从人体乳腺组织中的细针抽吸物获得的数据它们已由威斯康星大学麦迪逊分校医院的Wolberg和Mangasarian收集。该数据由683份记录组成，这些记录是从患者乳房采集的细针抽吸物的虚拟核特征。对4种方法的结果进行了比较。7. 实验结果与讨论对这四种不同的支持向量机训练方法的有效性进行了评价和比较。图14分类器的受试者工作特征（ROC）曲线，来自使用QP训练SVM。曲线下面积为0.95442。图15LSSVM训练得到的分类器的受试者工作特征（ROC）曲线曲线下面积为0.93788。.2k-k¼exp-.支持向量机用于癌症疾病诊断的比较研究因此，另外两种机器学习技术也被评估。7.1. 绩效评价图16显示四个离散分类器的基本ROC图a. 粒子群优化：编写了一个MATLAB代码，用粒子群算法训练支持向量机. KKT条件需要在0.005的误差阈值内满足，以便快速找到最优解。上限C保持在100.0。b. 量子行为粒子群：编写了一个MATLAB代码KKT条件需要在0.02的误差阈值内得到满足。当工作集上的KKT条件在0.001的误差内得到满足时，或者当群体已经优化了500次迭代时，工作集的优化终止为实验QPSO定义了以下参数：通过让c=10，总共选择了20个初始支持向量来启动算法。收缩-膨胀系数h的值a的线性减小到0.3，因此h/v =0： 7- 0： 3ωMAXITER-T=MAXITER 0： 3。对于每个实验，上限C保持在100.0。a. 使用活动集策略的二次规划：使用MAT-LAB工具箱的BIOINFO下的BIO-LEARNING工具箱.b. 最小二乘支持向量机：使用 MATLAB 工具箱BIOINFO下的BIOLEARN-ING工具箱培训是做与的内核 function：kx;xix xi1： 02上述比较的目的是将量子粒子群和粒子群训练的SVM的为了评估所给方法的有效性，使用了几种措施。这些指标是分类准确性（图6）、特异性分析（图7）、灵敏度（图8）、阳性预测值（图9）、阴性预测值（图10）、错误率（图11）、受试者工作特征（ROC）曲线。 12 -15和混淆矩阵[25]。离散分类器：只输出类标签的分类器。每个离散分类器产生对应于ROC空间中单个点用PSO训练SVM的分类器结果显示出最佳的曲线下面积，这意味着该分类器具有更好的平均性能。离散Roc曲线（图16）。ROC空间中有几点值得注意。左下角的点（0，0）代表从不发布正分类的策略;这样的分类器不会犯假阳性错误，但也不会获得真阳性。相反的策略，即无条件地发布积极的分类，由右上角的点（1，1）表示点（0，1）表示完美分类。B、C非正式地说，ROC空间中的一个点比另一个点好如果它位于第一个区域的西北部（TP率较高，FP率较低，或两者兼而有之）。出现在ROC图左侧，靠近X轴的分类器可能被认为是保守的：它们只有在强有力的证据下才能做出积极的分类，所以它们很少出现假阳性错误，但它们通常也有很低的真阳性率。出现在ROC图左侧，靠近X轴的分类器可能被认为是保守的：它们只在有强有力证据的情况下才进行积极的分类，因此它们很少出现假阳性错误，但它们通常也有很低的ROC图右上方的分类器可能被认为是自由的：他们用弱证据进行肯定分类，所以他们几乎正确地分类了所有的阳性，但他们通常有很高的假阳性率。8. 结论为了更好地评价群体智能训练的SVM的性能，本文还对另外四种机器学习技术进行了评估，选择了PSO、QPSO、活动集策略和LSSVM，PSO和QPSO在集合上的考虑到拟议比较研究中的异常评估等级特征超出了我们在这项工作中的计划，因此在这项工作的扩展中将考虑重新比较所述技术。在使用SVM时，面临着三个问题：如何选择SVM的核函数和最佳输入特征子集，以及如何设置最佳的核参数。这些障碍是至关重要的，因为特征子集的选择需要适当的核参数，反之亦然。特征选择是构建分类系统的一个重要问题将分类器中的输入特征的数量限制为，以便具有良好的预测性和更少的92新罕布什尔Sweilam等人计算密集型模型。建立一个能够同时处理这三个障碍的模型是一个非常重要的问题，需要在未来进一步研究和工作。引用[1] West D，Mangiameli P，Rampal R，West V.医疗诊断决策支持系统的包围策略：乳腺癌诊断应用。欧洲手术研究杂志2005;162：532[2] [2010年5月访问]。[3] 放大图片作者：Kordylewski H，Gravid D，Liu K.一种新型的大记忆神经网络在医疗诊断中的应用。IEEE Trans InformTechnol Biomed 2001;5（3）：202[4] Wolberg WH，Street WN，Mangasarian OL.通过数字图像分析进行乳腺细胞学诊断。分析定量细胞学期刊1993;15（6）：396-404。[5] Mu T，Nandi AK.使用具有不同参数调整系统和SOM-RBF分类器的SVM从FNA检测乳腺癌。J Franklin Inst 2007;344（3[6] 瓦普尼克统计学习理论的本质。New York：Springer-Verlag.[7] Murtaghand BA，Saunders MA.大规模线性约束优化。数学程序设计1978;14：41[8] 范德贝河LOQO ：二次规划的内点编码。优化方法软件1999;12：451[9] 杨文龙，王晓梅，王晓梅.一种改进的支持向量机训练算法。见：国家核安全计划; 1997年。[10] Joachims T.SVMLight网站：.[11] CollobertR，BengioS.SVMTorch：http://www.idiap.ch/machine_learning>.[12] PlattJ，SchoülkopfB，BurgesCJC，SmolaAJ. 使用序列最小优化的支持向量机快速训练。在：核方法支持向量学习的进展。Cambridge，MA：MIT Press; 1999. p. 185-208.[13] 张CC ，林CJ. LIBSVM ：一个支持向量机库; 2001 年。http://www.csie.ntu.edu.tw/_cjlin/libsvm>.[14] 李文，等.拉格朗日支持向量机.北京：计算机科学出版社，1999.马赫学习研究杂志2001;1：161[15] Kennedy J，Eberhart R.粒子群优化算法见：IEEE神经网络国际会议论文集，IV[C]，第4卷（2）. Piscataway，NJ：IEEEService Center; 1995.第1942- 1948页。[16] 唐F，陈M，王Z.一种新的支持向量机训练方法。系统工程电子杂志2006;17（1）：200[17] 孙军，冯波，徐伟.具有量子行为粒子的粒子群优化算法。在：进化计算大会。IEEE，Piscataway，NJ，ETATS-UNIS（专著）; 2004年。p. 325比31[18] 弗莱彻河实用的优化方法Wiley; 1988.[19] Joachims T，Scolkopf B，Rhurges CJC，Smola AJ.使大规模SVM学习变得实用。在：核方法支持向量学习的进展。Cambridge，MA：MIT Press，1999.第169- 184页。[20] Gill PE，Murray W，Saunders MA，Wright MH. 具有边界和一般线性约束的混合优化问题的程序。ACM Trans MathSoftware 1984;10：282-98.[21] Suykens J，Vandewalle J.最小二乘支持向量机分类器。神经过程快报1999：293[22] David G.线性和非线性规划。Luenberger Stanford University;2002.[23] Blake CL，Merz CJ. UCI机器学习数据库。Irvine，CA：UniversityofCalifornia;1998..[24] Wolberg WH，Mangasarian OL.医学诊断模式分离的多表面方法应用于乳房细胞学。 PNAS 1990;87：9193[25] 手J，直到RJ。多类分类问题的ROC曲线下面积的简单推广。Mach Learning 2001;45：171

下载后可阅读完整内容，剩余1页未读，立即下载