混合特征选择助力机器学习：慢性肾脏疾病诊断新方法

100 浏览量更新于2023-12-10 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200144Chi2-MI：一种基于混合特征选择的机器学习方法在慢性肾脏疾病诊断中的应用SamratKumar Dey a，*，Khandaker Mohammad Mohi Uddin b，Hafiz Md. Hasan Babu c，马里兰州 Mahbubur Rahman d，Arpita Howlader e，K.M. Aslam Uddin fa孟加拉国开放大学科学技术学院，孟加拉国b达卡国际大学计算机科学与工程系，达卡1205，孟加拉国c达卡大学计算机科学与工程系，达卡1000，孟加拉国d孟加拉国达卡1216军事科技学院计算机科学与工程系e孟加拉国Dumki 8602，Patuakhali科技大学计算机与通信工程系f孟加拉国Noakhali 3814 Noakhali科技大学信息与通信工程系A R T I C L EI N FO关键词：机器学习CKD分类特征选择医疗保健信息学A B S T R A C T早期发现和表征被认为是治疗和控制慢性肾脏疾病的关键。由于患者数量的增加、进展为终末期肾病的高风险以及发病率和死亡率的不良预后，慢性肾病（CKD）是医疗保健系统的重大负担。早期发现CKD对于挽救数百万人的生命至关重要。这项研究的独特之处在于开发一个诊断系统，使用不同的机器学习（ML）算法检测慢性肾脏疾病，并支持混合特征选择方法。这项研究利用了400例CKD患者的临床数据，这些数据基于加州大学欧文分校（UCI）在其机器学习存储库中提供的数据集。采用不同的数据准备技术，如编码分类特征，缺失值插补，去除离群因素，处理数据不平衡，在同一水平上缩放数据，以及选择相关特征来为预测模型准备数据集。提出了一种基于卡方检验（Chi2）和互信息（MI）的混合特征选择方法来去除冗余特征，并计算皮尔逊相关矩阵来考虑最重要的特征进行预测。最后，在14个机器学习模型中，EXtrast分类器可以以98%的准确率和2%的真阴性率诊断CKD，而没有数据泄漏。另一方面，Bagging分类器表现最差，准确率仅为60%。1. 介绍肾脏是人体的一个重要器官，因为它可以过滤或清除血浆中的代谢废物，并将其排出尿液。肾脏同样执行以下关键功能：产生和释放调节血压的激素，调节身体慢性肾脏病（CKD）是一种可以在早期治疗的肾脏疾病，但在最后阶段会导致肾衰竭。CKD因其高死亡率而备受关注。根据世界卫生组织根据世界卫生组织（世卫组织）的报告，慢性病已成为新兴国家的重大危险（世界卫生组织，2005年）。2016年，CKD导致全球7.53亿人死亡，其中男性3.36亿人，女性4.17亿人（Bikbov，Perico Remuzzi，&2018）。它被认为是一种“慢性”疾病，因为肾脏疾病逐渐发展，持续时间长，损害泌尿系统的功能。糖尿病、高血压和心血管疾病（CVD）是CKD患者的风险因素（Chen，Zhang Zhang，2016&）。CKD患者会出现损害神经系统和免疫系统的副作用，特别是在晚期。发展中国家的患者可能会到达最后阶段，需要透析或肾移植。* 通讯作者：孟加拉国开放大学科学与技术学院，Gazipur 1705，孟加拉国。电子邮件地址：samrat.sst@bou.ac.bd（S.K.Dey），mohiuddin. diu.ac（K.M.M. Uddin），hafizbabu@du.ac.bd（H.Md.H. Babu），mahbub@cse.mist.ac.bd（医学博士。拉赫曼），arpita.cse@pstu.ac.bd（A.Howlader），aslam@nstu.edu.bd（K.M.A.Uddin）。https://doi.org/10.1016/j.iswa.2022.200144接收日期：2022年8月15日;接收日期：2022年9月25日;接受日期：2022年10月21日2022年10月28日网上发售2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsS.K. Dey等人智能系统与应用16（2022）2001442=-肾小球滤过率（GFR）代表肾脏功能，被医生用来诊断肾脏疾病。使用患者的年龄、血液检查结果、性别和与患者相关的其他参数计算GFR医生可以根据GFR值将CKD分为五个阶段。表1描述了通过GFR测量的肾脏疾病的阶段。如果早期诊断和治疗，可以防止慢性肾脏疾病进展为肾衰竭。解决慢性肾脏疾病的最佳方法是及早发现，但拖延到太晚可能导致肾衰竭，需要透析或肾移植才能过上正常的生活。在慢性肾脏疾病的医学诊断中，使用血液检查来评估肾小球滤液或尿液检查来检查白蛋白。由于慢性肾病患者数量的增长、专业医师的缺乏以及诊断和治疗的高成本，特别是在发展中国家，需要计算机辅助诊断来帮助医生和放射科医师做出诊断决策。机学习（ML）和深学习（DL）是最新分析数据和预测结果的方法。ML模型经过训练，可以使用统计方法、算法和数据生成分类并预测未来事件。如果预先预测患者可能患有CKD，则可以采取预防措施并提供更好的治疗，避免透析或移植等不良结果。糖尿病、心脏病、血压、某些食物和家族史都是损害肾功能并导致CKD的因素。图1描述了影响慢性肾病的一些因素。本文通过应用14种不同的机器学习算法来成功地检测CKD和非CKD，从而有助于开发可复制的混合特征截面方法（Chi 2-MI）。所提出的方法也可以用于另一个类似的健康数据集诊断任何类似的疾病。测试结果和相关研究的比较表明，采用混合特征切片技术的EXtra Trees分类器在几乎所有的数据集模型上都优于其他分类器。2. 相关作品已经进行了大量的研究来利用各种分类算法预测CKD阶段。表2总结了使用机器学习算法和性能指标诊断CKD的当前研究方法。Ahmed等人开发了一种基于模糊的智能系统（ Ahmed ， Kabir ， MahmoodRahman，2014&），用于测试泌尿系统。研究人员利用了一个数据集，其中包括达卡Birdem医院两年（2011Khamparia等人（Khamparia等人，2020）提出了一种使用深度堆叠自动编码器模型来检测CKD的模型。所提出的模型使用UCIKim等人（Kim Ye，&2021）提出了一种遗传算法（GA），该算法基于神经网络（NN）进行CKD诊断。他们提出的GA优化了权重向量来训练NN。研究人员使用了741张超声图像，其中包括251张表1CKD的发展阶段（Anon，2015）。阶段描述肾小球滤过率（mL/min/1.73平方米）正常肾脏，328张轻度和中度CKD图像，162张重度CKD图像。采用人工神经网络（ANN），获得了95.4%的分类率。机器学习技术由Almansour等人提出（Almansour等人， 2019年），在早期阶段诊断CKD。作者在分类方法中使用了400例患者的数据集和与慢性肾脏疾病诊断相关的24个参数研究人员利用ANN和SVM诊断CKD，ANN和SVM的准确率分别为99.75%和97.75%为了诊断CKD数据集，Rady等人（Rady Anwar，2019&）使用了SVM、多层感知器（MLP）和径向基函数（RBF）以及概率神经网络（PNN）方法。作者观察到，SVM，MLP和RBF算法优于PNN方法，准确率为96.7%。Kunwar等人（Kunwar、Chandel、Sabitha Bansal，2016&）利用朴素贝叶斯和人工神经网络（ANN）诊断UCI数据集中的CKD。使用Rapidminer工具进行实验，发现朴素贝叶斯和人工神经网络的准确率分别为100%和72.73%。在这项研究中，作者考虑了四个主要因素：年龄，糖尿病，血压和红细胞计数，以检测CDK。Wibawa等人（Wibawa，Maysanjaya Putra，2017&）利用基于相关性的特征选择（CFS）进行特征选择，利用AdaBoost进行集成学习，以增强CKD诊断。当使用KNN与CFS和AdaBoost的混合时，他们的系统具有98.1%的最高准确率。研究人员还使用了UCI机器学习存储库，其中包含400个实例。Avci等人（Avci，Karakus，Ozmen Avci，2018&）使用WEKA软件进行了另一项工作，以诊断CKD的UCI数据集。作者使用K-Star，SVM，J48和NB分类器来评估数据集，并观察到J 48算法的准确率为99%，优于其他算法。Chiu等人（Chiu，Chen，Wang，Chang Chen，2013&）开发了利用神经网络方法对CKD进行分类的智能模型。对于CKD的早期诊断，模型包括广义前馈神经网络（GRNN），反向传播网络（BPN）和模块化神经网络（MNN）。作者提出了混合模型，结合了遗传算法与先前所述的模型。Sara等人（Sara Kalaiselvi，2018&）使用了两种策略，如特征选择（FS）和混合包装器和基于过滤器的FS（HWFFS），以最大限度地减少数据集的维数，并强烈选择与CKD相关的特征。在提取两种特征的基础上，利用SVM分类器对混合特征进行识别方法是混合的。3. 材料和方法本节广泛讨论了本研究中使用的各种方法和材料。数据集准备技术，混合特征选择方法，和不同的机器学习算法应用于诊断和分析。本研究的主要阶段是检查慢性肾脏疾病（CKD）数据集;因此，使用14种机器学习算法进行了几项实验：Ada Boost分类器，Bagging分类器，CatBoost分类器，决策树分类器，E X tra Trees分类器，Gaussian NaiveBayes（高斯NB），梯度提升分类器，K-最近邻，LightGBM分类器，多层感知器（MLP），随机森林分类器，随机梯度提升，支持向量机（SVM）和XGBoost分类器。Min-Max Scaler和估算K近邻技术估计缺失的数值1肾脏开始工作了>=90价值观与此同时，局部离群因子（LOF）方法被通常2对肾脏的损害轻微60使用合成少数过采样技术（SMOTE）进行类别平衡。随后一道对肾脏的中度30-59一种新的基于卡方检验（Chi2）和互信息（MI）的混合算法4肾脏受损严重12特征选择方法被应用于识别最显著的5肾衰竭已经发生了<=15功能.然后，使用标准标量方法对数据集值进行标准化，然后训练机器学习（ML）模型S.K. Dey等人智能系统与应用16（2022）2001443Fig. 1. 慢性肾脏病（CKD）的影响因素。表2慢性肾脏病预测方法及其性能指标。EX Expertwork数据集模态方法验证性能Ahmed等人（Ahmed等人，2014年度）817例患者临床检测结果判断泌尿系统好坏模糊逻辑随机患者水平行政协调会：86.7%Khamparia等人（Khamparia等人，2020年）UCI的机器学习数据库CKD= 250非CKD= 150CKD与否- CKD检测深度堆叠自动编码器随机患者水平ACC：100%PREC：100%Kim等人（Kim&叶，2021年）Almansour等人（Almansour等人，2019年度）共741张超声图像。251张正常肾脏图像，328张轻中度CKD图像，162张重度CKD图像UCI的机器学习数据库CKD= 250非CKD= 150正常、轻度和中度CKD、重度CKDCKD或非CKD检测人工神经网络分类人工神经网络，支持向量机随机患者水平随机患者水平ACC：95.4%ACC：99.75%（ANN）ACC：97.75%（SVM）Rady等人（拉迪&安瓦尔，2019年）361例印度CKD患者的临床检测结果，包含25个变量(11数字，14分类）CKD概率神经网络（PNN）诊断多层感知器（MLP）、SVM和径向基函数（RBF）随机患者水平ACC：96.7%（PNN）Kunwar等人（Kunwar等人，（2016年）Wibawa等人（Wibawa等人，（2017年）Avci等人（Avci等人， 2018年）UCI的机器学习数据库CKD= 250非CKD= 150UCI的机器学习数据库CKD= 250非CKD= 150UCI的机器学习数据库CKD= 250CKD诊断Naive Bayes算法，ANN随机患者水平诊断CKD KNN，CFS，AdaBoost随机患者水平CKD K-Star、SVM、J 48和NB分类器随机诊断患者水平ACC：100%（初始）贝叶斯算法）ACC：72.73%（人工神经网络）ACC：98.1%（KNN与CFS和AdaBoost的混合）ACC：99%（J48）Chiu等人（邱非CKD= 150CKDBPN的诊断GA随机行政协调会：91.71%430例患者临床试验结果例如， 2013年）CKD = 285+患者水平萨拉等人（萨拉&非CKD= 145UCIS.K. Dey等人智能系统与应用16（2022）2001444诊断CKD SVM+HWFFS（混合包装器和随机ACC：90%Kalaiselvi，2018年）CKD= 250基于过滤器的方法）患者水平非CKD= 150使用这些标准化的数据。为了验证，本研究采用了K折交叉验证方法，最后，在训练数据中，使用One-hot编码技术对训练数据进行编码。图2说明拟议方法的工作流程CKD诊断。S.K. Dey等人智能系统与应用16（2022）20014450if x∈A3.1. 数据集准备图二. 拟议方法的工作流程。表3本研究中使用的CKD数据集收集自加州大学欧文分校机器学习库（Anon，2022 a），其中包括400例患者的慢性肾脏疾病数据。除了用于分类的类特征（例如“CKD”和“非CKD”）之外，数据集还具有24个特征，分为11个数字特征和13个分类特征。诊断分类中有两个值：“CKD”和“非CKD”。数据集属性的概述如表3所示。采用不同的数据预处理方法为模型准备数据集开始时，使用重复检查的样本以避免数据泄漏，并且在数据集中未发现单个重复样本。然后，采用交叉验证和测试方法，将70%的数据用于训练，30%用于测试。开发了仅基于训练集的数据准备程序，并在下一阶段用于两个分区。在清理数据集时，10 cate-已经观察到了gorical（名义上的）特征，并在UCI机器学习库中提供的慢性肾脏疾病数据集的一般概述（Anon，2022a）。数据集特征多变量属性特征实数特征数量（一般为实例数具有数值的特征数量14分类特征数我们认为是独立变量的特征数量目标列名称分类CKD/非CKD定义为CKD的类别数量250定义为非CKD的类别数量150数据源UCI ML Repo其中ei表示第i个坐标为1，其他坐标为0的向量。One-hot-encoding技术，这些特征被编码为0或1。下式(1)重点介绍了One-hot编码方法的工作过程。对于ei，它是标准基的向量ei=1A（x）：={1if x∈A（一）S.K. Dey等人智能系统与应用16（2022）2001446（）下一页（）（）=C∑-E（O）.）（，）log∫ ∫⃒=={∑-）（ -）（iir=表4解释了影响CKD分类的可用特征及其标签的数据集描述。基于这些数据，数据集的当前形式是不平衡的，因为它包括250例“CKD”类（62.5%）和150例“非CKD”病例（37.5%）。数据集的特征或特性包括24个不同的特征和1个二进制分类属性。归一化是另一种通过比较和分离样本来提高机器学习模型在数据中发现模式的能力的方法（Aljaaf et al.，2018年）。令人惊讶的是，数据集包含几个需要插补的缺失值。本研究采用KNN插补技术进行插补，因为其工作原理是通过测量距离进行工作。然而，基于原始数据的直接插补可能是错误的。使用Min-Max Scaller方法（Anon，2022 b）进一步重新调整了功能。通过使用以下等式(2).它在0和1之间重新缩放特征范围。在等式中，χ表示实值，而χmin和χmax是特征fi的最小值和最大值。重新标度的值是χν和χ，χmin，χmax∈fi。χ-χ可视化显示数据集存在类不平衡问题，合成过采样技术已被用于解决该问题。3.2. 特征选择在Qin et al.（2020）中，作者指出，识别医疗信息学中最关键的风险变量有助于消除冗余特征，提高数据一致性，最大限度地减少ML算法训练时间，并提高预测性能。因此，随着时间的推移，使用各种方法来选择特征或消除不太重要的特征越来越受欢迎。近年来，研究人员使用各种策略来挑选相关特征，包括主成分分析（PCA），卡方（Chi2）测试，相互信息，特征消除（Recursive Feature Elimination，RFE）技术。本研究描述了一种新的Chi2-MI混合策略，该策略源自Wrapper特征选择方法。等式（3）和（4）说明了Chi2检验和互信息方法的工作原理在χν=χ最小值最大值-χ最小值（二）卡方检验，c是自由度，O是观测值，E是期望值。另一方面，p（x，y）是联合在下一阶段，为了处理缺失值，本研究采用KNN填补技术，因为数据集包含来自24个特征和400个记录的1008个缺失值。每个样本的缺失值使用在X和Y的概率密度函数，其中p x 和p y是边际密度函数互信息确定联合分布p x，yi与因子化边缘分布的乘积的相似程度。数据集.对于KNN插补方法，考虑k8的值并假设其为均匀权重。表5突出显示了从数据集中2χ2=iEi（三）支持这项研究使用不同的可用数据删除缺失值。此外，可视化14个特征的分布，I（X;Y）=X YP x yP x，yP（x）P（y）中文（简体）它们的缺失值百分比在图3中描绘。从分布来看，有些特征显示出非常遥远的离群值。在这里，3个特征被视为连续值，因为这些是在现实中作为连续的生物变量的度量。然而，一些特征具有高比例的缺失值;因此，它们不能用集中趋势的度量来估算，并且会扭曲它们的分布。另一方面，图4突出显示了标称特征的分布以及数据集中存在的属性的百分比。的表4描述具有不同数据类型的数据集的特征和属性（Anon，2022a）。SL#功能描述数据类型1年龄个人2血压测量值（mm/Hg）数值3sg标称比重4尿液中白蛋白标称值5su血液中的标称糖值标称6rbc红细胞：正常或异常标称值7pc脓细胞：正常或异常标称8pcc Pus细胞团块：存在或不存在标称9ba细菌：存在或不存在标称10bgr血糖随机测量（mg/dl）数值11血尿素（mg/dl）数值12sc血液中的血清肌酐（mg/dl）数值13sod钠（mEq/L）数值该方法消除了冗余特征，并赋予子集λ1重要特征，其中λ1εFeatures（F）。数学解释如下。λ1={εw}-{ε相关性（ 5）εw={xx∈Chi2<$MI}（ 6）ε相关性={x|xε特征中的高相关性}（7）Ch i2={i|i∈从卡方检验中发现的重要特征}（8）MI={i|i∈从互信息中找到的重要特征}（九）在下一阶段中，已经选择了前80%的特征用于进一步分析，并且这些特征被存储在两个不同的Chi2和MI集合中。识别相关特征对于减少冗余也是必不可少的。进一步进行Pearson相关性检验，选取相关性大于85%的高相关性特征，存储在ε 相关中。最后，本文研究的考虑因素ε 相关性SG、Al、SU、SC、Hemo、PCV、RBC、PC、PCC、HTN、DM、APET和PE}。图5显示了从皮尔逊相关矩阵检验中观察到的相关性。Pearson相关矩阵x的数学公式如等式所示。(10).14罐钾（mEq/L）数值15hemo血红蛋白（gms）数值16pcv红细胞压积数值17wbcc白细胞计数（细胞/cumm）数值x x y y√̅∑̅(x̅i̅̅-̅̅ x̅)2∑̅(y̅i-̅y)2（十）18rbcc红细胞计数（百万/立方米）数值19htm高血压：是或否标称20DM糖尿病：是或否标称21冠心病：是或否标称22appet食欲：好或差标称23pe踏板水肿：是或否标称24贫血：是或否标称25分类目标列：分类为ckd或notckd二进制数据预处理的最后一步是标准化。从研究工作的结果中可以明显看出，许多研究人员声称它会显著影响 ML 算法的性能（ Imran ，Amin&Johora，2018）。因此，在进入预测模型之前，本研究使用scikit-learn的标准标量方法对数据进行了分析。以下公式（Eq. (11)）用于计算样本μ的标准值，其中ν被认为是样本均值，我S.K. Dey等人智能系统与应用16（2022）2001447表5数据集的11个数值特征的统计数据分析特征是说STD.MinMax百分之二十五百分之五十百分之七十五年龄（ag）51.483316.9749290425464血压（bp）76.469113.756050180707880血糖随机（BGR）148.037076.583022490101126150血尿素（bu）57.426049.98701.5391274461.750血红蛋白（hemo）12.52602.81503.117.810.8712.5314.625红细胞压积（PCV）38.88408.76209543438.7744钾（罐）4.62702.92002.54744.634.8血清肌酐（sc）3.07204.51200.4760.91.43.070钠（SOD）137.52609.90804.5163135137.53141红细胞计数（rc）4.70700.890082.14.695.18白细胞计数（wc）8406.12002823.3000220026,40069758377.639400图3.第三章。可视化数据集数值特征的特征分布及其在数据集中的缺失百分比。S.K. Dey等人智能系统与应用16（2022）2001448∑0，如果Vi∈Cm=（）Vi，Vj）=k=1图四、可视化数据集名义特征的特征分布。作为训练样本的标准差。下面的公式将传入的ω（μ-ν）文本与每个训练文本的特征向量（11）∑NTikTjk（∑NTik2∑NTjk2采用数据挖掘技术创建分类模板，以开发新颖且可理解的模式（Aldhyani，Alshe-bami Alzahrani，2020&）。在临床和医学诊断中用于回归和分类的监督和无监督学习方法都需要基于过去的分析创建模型。在本节中，所解释的分类技术被用于本研究。这里，Vi是输入文本的特征向量，Vj是训练文本的特征向量特征向量的维数由N定义。向量Vi和Vj的第k个元素分别是Tik和Tjk的KNNKQ （ Vi ， Cm ） =sim （ Vi ， Vj ） δ （ Vi ， Cm ）（ 13）j=13.3.1. K近邻分类器该算法旨在保持相似的对象靠近在一起。该模型δ（Vi，Cm）={1，若Vi∈Cm3.3.2. 随机森林分类器（十四）（ Chatzigeorgakidis ， Karagiorgou ， Athanasiou Skiadopoulos ，2018&）. KNN跟踪所有案例，并使用相似性度量来帮助对新案例进行分类。文本在K近邻中由空间向量SS T1，W1;T2，W2;... T n，W n 2 ;. 培训文本用于查找和计算任何文本的相似性，并且选择具有最高相似性的文本。最后，使用K个邻居来确定类别。该算法创建了大量协同工作的决策树。在这种方法中，决策树充当支柱。术语最好的特征是在构建了大量的树之后从随机选择的特征中选择的。决策树算法产生的另一个想法SIM（十3.3. 机器学习模型k=1k=1S.K. Dey等人智能系统与应用16（2022）2001449我我我||+W×公司简介2（）=（）+（）一图五、皮尔逊相关矩阵，用于从数据集中识别相关特征。正在生成决策树。因此，随机森林包括这些树，这些树用于对来自输入向量的新对象进行分类。每个决策树都被用来对数据进行分类。如果投票被分配给该类别，则随机森林将从森林中的所有树中选择具有最多投票随机森林分类器的数学公式如下： -mleft（j）Tleft（j） -mright（j）Tright（j）（15）Pi sub（j）=节点j的重要性mally，如果它这样做没有错误，并且最接近超平面的向量之间的距离是最大的。因为Eq. (16)有一些重复，它是可以接受的检查一个典型的超平面，其中参数w和b是有限的方程。（十七）、（w，x）+b= 0（17）小i|.w，xi）+b=1（18）当量(19) 计算点x和超平面（w，b）之间的距离d（w，b; x）。m sub（j）=到达节点j的T sub（j）=节点j的杂质d（w，b;x）=|(w, xi)+ b|||W||（十九）left（j）=节点j从左向右拆分子节点（j）=节点j从右3.3.3. 支持向量机根据Eq. (18)，最大化裕度产生理想的超平面。差额计算如下：ρw，b min d w，b;xi min d w，b;xixi：yi=-1xi：yi= 1=min|（w，x）+b |+min|（w，x）+b|用于分类的支持向量机是监督学习评估数据和检测机器学习模式的模型。的xi：yi=-11（||w|||(w, x)+ b|xi：yi=1||w|||）的方式|)（二十）基本SVM是一种非概率二元线性分类器，数据，并预测两个可能的类中的哪一个将形成为||W||minxi：yi=-1minxi：yi=1||w||每个输入（Zhang，2012）。一种SVM训练方法创建了一个模型，该模型基于一系列单独标记为属于两个类别之一的训练示例将传入实例分配到两个类别之一。除了线性分类之外，支持向量机还可以通过将其输入隐式转换为高维特征空间来有效地进行非线性分类，称为核技术。在数学上，SVM可以定义为两个类的训练数据首先堆叠成一个napq a矩阵XX。这里，观测的数量由p表示，变量的数量由q定义。X的第i行用xi表示。另一个对角pp矩阵XY，其中-1和1表示每个Xi属于类1还是类1。SVM的主要挑战是用超平面将训练向量的集合划分为两个不同的组D={.x1 ， y1 ）， n ， .xl ， yl ） }， x∈R ， y∈{-1 ， 1}（16）|2|||w||因此，分离数据的最佳超平面是使用Eq. （二十一）、φ（w）= 1||W||第二章（二十一）假设下面的限制成立，看看如何最小化方程。(21)与采用结构风险最小化（SRM）原则相当。||A类（22）||

下载后可阅读完整内容，剩余1页未读，立即下载