基于核典型相关分析的特征选择方法mRMJR-KCCA及其性能评估

62 浏览量更新于2024-01-22 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

专家系统与应用：X 4（2019）100014基于核典型相关分析的王艳a，双仓b，刘晓波，俞洪年c，d，刘晓波a中原工学院电气与信息工程学院，郑州，450007b燕山大学经济管理学院，秦皇岛066004c郑州大学电气工程学院，郑州450001d工程与建筑环境学院，爱丁堡龙比亚大学，爱丁堡EH10 5DT，英国Ar ticlei n f o ab st ract文章历史记录：2018年9月22日收到2019年7月10日修订2019年8月2日接受在线预订2019年保留字：特征选择联合冗余核典型相关分析互信息不完全Cholesky分解将核典型相关分析（KCCA）度量与基于互信息（MI）的特征选择方法相结合，提出了一种基于滤波器的特征选择方法mRMJR-KCCA。mRMJR-KCCA最大化特征候选与目标类标记并同时最小化特征候选和KCCA视图中已经选择的特征之间的联合冗余。为了提高计算效率，我们在mRMJR-KCCA中，采用不完全Cholesky分解来近似核矩阵，实现了大规模数据集的KCCA。该方法在13个分类相关数据集上进行了实验评估。实验结果表明，与一些常用的特征选择方法相比，mRMJR-KCCA具有更好的性能© 2019由Elsevier Ltd.发布。这是CC BY-NC-ND许可下的开放获取文章。（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。1. 介绍手工特征作为大多数机器学习方法的输入，是从原始数据生成的定量和信息变量。特征可以是时域（Machado、Gomes、Gamboa、Paixão、&Costa，2015）、频域（Suto、Oniga、&Sitar ， 2016 ）和混合（ Montalto 、 Guerra 、 Bianchi 、 DeMunari、&Ciampolini，2015）。初始特征通常包括冗余或可能太大而无法有效处理，这导致了几个问题，例如学习中涉及的计算成本较高，学习效率较低，过度拟合看不见的数据等（Chu ， Liao ， Ng ， &Zhang ， 2013; Gheid& Challal ， 2016;Guyon& Elisseeff，2003）。特征选择（FS），通常用作降维策略，通过去除冗余和不相关的特征来选择原始特征集的较小尺寸的子集。所选特征是原始特征的一部分，无需进行任何特征变换，并保持原始特征的物理意义。通过这种方式，FS可以帮助用户更好地了解他们的数据，∗通讯作者。通讯作者：燕山大学经济管理学院，秦皇岛066004，爱丁堡龙比亚大学工程与建筑环境学院，爱丁堡EH10 5DT，英国。电子邮件地址： cangshuang@ysu.edu.cn （ S.Cang ）， yu61150@IEEE.com（H.Yu）。最丰富的特征，从而促进学习，增强生成性能并提高模型的可解释性（Tang，Alelyani，Liu，2014）。为分类或回归任务设计的监督FS方法通常被视为以下类型：过滤器（ Gheid &Challal ， 2016 ），包装器（ Bolón-Canedo，Sánchez-Maroño，&Alonso-Betanzos，2013）和嵌入式方法（Li，Cheng等人，2017; Li，Zhu等人，2017年）。过滤方法通过使用特定的选择标准评估特征与类标签的相关性来过滤不相关的特征（Urbanowicz，Meeker，LaCava，Olson，&Moore，2017）。过滤算法首先根据标准对原始特征进行排名，然后选择排名较高的特征。上述选择过程独立于任何分类器，计算效率高，通常在性能和效率之间进行权衡。选择标准在基于滤波器的FS方法中起着关键作用。在过去的几十年里，已经探索了一系列标准，例如如距离测量、相似性、依赖性、互信息（MI）、相关性测量、典型相关性分析（CCA）（Dessstellar等人，2015; Gheid等人，2016，Li，Cheng et al.，2017; Li，Zhu等人，2017年）。作为最大的基于过滤器的FS方法家族，基于MI的FS算法通过其具有类别标签的选择标准来测量特征的重要性，假设与标签具有较强相关性的特征将改善https://doi.org/10.1016/j.eswax.2019.1000142590-1885/© 2019由Elsevier Ltd.发布这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。可在ScienceDirect上获得目录列表专家系统与应用：X期刊主页：www.elsevier.com/locate/eswax2Y. Wang，S.Cang和H.Yu/ Expert Systems with Applications：X 4（2019）100014=f−S..p（x）p（y）pRu∈R，v∈RR（u X Xu）（vYYv）分类性能。MI 家族中流行的算法是最小相关性最大相关性（mRMR）（Peng，Long，Ding，2005）、联合互信息（JMI）（Bennasar，Hicks，&Setchi，2015），条件互信息最大化（CMIM）x和y之间的MI定义为：I（x; y）= H（y）− H（y|x）=.p（x，y）p（x，y）x为oh（一）（Gao，Ver Steeg，Galstyan，2016）等。MI考虑成对变量的近似，然后使用简单的近似策略，即，总和或平均值，以近似一个变量（特征或标签）与多维变量（例如，（Brown，Pocock，Zhao，Luján，2012）.结果，基于MI的FS共享一个共同的问题，即，它没有充分考虑一组变量之间的互补性。与多元线性相关不同，CCA通过最大化两组多维变量之间的相关系数来度量两组多维变量之间的线性相关。共同国家评估其中H（y）表示y的熵，其量化离散或离散化随机变量y的不确定性程度，并且H（x|y）表示给定y时x的条件熵; p（.）是概率质量函数（Bennasar等人，2015年）。MI表示x和y共享多少信息，它是非负的，如果x和y独立，则等于零。最小冗余最大相关性（mRMR）算法（Peng等人，2005），它直接使用MI值的冗余和相关性的参与变量，是最流行的FS方法之一。mRMR的评级标准为由于其线性，可能无法提取数据的有用描述KCCA是一种非线性的相关性度量方法，它通过核技巧JmRMR（fk）maxl∈S，fk ∈FI（fk;C）− 1|S|I（fk;fl）（二）（Hardoon，Szedmak，Shawe-Taylor，2004年）。CCA或KCCA很容易用作特征选择器（Mehrkanoon& Suykens，2017; Yoshida，Yoshimoto，&Doya，2017）。受基于MI的FS方法和基于CCA的FS方法的启发，本文提出并实现了一种新的FS方法mRMJR-KCCA。mRMJR-KCCA通过使用KCCA最大化特征候选与类别标签之间的相关性，并且同时最小化特征候选与已经选择的特征之间的联合冗余。在UCI1的10个分类相关基准数据集和我们的三个地面实况数据集（涉及21个volunteers的17个日常活动）上对拟议的mRMJR-KCCA进行了实验评估我们还将mRMJR-KCCA与其他可用的流行FS方法进行了比较，包括MCR-CCA和mRMR-CCA（Kaya，Eyben ， Salah ， Schuller ， 2014 ）， Autoencoder （ Wang ，2016），稀疏滤波（Ngiam，Chen，Bhaskar，Koh，Ng，2011），四种基于MI的方法（Brown等人，2012年）。本文的主要贡献是：（1）mRMR在度量候选特征之间的冗余度以及成对的已经选择的特征，这在某种程度上没有充分考虑已经选择的特征内的互补性。我们提出的mRMJR-KCCA将KCCA的测量引入mRMR，其用KCCA分析代替mRMR中的和的近似来测量特征候选与已经选择的特征之间的联合冗余。（2）：我们应用不完全乔莱斯基分解（ICD）（Li，Bi，Kwok，Lu，2015）来降低大规模地面真实数据集上mRMJR-KCCA实现中核矩阵的维数。(3)我们还研究了核参数和ICD从核矩阵中分解的分量数量对分类精度的影响。本文的其余部分组织如下。第二部分介绍了多元智能和共同国家评估的基本原理及相关研究。第3节介绍了所提出的方法，mRMJR-KCCA，及其实现。第四节给出了实验结果和讨论。结论见第5。2. 相关作品和基本原理其中I（;）在等式中给出。(1)，fk是特征候选;F是整个特征集;S是已经选择的特征集; fl可以是S 中的任何特征;以及C是类别标签。中的第二项当量(2)根据成对变量考虑特征候选和任何已经选择的特征之间的冗余，这没有充分考虑给定第三个或更多变量的联合相关性和条件冗余。改进的互信息度量可以处理三个变量之间的MI，其中之一是条件互信息最大化（CMIM）（Brown等人，2012年）。CMIM的相应标准是J cmim（f k）= I（f k; C）− max [I（f k; f l）− I（f k; f l|C）] （3）其中附加项I（f k; f l|C）包括与mRMR标准相比给定类别标签C的冗余。其他两种典型的基于 MI 的方法是联合互信息（JMI），它包括在特征候选和给定类别标签的已选择特征之间共享的互补信息。JMI的标准在Eq. (4)下面（Brown等人，2012年）。双输入对称相关（DISR）是通过估计归一化H（fk，fl;C）对JMI的修改。J JMI（f k）= maxI（f k，f l; C）（4）fl∈S其中I（fk，fl; C）是变量f k的联合互信息，fl和C.2.2. CCA和KCCACCA在统计上发现两组随机变量X和Y之间的相关性（Hotelling，1936）。表示X =（x1，. . . xp）∈RN×p，Y=（y1，. . . yq）∈RN×q. X和Y可以是两个特征空间，也可以是一个特征空间和一个标签空间。为了获得两组变量之间的相关性，CCA找到线性投影u，以及Y空间中的线性投影v，以最大化下面的等式中的样本相关性。 (5). 使得投影数据urX和vrY具有最大相关性。=argmax，urXrYvRR（五）本文考虑了两类FS方法，第一类是基于MI的FS方法。MI是最有效的标准之一来衡量变量之间的相关性。设x和y是两个离散随机变量，x和y都有N个观测值，1http://archive.ics.uci.edu/ml/。基于CCA的滤波器FS方法旨在使用相关性（通过等式(5)）之间的两个投影的可变集，以找出最重要的原始特征。Kaya等人（2014）提出了两种基于CCA的FS方法。第一种方法被称为mRMR-CCA，它用CCA系数代替MI指标，如等式2所示。(6).方程中的第二项（6）从等式（6）中的成对冗余的和改变。（2）至2.1. 基于熵和MI的FSCCAQρY. Wang，S.Cang和H.Yu/ Expert Systems with Applications：X 4（2019）1000143=; −;−=，=，11mRMR−CCA--|--KKK从多维变量中处理一次的冗余。他们证明了他们的方法在一些基准数据集上的有效性。考虑方程（6）- （9 ），我们提出一个新的J（f）=max[ρ（f;C）−ρ（f;S）]（6）内核版本FS方法，即，mRMJR-KCCA，通过将KCCA应用于当量(9) 等式(6). mRMJR-KCCA的标准是其中，ρCCA在等式中给出。(5).的二方法在Kaya等人（2014）是最大集体相关性（MCR-CCA），类似于JMI，它最大化了特征候选和已经选择的特征与类别标签的集体相关性。MCR-CCA的标准是JMCR−CCA（fk）=max[ρCCA（fk<$S;C）]（7）CCA描述了两组变量之间的线性相关性，这通常不足以揭示与许多真实世界数据的高度非线性相关性（Wang等人， 2015年）。KCCA提供了CCA的非线性扩展，在执行CCA之前，通过将数据映射到更高维的特征空间来实现非线性相关性（Sakar，Kursun，&Gurgen，2012）。因此，两组随机变量X和Y之间的KCCA应用的相关性是识别使X和Y最大化的权重α、β。JmRMJR KCCA（fk）max[ρKCCA（fkC）ρKCCA（S fk）]（10）fk∈F-S其中ρKCCA是由KCCA计算的两组变量之间的相关系数，在等式中给出。 (9). 值得注意的是，我们实际上使用ρcorr（皮尔逊特征候选和目标标签的相关性）。(10)，因为CCA或KCCA基本上执行计算Pearson&X和Y是等式中的两个向量（例如f k和C）。(5) 或等式(8)mRMJR-KCCA结合了mRMR和KCCA的思想，以最大化特征候选与目标类别标签之间的相关性，同时最小化已经选择的特征与特征候选之间的联合冗余。方程中两个变量之间的MI。(1)（2）是和离散变量x和y之间的MI，如果没有更高的ρKCCAargmaxα， βαrKX KYβ（αrKXKXα）（βrKYKYβ）（八）顺序统计依赖性比相关性（图1（a））。在Eq. (5)从X和Y找到一对线性变换，使得提取的特征之间的相关系数其中KX=XXr和KY=YYr是对应的核矩阵。对变量集合X和Y进行运算。然而，在Eq. (8)导致不适定的逆问题，因此需要正则化方法来构建典型相关的有意义的估计量（Ashad Alam& Jumumizu，2015; Bach& Jordan，2002）。正则化核CCA的目标函数变为最大化（图1（b））。Eq中的KCCA(8)找到两个视图的非线性投影对，以及最佳投影可以通过将数据案例映射到特征向量fx（x）和fx（y）来最大化X和Y之间的相关性，如图1（c）所示。方程中的第二项（2）（Brown等人， 2012年）被取代根据等式2中的具有新冗余测量的成对冗余的和的近似，(6)（Kaya等人， 2014），其由CCA针对多维变量处理一次。我们ρKCCAargmaxα， βαrKX KYβ（αrKX KXα+<$αrKXα）·（βrKYKYβ+<$βrKYβ）（九）提出的mRMJR-KCCA进一步改变了CCA的测量由方程式（6）KCCA，如等式中所示。（十）、为了实现mRMJR-KCCA，特别是对于大规模数据集，我们应用不完全乔莱斯基分解（ICD），其中，是正则化参数，其应该是小的，正值，并随着样本量的增加而接近零N（Lisanti，Masi，Del Bimbo，2014）.在 KCCA，的输入 X={x p}N 和 Y={y q}N 引起核核矩阵近似由于其具有少得多的样本的精确矩阵近似而提高了计算效率（Patel等人， 2016年）。ICD生成低秩矩阵N×M（M）N）通过执行标准的Cholesky分解，矩阵K X K Y 都是N×N的大小。因此，解决当量（ 9）涉及一个大小为N × N的特征值问题，它是前-在内存（存储内核矩阵）和时间上都是被动的，单纯的成本是O（N3）（Wang Livescu，2015）。为了克服这个问题，已经实现了一系列核近似技术提出了扩展 KCCA 的方法，包括奇异值分解（ SVD ）（Chakraborty，Chatterjee，Dey，Ashour，Hassanien，2017），Nyström方法（Patel，Goldstein，Dyer，Mirhoseini，Baraniuk，2016），不完全Cholesky分解（ICD）（Li，Bi，Kwok，&Lu，2015）等。应用上述近似方法后，计算KCCA的效率可以大大提高（Wang Livescu，2015）。3. 提出了一种基于KCCA的特征选择方法在过去的二十年中，KCCA一直用于统计和机器学习中的各种目的，例如特征学习（Sakar 等人，2012 ），计算视觉（Bilenko和Gallant，2016），统计独立性测量（Lopez-Paz，Hennig，&Schölkopf，2013）等。 Lisanti等人（2014）通过应用基于KCCA的学习方法来研究跨相机视图的人匹配，以在他们提出的描述符之间找到共同的物质，他们的实验结果证明了所提出的方法的优越性。Sakar等人（2012）提出了一种用于特征选择的滤波器方法，旨在找到唯一信息，该方法利用KCCA探索的相关函数作为mRMR的输入。考虑到列的数量（M）较少，终止所述分解。因此，在方程中的大小为N × N的特征值问题的复杂性。（ 9）变成O（M2N）（Hardoon et al.， 2004年）。表1详细说明了在本实施例中实施mRMJR-KCCA的过程本文mRMJR-KCCA算法通过特征候选与目标类别标签之间的最大相关性以及特征候选与已经选择的特征之间的最小联合冗余来对特征进行排名，如等式2所示。(10).应注意，非线性相关系数用于对遵循等式（1）的特征候选进行排序。(10)通过KCCA中的转换获得。然而，系数仅用于对特征进行排序，具有较高排序的所选特征仍然是原始特征而不是变换后的数据。下面详细解释表1中的mRMJR-KCCA算法的步骤步骤1：将特征值标准化为[0 1]范围。此步骤确保所有特征具有相同的重要性。步骤2：基于等式中的第一项计算每个特征候选与类别标签的相关性得分。（十）、步骤3：选择在步骤2中具有最大相关性得分的第一个特征fs步骤4：更新S=Sf s，F=Ff s。步骤5：使用等式（1）计算mRMJR-KCCA。(10).此外，ICD被采用来改进KCCA在Eq中的实施。（十）、CCACCA4Y. Wang，S.Cang和H.Yu/ Expert Systems with Applications：X 4（2019）100014关于我们--|--Fig. 1. MI、CCA和KCCA的表示。表1mRMJR-KCCA的伪代码算法mRMJR-KCCA：最大相关和最小联合冗余核CCA输入：原始特征集F，待选特征数U输出：选定的特征集S初始化F=f1，f2，. . . fl，. . . fn，S=，U将特征规格化为[01]使用公式计算ρKCCA（f n，C） (9)对于每个f n，类标签为C选择具有最大ρKCCA（fn，C）的第一个特征fs更新S=Sfs，F=F fs如果你想要的数字计算mRMJR-KCCA：ρKCCA（fk; C）− ρKCCA（S; C），如下等式：（十）选择最大化mRMJR- KCCA的下一个功能更新S、F端将S写入Excel文件表2实验中使用的UCI数据集和地面实况数据集的描述数据集数据类型#特性#类#实例年1血液房4274820082糖尿病整数，实数8276819903个心脏分类，真实132270N/A4虹膜房4315019885帕金森氏症房22219520086种子房7321020127 Wdbc房30256919958葡萄酒整数，实数13317819919酒红房1161599200910 Wpbc房332198199511 X_HAR房751732,844201512 Y_HAR房2961732,844201513 Z_HAR房3711732,8442015步骤6：选择下一个使mRMJR- KCCA最大化的特征。第7步：如果已选择的特征数量低于要选择的特征数量，值得注意的是，与Kaya等人（2014）的CCA方法相比，主要差异在于步骤5。由于应用Eq. (9)在提出的Eq. (10)，我们利用ICD来近似核矩阵并将特征映射到非线性空间中，特别是对于较大尺寸的数据集，例如表 2 中的 X_HAR 、 Y_HAR 和Z_HAR的数据集。4. 实验和结果4.1. 基准数据集和学习算法我们采用10个UCI基准数据集和3个地面实况数据集来评估mRMJR-KCCA的性能这些数据集都与分类问题有关，涵盖了二元类和多类;数据类型包括实数、整数和分类;原始特征的数量从4到371不等;每个数据集的样本数量从150到32，844不等。地面实况数据集10数据组11、12和13以20 Hz采样率记录来自21个受试者的17个活动。X_HAR表示从可穿戴设备的姿态（滚动、俯仰和偏航）提取的特征集，Y_HAR是分别从加速度计、陀螺仪和磁力计、气压计和温度的传感器读数生成的特征集。Z_HAR是X_HAR和Y_HAR的组合表2显示了本工作中使用的所有数据集的详细信息。我们使用两种学习算法对选定的特征子集进行实验评估mRMJR-KCCA，即，支持向量机（SVM）和随机森林（RF）由于其在分类应用中的出色性能（Alickovic，Kevric，&Subasi，2018; Chernbumroong ， Cang ， &Yu ， 2014; Sani ， Massie ，Wiratunga，&Cooper，2017）。SVM中的一对参数gamma和c，以及RF中的树的数量分别在10折交叉验证过程中确定。测试结果表明，该系统经过10次测试，平均精度达到90%以上. 同时，我们将我们提出的方法与第1中提出的其他可用的流行FS方法进行了比较。4.2.在所用数据集上的实验结果SVM和RF的分类精度分别如表3和表4所示，其中最好的方法是Y. Wang，S.Cang和H.Yu/ Expert Systems with Applications：X 4（2019）1000145表3SVM分类的分类准确率（%）数据集（所选最佳功能的数量）mRMJR-KCCA（拟议）mRMR-CCAaMCR-CCAa稀疏滤波b自动编码器cmRMRdJMIdCMIMdDISRd第1104章血（四）77.9477.9477.9477.9477.9477.9477.9477.9477.94糖尿病（7）77.9877.9878.1272.2670.1877.9877.7977.9977.79心脏（5）84.0784.9384.8171.4880.3783.3383.8583.3383.70鸢尾花（4）96.6796.6796.6796.6796.6796.6796.6796.6796.67帕金斯（5）92.2191.7491.2491.2692.7692.2190.7489.5890.21种子（3）93.8191.4393.8194.7696.1994.2992.8693.8193.81中文（简体）97.7197.0197.0795.2595.7896.3196.3196.3296.52葡萄酒（10）99.4497.7899.4497.7896.2296.1199.4499.4499.44葡萄酒红（4）68.3568.9868.2970.166.4868.1768.0468.0468.05WPBC（5）80.8279.2680.3776.8278.8281.3778.2678.8278.79X_HAR（20）96.5194.9096.1095.7594.6193.4696.8296.8296.78Y_HAR（20）97.2996.1496.0195.9294.389.8186.8388.2686.98Z_HAR（30）98.5097.7597.7598.0497.5191.1990.6191.7490.63排名634343443Rank表示每个FS方法数字越大排名越高aKaya等人。（2014年）。bNgiam等人。（2011年）。cWang（2016）。dBrown et al. （2012年）。表4RF分类的分类准确度（%）数据集（所选最佳功能的数量）mRMJR-KCCA（拟议）mRMR-CCAaMCR-CCAa稀疏滤波b自动编码器cmRMRdJMIdCMIMdDISRd血（三）75.9475.9475.9475.9475.9475.9475.9475.9475.94糖尿病（6）76.2977.4777.0771.6268.2277.4676.6877.4676.51心脏（3）84.4482.2283.3371.1180.7482.2282.2282.2281.48第1002章鸢尾花（二）96.6796.6796.6796.6796.6796.6796.6796.6796.67帕金斯（10）94.3492.2692.7990.2689.1890.1390.6692.2691.68种子（4）92.8690.4894.2993.8195.2494.7694.2994.2994.29Wdbc（5）96.8496.0896.0894.0296.1496.3996.1996.0595.93葡萄酒（7）97.7595.5797.7896.696.8696.2997.7897.7897.78葡萄酒红（8）64.2964.2963.6660.9170.9864.6062.2363.2962.23WPBC（3）76.8776.7676.7976.7681.7976.7676.3277.2976.29X_HAR（30）96.6295.6396.6593.5592.7494.2896.5596.6396.57Y_HAR（30）97.8095.7995.7994.1793.3996.2596.5296.6996.80Z_HAR（30）98.8097.8897.8795.8195.6796.7195.8896.8695.92排名734252333Rank表示每个FS方法数字越大排名越高aKaya等人。（2014年）。bNgiam等人。（2011年）。cWang（2016）。dBrown et al. （2012年）。每个数据集以粗体突出显示。基于表3中基于SVM的分类结果，mRMJR-KCCA在总共13个数据集上产生最佳性能，具有最大数量（6）的较高排名。mRMJR-KCCA在Blood、Iris、Wdbc、Wine、Y_HAR和Z_HAR数据集上优于其他FS方法。在表3中，基于CCA的方法显示出比基于MI的方法更好的性能。基于MI的方法在数据集Y-HAR和Z-HAR上的精度要低得多，这降低了基于MI的方法的秩和然而，mRMR在数据集Wpbc上的准确度最高，为81.37%。在数据集Blood和Iris上，所有9种FS方法表现出相同的性能，因为Blood和Iris的原始大小很小（=4），并且所有四个特征分别用于分类，因此性能与特征选择方法无关。Autoencoder在Parkinsons和Seeds数据集上的准确率分别为92.76%和96.19。稀疏过滤在数据集Wine_red上表现最好（70.1%）。关于表3中每个FS方法的秩和，自动编码器、MCR-CCA、JMI和CMIM仍然可以提供比其他方法好四倍的性能。考虑到表4中的RF分类结果，mRMJR- KCCA和Autoencoder在13个数据集中排名前两名关于排名第二，其次是MCR-CCA。同时，mRMJR-KCCA优于其他方法7倍RF。自动编码器在表3中使用SVM时优于其他编码器四倍，在表4中使用RF时优于其他编码器五倍。JMI、CMIM、DISR和MCR-CCA在具有RF分类的数据集Wine上表现最佳自动编码器和稀疏滤波在使用SVM和RF的心脏和糖尿病数据集上获得的结果要低得多;这降低了自动编码器在所用数据集上的性能。自动编码器和稀疏滤波器在本文中没有表现出它们的优越性，这可能是因为我们只使用了一层稀疏滤波器和自动编码器。当增加自动编码器和稀疏滤波的层数时，这种优越性可能会显现出来。mRMR在表4中具有RF的数据集Wine_red上产生了70.98%的最高准确度，而在表3中具有SVM的Wpbc上表现最好（81.37%）这意味着，由于参数优化或分类方法的内在质量，即使在相同的特征集上，不同的分类方法也会产生不同的结果。从表3和表4的结果来看，mRMJR-KCCA的性能保持一致，在SVM和RF分类中排名第一;自动编码器在表3和表4中表现良好。6Y. Wang，S.Cang和H.Yu/ Expert Systems with Applications：X 4（2019）100014.Σ图二、在 S e e d s 和 P a r k i n s o n s 的数据集上，分类精度随γ 值（0.1 <$100）而变化。4.3.核参数对KCCA性能的影响为了在本文中产生KCCA中的核矩阵，我们使用高斯RBF核，在等式中给出。(11).这里，x和xr代表两个特征向量。方程中的参数γ (11)不同于内核带宽的选择，这会影响典型特征分布的形状。kx，xr=e−γ<$x−xr<$2（11）因此，我们在表2中选择了三个数据集，以探索核参数γ对本节中不同数据集的影响。图2显示了在Seeds和Parkisons数据集上，分类准确度随mRMJR-KCCA中不同核参数γ这里，我们用不同的步长将γ设置为0.1到100。图2仅呈现了基于以下的结果的一部分：由于某些γ值产生类似的结果，例如，γ=80-100。γ值对不同的数据集有不同的影响。例如，γ=0.9，1和2的值在具有SVM和RF分类的数据集Seeds上产生更好的性能，而γ=0.1和1的值在数据集Parkinsons上表现更好。γ=1在两个数据集上都表现出稳健和稳定的性能。值得注意的是，对于表3和表4中的大多数数据集，我们将γ设置为1。图3显示了当我们固定所选特征的数量时，γ对数据集X_HAR图3.第三章。分类精度与X_HAR上RBF核中不同γ值的关系。当γ=0.3，0.5，0.9，1和2、SVM和RF都取得了更好和相似的结果。这进一步证明了γ=1对于本文中使用的大多数数据集都表现出更好的结果。 γ值的选择对图1和图2中的mRMJR-KCCA的性能具有不同的影响。 2和3 对于表2中的其他数据集，Y. Wang，S.Cang和H.Yu/ Expert Systems with Applications：X 4（2019）1000147××见图4。在X_HAR、Y-HAR和Z_HAR数据集上，分类准确度与ICD中的分量数量。使用mRMJR-KCCA时RBF核中的参数γ可以通过在每个数据集上试验或部署一些算法（例如遗传算法）来获得优化的γ来研究。4.4.ICD中从核矩阵中分解的分量的数量对获得的性能的影响在表2中，前10个数据集的样本量可以是eas-完成KCCA中的完整核矩阵。然而，X_HAR、Y_HAR和Z_HAR的数据集的样本量要大得多（例如，N=32，844），这是内存密集型和计算昂贵的实现O（ N3）核矩阵解决方案.正半定矩阵K可以分解为LL_N，其中L是N N矩阵，不完全乔莱斯基分解（ICD）中的分解是找到大小为N M的矩阵L_N，对于小M，使得K-L_NL_T的差具有小于给定值的范数（Bach等人，2002年）。本文将ICD应用于KCCA的核矩阵逼近，使KCCA的计算复杂度降低到O（M2N），这里M是解的最大秩。我们将M的范围设置为1到100，以研究ICD中X_HAR、Y_HAR和Z_HAR上的组件数量（使用前30个选定特征）。图4显示了效果增加ICD中分解的分量的数量对通过SVM和RF评估的mRMJR-KCCA的性能的影响。从图4中可以看出，ICD中的组件数量对RF分类的X_HAR、Y_HAR和Z_HAR数据集有轻微影响，而使用SVM分类时影响更大。这可能是由于射频调制器中的最佳参数ELS比SVM模型中的对应物更容易获得从图4中，我们还观察到，增加从内核矩阵在ICD中分解的分量的数量并不一定会提高性能。当M=1 、20和50时，mRMJR-KCCA和RF的性能较好;当M=20时，mRMJR-KCCA和SVM的性能最好。因此，从实验结果来看，KCCA中组件数量的影响可能取决于数据集本身。4.5.线性CCA和非线性KCCA提取的特征对性能CCA找到使一组成对变量的相关性最大化的基向量对，并且这些对可以被认为是同一物体的两个视图。KCCA是一种将线性CCA转换为非线性设置的技术。这使我们能够提取两组变量的非线性关系。本文采用线性相关系数在方程。(6)对于mRMR-CCA特征选择和等式中的非线性相关系数，(10)用于mRMJR-KCCA特征选择。同时，很难判断哪些真实数据集意味着特征之间的线性或非线性相关性。表3和表4显示mRMJR-KCCA在所使用的基准数据集上产生最高的平均性能和排名。然而，mRMJR-KCCA并不是在所有数据集上都表现最好。例如，mRMR-CCA和mRMJR-KCCA在数据集Blood上的表现相同，后者在大多数数据集上的表现优于前者。为了在本文中可视化CCA和KCCA提取的特征对性能的影响，我们使用主成分分析（PCA）（Jolliffe等人，2016）来推导每个特征数据集的前3个主成分。图5呈现了在应用PCA之后每个特征集的散点图。根据呈现数据集Y-HAR的图5（a），我们可以观察到，由于样本量太大（32，844），因此很难看到两种表达的差异，即使我们可以在表3和表4中看到KCCA在数据集上的表现更好。图5（b）是数据集Blood的散点图，其对于CCA和KCCA特征选择看起来相同。这意味着数据集Blood中的特征可能不包含非线性相关性。从呈现数据集Wine的图5（c）中，我们可以看到mRMJR-KCCA的结果可能更好，因为来自类别3的一些点与mRMR-CCA中的类别1混合5. 结论本文提出了一种特征选择方法mRJMR-KCCA，它用KCCA代替了mRMR中MI的相关性度量。实验结果表明，与其他八种基准特征选择方法相比，mRMJR-KCCA在本文中使用的13个分类相关数据集上的性能优越，特别是在更大维度的数据集上（如表3和表4中的Y_HAR和Z_HAR）mRMJR-KCCA在时间方面排名第一，优于表3和表4中SVM和RF分类的其他FS方法。从 mRMR 到 mRMJR-KCCA ， FS 度量从熵变化到 KCCA 。mRMR给出了两个变量之间基于熵的评分，并利用求和近似来测量变量与一组变量之间的相关性。相反， KCCA 搜索mRMJR-KCCA中两组变量之间的非线性相关性。mRMJR-KCCA在度量候选特征与已选特征之间的联合冗余度时避免了mRMR中的求和近似，从KCCA的角度考虑同时，mRMR和mRJMR-KCCA都不能完全消除8Y. Wang，S.Cang和H.Yu/ Expert Systems with Applications：X 4（2019）100014图五、CCA和KCCA选择的特征集的主成分散点图。特征，因为这两种方法依赖于相同的选择标准结构，如等式2所示。(2)和（10）中所示。同时，从表3和表4的结果中，我们还可以看到Autoencoder在Wine_red和Wpbc上的表现最好，其他FS方法也可以在较小维度的数据集上产生相当或相似的结果。mRMJR-KCCA并不总是优于其他FS方法;然而，它在具有较大维度的数据集上表现得更好，因为这些数据集可能包含与另一组变量的非线性相关性。结果进一步证明，没有一个“最佳方法”的所有任务。最佳特征集的选择通常借助于FS方法或不同特征组合的经验评估。如前所述，本文中SVM（c，gamma）或RF（树的数量）分类中的优化参数是通过在10倍交叉验证期间在预设范围内搜索来实现的。分类中涉及的参数表3和表4以及图3可参考补充文件。图2中的参数数量太大，无法包括在内。值得一提的是，文档中显示的参数并不是产生相应结果的唯一参数。这意味着不同的参数或参数组合可能会产生相似的分类结果。对于今后的工作，我们有以下几个问题有待研究。(1) 进一步的工作可以在KCCA测量中发现不同的核。(2) 基于KCCA的特征选择方法的计算成本可以进一步降低，特别是对于较大的数据集。进一步的研究可以考虑采用其他最先进的矩阵逼近方法，以提高效率和准确性。Y. Wang，S.

下载后可阅读完整内容，剩余1页未读，立即下载