ImbTreeEntropy：基于熵的分类树构建的R包

155 浏览量更新于2024-01-27 收藏 745KB PDF 举报

不平衡数据集

信息技术学院

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 16（2021）100841原始软件出版物ImbTreeEntropy：一个R包，用于在不平衡数据集上构建基于熵的分类树克日什托夫？加约尼切克？托马什？扎布科夫斯基华沙生命科学大学信息技术学院人工智能系，邮编：02-776，波兰ar t i cl e i nf o文章历史记录：接收13十二月2020收到修订版2021年9月15日接受2021年保留字：决策树广义熵代价敏感学习不平衡数据a b st ra ct在本文中，我们提出了一种新的R包，名为ImbTreeEntropy，用于使用广义熵函数，如Rènyi，Tsallis，Sharma-Mittal，Sharma-Taneja和Kapur，来度量节点的杂质，以构建二元和这些是现有算法的重要扩展，通常采用香农熵和信息增益的概念。此外，ImbTreeEntropy能够处理不平衡的数据，这在许多实际应用中是一个具有挑战性的问题。该软件包通过定义错误分类成本矩阵和加权敏感学习来支持成本敏感学习。它接受所有类型的属性，包括连续、有序和名义属性。该软件包及其代码是免费提供的。版权所有©2021作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本1.0.0此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-20-00097法律代码许可证GPL-3代码版本控制系统使用Git软件代码语言使用R（>= 3.5），C++（>=11）编译要求，操作环境依赖R（>= 3.5），data.tree，snow，GenSA，BBmisc，caret，shiny，shinyjs，DT，RWeka，Rcpp（>= 1.0.4）如果可用，链接到开发人员文档/手册https://github.com/KrzyGajow/ImbTreeEntropy问题支持电子邮件krzysztof_gajowniczek@sggw.edu.pl软件元数据当前软件版本1.0.0此版本可执行文件的永久链接https://github.com/KrzyGajow/ImbTreeEntropy法律软件许可证GPL-3计算平台/操作系统任何支持R的安装要求&依赖关系R（>= 3.5），data.tree，snow，GenSA，BBmisc，caret，shiny，shinyjs，DT，RWeka，Rcpp（>= 1.0.4）如果可用，用户手册链接-如果正式出版，请在参考列表中引用该出版物https://github.com/KrzyGajow/ImbTreeEntropy问题支持电子邮件krzysztof_gajowniczek@sggw.edu.pl1. 动机和意义分类树是多元变量分析中非常流行和强大的工具，起源于20世纪60年代和70年代，并在80年代*通讯作者。电子邮件地址：krzysztof_gajowniczek@sggw.edu.pl（Krzysztof Gajowniczek），tomasz_zabkowski@sggw.edu.pl（TomaszZavibkowski）.https://doi.org/10.1016/j.softx.2021.100841和1990年代。目前，分类树在实践中得到了广泛的应用该技术之所以吸引人，是因为它创建了易于解释的规则，通常以树结构图的形式。1986年，Quinlan提出了一种用于诱导决策树的算法，称为迭代二分法3（ID3）[1]，该算法使用了Claude E.香农在1948年[2]。 ID3算法在每一步迭代地将特征分成两个或更多个组。为此，信息增益计算2352-7110/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxKrzysztof Gajowniczek和Tomasz Zenbkowski软件X 16（2021）1008412=熵的减少，并进一步测量给定特征对目标类进行分离或分类的程度。选择具有最高信息增益的特征作为用于创建分割的最佳特征。换句话说，训练数据集的熵ID3算法进一步升级为改进算法C4.5[3]，该算法通常被认为是基于传统统计方法构建决策树ID3和C4.5这两种算法都使用来自单个属性的信息增益来构建决策树。以这种方式，首先选择提供关于对训练集的决策的最多信息的属性，从剩余属性中选择下一个属性作为信息量最大的属性，以此类推，直到没有更多的属性要被选择或者每个元素都要被选择属于同一类。其他几个R包包括分类树，可以在Comprehensive R ArchiveNetwork（CRAN）中免费获得，例如，Rpart（用于分类、回归和生存树的递归划分），C50（C5.0决策树和基于规则的模型）或Party（递归分区工具箱）。虽然这些软件包提供了各种各样的方法来建立树，广义熵函数的应用是有限的，事实上，只有香农熵和信息增益的概念被用于ID3，C4.5和C5.0算法。在本文中，我们特别感兴趣的是实现一个广泛的广义熵测度族，如Tsallis这样做的动机是基于广义熵的分裂准则在节点的纯度和整体信息增益之间提供了不同的折衷。香农熵假设分布的主要质量和尾部的贡献之间的权衡;因此，具有高概率或低概率的事件在熵计算中具有相等的权重[9，10]。利用所提出的概括，可以控制两个参数，并且可以控制具有高概率的事件（即，经常发生的事件）比低概率（即，很少发生的事件）的熵值[11]。此外，我们的文章（和软件）解决了IM-平衡数据集问题，这在许多实际应用中经常出现。为了减少类不平衡的负面影响，文献中提出了几种策略，可以在算法层面上工作，或者在数据层面上工作，并试图通过在数据预处理阶段从原始数据中恢复来平衡类分布[12]。所提出的ImbTreeEntropy包被设计为利用两种方法的优点，即，通过实施成本敏感分类和加权敏感学习。文章展示了实现算法的软件及其在理论文章[13，14]中提出的功能。ImbTreeEntropy的主要贡献如下：这是第一个R软件包实现了一个大型集合的广义熵函数的二进制和多类问题。该包接受所有类型的属性，包括连续的、有序的和名义的;它通过误分类成本矩阵或观察加权来支持成本敏感学习;该算法利用后验概率进行阈值优化，以确定最终的类别标签，从而使误分类代价最小化;增强的可视化的树结构作为一个基于规则的模型，以及适用的质量措施，实施提供了一个互动的学习过程，使专家作出决定，在模糊的情况下，最佳的分裂。我们希望ImbTreeEntropy为那些希望在不平衡数据集的情况下应用非标准分类树2. 软件描述2.1. 软件初始化ImbTreeEntropy包（目前是1.0.0版本）主要用R实现;然而，一些计算要求很高的函数是用普通C++编写的（>=11）。该软件包在GitHub存储库中可用，可以使用命令安装：清单1：安装ImbTreeEntropy包的代码install.packages（“devtools”）library（“devtools”）install_github（“KrzyGajow/ImbTreeEntropy”）为了正常工作，ImbTreeEntropy包需要以下依赖项：R（>=3.5），Rcpp（>= 1.0.4）-2.2. 软件架构和功能ImbTreeEntropy有两个主要组件：一组功能允许构建树，预测新数据或以标准的R类控制台方式提取决策规则，以及一组功能允许在用户友好的环境中部署包含所有包功能的 S h i n y W e b 应用程序。为了清楚起见，我们使用Shiny Web应用程序展示软件功能;然而，在控制台模式下工作也很方便。调用以下命令后，软件即可使用：清单2：运行ShinyWeb应用程序runShinyImbTreeEntropy（）的代码在R窗口或Web浏览器选项卡（参数launch.browser）中启动Shiny应用程序TRUE）。它由页面顶部的5个主要选项卡面板组成。“描述"面板简要总结了软件包功能以及输入参数。第二个面板下一个面板是“调整静态模型”，允许我们使用k交叉验证找到输入参数的最佳组合。结果表显示了分类精度、Kappa值、叶数和识别类数。“交互式模型”面板基于ImbTreeEntropyInter函数，使用户能够在最后，“预测新数据”面板允许我们上传一些以前创建的所有面板中的输出对象（树、决策规则、准确性度量）都可以轻松下载/保存。每个主面板包含专用于文件加载（表或树）、参数设置、模型拟合/调整、准确性测量和决策规则的子面板。“扩展文件”可接受的扩展名为text/csv、text/comma-separated-values和text/plain.csv. arff。“静态模型”和“交互模型”面板中的“拟合模型”子面板允许我们设置输入参数（图1）。2）的情况。目标参数（控制台模式下的Yname）接收名称·····Krzysztof Gajowniczek和Tomasz Zenbkowski软件X 16（2021）1008413图1.一、每个主面板中的“扩展文件”子面板。而Attributes（Xnames）接收用于目标建模的属性名。方法参数（类型）利用用于学习的熵度量：Shannon，Renyi，Tsallis，取决于所选的方法，可以推出一组额外的参数（熵值）。对于Renyi和Tsallis熵，它是一个具有 Q 值的单元素向量（图 1 ）。 3 ）。对于ImbTreeEntropy）。Depth设置最终树的任何节点的最大深度，根节点计为深度0，而Min obs指定必须存在于任何终端节点（叶）中的最小观测数分类阈值参数接受“equal”、“theoretical”和“tuned”。该参数控制用于确定阈值的方法，基于每个节点的最终类别导出[13]。当考虑相等的阈值时，所有阈值被确定为1/k。对于多类分类问题，最终类超过其阈值的最多。理论阈值根据成本分类矩阵确定。最后，经验阈值化的思想是基于训练数据选择成本最优的阈值向量。过拟合方法（过拟合）指定应使用哪种方法来克服过拟合。leafcut方法在构建完整树时使用，当两个兄弟选择相同的类标签时，它减少子树。“avoid”方法在递归分区过程中被合并，当两个兄弟类都选择同一个类时，它禁止拆分。The ‘‘prune’’ methodemploys a pessimistic error pruning procedure (like C4.5),which should be specified along with the 复杂度参数cp适用于不尝试任何不将总体不匹配减小因子CP的分离这是一个错误分类错误（如CART）。cost-sensitive 类型参数接收 “none” 、 “weights " 或 ”costmatrix“之一。根据所选的值，可能会出现其他参数（图1）。4）.权重是事例权重的数值向量，它的元素数应与输入表中的观测数相同。成本矩阵是与可能的错误相关联的成本的矩阵。矩阵应该有k列和k行，其中k是类级别的数量。列包含真类，而列包含预测类，行和列名应采用目标变量的所有可能类别（标签）。图二、“静态模型”中的“拟合模型”子面板。最后，点击“开始学习”按钮后，最终的树结构出现在页面中间的“树”子面板中其他子面板由基于ExtractRules函数获得的各种准确性度量（“准确性”）或提取的决策规则（“规则”）组成第三个主面板，“调整静态模型”，专用于最佳参数调整（图10）。5）。在该面板中，“拟合模型”子面板具有与所示相同的参数集。但是，这一次，用户必须定义要检查的值的范围，而不是一个值。它可以通过多个选择输入或滑块输入来完成。当指定特定的过拟合方法时，可以指定Q、α、β值的步长或cp和cf的步长。此外，用户必须设置交叉验证的折叠数和伪随机数发生器的初始随机种子。第四个主面板包含来自ImbTreeEntropyInter函数的功能[14]。与之前的“拟合模型”子面板相比，还有一些额外的参数指定如何理解模糊的情况（图1）。 6）。属性级Krzysztof Gajowniczek和Tomasz Zenbkowski软件X 16（2021）1008414图三. Renyi或Tsallis方法的Q值参数和α值，Sharma-Mittal、Sharma-Taneja或Kapur方法的β值见图4。成本敏感学习的权重规范。（var_lev）参数指示可能的最佳分割是在属性级别上还是在每个属性的分割点上导出。TRUE意味着专家获得最佳拆分，每个变量一个。“最佳”表示全局最佳拆分，而不考虑任何特定变量。一个逻辑向量只有一个元素。模糊类型选择模糊概率决定每个节点的最高类概率和第二高类概率之间的差异的阈值，低于该阈值，专家必须做出关于后续树结构的决定顶部拆分提供最佳拆分的数量，即，最终的树结构，被介绍。分裂是根据信息增益降序排序。当模糊度类型设置为类标号专家将在学习期间对此做出决定。模糊类别频率是每个节点的类别频率，高于该频率专家将做出决定。在学习过程中，就在“开始学习”按钮的下方，会出现一个额外的部分，允许我们选择所需的树结构并继续学习（图10）。 6）。最后，要使用ImbTreeEntropy包执行一些测试，有两个公开的链接。第一个链接指向Shinyapps.io计算云（https://krzygajow.shinyapps）。io/ImbTreeEntropy/），每月提供25个工作小时的访问。第二个链接指向个人服务器，通常在欧洲中部时间上午 8 点到下午 22 点之间提供（imbtree.ddns.net/ImbTreeEntropy/）。图五、“调整静态模型”中的“拟合模型”子面板。3. 说明性实例3.1. 实验设计七个研究（数据集）作为一个例子，以演示ImbTreeEntropy的性能。这些数据集可在UC Irvine Machine Learning Repositoryhttps ： //archive 中获得。 ics.uci.edu/ml/datasets 。每次，ImbTreeEntropy的性能都与其他三个R包进行分类比较除了算法的名称之外，第一列还包含有关所使用的最佳参数的信息基准测试包包括：Rpart -用于分类、回归和生存树的递归划分的软件包。调优参数是用于修剪的cp（复杂度）和树的深度。基于香农熵的决策树和规则模型的C50包。调谐参数为cf（置信度）。CTree-party 包中的条件推理树。调整参数是树的深度。对于ImbTreeEntropy，我们调整了树的深度以及所有熵的Q，α和β，而其他参数采用默认值。使用以下准确度指标评估分类模型的性能：···Krzysztof Gajowniczek和Tomasz Zenbkowski软件X 16（2021）1008415见图6。交互式模型中“拟合模型”子面板中的其他参数和部分。见图7。叶子的数量。准确性-反映正确分类数除以实例总数;AUC -多类分类问题的受试者工作特征（ROC）曲线下面积[15]; Kappa -考虑到偶然发生的分类的二进制和多类项目的分类准确性度量[16]。在实验中，使用了10倍交叉验证。然后将来自折叠的结果平均以产生单个估计值和标准偏差。3.2. 案例分析1：两类问题第一个案例研究是基于宫颈癌集的二元分类问题的应用[17]。该数据集包括由32个属性描述的858名患者的人口统计信息、习惯和历史在实验中，活检，作为一种筛选策略，被用作目标变量。该数据集是高度不平衡的，因为少数类只占观察结果的6.4%。算法的性能如表1所示。ImbTreeEntropy的结果无可争议地明显优于C50和Ctree基准算法的结果只有Rpart在AUC、kappa和鉴定的类别数方面表现出相似的性能（请参见图10）。 7）;然而，ImbTreeEntropy具有更简单的结构（请参见图7）。 8）。见图8。识别的类的数量。3.3. 案例分析2：三类问题第二个案例研究是基于Iris数据集的三类问题的应用[18]。该数据由4个连续特征和一个单一的三个类别的输出识别虹膜植物的类型。该数据集是平衡的，包含150个观测值，即，每个类50个实例。表2中的结果表明，在ImbTreeEntropy中实现通用熵在AUC、准确度和kappa方面与其他包提供的结果重要的是，所有算法都能够发现3个类;然而，只有ImbTreeEntropy提供了具有最简单结构的树，即，只有3个叶子（图）。 7）。3.4. 案例分析3：四类问题第三个案例研究利用汽车评估数据集[19]来解决四类问题。有六个分类输入属性和类变量，四个值作为汽车评估的结果。该数据集是不平衡的，包含1728个实例，其中类unacc、acc、good和vgood的表示分别为384、69、1210和65个观测值表3中的结果表明，与基准算法相比，Imb-TreeEntropy的实现提供了类似的性能ImbTreeEntropy为树提供了更简单的结构，即，平均有37.7片叶子，而C50和Rpart树相当复杂，即，平均叶片数分别为48.9和65.5片（图1）。 7）。3.5. 案例分析4：六类问题第四个案例研究采用口音数据集[20]来解决六类问题。有12个连续输入属性和类变量，其中6个类别考虑可能的事件，即，ES、FR、GE、IT、UK和US。该数据集是不平衡的，包含329个实例，频率分别为：8.81%，9.12%，9.12%，13.68%和50.15%。表4中的结果表明，ImbTreeEntropy算法提供了与Rpart算法相似的性能。这两个软件包都能识别所有六种语言（图1）。 8）。由于基于ImbTreeEntropy的树具有稍微多一些的叶子，因此在验证样本的kappa度量方面，它优于基于Rpart的树（图2）。 7）。其余两种算法在kappa、AUC和Acc测量方面提供了更差的Ctree算法无法检测所有可能的口音。···Krzysztof Gajowniczek和Tomasz Zenbkowski软件X 16（2021）100841表16基于宫颈数据集的分类结果，活检作为因变量。Q= 1。5，深度=9）Ctree（深度=1）0.936（0.001）0.332（0.008）0.000（0.000）0.936（0.006）0.276（0.086）0.000（0.000）Rpart（cp= 0，depth= 9）0.965（φ0.005）0.722（φ0.077）0.613（φ0.078）0.916（φ0.024）0.441（φ0.118）0.151（φ0.192）表2基于Iris数据集的分类结果α= 1。5，β=0，深度=2）C50（cf= 0.1）0.976（0.008）0.990（0.003）0.964（ 0.011）0.953（0.055）0.971（0.045）0.93（0.082）Ctree（深度=3）0.976（0.005）0.989（ 0.003）0.963（ 0.007）0.960（0.034）0.971（ 0.031）0.94（ 0.052）Rpart（cp= 0，depth= 3）0.973（φ0.007）0.986（φ0.008）0.960（φ0.011）0.953（φ0.032）0.961（φ0.028）0.93（φ0.048）表3基于汽车评估数据集的分类结果C50（cf= 0.25）Ctree（深度=8）0.968（深度=0.006）0.992（深度=0.003）0.931（深度=0.013）0.955（深度=0.014）0.982（深度=0.013）0.903（深度=0.031）Rpart（cp= 0，depth= 10）0.995（φ0.001）1.000（φ0.000）0.988（φ0.003）0.976（φ0.009）0.971（φ0.029）0.947（φ0.020）表4基于口音数据集的分类结果。C50（cf= 0.1）3.6. 案例分析5：六类问题另一个案例研究再次考虑了六个类别。研究数据集由106个观察结果组成，描述了乳房新鲜切除组织样本的电阻抗测量结果[21]。目标变量包括以下类别及其频率：癌19.81%，纤维腺瘤14.15%，乳腺病16.98%，腺体15.09%，结缔组织13.20%，脂肪20.75%。同样，之前使用的Ctree算法提供了最差的性能（表5）。这次，最好的结果来自ImbTreeEntropy和C50算法。ImbTreeEntropy提供识别所有六个类的树（图 8）基于平均11.8片叶子，其特征在于Kappa值等于0.661。与此同时，C50提供了一个kappa值等于0.633的基础上，平均11.4叶（图。 7）。3.7. 案例研究6：七类问题下一个案例研究考虑了一个七类问题[22]。一个数据库包含17个布尔值属性和目标变量，该变量将特定种类的动物分配给七组可能的动物之一。最具代表性的类由40.59%的实例组成，而最不具代表性的类由3.96%的观测组成。表6中的结果显示ImbTreeEntropy提供了最佳性能（与Rpart库一起），即，验证样品的AUC为0.937，kappa为0.939，Acc为0.953。3.8. 案例分析7：八类问题在最后一个案例研究中，E.使用具有7个属性和具有8个值的类变量的大肠杆菌蛋白定位位点数据集[23]。该数据集包含336个实例，并且高度不平衡。对于cp、im、imL、imS、imU、om、omL和pp，类值的表示分别为143、77、2、2、35、20、5和52。关于八类问题，结果表明ImbTreeEntropy算法能够优于其他方法，因为它可以识别数据集中的所有8个类（具体来说，平均7.5级），如图所示。8.第八条。其他算法平均可以识别6、6.7或5.7个类别（见表7）。4. 影响ImbTreeEntropy是一个用于二进制和多类分类的新软件包它实现了一个通用熵函数的集合，并且能够处理不平衡的数据集。不需要数据预处理，因为包接受所有类型的属性，包括连续，有序和名义属性。这些例子证明了我们的包的适用性，以各种领域。随着其出版，ImbTreeEntropy可免费提供给科学界和商业从业者。软件对社区的影响是巨大的。它解决了现有软件包中的差距，其中标准香农熵通常被用作分类树中的杂质度量。广义熵作为杂质的措施提供分裂，提供不同的妥协之间的纯度的节点和整体信息增益。因此，这些可能是算法接入列车AUC列车卡帕列车访问有效AUC有效卡帕有效ImbTreeEntropy（Renyi，0.963（约0.004）0.743（0.061）0.576（约0.053）0.922（约0.013）0.461（0.119）0.158（约0.136）C50（cf= 0）0.936（约0.001）0.247（约0.007）0.000（0.000）0.936（约0.006）0.248（0.061）0.000（0.000）算法接入列车AUC列车卡帕列车访问有效AUC有效卡帕有效ImbTreeEntropy（0.961（约0.005）0.971（0.004）0.941（0.007）0.947（0.053）0.959（0.041）0.92（约0.079）算法接入列车AUC列车卡帕列车访问有效AUC有效卡帕有效ImbTreeEntropy（Tsallis，Q=2，深度=8）0.977（0.001）0.988（约0.001）0.994（约0.001）0.999（0.000）0.950（0.003英镑0.974（0.003）0.972（约0.01）0.974（约0.01）0.988（约0.009）0.992（约0.007）0.939（约0.02）0.944（0.022）算法接入列车AUC列车卡帕列车访问有效AUC有效卡帕有效ImbTreeEntropy（0.964（0.024）0.998（0.002）0.949（0.034）0.703（0.083）0.743（0.083）0.58（0.109）α= 0。5，β= 1。5，深度=10）0.927（0.019）0.986（0.009）0.893（0.03）0.664（0.08）0.831（0.053）0.511（0.11）Ctree（深度=6）0.68（0.025）0.857（0.02）0.511（0.05）0.594（0.1）0.753（0.108）0.389（0.147）Rpart（cp= 0.005，深度=9）0.943（0.017）0.991（0.004）0.917（0.025）0.703（0.068）0.752（0.114）0.575（0.092）Krzysztof Gajowniczek和Tomasz Zenbkowski软件X 16（2021）1008417=-表5基于乳腺数据集的分类结果。C50（cf= 0.1）0.912（0.031）第八章）表6基于动物园数据集的分类结果。C50（cf= 0.25）0.986（0.008）表7根据E.coli蛋白定位位点数据集。Q=2，深度=5）Ctree（深度=8）0.871（0.009）0.932（0.018）0.822（ 0.010）0.807（0.052）0.854（0.097）0.734（ 0.074）Rpart（cp 0.01，深度4）0.890（0.006）0.914（0.019）0.846（0.009）0.831（0.075）0.827（0.111）0.761（0.107）表8ImbTreeEntropy和其他R包的分类比较包ImbTree熵rpartC5.0Ctree（缔约方）杂质测量香农雷尼察利斯基尼指数香农–Sharma–Mittal, Sharma–Taneja,熵成本敏感分类是的是的是的没有权重敏感分类是的是的是的是的修剪方法在生长过程中，生长在成长过程中，后没有成长后增长阈值优化是的没有没有没有规则模型是的没有是的没有互动学习是的没有没有没有在不平衡数据或存在异常值或罕见事件观测的数据的情况下，更好的分类器此外，该软件还涵盖了学习分类树的其他一些重要方面。为了方便用户，表8总结了ImbTreeEntropy和其他R包之间的分类比较。如表所示，Imb- TreeEntropy与其他方法相比具有许多优点建议的包的主要功能是能够处理不平衡的数据，修剪期间和之后的增长，阈值优化后验概率来确定最终的类，呈现树结构作为一个基于规则的模型，和交互式学习模式，使用户能够在模糊的情况下作出决定的最佳分裂。5. 结论在这项工作中，ImbTreeEntropy软件包，并与其他一些算法在R环境中进行了比较。该软件实现了几个广义熵作为杂质的措施，这使得它更有吸引力的标准树算法的基础上香农熵或基尼指数，不允许探索不同类别的概率和整体信息增益之间的权衡。在免费提供的数据集上进行的实证结果表明，我们的软件包对于具有一个或多个少数类的数据集特别有用。特别是，ImbTreeEntropy提供了与基准算法相比具有类似质量的性能;然而，树的结构简单得多，这被认为是显著的优点。重要的是，所提出的包能够优于其他方法，因为它能够正确识别多个类的问题与大量的类进行预测。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]小昆兰决策树的归纳。马赫学习1986年;1：81-106。网址：//dx.doi.org/10.1023/A:1022643204877网站。[2]Shannon CE.沟通的数学理论。Bell Syst Tech J 1948;27：379-423.http://dx.doi.org/10.1002/j.1538-7305.1948.tb01338.x网站。[3]小昆兰C4.5：机器学习程序。旧金山：摩根·考夫曼;1993年。[4]察利斯角玻尔兹曼-吉布斯统计的可能推广。J Stat Phys 1988;52：479-87.http://dx.doi.org/10.1007/BF01016429网站。[5]雷尼河关于熵和信息的度量。In：Proc. 4th Berkeley symp. 数学统计主义者。可能吧。卷1.一、1961年，p.547-61[6]Sharma BD，Mittal DP.离散概率分布熵的新的非加性测度。数学科学杂志1975;10：28-40.算法访问训练AUC列车卡帕列车访问有效AUC有效卡帕有效ImbTreeEntropy（Tsallis，0.912（0.031））0.974（0.013）0.894（0.038）0.721（0.143）0.802（0.126）0.661（0.173）Q= 1。5，深度=6）0.977（0.01）0.894（0.038）0.697（0.135）0.859（0.101）0.633（0.163）Ctree（深度=5）0.697（0.042）0.858（0.031）0.634（0.05）0.602（0.072）0.804（0.045）0.52（0.086）算法访问训练AUC列车卡帕列车访问有效AUC有效卡帕有效ImbTreeEntropy（Tsallis，Q 1（0））1（0）1（0）0.953（0.069）0.937（0.096）0.939（0.089）=1.5，深度=7）0.99（0.005）0.981（0.01）0.932（0.114）0.964（0.067）0.912（0.148）Ctree（深度=5）0.945（0.017）0.96（0.012）0.928（0.022）0.888（0.117）0.92（0.113）0.855（0.151）算法接入列车AUC列车卡帕列车访问有效AUC有效卡帕有效ImbTreeEntropy（Renyi，0.913（0.006）0.939（0.023）0.879（约0.009）0.831（0.075）0.755（约0.123）0.764（约0.105）C50（cf= 0.1）0.910（约0.017）0.936（0.023）0.874（0.024）0.819（0.053）0.870（0.092英镑0.747（0.074）Krzysztof Gajowniczek和Tomasz Zenbkowski软件X 16（2021）1008418[7] Sharma BD，Taneja IJ.信息论中的（α，β）型熵及其它广义测度Metrika1975;22（1）：205-15。http://dx.doi的网站。org/10.1007/BF01899728。[8] KapurJN.α阶和 β印度科学院学报1969;69：201-11.http://dx.doi.org/10.1007/BF03047290网站。[9] [10]杨晓波，李晓波.扎布科夫斯基选择高收入家庭的Q-熵方法。Acta Phys PolA 2015;127（3a）：38-44. http://dx.doi.org/10.12693/APhysPolA.127.A-38网站。[10]张晓刚，张晓刚，张晓刚.基于熵的决策树在客户流失管理中的应用. ActaPhysPolA2016;129（5）：971-9。http://dx.doi.org/10.12693/aphyspola.129.971网站。[11]张晓刚，张晓刚，张晓刚.广义熵概念在人工神经网络中应用的模拟研究。Entropy 2018;20 （ 4 ）： e20040249. http://dx.doi.org/10.3390/e20040249 网站。[12]Fernández A，García S，Galar M，Prati RC，Krawczyk B，F.埃雷拉从不平衡的数据集中学习。Berlin，Springer：Springer International Publishing;2018，http://dx.doi.org/10.1007/978-3-319-98074-4.[13]Gajowniczek K，Zambkowski T. ImbTreeEntropy和ImbTreeAUC：用于在不平衡数据集上进行决策树学习的新型R包。电子2021;10 （6 ）：657 。http://dx.doi.org/10.3390/electronics10060657网站。[14] Gajowniczek K，Zambkowski T.基于ImbTreeEntropy和ImbTreeAUC包的交互式决策树学习和决策规则提取。过程 2021;9 （ 7 ）： 1107.http://dx.doi.org/10.3390/pr9071107网站。[15]手DJ，直到RJ。多类分类问题的ROC曲线下面积的简单概括。Mach Learn2001;45（2）：171-86. http://dx.doi.org/10.1023/A:1010920819831网站。[16]Cohen J. A Coefficient of Agreement for Nominal Scales. Educ Psychol Meas1960;20：37-46. http://dx.doi.org/10.1177/001316446002000104网站。[17]Fernandes K，Cardoso JS，Fernandes J.转移学习与部分可观察性应用于宫颈癌筛查。In：Alexandre L，Sal- vador Sánchez J，Rodrigues J，editors.模式识别与图像分析。计算机科学讲义，第10255卷，Cham：Springer; 2017，http://doi-org-443.webvpn.fjmu.edu.cn/10.1007/978-3-319-58838-4_27。[18]Duda RO，Hart PE.模式分类和场景分析。New York：Wiley.[19]多属性决策的知识获取与解释.第八届专家系统及其应用国际研讨会。1988年，p. 59比78[20]福奎河UCI机器学习库。Irvine，CA：University of California，School ofInformationandComputerScience;2020，https：archive.ics.uci.edu/ml//datasets/Speaker+Accent+Recognition.[21]Dua D，Graff C. UCI机器学习库。Irvine，CA：University加州，信息和计算机科学学院; 2019年，https：//archive.ics.uci.edu/ml/datasets/Zoo网站。[22] Jossinet J.正常和病理乳腺组织中阻抗的变化。医学生物工程计算1996;34（5）：346-50. http://dx.doi.org/10.1007/bf02520002.[23]放大图片作者：J. 一个预测蛋白质细胞定位位点的概率分类系统。第四届分子生物学智能系统国际会议论文集。圣Louis：AAAI Press; 1996，p. 109比15

下载后可阅读完整内容，剩余1页未读，立即下载