smote和rose：药物成瘾复吸风险的特征关联-沙特国王大学学报

90 浏览量更新于2024-01-27 收藏 951KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报smote和rose与药物成瘾复吸风险的关联特征Nor Ashidah Selamata，Azizi Abdullaha，Nor，Norizan Mat Diahb，Nora马来西亚Kebangsaan大学信息科学与技术学院人工智能中心，43600 Bangi Selangor，马来西亚b马来西亚雪兰莪州沙阿南40450马拉科技大学计算机与数学科学学院阿提奇莱因福奥文章历史记录：2022年1月29日收到2022年6月15日修订2022年6月19日接受2022年7月9日在线发布保留字：类别失衡问题A B S T R A C T吸毒成瘾是许多国家的一个主要问题，康复和治疗诊所在帮助吸毒成瘾者康复方面发挥着关键作用因此，这个问题需要一个有效的自动化系统，可以预测成瘾者复发的可能性。该系统使用数据集来训练和测试用于药物患者自动分类的机器学习算法尽管如此，训练机器学习分类器的问题包括不平衡的类，这可能会增加过拟合问题并阻碍泛化性能。该研究提出了一种关联特征规则，将两种最常见的过采样技术：合成少数过采样技术（SMOTE）和随机过采样技术（ROSE）相结合，以平衡类间的样本数量，扩展问题特征空间。相应地，采用随机森林算法对新实例进行分类。在Validi药物复发数据集上的交叉实验结果表明，所提出的组合方法优于常用的过采样和欠采样方法，表明所选择的关联特征集有助于复发分类任务。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍药物滥用是一个具有重大社会影响的普遍问题。2017年，联合国毒品和犯罪问题办公室（毒品和犯罪问题办公室）的《2019年世界毒品报告》报告称，估计有2.71亿人吸毒，占世界15至64岁人口的5.5%。尽管政府试图帮助戒毒者，如提供治疗和护理康复中心，但仍有复吸病例报告。因此，已经开发了用于监测治疗和康复计划的成功的各种方法，包括手动和计算机化系统（Barrett，1997; Hannah等人，2016;Salleh等人，2018; Bjerre，2017）。开发有效的程序或系统来检测药物添加并不容易。曾试图根据吸毒者的主要物质对其进行分类，或在治疗时将其确定为多种毒品使用者。虽然分类有助于识别*通讯作者。电子邮件地址：ashidah. bheuu.gov.my（N.A.Selamat），azizia@ukm. edu.my（A.阿卜杜拉），norizan@fskm.uitm.edu.my（N. Mat Diah）。沙特国王大学负责同行审查需要治疗时，这些群体可能会使用某些药物来控制或管理成瘾作为替代药物。此外，药物成瘾分类系统变得更加复杂，因为其他基于药物的物质（如美沙酮或Subutex）和其他基于注射剂的物质是预防或限制其成瘾的额外属性（Bjerre，2017）。此外，构建系统所需的数据通常很大，使工作更加复杂。因此，许多研究人员将重点放在机器学习方法上，以提高系统在大型复杂数据上的性能。虽然有许多机器学习方法用于自动识别药物复发，但大多数都显示出有希望的分类结果。然而，有限的研究探讨复发检测的不平衡问题。在机器学习中，使用不平衡数据训练分类器在许多现实应用中具有挑战性。类别不平衡导致分布的基本数据中的偏斜，这导致分类更加困难（Taha等人，2021年）。出现的问题是，对少数群体进行错误分类的代价大于对多数群体的代价。通常，许多机器学习算法，特别是在监督学习中，更喜欢来自多数类的训练样本，以提高整体准确性，同时降低少数类的预测准确性。此外，在不平衡数据上训练的分类器变得有偏见，增加了过拟合问题并阻碍了泛化性能。https://doi.org/10.1016/j.jksuci.2022.06.0121319-1578/©2022作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comNor Ashidah Selamat，A.Abdullah和N.马特·迪亚沙特国王大学学报7711有三种主要的方法可以用来处理数据不平衡的问题。这些方法基于抽样、算法或成本敏感性，从而抽样方法解决了问题通过在数据层面上创建平衡的分布。同时，算法方法通过包括独特的算法或改变当前算法来改变训练过程来解决类不平衡。成本敏感的计划创建一个混淆矩阵的各种误分类成本。然而，研究通常讨论采样技术，因为数据准备和分类器训练可以独立进行，从而产生最佳的样本解决方案。因此，该研究提供了一种简单的方法来减少药物复吸检测中的不平衡影响。文献表明，两种最流行的采样方案是SMOTE（Chawla等人，2002）和ROSE（Lunardon等人， 2014年）。具体而言，SMOTE描述了一种解决方案，通过创建合成样本来对少数类进行过采样该方法使用两个邻居来产生合成实例。随后，计算每个属性之间的差异并乘以0和1之间的值，通过将样本添加到其中一个实例来创建新样本。该方法已应用于许多不平衡数据集问题领域（ Ahsan 和Gomes，2018; Torres等人，2019年）的报告。同时，ROSE建议使用估计和评估模型来创建一个更平衡的样本。估计使用ROC曲线来评估分类器的性能。接下来，使用引导或交叉验证版本执行评估，以验证所选的估计技术。该方法已用于各种领域，如乳腺癌诊断（Zhang和Chen，2019）和现实生活数据集（Chen等人， 2017年）。过去的研究表明，单一的模型是不足以解释复发或类分布问题的完整行为。此外，问题在于通过选择采样方法的最佳参数（例如采样率）来校正数据集中的分布类标签，这显著影响少数类的性能因此，提出了一种启发式的线性组合SMOTE和ROSE，以产生良好的样本，利用每种技术的最佳输出从不同的在从采样算法生成合成数据以从数据集中去除噪声和无用数据之前，数据涉及数据预处理，诸如数据清理和特征选择此外，单独的单个模型不是描述现实世界问题的最佳方法，但是它们的有效组合可以是（Abdullah等人，2010;MatAriff等人， 2018年）。接下来，每种采样方法都使用可用的训练集自动优化分布将不同方法的合成样本组合起来，构建一个新的训练集。然后使用随机森林分类器对有复发风险或无复发风险的患者进行训练和分类，以帮助识别可能有药物风险的人。本研究组织如下：第2中的文献综述。第3提出了一个简单的启发式线性组合模型的不平衡抽样数据的病人数据从丹麦康复中心。本节还讨论了数据预处理，如数据清理和特征选择，以估计采样模型参数和性能测量指标。最后，第四部分对全文进行了总结，并对今后的工作和建议进行了展望.2. 背景在过去的十年中，将机器学习方法整合到药物复吸的诊断中有几个优势。本节涵盖以往药物复吸诊断工作的技术和成果。最后一部分回顾提供了一个背景-深入了解预处理、特征选择、ROSE、SMOTE和随机森林。2.1. 相关工作大多数关于复发的研究都是使用调查手动进行的，或者使用人工智能（AI）自动进行的。许多研究人员将机器学习算法用于人工智能中的预测，主要表现出良好的分类性能。然而，有限的研究探讨了复发检测的不平衡问题。Bauer（2001）使用脑电图（EEG）作为复发的预测指标。主要问题是，这些数据使用了一个相对较小的样本量的坏时期，导致复发。该研究还利用了几个模型指标：灵敏度、特异性、阳性预测值、阴性预测值、混淆矩阵和准确度来证明所提出的模型的合理性，预测复发性滥用的准确度评分为74%。Muaremi et al.（2014）收集了12名双相情感障碍患者的智能手机数据，以确定患者病情（躁狂或抑郁）的预测因素。本研究建议使用三个主要特征进行预测：电话交谈持续时间，音调变化和日常自我评估调查。此外，还使用了几种机器学习方法进行比较：支持向量机（SVM），逻辑回归，随机森林和神经网络，利用F1得分来衡量每个模型的性能。值得注意的是，使用3倍交叉验证，最佳预测模型具有0.83（83%）的平均F1/样本，并且在每个验证倍数下，使用随机森林对预测因子进行排名。Bjerre（2017）建立了一个程序，使用康复X吸毒者的历史数据来因此，该研究开发了一种工具，帮助康复专业人员识别有复发危险的患者，以使患者保持无药可救。确定了对复发可能性最重要的变量，并收集和完善了医疗记录系统数据，以创建机器学习模型。最初，数据是不平衡的，然后应用SMOTE过采样和用于药物复发分类。接下来，测试了几种机器学习算法，以确定成瘾者是否会在一定时间后离开。使用交叉验证的实验表明，决策树算法对一个人是否有复发研究还表明，客户接受治疗的时间越长，他们就越有可能保持清洁。Salleh等人（2018年）提出了一种人工分类框架，用于马来西亚康复中心的药物复发预测，以帮助治疗机构预测复发并预防吸毒者复发采用人工神经网络（ANN）分类器将数据分为两组：复发和非复发。在进行预测之前，收集的数据将经过许多预处理阶段，例如数据收集，清理，集成和分析。然而，没有明确报告结果。与自动化系统相反，由于一些类似的赌博和药物成瘾行为，Smith等人（2013）提出在一段时间的非赌博后确定赌博缓解预测因子。药物成瘾专家接受采访，而不是依靠出版物和个人实验，除了使用赌博的标准调查，以获得病人的意见。一般而言，赌博欲望与问题赌博复发之间存在一致的关系。同样，在 Rozmi 和 Nordin（2021）中，他们研究了政府雇员中在线赌博成瘾，冲动行为和抑郁症这项研究包括125名严重沉迷于网络赌博的男性。同样的定量方法已在Ibrahim et al. （2021）研究毒品罪犯的应付策略与高风险复吸情况的关系。总共有301名囚犯Nor Ashidah Selamat，A.Abdullah和N.马特·迪亚沙特国王大学学报7712我. Σ六xj1n树n树t1/4我我我VI x算法1：MICEn树1-[吉尼]k¼1在马来西亚监狱部门的毒品案件中担任被告。但在Chie等人（2015年）中，建议研究教育方面，以确定对药物可用性和滥用的印象以及导致药物滥用和复发的因素。不平衡数据问题在诸如生物学的其他领域中被广泛研究（Haque等人，2014; Seyyedali和Othman，2015），医疗（Alghamdi等人，2017; Zhang和Chen，2019，Azeez等人，2015），客户流失（Amin等人，2016）入侵检测，交易欺诈（Sapna，2016; Baesens等人，2020）和预测（Tantithamthavorn等人，2020年），环境-每个特征被分配一个重要的分数值。然后，通过使用以下等式对特征进行排序等级专长<$fXT1;XT2;XT3;···：;XTdg1其中I（j），j = 1，2，3，. . ，d是xj的降序的新特征索引假设htxi和htxj是指OOB的预测标签分别在特征置换之前和之后，MDA可以通过使用如下等式来计算（Qian等人，2018年;王例如， 2016年）：心理学（Al-Najjar等人，2021）和UCI机器学习库-ing数据库（Luo等人，2021; Merz和Murphy，1996）。值得注意的是，不平衡的数据将对分类模型产生.XP我不知道你在说什么jOOBj我不知道。xj因为大多数现有的分类方法假设数据-这是一个相对均衡的阶级分布。2.2. 链式方程多元插补（MICE）数据清洗是识别不准确、不完整或不合理的数据并通过修正提高数据质量的必要技术。数据集的主要挑战是缺失数据。因此多变量插补通过链式方程式（MICE）是用于确定数据集中缺失的数据，其中ntree是随机森林分类器设置中的树的数量。同时，平均基尼系数下降（MDG）采用杂质指数来衡量重要变量。数据纯度指数主要用于确定分支和经常用于生成分支的变量。计算变量重要性的过程MDG的公式如下（Qian等人，2018; Wang等人， 2016年）：通过以下四个主要步骤.j1英寸n树K一曰：输入：训练数据集。2：步骤1：填补过程，计算数据集中每个缺失数据的平均步骤3：步骤2：从均值中识别并填充所有缺失值。4：第3步：选择一个有缺失值的变量，例如，X1，则该变量对所有其他变量X2，Xk回归，数据集，仅限于观察到的X1的个体。5：步骤4：通过计算相应的后验预测分布的X 1。即对于X 1：从P（X 1）中抽取插补X t+1| X t2，X t3，................................................，Xtk）。6：步骤5：对数据集中有缺失数据的其他变量重复步骤27：输出：数据集中的完整数据。该研究比较了特征选择过程前后的分类模型性能，以评估影响分类预测模型的特征或预测因子。2.4.合成少数过采样技术（SMOTE）SMOTE（Synthetic Minority Over-Sampling Technique）是合成数据生成中的一种常用方法，它是通过创建一组合成样本对少数类进行过采样的算法。接下来，该算法通过从两个邻居创建一个实例，计算每个属性的差异并将其乘以0和1之间的数字来产生平衡数据。所使用的邻居的数量取决于过采样的大小，通常在50%到500%之间。该研究提到（Chawla等人，2002年）。SMOTE算法通过如下三个主要步骤执行：MICE（vanBuuren和Groothuis-Oudshoorn，2011）是一个通过提供一个基本的但灵活的方法（Wulff和Jeppesen，2017）的灵敏度对数据扰动或参数变化的可变重要性度量。2.3. 平均降低准确度（MDA）和平均降低GINI（MDG）特征选择是重要的，特别是对于具有大量特征的数据集。尽管如此，可能会出现许多问题，例如高度可变的相关性、数据收集和校准产生的噪声以及计算复杂性增加，从而降低分类准确性和效率（Zhu等人，2019）。特征选择的稳定性是指变量重要性度量对数据扰动或参数变化的敏感性。平均减少精度（MDA）通过使用包外（OOB）划分样本数据的变化（排列）来计算特征的OOB通过计算变量xj改变前后OOB的准确度并计算差值来计算更准确的预测值康-对于集合X ={X 1，X 2，. . ，Xd} s X，其中索引1，2，..，d代表特征序列号，d是特征集的大小。接下来，算法2：SMOTE1. 输入：训练数据集2. 步骤1：从数据集中随机选择一个少数类实例3. 步骤2：从选定的少数实例中计算k4. 步骤3：随机选择k个实例中的N个，通过插值计算新的数据实例，并乘以0到1之间的数字。然后，添加到先前的特征向量。5. 输出：平衡数据集。2.5. 随机过采样技术（ROSE）大多数关于过采样问题的研究改变了类分布，以获得更平衡的样本。ROSE介绍了两个主要步骤：模型估计和模型评估。首先，ROSE使用ROC曲线来测量从分类器生成的合成样本的质量其次，进行估算XisOOBisOOBð2Þð3Þ#Nor Ashidah Selamat，A.Abdullah和N.马特·迪亚沙特国王大学学报7713使用bootstrap或交叉验证方法。具体地说，合成实例使用平滑的bootstrap来产生，以提高估计器在稀有类存在时的性能。该研究提到（Lunardon等人， 2014年）更详细。给定实例-标签对的训练集Tn，（xi，yi），i = 1，.. . ，N，其中x是Rn，y是{1，-1}，f（x）是概率密度函数。让Ni属于类yi的例子数。ROSE步骤描述如下：Abdoh等人（2018）表明，将随机森林分类技术与SMOTE相结合，通过使用不平衡数据诊断宫颈癌来提高分类Lu等人（2019），使用带有SMOTE + ENN的RF分类器来处理数据集中的不相关和冗余特征，倾向于增加。实验结果表明，该方法具有较高的查准率、查全率和F1值。参考Xin和Rashid（2021），医学数据的不平衡，从而影响分类器的准确性因此，抽样可以在分类之前校正平衡算法3：ROSE1. 输入：训练数据集2. 步骤1：选择y3. 步骤2：选择xi，yi，T，R，使得yi= y本研究将随机过抽样方法SMOTE与随机森林分类方法相结合，提高了预测精度。Gicic和Subasi（2019）提出了预测违约的模型4. 步骤3：从Pb中取样x（..，x），Ni次通过分析几集成分类嗨我的概率分布利用合成少数群体影响的办法以x i为中心，协方差矩阵H i。5. 输出：余额数据集2.6. 随机森林分类器随机森林（RF）是一种著名的监督分类技术，由Breman在2001年提出（Breiman，2001; Biau，2012）。随机森林，通常称为决策树集合，用于分类的组合回归学习方法（Mekha和Teeyasuksaet，2015）和其它方法（Xu等人，2012年）。分类和回归树（CART）技术（Classification and Regression Tree，2008）被RF用于基于自举聚合（bagging）技术（Liaw和Wiener，2002; Bosch例如，2007年）。CART技术在RF中，每个树通过随机选择数据集的子集来构建独立的决策树。RF重复地将所选择的随机子集从根节点分裂到子节点，直到每个树到达叶节点而不被修剪。在对最终树类进行投票之前，每个树单独地对特征和目标变量进行分类。最终的总类别由RF根据从树中收集的大多数选票确定。以下步骤可用于解释RF是如何构造的（Abdoh等人，2018年）：算法4：RF。1. 步骤1.从数据集生成N个bootstrap样本。2. 步骤2.每个节点取大小为m的属性的随机样本，其中m M。（M是指属性的总数）。3. 步骤3.使用在中选择的m个属性构造分割，并使用最佳分割点计算k个节点。(‘‘k4. 步骤4.重复拆分树，直到只到达1个叶节点，树完成。5. 步骤5.该算法在每个自举上单独训练。6. 步骤6.使用树分类投票从（n）棵训练好的树中收集预测数据。7. 步骤7.使用投票最高的功能构建最终RF模型。RF鼓励树投票方法用于自举数据样本和指导数据的准备。在处理极端的数据分散时，有可能学习到极不平衡的数据（More和Rana，2017）。进行的研究过采样技术（SMOTE）在不平衡的小额信贷数据集的预处理。当使用具有同质和异质集成分类器方法的过采样方法时，初步结果显示特定类别的预测结果有所改善SMOTE和合并树构造算法，结合旋转森林，改进了所有类别的预测。该研究使用RF算法进行分类，这是Bagging算法的扩展，使用来自具有替换的训练数据集的样本（Breiman，2001）。接下来，该算法训练了几个模型，并计算了分类的平均预测。RF使用来自n个特征样本的完整集合的m个特征的随机样本来在具有替换的训练数据集中创建模型。然后，一个子集的特征被用来构建一个树模型，通过估计的预测误差的树。该过程被随机重复到其他树模型（替换），并基于m个特征样本计算最佳分割在训练数据集中。图1示出了随机森林分类器的机器学习。基于数据集开发了四（4）个分类预测模型。然后，使用训练好的模型对四个数据集的新数据（测试数据集）进行测试，以验证和评估最佳分类预测模型。在这个阶段，还进行了交叉实验，以确定使用哪种采样技术的最佳训练模型。3. 该方法本节描述了针对不平衡数据集问题提出的SMOTE和ROSE的启发式组合。在预处理阶段，数据清洗应用于处理缺失值，这是主要挑战之一因此，MICE被用于Fig. 1.随机森林算法结合了多个随机生成的决策树算法的结果。Nor Ashidah Selamat，A.Abdullah和N.马特·迪亚沙特国王大学学报7714图二. 不平衡数据问题的建议方法。确定数据集中的缺失数据，以及将连续数据转换为离散数据的简单分箱步骤。然后，利用MDA和MDG进行特征选择.使用SMOTE、ROSE和RF生成用于分类的合成数据。所提出的方法的框图如图所示。二、3.1. SMOTE和ROSE（AF-SR）主要问题是在构建基于数据集训练的分类器模型时，找到划分数据的最佳超平面。一般来说，不平衡的数据集会导致用户对来自分类器模型的查询序列的结果进行错误分类。这种效果是由于机器学习算法的复杂机制，以优化重要的学习参数，以最大限度地减少错误分类少数和多数类的成本。此外，错误分类少数类的成本高于错误分类多数类。一个简单的解决方案是对少数类进行过采样，但不复制少数类，但它会创建信息丰富的合成样本。此外，过采样是可调整的，以提供最佳和最具信息量的特征组合。因此，该解决方案是由集合论激发的，包含特征集合集合中的所有项，称为关联或联合。基本技术使功能集能够合并和链接。因此，组合最佳生成的特征值可以最小化过拟合问题并增强机器学习分类器的泛化性能。图3显示了SMOTE和ROSE的简单关联组合，以提高数据集的过采样质量。关联重叠特征会合并两个或多个特征空间。组合特征的目的是减少少数和多数类数据之间的不平衡。因此，组合的输出导致新的不同特征空间。SMOTE、ROSE、AF-SR和原始数据分布之间的比较如图所示。四、原始数据样本分布如图3（a）所示，在康复数据集中使用SMOTE、ROSE和AF-SR的结果如图3（a）所示。 3（b）、3（c）和3（d）。B3W值图三. (a)在组合之前：A和B是分离的合成特征集。(b)组合后：将特征集A和B组合以构建新的合成特征集集合：AF-SR。A = Smote，B = Rose。和G3W分别代表坏的三周和好的三周。将AF-SR用于康复数据集，少数类的大小增加，从而产生平衡的数据集。4. 实验结果实验通过模拟训练数据对各种设置进行初步评估，并将最佳设置用于实验验证。我们已经在具有RAM 16 GB存储器和Windows 10 64位操作系统的Intel（R）Core（TM）i7- 7500 U 2.70-GHz CPU上进行了实验。所有数据分析和分类均使用R语言版本R-3.6.1 for Windows（32/64位）和RStudio版本1.2.5001进行。4.1. Validi医疗记录系统数据集这些数据来自Christopher Bjerre研究人员与丹麦一家康复中心合作，访问了Validi记录系统中的匿名患者数据。该系统的数据被丹麦X康复和治疗中心用于记录接受戒毒康复治疗的患者。有趣的是，数据集是基于时间的数据或时间序列数据，其中行包含时间戳，其描述了药物成瘾者随时间的复发或非复发的样本的索引。例如，这些数据包含康复中心的基本患者信息，如药物摄入、参与和及时与工作人员联系。随后，确定了复发风险的重要因素，并从医疗记录系统中纯化数据以创建数据集。这些数据是从丹麦X康复和治疗中心使用的系统数据库中的16个表中提取的最终，获得47个特征或属性来描述数据库中的表1显示了表格列表该研究使用了2015年至2017年3年的664份数据（患者记录）。数据的总属性为47个属性，包括一般信息、成瘾信息、个人信息、医疗信息和社会治疗信息。分类分为两个(2)主要类别：好的三周（GTW）和坏的三周（BTW），其中GTW涉及无复发风险的患者，BTW是复发风险的患者。数据集中GTW和BTW的样本比例分别为76：7（608：56）。因此，本研究认为该问题是一个二元分类问题。接下来，数据集被分成70%的训练集和30%的测试集，如表2所示。4.2. 实验装置本节中报告的建议设置用于AF-SR方法的实验验证。在文献中，参数设置显著影响采样数据和分类器Nor Ashidah Selamat，A.Abdullah和N.马特·迪亚沙特国王大学学报7715图四、（a）原始数据样本在经验特征空间中的分布的示例;（b）（c）和（d）分别在经验特征空间中的SMOTE、ROSE和AF-SR之后的数据采样的分布的示例BTW =坏的三周，GTW =好的三周。性能因此，在配置软件时有两种标准方法，即（a）由用户设置和（b）参数设置的然而，在本研究中，由于数据样本的复杂性，使用了第一种方法。除非另有说明，否则本研究中使用的所有软件程序均使用默认4.2.1. 数据分箱变换因为不可能用特征空间中的条目来表示每个年龄值，所以分箱适合于让单个条目表示患者值的年龄。通过离散化过程对“年龄”属性执行转换技术，其中属性转换为四（4）个范围（箱）：1表示0至17岁，2表示18至30岁，3表示31至45岁，4表示46至60岁。垃圾桶分为儿童、青年、中年和老年四组。使用的组和范围基于Bhat和Patil，2016;Prajapati等人，2014年）。然而，考虑到本报告中使用的最小年龄为15岁，“儿童”的范围表1数据集中用于成瘾治疗的表格列表。用于描述复发患者的特征总数为47个特征。没有表名详细信息1.WpCjsAttendee活动记录2.WpCjsAttendeeInfo考勤记录3.WpCjsAttendeeType考勤类型4.WpCjsClientmeta客户端元数据，例如，开始日期，首次清洁日期5.WpCjsClients客户端元数据，例如，姓名、年龄、电子邮件、状态4.2.2. 使用链式方程算法（MICE）MICE是缺失数据问题的主要方法，提供了一种基本但灵活的方法MICE是缺失数据问题的主要方法，提供了一种基本但灵活的方法（Wulff和Jeppesen，2017）。该研究发现了8个缺失值的属性，范围从0.2%到19.1%。通过使用MICE算法来固定属性在MICE中，考虑了两个重要在本研究中，使用了默认值（m = 5）和（方法=预测均值匹配）（vanBuuren和Groothuis-Oudshoorn，2011）。4.2.3. 使用平均降低精度（MDA）和平均降低基尼系数（MDG）算法进行该研究还比较了特征选择过程前后的分类模型性能，以评估影响分类预测模型的特征或预测因子。结果表明，经过特征选择后的分类模型的分类准确率为91.92%，优于特征选择前的分类模型的90.53%。因此，所选特征是研究中的相关和基本特征。该步骤涉及将特征的数量从47个减少到38个特征。这是通过检查和消除这两个算法，即MDA和MDG算法的输出来完成的。对于复发描述，选择阳性评分（1至10之间）用于进一步处理，以便区分它们。4.2.4. 使用SMOTE和ROSE算法的6.WpCjs客户治疗类型客户端类型是指WpCjsTreatmentType该研究使用欠采样数据集进行实验分类模型进行实证比较7.WpCjs治疗类型可供客户使用的治疗类型，例如，年轻，紧急8.WpCjsClinicReasons客户在康复中心9.WpCjsDetox记录给予的排毒和剂量10.WpCjsDetoxDosage多次排毒和每次客户端11.WpCjsJournals期刊条目记录12.WpCjsJournalType日志类型，例如，医生、社工、治疗师13.WpCjsMedicine管理员用药记录在欠采样和过采样技术之间。结果表明，使用欠采样数据集进行分类的因此，在报告表2Validi的复发数据集的原始样本BTW =坏三周，GTW =好14.WpCjsMedicine类别药物类别，例如苯二氮卓类、抗抑郁药三周样本序列（70%）测试（30%）的类别编号15.非必要（非排毒）记录16.WpCjsPnmedicine分发医学给予的非排毒和剂量GTW 608 426 182BTW 56 40 16共计664 466 198Nor Ashidah Selamat，A.Abdullah和N.马特·迪亚沙特国王大学学报7716¼ ð Þ¼ ¼ð Þ表3SMOTE和ROSE的最佳参数设置为1：1的比例平衡的类。Smote perc.超过1000110岁以下号关于K2玫瑰编号N 1232p 0.5最大值0.5最小值0.2使用合成少数过采样（SMOTE）和随机过采样（ROSE）采样技术对数据集进行。每个实验的目的是通过调整每个算法中的关键参数来获得比例为1：1的平衡数据集，如表3中分别针对SMOTE和ROSE所在本研究中，在 SMOTE 中，通过实验设定 k 、 perc.over 和perc.under的参数值，以确保少数样本量等于或接近多数样本量（1：1）。perc.over解释了决定有多少来自少数群体的额外病例被生成的数字。k参数是用于生成新的少数样本的最近邻的数量。perc.under参数是一个数字，它决定为从少数类生成的每个案例选择多少来自多数类的额外案例在ROSE中，N参数描述了ROSE生成的数据集所需样本量的数字同时，p是由ROSE生成接下来，hmult.majo解释了一个数字，这个数字指的是要乘以平滑参数的可选收缩因子，以估计多数类的条件核密度。调谐值的范围为0.1到1.0。最后一个参数是hmult.mino，它描述了引用要乘以平滑参数以估计少数类的条件核密度的可选收缩因子的数字（表4）。SMOTE中使用的衡量合成样本排序质量的标准是ROC（受试者操作特征）曲线下面积。ROC曲线计算真阳性率（TP）对假阳性率（FP）在各种配置，其中1，222个样本属于BTW，1，242个样本属于GTW。图4显示了SMOTE和ROSE组合数据集的数据分布图。4.2.6. 随机森林分类器我们采用随机森林（RF）（Breiman，2001）来学习对复发问题进行分类。对于RF，我们发现有两个重要的参数需要修改，即。(a) 为每个分支选择作为候选变量的变量数（mtry）。在本研究中，该参数设置为38，(b) 生成的树的数量（ntree = 500）。此值不能设置为太小的值，以确保每个输入行至少可以预测几次。因此，我们使用一系列模拟来调整该值，我们发现ntree = 500提供了最佳性能。4.3. Validi数据集的分类结果进行了各种测试和测量，以比较不同的采样方法。4.3.1. 实验设计使用分割百分比技术测试分类模型，重复二十（20）组或运行实验。对于每次运行，从提供的数据集中随机选择训练和测试实例。数据集被分成70%用于每个实验以训练RF分类器，30%用于测试。图5显示了不同模型比较的拟议广泛实验。在实验中，四（4）个不同的数据集：原始不平衡数据集（D1）、从SMOTE生成的数据集（D2）、从ROSE生成的数据集（D3）和从AF-SR生成的数据集（D4），如图所示。五、两种不同的测量方法被用来评估所提出的方法。第一个测量是准确度，如等式中所示。（四）、准确性度量从测试文档集合中正确验证的测试文档的数量。精度TP-4公司简介第二个指标是假阴性率（FNR），如等式2所示TPFFN公司简介（五）、FNR测量假阴性结果占总结果的比率证据阈值在ROC中，曲线越靠近左上角，实现了更好的分类。在应用SMOTE之后，新生成的数据集具有GTW和BTW的平衡类，其比例为1：1，而原始数据的平衡为76：7（608：56）。与SMOTE类似，用于有效和准确地找到少数类的标准是ROC曲线下面积。在应用ROSE之后，新生成的数据集具有GTW和BTW的平衡类，与具有608：56的平衡的原始数据4.2.5. 数据恢复AF-SR该研究过采样SMOTE和ROSE技术的组合组合数据集有2，464个样本记录，阳性复发淋巴结的数量（假阴性加真阳性）。此外，计算混淆矩阵，以确定错误分类的数量。FNFN5ActualPositiveTp4.3.2. 实验分析I该实验旨在分析哪种模型对数据集具有鲁棒性：单一的训练和测试实验。因此，使用每个模型（D1、D2、D3和D4）的数据对每个RF模型进行训练和测试。表5显示了M1、M2、M3和M4模型的实验结果。最好的结果是粗体。表4每种过采样方法的复发数据的原始样本和合成D1 =原始，D2 = SMOTE，D3 = ROSE，D4 = AF-SR。S1 = BTW，S2 = GTW。的样品火车测试S1S2S1S2S1S2D1566084042616182D2616616432432184184D3606626425439181187D412221242856870366372Nor Ashidah Selamat，A.Abdullah和N.马特·迪亚沙特国王大学学报7717图五、建议的交叉实验评估不同的采样方法。（a）实验分为四个不同的数据集：D1 =原始数据，D2 =使用SMOTE的数据，D3 =使用ROSE的数据，D4 =使用AF-SR的数据（b）随机森林算法用于训练和构建每个数据集的模型M1 =基于D1的分类器，M2 =基于D2的分类器，M3 =基于D3的分类器，M4 =基于D4的分类器接下来，基于四个不同的值，使用四个不同的数值测试数据集计算每个模型的分类结果（c）在一个实验中发现了16个不同的结果：R1，R2，R3，. . 、R16。在单次训练和测试实验中，ROSE的性能分别优于SMOTE和AF-SR的99.13（0.0058）%、95.00%和98.60%。活泼地这个结果是由于用于训练和测试模型的不同样本的数量。但是，AF-SR给出了最好的FNR分数0.0123比其他方法与许多测试实例。然而，交叉实验表明（表6）AF-SR在准确度方面超过ROSE测试数据99.78（0.0024）%。它表明，使用关联特征表5每个分类器模型的准确度和FNR结果。M1 =原始不平衡数据，M2 = SMOTE，M3 =ROSE，M4 = AF-SR。模型测试精度FNRM1D10.91921.000M2D20.95000.0736M3D30.99150.0171M4D40.98600.0123表6在不同数量的样本上训练的每个模型的准确性分类总结。M1 =原始数据，M2 = SMOTE，M3 = ROSE，M4 = AF-SR。方案显著优于标准或单一模型（SMOTE /ROSE），p值小于0.05。4.3.3. 实验分析2实验的主要目标是测量所提出的方法对其他方法的鲁棒性因此，本研究采用交叉实验方案，将所有方法的所有测试数据测试到每个分类器模型上。表6和表7显示了实验结果：一般来说，研究结果表明，具有平衡数据集的分类模型（M2，M3，M4）优于不平衡数据集模型（M1）。为了进行更稳健的分析，根据不同的测试数据D1、D2、D3和D4计算每个模型的平均准确度。表8显示了模型的平均值准确性和FNR。之前在单个训练和测试数据集上的结果表明，ROSE产生了最好的分类性能。然而，平均交叉实验表明，AF-SR分类模型对所有测试数据D1，D2，D3和D4，准确度为99.32%，FNR 0.0041，如表8所示。结果还表明，通过关联其他特征空间来扩展特征空间可以为复发描述提供有意义的信息，从而改善分类精度精度D1 D2 D3 D4最后，该研究将所提出的方法与Validi数据集的类似方法进行了Bjerre（2017）使用10倍交叉-0.9192 0.5247 0.8480 0.70250.8812 0.9500 0.8786 0.94200.7122 0.9915 0.87680.9969 0.9978 0.9860验证以使用一系列分类器算法来训练和测试数据集。该研究确保了94.20%的准确度和0.140 FNR使用RF和SMOTE算法与不同的参数配置的最佳结果。该方法的结果如表9所示。表7在不同数量的样本上训练的每个模型的假阴性分类率总结。M1 =原始数据，M2 =SMOTE，M3 = ROSE，M4 = AF-SR。假阴性率表8分类模型M1、M2、M3和M4对测试数据D1、D2、D3和D4进行交叉实验的平均性能结果。最好的结果是粗体。D1D2D3D4模型平均准确率平均FN率M11.0000.95050.30860.5997M10.74860.7147M20.19380.07360.16920.0926M20.91300.1323M30.00000.55600.01710.2328M30.89110.2015M40.00000.00410.00000.0123M40.99320.0

下载后可阅读完整内容，剩余1页未读，立即下载