基于混合萤火虫分类的海量电信数据流失预测

22 浏览量更新于2023-12-10 收藏 841KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志18（2017）215基于混合萤火虫分类的海量电信数据流失预测阿马尔河Q. 艾哈迈德·艾哈迈德·马赫斯瓦里印度泰米尔纳德邦哥印拜陀Rathnavel Subramainam文理学院阿提奇莱因福奥文章历史记录：2016年9月25日收到2017年2月10日接受2017年3月1日上线保留字：萤火虫算法模拟退火电信流失预测数据不平衡海量数据A B S T R A C T随着电信运营商数量的增加，电信行业的客户流失预测成为一个重要的需求。然而，由于数据的巨大性、稀疏性和不平衡性，电信行业的客户流失预测一直是一项复杂的任务。本文提出了一种基于元启发式的流失预测技术，对海量电信数据进行流失预测。萤火虫算法的混合形式被用作分类器。已经确定，萤火虫算法的计算密集型组件是比较块，其中每个萤火虫与每个其他萤火虫进行比较，以识别具有最高光强度的萤火虫。该组件被模拟退火代替，并执行分类过程。实验在Orange数据集上进行。实验结果表明，萤火虫算法对流失数据的处理效果最好，而混合萤火虫算法可以提供更快、更有效的结果。©2017制作和主办由Elsevier B.V.代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍电信供应商数量的增加导致了竞争的巨大增加，从而导致了客户流失。目前，组织的主要重点是通过独立关注客户来减少客户流失客户流失[1]可以定义为客户停止与组织进行业务交易的倾向现在的主要要求是识别出那些很有可能搬出去的客户。一个组织在正确的时间进行干预的能力客户流失主要是由于客户的不满。识别客户不满需要几个参数。客户通常不会因为一个不满意的场景而流失[2]。在客户完全停止与组织进行交易*通讯作者。电子邮件地址： ammar. gmail.com （ A.A.Q. 艾哈迈德）， gmail.com（D.Maheswari）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier是的。与客户相关的几个属性及其与组织的操作模式由组织记录。这代表了客户的行为数据。分析这些数据将呈现客户当前状态的清晰视图因此，这可以用作流失预测的基础数据。这种运作模式的主要困难是，所讨论的数据往往非常庞大。庞大的数据可以归因于数据的行为性质，描述了组织处理的所有产品线。此外，由于数据的结构化表示的要求，所有实例都必须包含与组织中的通用客户对应的所有属性[4，5]。这导致数据稀疏，因为客户将仅与少数属性相关联，而不是与组织相关的所有属性。数据量的巨大性和稀疏性是流失预测过程中的主要难点。大公司与他们的客户互动，为他们提供各种服务[6]。客户服务是公司的关键区别之一。预测客户是否会离开以便在正确的时间进行干预的能力对于预防问题和提供高水平的客户服务至关重要。由于客户行为数据是连续的，并且可能非常多样化，因此问题变得更加复杂。流失是任何行业都不可避免的过程。然而，尽管困难，但可以使用几种方法来确定客户流失的原因。http://dx.doi.org/10.1016/j.eij.2017.02.0021110-8665/©2017制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com216A. A. Q. 艾哈迈德，D。Maheswari/ Egyptian Informatics Journal 18（2017）2152. 相关工作本节讨论最近的流失预测方法。一种风险预测技术，识别可能的客户流失是由Eschlessement等人提出的。在[7]。该技术利用广义加性模型（GAM）。这些模型放宽了线性约束，因此允许对数据进行复杂的非线性拟合。该技术通过识别风险客户并提供非线性关系的可视化来改进营销决策。Tiwari等人提出了一种基于神经网络的客户分析技术，可用于客户流失预测。[8]的一项建议。这种技术不同于其他提出的技术的事实，大多数的技术只能识别客户谁会瞬间流失。而基于神经网络的流失预测模型则提出预测客户未来的流失行为，为组织执行预防活动提供了急需的缓冲。类似的基于神经网络的模型包括[22，24]。中的方法[22]基于80-20规则来识别影响流失的关键属性，而[24]的方法涉及识别数据的主要特征以确定流失。Awnag等人提出了一种基于回归的流失预测模型。在[9]中。该方法利用多元回归分析来识别客户流失该技术利用客户的特征数据进行分析，并建议提供良好的类不平衡在影响分类器的可靠性方面起着重要作用由于类不平衡而存在的主要问题是少数类没有得到很好的表示，因此分类器在少数类上训练不足Zhu等人提出的技术在[10]中提出通过使用迁移学习技术来消除这个问题[10]中提出的方法通过使用从相关领域获得的客户相关行为数据来训练分类器来操作。这一方法主要侧重于银行业，其结果是为了表现出更好的业绩。Xiao等人提出了另一种考虑数据的不平衡性质以执行流失预测的技术在[15]中。Amin等人在[16]中介绍了有效处理客户流失数据的抽样技术比较。基于博弈论的客户流失预测技术[17]也是一种提升。流失行为的复杂性也使得一些出版物能够使用多个模型进行流失预测。Li等提出了一种基于聚类分析和决策树算法的客户流失预测模型在[11]中。该技术在中国电信数据上运行Le等人在[12]中提出了另一种利用多种预测技术的技术。该技术利用k-最近邻算法和序列比对的组合。该技术主要关注数据的时间分类特征来预测流失。由于数据的复杂性，利用统计学进行预测的情况正在增加。Huang等人在[13]中提出了一种规则生成技术，该技术采用统计学来预测电信服务中的客户流失。Faris等人在[14]中提出了自组织映射（SOM）和遗传编程（GP）的组合来识别和预测流失。利用SOM对客户进行聚类，然后剔除离群点，得到描述客户行为的聚类。一个增强的分类树，使用GP。Lu等人在[18]中提出了一种提高分类器模型预测精度的提升算法。这方法通过使用聚类和逻辑回归的组合来增强学习过程类似的预测增强技术-for the prediction预测process处理.其他基于集成的预测技术包括[20，21，1，23]。3. 基于混合萤火虫分类的海量数据流失预测针对海量数据的流失预测问题，采用混合萤火虫算法有效识别流失。该技术修改了实际萤火虫算法与模拟退火的比较组件，以提供更快和更有效的结果。A. 萤火虫算法：WorkingFirefly算法[25]是一种自然启发的元启发式算法，其灵感来自萤火虫通过闪烁的灯光吸引其他萤火虫的行为。光的强度在决定萤火虫的吸引力方面起着主要作用。它基于以下假设：所有的萤火虫都是单性的，因此任何萤火虫都可以被其他萤火虫吸引。吸引力与萤火虫的亮度成正比。对于任何两只萤火虫，明亮的一只会吸引另一只。亮度随着萤火虫之间距离的增加而降低。如果没有萤火虫比给定的萤火虫更亮，那么它会随机移动。对于优化问题，萤火虫的亮度与目标函数相关联。目标函数包含所有依赖于应用的参数，因此表达了当前解决方案的重要B. 萤火虫算法：利弊萤火虫算法，由于其元启发式的性质，可以有效地确定最佳的解决方案相比，其他基于统计的分类算法。萤火虫的运动由萤火虫强度参数提供的萤火虫强度来指导。该算法只使用一个相关参数，对内存的要求较低，因此能够处理大数据量的数据。该算法的主要缺点是，对于每次迭代，萤火虫与系统中的其他萤火虫进行比较[26]，因此增加了计算量。因此，随着搜索空间中萤火虫数量的增加，计算的级别也在很大程度上增加。C. Hybrid Firefly：架构提出了混合萤火虫结构，以消除由于比较的巨大计算需求混合萤火虫算法的工作原理如图所示。1.一、构建搜索空间标志着分类过程的开始。萤火虫的初始种群被生成并分布在搜索空间中。萤火虫的分布是随机的。记录每个萤火虫的位置，并根据它们与测试数据的距离识别萤火虫的初始强度（强度）。rXatr2Idris等人在[19]中提出了使用遗传算法的nique。这也是一个利用多种技术的集成模型其中，Xtest，j表示测试数据的第j个属性，Xi，j表示萤火虫i的第j●●●●●强度i1/4=j-Xi;j-Xi;j-Xið1ÞA. A. Q. 艾哈迈德，D。Maheswari/ Egyptian Informatics Journal 18（2017）215217←←图1.一、混合萤火虫架构。萤火虫强度与测试数据一起被传递到模拟退火模块，以识别测试数据的最佳解决方案。萤火虫0放在测试数据上，其余的萤火虫分布在训练集上。算法（混合萤火虫与模拟退火）：1. 基于基础数据的搜索空间边界识别2. 萤火虫种群生成（ffCount）3. 对于每个萤火虫i = 1.. . ffCounta. 萤火虫初始化b. 利用均匀分布函数的c. [0]测试数据4. 在满足终止标准之前，执行以下操作d. 指数simulatedAnnealing（fillaryIntensity，ffCount）e. 如果索引中萤火虫的强度大于测试数据中萤火虫的强度，则将萤火虫[0]移动到索引。f. 使用等式计算新强度（二）5. 对所有测试数据执行步骤3和4218A. A. Q. 艾哈迈德，D。Maheswari/ Egyptian Informatics Journal 18（2017）215≥←模拟退火（fixeyIntensity，ffCount）1. 设s=02. 对于k=0到ffCount：a. T←fixedIntensity [s]b. snew←挑选一个随机萤火虫c. 如果P（fixaryIntensity（s），fixaryIntensity（snew），T）random（0，1），则移动到新状态：ds s新3. 输出：最终状态s如果e0e，则P（e，e0，T）定义为1，否则exp（-（e0-e）/T）。模拟退火[27，28]是一种概率技术，用于确定给定目标函数的全局最优值。该算法以萤火虫的强度为目标函数，要求在包含测试数据的萤火虫中识别出具有最大强度的萤火虫。识别具有最大强度的萤火虫将直接对应于最优解，从而对应于最佳分类。模拟退火被假定为在具有大量解的离散搜索空间上执行最佳。由于萤火虫的识别过程对应于类似的场景，因此本文采用模拟退火算法来识别与测试数据相对应的最佳萤火虫。所有萤火虫的强度值被传递到模拟退火模块，并且将得到的最佳萤火虫的强度与测试数据进行比较，以识别具有最大强度（最大强度）的萤火虫。如果合成的萤火虫有更高的光当与包含测试数据的萤火虫相比时，包含测试数据的萤火虫被移向具有最佳解的萤火虫。包含测试数据（强度测试）的萤火虫的光强度更新为强度测试<$A强度测试<$BωExp <$-cω最大强度ω强度最大值-强度测试其中b是1阶（理想情况下），a是控制步长的参数，c是吸收系数，e是从高斯分布得出的矢量此过程将继续，直到满足指定的停止标准。停止准则通常有两个条件。当达到指定的最大代（maxgen）时，或者如果系统在指定的迭代次数内没有移动到更好的解决方案，则终止操作。第一种类型的标准通常在生产环境中设置，而第二种类型在开发期间设置以识别时间复杂度。对每个测试数据执行该过程。最后进行交叉验证，以确定分类器的准确性。4. 结果和讨论Firefly 算法和 Hybrid Firefly 算法在 Visual Studio 2012 上使用C#.Net实现。在Orange数据集上对Firefly算法和Hybrid Firefly算法进行了实验。Orange是一个基准数据集，对应于一家法国电信公司[29]。它被用作KDD 2009挑战的一部分[30]。Orange数据集的分析见表1。数据集被隔离，90%的数据用于训练，10%的数据用于测试。搜索空间填充有20只萤火虫，并以1000的maxgen进行分类。通过使用HybridFirefly算法对Orange数据进行分类获得的ROC图如图2所示。从图中可以看出，这些地块集中在两个区域，左上角表1数据集分析。物业橙色小属性密度2305万条记录缺失值60%数字属性数量分类属性数量图二. ROC图。图三. PR图。右上角可以解释为，该算法表现出非常高的真阳性率（TPR），即，它对阳性病例进行了出色的分类。假阳性率（FPR）最初被发现是低的，然而，最终假阳性显示出巨大的增加。描述精确度和召回率的曲线图如图3所示。查准率是指检索到的相关实例的分数，查全率是指检索到的相关实例的分数。高的查准率和查全率值表示算法的高性能水平从图中可以看出，见图4。F测量。A. A. Q. 艾哈迈德，D。Maheswari/ Egyptian Informatics Journal 18（2017）2152191/4：1精确度等级范围从0.85到1，召回度等级范围从0.8到1，表现出非常高的性能等级。F-Measure或F1 score是对分类器表现出的准确性的度量。它同时考虑了查准率和查全率，可以计算为F2查准率：查全率查全率从图中可以观察到，F测量范围从0.855到1，描绘了高精度水平（见图1）。 4）。5. 比较研究将Orange数据应用于Firefly算法进行比较，90%的数据用于训练，10%的数据用于测试。搜索空间填充有20只萤火虫，并以1000的maxgen进行分类。图表示通过使用正常Fire-fly算法获得的ROC图、PR图和F测量。从ROC图（图5）中可以观察到，与混合萤火虫算法相比，萤火虫算法的FPR水平要高得多。 PR图（图） 6）与混合萤火虫相比表现出非常相似的性能水平。虽然图五. ROC图。见图6。 PR图。见图7。F测量。见图8。准确度%。见图9。时间对比。尽管萤火虫算法显示出略低的F-Measure水平（图7），但它仍然可以与混合萤火虫算法相媲美。萤火虫算法和混合萤火虫算法的精度比较如图所示。八、可以观察到，与萤火虫算法（86.36%）相比，混合萤火虫算法表现出86.38%的略高的正常萤火虫和杂交萤火虫之间的时间比较如图所示。第九章可以观察到，普通萤火虫算法所花费的时间约为349.4分钟，而混合萤火虫算法所花费的时间为2.5分钟。这显示了杂交过程的效率。6. 结论客户流失预测是当前竞争环境的主要要求之一。本文研究电信数据流失的识别和预测问题。本文提出了一种有效的混合萤火虫算法的流失预测。在普通萤火虫算法和所提出的算法之间进行了比较，并且发现即使它们表现出的准确性相似，混合萤火虫也表现出非常低的时间延迟，从而优于普通萤火虫算法。基于ROC对算法进行了分析，PR、F-测量、准确度和时间。未来的方向将包括纳入方案或修改，以降低假阳性率。此外，还将进行不平衡水平和数据稀疏性方面的分析。在决策过程中引入博弈论也将有助于提高准确性水平和识别流失。引用[1] Effendy V，Baizal ZA.利用组合抽样与加权随机森林处理客户流失预测中的不平衡数据在：2014年第二届信息和通信技术国际会议（ICoICT），IEEE; 2014年。p. 325比30[2] 作者：Jiang Jiang，Jiang Jiang.美国移动通信服务市场顾客保持的两级模型。《公共政策》，2008年;32（3）：182-96。220A. A. Q. 艾哈迈德，D。Maheswari/ Egyptian Informatics Journal 18（2017）215[3] 洪世英，颜东成，王惠英。数据挖掘在电信客户流失管理中的应用。专家系统应用2006;31（3）：515-24.[4] 坎宁湾对你的客户群进行价值分析。工业标志管理1982;11（2）：89-93.[5] Eriksson K，Vaghult AL。专业服务中的客户保留，购买行为和关系实质。工业标志管理2000;29（4）：363-72.[6] Bhattacharya CB.当客户是会员时：付费会员背景下的客户保留。J Acad Mark Sci1998;26（1）：31-44.[7] 放大图片创作者：J.防止客户流失！客户流失预测的广义加性模型研究。上一篇：可持续的全球市场Springer International Publishing;2015. p. 238 比238[8] 李晓，李晓，李晓.一种新的基于神经网络的客户流失预测分析方法。计算科学及其应用-ICCSA 2010。Berlin Heidelberg：Springer; 2010. p. 358比69。[9] 王文，王文生，王文生，等.基于数据挖掘的客户流失预测方法研究.北京：经济出版社， 2001. 在：计算机应用数据库，教育和无处不在的计算。 BerlinHeidelberg：Springer; 2012. p. 318比24[10] Zhu B，Xiao J，He C.客户流失预测的平衡迁移学习模型。第八届国际管理科学会议论文集和工程管理BerlinHeidelberg：Springer; 2014.第97-104页。[11] 李刚，邓旭.基于聚类分析和决策树算法的中国电信客户流失预测。在：新兴的人工智能和计算智能研究。Berlin Heidelberg：Springer;2012. p. 319比27[12] 放大图片作者：Le M，Nauck D，Gabrys B，Martin T.用于流失预测的KNN和序列比对。在：研究和开发智能系统XXX. SpringerInternational Publishing; 2013. p.279比85[13] 黄毅，黄乙，克查迪.一种基于规则的电信业务客户流失预测方法。在：知识发现和数据挖掘的进展。Berlin Heidelberg：Springer; 2011. p. 411- 22[14] Faris H，Al-Shboul B，Ghatasheh N.基于遗传规划的电信业客户流失预测框架。在：计算集体智慧，技术和应用。 Springer InternationalPublishing; 2014. p.353-62.[15] 肖军，滕刚，何春，朱B.一步分类器集成模型在非均衡类客户流失预测中的应用。第八届管理科学与工程管理国际会议论文集。Berlin Heidelberg：Springer; 2014. p.843- 54[16] Amin A ， Rahim F ， Ali I ，Khan C ， Anwar S. 两种过采样技术（ SMOTE 与MTDF）处理类不平衡问题的比较：一个案例客户流失预测研究。在：信息系统和技术的新贡献。Springer InternationalPublishing; 2015.p. 215比25[17] KawaleJ，Srivastava J.MMORPG中的流失预测：基于社会影响的方法，第4卷。在：计算科学与工程国际会议。CSE'09，IEEE; 2009年。p. 423-8[18] 陆宁，林宏，陆健，张刚.应用boosting方法于电信业之客户流失预测模型。IEEETrans Indust Inform2014;10（2）：1659-65.[19] Idris A，Khan A，Lee YS.基于遗传规划和adaboosting的电信客户流失预测。2012年 IEEEInternationalConferenceonSystems ， Man ， andCybernetics（SMC），IEEE。第1328- 1332页。[20] 谢良，李冬，夏军，基于特征选择的客户流失预测迁移集成模型，第2卷。2011年系统科学、工程设计和制造信息化国际会议（ICSEM），IEEE; 2011年。第134- 137页。[21] 伊德里斯·汗·A.基于包围盒的电信客户流失预测模型。2014年第12届信息技术前沿国际会议（FIT），IEEE; 2014年。p. 238比44[22] 刘杰，杨刚.基于IG_NN双属性选择的客户流失预测模型研究。 2010年第二届信息科学与工程国际会议（ICISE），IEEE; 2010年。p. 5306-9[23] 黄毅，黄宝勤，柯查迪.电信业客户流失预测的滤波器特征选择新方法。在：2010年IEEE工业工程和工程管理国际会议（IEEM），IEEE; 2010年。p. 338比42[24] Shen Q，Li H，Liao Q，Zhang W，Kalilou K.利用基于因子分解和构造的多层特征互补融合改进电信中的流失预测。第26届中国控制与决策会议（CCDC），IEEE;2014。p. 2250-55[25] 杨晓生。萤火虫算法。自然启发的元启发式算法2008; 20：79[26] Prakasam A，Savarimuthu N.元启发式算法和概率行为：蚁群优化及其变体的综合分析。Artific Intell Rev 2016;45（1）：97-130。[27] Kirkpatrick S，Vecchi MP.模拟退火优化。Science1983;220（4598）：671-80.[28] 我的孩子。旅行商问题的热力学方法高效的仿真算法J Optimiz理论应用1985;45（1）：41-51.[29] MorikK，Köpcke H. 以保险业资料分析客户流失之在：数据库中的知识发现：PKDD2004.柏林Heidelberg：Springer; 2004. p. 325比36[30] http://www.kdd.org/kdd-cup/view/kdd-cup-2009/Data网站。

下载后可阅读完整内容，剩余1页未读，立即下载