RFM细分分析和K均值算法的应用

109 浏览量更新于2024-01-17 收藏 946KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报RFM排名A. JoyChristy，A.乌马克斯瓦里湖Priyatharsinib，A.Neyaaba印度Thanjavur被视为大学的SASTRA计算机学院CSE系b印度Thanjavur，SASTRA被视为大学，计算机学院阿提奇莱因福奥文章历史记录：2018年6月1日收到2018年8月26日修订2018年9月4日接受在线发售2018年保留字：客户细分RFM分析K-Means模糊C均值初始质心A B S T R A C T企业客户的有效细分是根据客户的RFM（最近度，频率和货币）值将其分类为具有相似行为的组。公司的交易数据是在特定时期内分析的。细分可以很好地了解客户的需求，并有助于识别公司的潜在客户。将客户划分为不同的部门也会增加公司的收入。人们认为，留住客户比寻找新客户更重要。例如，公司可以部署特定于单个细分市场的营销策略来留住客户。本研究首先对事务数据进行RFM分析，然后扩展到使用trans-k-means和模糊C- Means算法进行聚类本文提出了一种新的K均值聚类初始聚类中心的选取方法.从方法得到的结果进行了比较彼此的迭代，集群紧凑性和执行时间。©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍近年来，企业在这一领域的竞争日益激烈。通过客户细分模型可以提高公司的利润。留住客户比获得新客户更重要。根据帕累托原则（Srivastava，2016），20%的客户对收入的贡献更多。公司比其余的。客户细分可以使用各种独特的客户特征来执行，以帮助业务人员定制营销计划，识别趋势，计划产品开发，广告活动和提供相关产品。客户细分个性化的个人信息，以更好地与预期的群体沟通.在客户细分中使用的最常见的属性是位置，年龄，性别，收入，生活方式和以前的购买行为。*通讯作者。电子邮件地址：joychristy@cse.sastra.edu（A.J.Christy）。沙特国王大学负责同行审查在这里，使用行为数据进行细分，因为它通常是可用的，并且随着时间和采购历史而不断发展RFM（Recency，Frequency，andMonetary）分析是一种著名的技术，用于根据客户的购买行为对其进行评估一个评分方法来评估分数的近，频率和货币。最后，所有三个变量的分数被合并为RFM分数，范围从555到111（Haiying和Yu，2010），其用于通过分析客户的现在和过去的历史来预测未来的模式在这种情况下，它已被观察到，三个因素的得分最近，频率和货币直接成比例的客户一旦计算了最近度、频率和货币的值，就将K-Means算法应用于客户群聚类的变量。分析每个集群的行为，以找到给公司带来更多利润的客户群。类似地，聚类是使用其他两种算法，即模糊C -均值聚类和所提出的方法与现有的K-均值算法中选择的初始质心。本文的目的是提出一种K-means算法初始质心的选择方法，并将该方法应用于客户分割，减少迭代次数和时间。既然发现了客户群，就有必要了解这些客户群之间的差异。对集群进行彻底的分析，以帮助找到目标客户，并为他们提供适当的促销和优惠。同时，提出了一种新的基于重复中值的K-Means算法，https://doi.org/10.1016/j.jksuci.2018.09.0041319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com小行星1252Christy等人 /沙特国王大学学报-计算机与信息科学33（2021）1251- 1257提出的意图，以减少迭代次数比传统的聚类算法。提出的工作的结果是一个有意义的客户细分，这将是有用的营销人员。研究的其余部分集中在分析所有三种聚类方法的迭代，集群紧凑性，执行时间和各种其他因素。2. 文献综述Jiang和Tuzhilin（2009）指出，客户细分和买家定位对于提高营销绩效都是必要的这两个任务被集成为一个逐步的方法，但面临的问题是统一优化。针对这一问题，提出了K-分类器分割算法。这种方法的重点是将更多的资源分配给那些给公司带来更多回报的客户。相当数量的作者写了不同的方法细分客户。他和李（ 2016 ）提出了一种三维方法来提高客户生命周期（CLV），客户满意度和客户行为。作者的结论是，消费者彼此不同，他们的需求也不同。细分有助于找到他们的需求和期望，并提供良好的服务。Cho和Moon（2013）提出了一种使用加权频繁模式挖掘的定制推荐系统使用RFM模型进行客户作者为每个事务定义了不同的权重，通过挖掘产生加权关联规则使用RFM模型将为客户提供更准确的建议，从而增加公司的利润。Zahrotun（2017）使用在线客户数据来识别使用客户关系管理（CRM）的最佳客户。通过将CRM概念应用于网上购物，作者通过细分他们来识别潜在客户，这有助于我们增加公司的利润因此，为了准确地进行客户细分和营销，本文采用了模糊C均值聚类方法因此，这有助于客户根据他们的需求在适当的标记策略中获得多个类别Shah和Singh（2012）提出了一种新的聚类算法，其执行类似于K-means算法和K-medoids算法。这两种方法都是分区方法。该算法并不是在所有情况下都能得到最优解，但它降低了聚类误差准则。索拉布指出，随着集群数量的增加，新方法比传统方法花费更少的时间来执行。Sheshasaayee和Logeshwari（2017）通过RFM和LTV（生命时间价值）方法的分割设计了一种新的集成方法他们使用两阶段方法，第一阶段是统计方法，第二阶段是执行聚类。他们的目标是在两阶段模型之后执行K-means聚类，然后使用神经网络来增强其分割。Lu et al.（2014）分析了客户流失预测。作者使用逻辑回归并隔离了交易数据，以创建一个新的独特的预测模型。通过他的实验性实施，可以观察到，具有最大流失价值的客户可以被识别出来，并可以使用个性化的营销策略来保留。张先生认为，分析客户流失的原因，满足客户的个性化需求，是公司长久生存的必要条件Jiang和Tuzhilin（2009）提出了一种直接聚类方法，该方法不基于计算的统计数据对客户进行聚类，通过合并多个客户的交易数据。作者还表明，找到最佳分割解决方案是NP难的。因此，涂志林提出了不同的次优聚类方法。然后，作者实验性地检查了通过直接分组获得的客户段，并且观察到比统计方法更好。3. 算法描述公司客户的交易数据集用于执行细分过程。在这项研究中，三个不同的算法已被用于聚类的客户RFM分析的基础上。数据最初经过预处理，以去除离群值并过滤有意义的实例。使用z核检测离群值，以确定数据与其平均值和标准差的关系。平均值和标准差之间的关系分别映射到0和1。离平均值（零）太远的数据被视为离群值。然后将预处理的信息馈送到RFM模型中以计算新近度、频率和货币值。这三个属性，然后通过三个聚类算法，即K-均值，模糊C-均值和基于重复中值的K-均值（RM K-均值）聚类算法。这些算法将客户聚类成段。聚类算法的可操作性，然后分析有关的迭代次数，集群紧凑性和执行所需的时间。图1给出了所提出的客户细分系统的简要视图。3.1. RFM分析最近，频率和货币（RFM）分析是一个强大的和公认的技术在数据库营销。它被广泛用于根据客户先前的购买历史对客户进行排名。RFM分析在涉及大量客户的广泛应用中找到用途，例如在线购买，零售等。该方法基于三个维度，新近度（R），频率（F）和货币（M）对客户进行分组。3.1.1. 最近-客户最后一次购买是什么时候？最近值是客户在两次购买之间花费的天数新近度的较小值意味着客户在短时间内重复访问公司。类似地，更大的值意味着客户不太可能很快访问公司3.1.2. 频率频率被定义为客户在特定时期内购买的数量。频率值越高，公司的客户越忠诚3.1.3. 货币货币的定义是消费者在一定时期内花费的金额花的钱越多，他们给公司带来的收入就越多。每个客户都被分配了三个不同的分数，分别是最近度、频率和货币变量。评分从5到1。最高的五分之一得分为5分，其他的分别是4 3 2和1可以假设评分具有表1中给出的独特特征。最后，所有的客户都提供了分数555，554.111. 得分为555的客户可以被称为公司的潜在客户，因为他们可能为公司带来更多的利润，反之亦然））A.J. Christy等人 /沙特国王大学学报-计算机与信息科学33（2021）1251-12571253Fig. 1. RM K-Means分析的框架。表1RFM评分描述。评分特征5点潜能（n + k + i）。其中算法1（K-Means）。4有希望32风险1 Lost得分为111分。根据这个RFM分数，每个客户可以被放入不同的细分市场。3.2. K-Means聚类K-Means是一种标准算法，它将参数和聚类数作为输入，并将数据划分为定义数量的聚类，使得聚类内相似性较高。K-Means是一种迭代方法，它在每次迭代之前计算质心的值。根据每次迭代计算的质心，数据点在不同的聚类之间移动。重复该过程，直到总和不能再减少。K均值算法如算法1所示。最近度、频率和货币变量的值使用最小-最大归一化进行归一化。执行此操作是因为偏斜值可能有问题。现在将聚类算法应用于规模化数据。集群的数量被限制为10. 计算每个客户群所赚取的金额，以找到为公司带来更多收入K-means的复杂度为O输入：包含'n'个实例的客户数据集输出量：客户数据划分为k个聚类算法：1. 最初，根据k的值，k个随机点是选择初始质心。2. 使用欧几里德距离评估每个数据点与先前选择的质心的距离。3. 比较距离值，并将数据点分配给具有最短欧几里得距离值的质心。4. 重复前面的步骤。如果获得的聚类与前一步骤的聚类相同，则停止该过程。3.3. 模糊c均值模糊C均值是一种聚类方法（Memon和Lee，2017），允许特定数据存在于多个聚类中。它不决定数据点到给定集群的成员关系历史。相反，计算特定数据点将属于该聚类的可能性。模糊C-均值优于K-均值的优点是，）IJc1dicM3.计算聚类中心vj。J1/1IJ我1/1IJ小行星1254Christy等人 /沙特国王大学学报-计算机与信息科学33（2021）1251- 1257相似数据集优于K-means算法，因为在K-means中，数据点必须完全存在于仅一个聚类中。在这项研究中，一个客户可能属于一个以上的集群，这增加了留住客户的机会，对待他们与不同的报价为每个部分。算法的时间复杂度为O（n + k +d2+ i），其中d是迭代次数。与前面的算法类似，变量使用最小-最大归一化进行缩放。现在，客户基于模糊C均值聚类（Zahrotun，2017）基于最近度，频率和货币价值进行聚类。算法2（模糊C均值）。本文提出了一种新的K均值算法初始质心的选取方法将被聚类的三个变量最近度（R）、找到每个向量的中值，并将其指定为K-Means算法的初始质心根据k的值（段数），从R '、F'和M'值迭代计算k次中值根据初始质心的均值分布选择初始质心，减少了传统K均值算法的迭代次数实验结果表明，与随机选择质心的聚类方法相比，改进方法得到的聚类结果更有意义，更合理RM K-Means的复杂度与K-Means相同，为O（n + k + i）。以来初始随机质心是使用基于中值的Input =>包含'n'个实例的客户数据集=> k：簇的个数输出：=>客户数据划分为k个聚类算法：1. 随机选择k个初始中心。2. 计算模糊隶属度矩阵。方法，所提出的RM K-means算法减少了与K-means的迭代次数。算法2（RM K-Means）。输入：l¼1=Pk.di ji2-1分钟=>包含n个实例的=> K：聚类五分之四。Pn.lmx=. PnðlÞmΣ输出量：客户数据划分到k个集群4.重复步骤2和3，直到达到j的最小值，其中j是目标函数。3.4. 重复中位数K均值虽然K均值算法是传统的分组算法，但它有很多缺点. K-Means以随机方式选择初始质心。然后利用欧氏距离计算每个数据点到质心的距离，将每个数据点分配到最近的质心，形成一个聚类。随机选择初始质心的问题是质心可能彼此更靠近，导致聚类不太有意义。初始质心决定了聚类的优劣，如减少迭代次数、全局最优解和聚类紧凑性。K均值的性能因随机初始质心而降低（Liu等人， 2014年）。表2在线零售数据集描述。算法步骤：1. 上传客户事务数据集2. 通过移除离群值和空值实例3. 计算每个实例的R、F和M分数4. 将RFM分数按顺序排序为5. 令S =实例总数/k6. 用k个片段分割7. 对于i = 1到k，6.1.计算每个分段i6.2. 将中值存储在向量m[i]中。8. 设m向量的值为K均值的初始质心9. 计算每个物体的RFM与质心的距离10. 根据最小距离11. 重新计算群集质心12. 重复步骤8到10，直到簇成员或质心没有变化号属性名称描述数据类型1产品编号每一个都有6位数的唯一编号交易标称4. 实验及结果讨论2StockCode每个产品的5位数唯一编号3描述产品名称标称4每笔交易5发票日期和时间数字6UnitPrice每单位产品价格数字7客户ID每个客户的5位数唯一编号标称8国家国家名称标称所提出的方法的性能进行评估，通过工作的交易数据集的客户的在线零售商店的一年是从加州大学客户细分的一步一步的过程中提出的这一节.该数据集由八个属性组成，包括客户ID、产品代码、产品表3RFM计算器。参数RFM评分54321近期（天数）73090180365频率（购买次数）1512963及以下货币（美元）12，000以上90006000–90003000-6,0000低于3000A.J. Christy等人 /沙特国王大学学报-计算机与信息科学33（2021）1251-12571255图2a. K-Means聚类图2b. 模糊C均值聚类。图2c. RM K均值聚类。小行星1256Christy等人 /沙特国王大学学报-计算机与信息科学33（2021）1251- 1257表4RM K-MeansK-Means模糊c均值RM K均值迭代41932所用时间（秒）2.003524.79881.4917平均轮廓宽度0.330.430.49图三. RM K-Means的结果分析。名称、产品价格、购买日期和时间等。原始数据集由18，267个实例组成，具有8个属性。数据集包含2010年1月12日至2011年9月12日期间客户的购买信息。重要属性缺失值、单价、数量小于0、日期超过当前日期的实例为了识别离群值，还执行Z分数分析作为数据预处理中的附加步骤对发票数据和时间、每笔交易的产品数量、单位产品价格等与最近度、货币和频率有关的有意义的实例进行过滤，只有这些记录才被输入到基准算法中修改后的数据集包含772个实例，并增加了三个属性新近度，频率和货币来自RFM计算。原始数据集的描述见表2。4.1. RFM计算器表3表示用于计算每个实例的RFM分数的精确计算，其中每个参数中的分数5是最高的。从K均值、模糊C均值和RM K均值获得的输出图如图所示。二、每个算法的执行时间都是根据系统时间计算的。据观察，建议RM K-均值consumes更少的时间比其他两种技术，因为较少的迭代次数。由于初始质心是基于中值计算的，因此RM K均值中的迭代次数减少了。轮廓宽度用于研究结果聚类之间的平均距离轮廓图直观地分析聚类结果，并显示每个聚类中的客户数量以及从聚类中的点到另一个聚类中的点的最小距离较高的平均轮廓宽度值表示一个簇内的数据点彼此更接近，但不与其他簇中的点平均轮廓宽度的计算得到的聚类通过K-means聚类技术和RM K-means和K-means技术。观察到RM K-Means的平均轮廓宽度大于模糊C-均值聚类和K表4中给出的结果绘制在图1中。3.第三章。5. 结论细分客户将加深与客户的关系。为企业寻找新客户至关重要，同时保留现有客户（Tong等人，2017年，更重要。本文首先利用RFM分析进行分割，然后通过对已有的K-均值聚类算法进行微小的修改，将其推广到其他算法，如K -均值聚类算法、模糊C -均值聚类算法和RM K-均值聚类算法。这些方法的工作进行了分析。分析了每个算法执行所花费的时间，并且观察到所提出的K-Means方法消耗更少的时间并且还减少了迭代次数。该算法是更有效的，因为质心是更有意义的，并计算在开始的基础上的有效中位数的数据分布。由于细分是基于最近度，频率和货币价值的价值来完成的，因此公司可以根据客户的购买行为来定制他们的营销策略。未来的工作包括研究每个细分市场中客户的表现，例如每个细分市场成员经常购买的产品。这将有助于更好地为特定产品提供更好的促销优惠。引用何X，Li，C.，2016.电子商务网站客户细分之研究与应用。2016第六届数字家庭国际会议（ICDH），广州，pp. 203-208. doi：10.1109/ICDH.2016.050。Haiying，M.，Yu，G.，2010.基于RFM的大学生客户细分研究。2010年电子商务与电子政务国际会议，广州，pp。3860-3863 doi：10.1109/ICEE.2010.968。Sheshasaayee，A.，洛格什瓦里湖2017.智能客户细分中TPA聚类方法的有效性分析。在：2017年工业应用创新机制国际会议（ICIMIA），班加罗尔，pp。784-788A.J. Christy等人 /沙特国王大学学报-计算机与信息科学33（2021）1251-12571257斯利瓦斯塔瓦河，2016.基于RFM模型的顾客群识别：以不同购买者分类为例。Int. J. 总线Anal. 内特尔 4（2），45-50.Memon，K.H.，李博士，2017.具有局部信息的广义模糊c-均值聚类算法。在：IET图像处理，卷。号11第1页。1-12，1.扎赫罗通湖，2017.应用模糊c-均值聚类于线上商店之客户关系管理资料探勘技术tokodiapers.com 在： 2017 第二届信息技术，信息系统和电气工程国际会议（ICITISEE），日惹，pp. 299-303唐湖王玉，Wen，F.，Li，X.，2017年11月。基于数据挖掘的电信业客户忠诚度提升研究。ChinaCommun.14（11），260-268。https://doi.org/10.1109/CC.2017.8233665网站。Shah，S.，辛格，M.，2012.一种时间有效的改进K-mean算法与K-Mean和K-Medoid算法的比较。In：2012通信系统和网络技术会议，Rajkot，pp。435-437Liu，C.C.，Chu，S.W.，Chan，Y.K.，Yu，S.S.，2014年。一种改进的K-Means算法--2014年第十届智能信息隐藏和多媒体信号处理国际会议，北九州，pp。447-450. doi：10.1109/IIH-MSP.2014.118.Cho，Young，Moon，S.C.2013年。基于频繁模式加权挖掘的个性化用户推荐系统RFM评分。J. Converg. 4，36-40。江，T.，Tuzhilin，A.，2009年3月。通过对客户群的最佳细分IEEE Trans.知识数据工程21(3)，305-320. https://doi.org/10.1109/TKDE.2008.163N网站。吕，H.，Lin，J.Lu.，Zhang，G.，中国农业科学院，2014年5月应用boosting方法于电信业之客户流失预测模型 IEEE Trans. Ind. Inf. 10 （ 2 ）， 1659-1665 。https://doi.org/10.1109/TII.2012.2224355。

下载后可阅读完整内容，剩余1页未读，立即下载