ck-FARM：商业智能的大数据关联挖掘R包研究

2 浏览量更新于2024-01-25 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

≥≥→软件X 22（2023）101341原始软件出版物ck-FARM：一个R包，用于发现商业智能的大数据关联杜森浩a，容宝曾b，陈伟文b，秦武a，c，邓慧仪aa香港恒生大学供应链与信息管理系，香港b香港理工大学工业及系统工程系c华南师范大学数学科学学院统计系，广东省广州市ar t i cl e i nf o文章历史记录：收到2022年2023年2月7日收到修订版，2023年保留字：关联规则挖掘大数据商业智能R包a b st ra ct模糊关联规则挖掘（FARM）是一种从数据集中识别频繁出现的模式的著名数据挖掘算法，其中应用模糊集理论来考虑语言变量以构建可解释的推理系统。在这项研究中，一个改进的算法，即ck-FARM，提出了一个R包。不同于典型的FARM机制，参数对应的统计意义进行了检查，而模糊隶属函数是自主建立和适应给定的数据集。从而提高了模糊关联规则版权所有2023作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本v0.2.0用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00066可重现胶囊10.24433/CO.2489725.v1（CapsuleGPL许可证使用的代码版本控制系统使用的软件代码语言、工具和服务R（4.1.2）编译要求、操作环境和依赖关系R（4.1.2）如果可用，请链接到开发人员文档/手册https://github.com/yptsang/ck-FARM问题支持电子邮件georgeho@hsu.edu.hk1. 动机和意义在工业4.0时代，数据挖掘和分析的最新进展促进了医疗保健、物流和供应链管理等广泛行业的商业智能发展。在许多数据挖掘技术中，关联规则挖掘（ARM）方法已被广泛讨论和探索，以发现数据科学和商业智能学科中业务流程中隐藏的知识和模式，其中发现的知识可以以IF-THEN规则的形式总结[1]。换句话说，业务流程参数的前因和后果可以以系统的方式相关联，以便支持业务策略的制定。例如，购物篮分析是ARM算法的一个众所周知的用途*通讯作者。电子邮件地址：曾永宝（yungpo.tsang）@ polyu.edu.hk（Yung P.Tsang）。https://doi.org/10.1016/j.softx.2023.101341而不同类型的商品可以根据交易频率进行关联，如[2]中的牛奶黄油，以辅助零售店营销策略的制定通常，许多频繁项集生成算法，如Apriori和FP growth [X]，都是以一种复杂的方式开发的，并应用支持度和置信度阈值来确保整个过程中的规则质量对于典型的ARM方法，一个主要的弱点是，只有二进制数据结构被认为与上述频繁项集算法。为了将ARM的应用推广到更多的领域，模糊关联规则挖掘（FARM）于2003年首次提出，将模糊集理论融入ARM [3]，以便使用ARM机制有效地分析连续尺度的数据。FARM的发明培育了许多工业应用，直到现在，如职业安全管理[4]和定价决策支持[5]。然而，在典型的FARM过程中，模糊隶属度函数是手动和直观地配置的，这构成了高度的主观性，因此，2352-7110/©2023作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx乔治·T·S何永Tsang，Qin Wu et al.软件X 22（2023）1013412--=Fig. 1. ck-FARM的软件架构所生成的模糊规则中的偏差程度不能被忽略。为了更好地控制规则的质量，迫切需要在定义模糊隶属函数时具有客观性的自动化FARM过程。关于ARM和FARM方法的最新发展，其相应的R包构建如下。R软件包对于FARM机制，R包特别是，RKEEL中包含了几种基于FARM的频繁项集生成算法，例如模糊先验算法、遗传模糊先验算法和遗传模糊先验DC算法[8]。在现有的用于ARM/FARM的R软件包之上，可以对FARM机制进行增强以自动化公式化的模糊隶属函数，而规则的质量，因此，追究鉴于FARM的上述局限性，开发了一种结合对应分析[9]和k均值聚类[10]的改进的为了更好地检验所提出的算法的可行性和有效性，在这项研究中，建立了一个R软件包的ck-FARM，使用户，如研究人员和数据分析师，可以简单地应用软件为自己的应用程序开发。所提出的软件的主要贡献首先，与典型FARM相比，CK-FARM机制能够自适应地研究过程参数之间的关联关系，自动调整模糊隶属度函数，从而获得高质量、可靠的决策支持规则。其次，构建了ck-FARM机制的R包，并给出了详细的用户说明，使这种实现商业智能的先进数据挖掘工具可以方便地应用于各种应用领域，提高了易用性因此，可以探索改进现有基于FARM的研究的研究机会，同时可以促进评估FARM变体之间性能的基础研究，以便针对特定业务场景选择最合适的算法。2. 软件描述为了描述R编程环境中的软件“ck-FARM”，最终用户和系统之间的交互在软件架构部分中进行了说明，其中ck-FARM背后的算法在软件功能部分中进行了简要总结。此外，软件的超参数，随后说明控制规则的质量和数量。总而言之，整个程序的使用ck-FARM组织更好地理解计算过程。2.1. 软件构架如图 1.在R语言环境下，利用现有的Matrix、arules、ca、ggplots和factoextra五个库，实现了ck-FARM算法。因此，可以检查过程参数之间的统计显著性，同时可以自动地建立模糊关联规则（FAR）。例如，样本FAR可以表示为“如果参数A为低且参数B为高，则参数C为低”，其中前因和后因与模糊类别（例如，低、中和高）相关联。基于过程参数之间的模糊关系，可以制定相应的业务管理/再造策略，增强企业的业务智能能力。2.2. 软件功能当应用建议的R包时，最终用户需要以公认的数据格式提供他们自己的数据集，例如.txt和.csv文件，其中内置方法read.table（）和read.csv（）可以用于读取数据文件。此外，实数数据以矩阵形式结构化，其中数据表的标题放在第一行，以便于参考。在ck-FARM中，使用以下相应方法进行了三项增强：方法corrana_data（）：该方法用于在计算FAR之前，通过使用库“ca”来研究两个过程参数向量之间的统计显著性。对于多个工艺参数dd1，d2，. . . .每对通过使用统计显著性为0.05的卡方统计量（χ2）测量过程参数的，其中·乔治·T·S何永Tsang，Qin Wu et al.软件X 22（2023）1013413- -图二. 上三角对应矩阵中7个工艺参数之间的对应分析结果，其中0和1分别表示两个工艺参数之间对应关系的不显著性和显著性自由度（hdi1）（hdij 1），hdi和hdij表示给定数据集中的数据长度。当在上述检验统计量中可以拒绝零假设时，可以证明两个工艺参数之间的显著相关性，而相应地在相关矩阵中示出值方法FARM_fun_result（）：该方法采用k-均值聚类方法自动设置FARM机制中所有过程参数的模糊隶属度函数。对于每个过程参数，其对应的数据向量最初被分配到由最终用户指定的K个不同的聚类中，其中来自整个数据向量的K个数据应用平方欧几里德距离计算数据点与聚类中心之间的距离，并对数据点进行重新分配到最小距离的集群。随后，可以通过计算聚类中所有数据点的平均值来更新聚类中心，直到聚类过程的收敛。为了选择值K内的最佳聚类数目，采用Calinski-Harabasz分数来评估所有可能数目的聚类的聚类间离散度和聚类间离散度的总和的比率，如等式（1）其中B（K）和W（K）分别表示总体聚类间方差和聚类内方差。通过这样做，当Calinski-Harabasz得分达到最大值时，可以获得最佳的聚类性能因此，在k-均值聚类过程中，确定最佳的聚类数，以划分模糊类，以便三角隶属函数可以建立。CK-FARM过程中的模糊隶属度函数。通过调整超参数，所得到的模糊规则的质量和数量可以变化，因此需要进一步的实验研究，以定制软件包在不同的业务场景。为了进一步增强易用性，可以定义参数“proc_ interest”以确定所生成的模糊规则的子集，其中仅期望的参数出现在规则的结果中（即，THEN组件）。换句话说，通过最小支持计数和置信度但不符合用户兴趣的所生成的规则可以从所列出的结果规则中移除。因此，可以简化进一步的分析和结果解释。3. 说明性实例为了说明所提出的R包，一个8466x7的数据集与一行表头被应用到检查之间的关系，租用自行车的数量和六个环境条件（即环境温度，相对湿度，风速，能见度，露点温度，太阳辐射）在自行车共享系统。在该说明性示例中，所提出的R包被构建并安装在R Studio（4.2.0）中，其中为了简单说明，聚类的最大数量、支持计数阈值和置信度阈值被设置为4、0.7和169.3（即，数据集的长度除以50）。首先，进行对应分析以检查工艺参数之间是否存在统计上显著的对于在该示例中考虑的七个过程参数，21组对应关系分析如图所示，姐妹们被认为是二、研究发现工艺参数显著相关，因此，CH（ K）B（K）/（K−1）W（K）/（hdi−K）（一）值得进行关联规则挖掘来研究它们之间的关系。其次，在部署FARM机制之前，方法 main_func （）：该方法用于基于方法main_func_result的结果计算模糊关联规则。在计算之前，支持度和置信度的阈值由最终用户指定，以控制规则质量。通过FARM机制[11]，可以用特定模糊类的项目集来发现IF-THEN规则形式的隐藏2.3. 软件的超参数给定具有连续数据的数据集， “alpha” 、 “lam- bda” 和“max_clu”是由用户定义和调整的三个通过使用给定的数据集来形成工艺参数的隶属函数。对于工艺参数，其隶属函数是自动构造和表达的，如图所示。3.第三章。第一个值表示每个隶属函数中模糊类的数量。例如，当第七个参数的第一个值为4时，其对应的模糊类可以是“低”、“中”、“高”和“非常高”，取决于决策者的解释。其余六个值表示模糊隶属函数的数值结构。梯形隶属函数被构建来表示头部和尾部模糊类（例如，低和非常高），而三角形隶属函数被用于构建介于两者之间的模糊类（例如，中和高）。因此，在FARM机制中应用隶属函数配置，以便从给定数据集中发现隐藏规则·=·乔治·T·S何永Tsang，Qin Wu et al.软件X 22（2023）1013414N∈图三. 过程参数7的模糊隶属函数自适应，以定义头部和尾部模糊类中的梯形函数和三角函数。中间模糊类中的函数图四、模糊关联规则的结果。第三，通过FARM机制，得到n-项集，其中n，如图所示。四、提取与租用自行车的数量（即租用自行车计数）相关的四个IF-THEN规则用于说明。例如，由FARM机制生成2项集[2，1，1，1]，其中具有模糊类1（即低）的参数2（即环境温度）与参数1（即低）相关联。租赁自行车的数量）与模糊类1（即，低）。换句话说，生成的规则可以表示为结合文献[6，1，1，1]的2-项集，发现当环境温度或露点温度较低时，租赁自行车的数量较低。4. 影响基于上述软件描述和说明性实例，它表明，建议的R软件包，ck-FARM，是可行的和实用的关联的IF-THEN规则的形式与自动模糊类的过程参数。将对应分析和k-means聚类引入FARM机制，可以实现自适应规则制定过程，有效地进行规则探索和质量控制，具有以下实际和学术意义。一方面，可以使用ck-FARM进行更多的应用研究，以有效地构建卓越运营的商业智能，同时可以在推理引擎（例如模糊推理系统）中进一步分析关联规则，以获得高级决策支持。例如，以前的研究[11，12]在各种应用领域部署了FARM，但模糊隶属函数的配置由领域专家直观地做出虽然领域专家参与制定模糊隶属函数对于初始化整个数据挖掘过程是有效的，但可能无法有效地防止人的主观性和知识偏见。因此，通过该算法可以探索解决各行业数据挖掘问题的另一个研究角度。另一方面，随着新的基于ARM的算法的发展，可以对ARM进程和规则质量的性能测量进行研究。包括ck-FARM在内的各种算法可以进行比较，以确定对应于特定应用领域的最合适和最有效的机制。虽然FARM中嵌入了一些现有的方法来自动化整个算法过程，例如递归神经网络[13]、遗传模糊系统[14]和差分进化算法[15]，但需要大量的训练数据以提高模糊隶属函数配置的准确性和可靠性。有鉴于此，该算法结合了无监督学习方法，即k-means聚类，以达到直观方法和监督训练方法之间的平衡。因此，可以进一步研究与各种算法之间的性能测量和比较相关的一些研究问题。总的来说，该算法将ARM的发展向前推进了一步，实现了工业4.0的最终目标，其中ck-FARM可以在整个数据挖掘过程中以最小的主观性有效地适应给定的数据集。5. 结论最后，本文结合对应分析和k-均值聚类，提出了一种自适应FARM算法，即ck-FARM，从而得到一组可靠的、高质量的乔治·T·S何永Tsang，Qin Wu et al.软件X 22（2023）1013415模糊关联规则在商业智能中的应用在详细描述的基础上，构建了该算法的R软件包，最终用户可以方便地部署该算法，使用自己的数据集体验自动化因此，可以发现特定业务流程中隐藏的知识，以支持制定适当的运营政策和战略。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作数据可用性数据将根据要求提供。确认作者谨此鸣谢香港大学教育资助委员会的支持（RMGSProjectNo.：700007）、香港恒生大学供应链及资讯管理学系、创新科技署及 Unlimic Limited （创新及科技基金项目编号：PRP/034/20FX）。此外，本文中描述的工作部分得到了香港理工大学的资助（项目ID：P0038722）。引用[1] 吴晓刚，王晓刚，王晓刚.关联规则挖掘在健康信息学中的应用：综述。ArtifIntell Rev2017;47（3）：313-40。[2]Kaur M，Kang S. 购物篮分析：使用关联规则挖掘来识别市场数据的变化趋势。Procedia Comput Sci2016;85：78-85.[3]欧文辉，陈嘉诚。银行账户数据库中的模糊关联规则挖掘。IEEE Trans-FuzzySyst 2003;11（2）：238[4]曾耀平，蔡锦良，顾培善，何国忠，吴春春，林惠英，等。一个以模糊关联规则为基础的知识管理系统，应用于冷藏设施的职业安全与健康项目。VINE JInform KnowlManag Syst2018;48（2）：199-216.[5]梁启鸿，陆嘉琪，蔡锦麟，林慧英，李正铭.电子商务环境下B2B柔性报价决策支持系统。 Int J Prod Res 2019;57（20）：6528-51。[6]Hornik K，Grün B，Hahsler M. Arules -一个挖掘关联规则和频繁项集的计算环境。统计软件杂志2005;14（15）：1-25.[7]Moyano JM，Sanchez L，Sanchez O，Alcala-Fernandez J. RKEEL：在R代码中使用KEEL。2021，https://cran.r-project.org/web/packages/RKEEL/index.html[2022年3月16日访问]。[8]吴S.以模糊关联规则挖掘分析台湾地区自行车故障数学2020;8（11）：1908。网址：//dx.doi.org/10.3390/math8111908网站。[9]Hubrik Brekke J.社会科学的多重对应分析。2018年，《明报》。[10]Sinaga KP，Yang MS.无监督K-means聚类算法。IEEEAccess2020;8：80716-27.[11]李庆鸿、何国忠、蔡锦麟、彭国坤.基于RFID的递归流程挖掘系统在服装行业的质量保证。 Int J ProdRes2014;52（14）：4216-38。[12]Sarno R，Sinaga F，Sungkono KR.使用流程挖掘与模糊关联规则学习的业务流程异常侦测。J Big Data 2020;7（5）. http://dx.doi.org/10.1186/s40537-019-0277-1网站。[13]Nagaraj S，Mohanraj E.一种新的模糊关联规则用于普适实时数据的高效数据挖掘。J Ambient Intell Humaniz Comput2020;11（11）：4753-63.[14]Ruiz E，Casillas J.用于演化关联规则的自适应模糊划分在大数据流中。Internat J Approx Reason 2018;93：463[15]王聪，刘勇，张强，郭宏，梁晓，陈勇，等。基于关联规则挖掘的差分进化算法参数自适应策略。专家系统应用2019;123：54-69.

下载后可阅读完整内容，剩余1页未读，立即下载