没有合适的资源?快使用搜索试试~ 我知道了~
认知机器人2(2022)30改进的全因子深度信息挖掘算法云曼a、刘晓波a、徐飞b、刘军c、张倩aa中国Xi Xi工业大学计算机科学与工程学院b工程实验室,国家省级联合工程实验室。中国Xi先进网络、监测和控制中心63768中国人民解放军部队aRT i cL e i nf o保留字:数据挖掘关联算法聚类算法火灾预警a b sTR a cT在利用消防物理平台进行火灾报警数据关联分析时,经常会出现数据量过大、分析结果准确性不够等问题。为针对这些问题,基于相关分析算法和聚类算法,建立了基于火灾大数据的火灾事故全因素二次挖掘机制。利用关联算法对数据仓库中的火灾相关因素进行全因素初挖掘,提取关联规则中的常识性事故属性。然后采用K-means聚类算法,以火灾事故记录中的相关属性为聚类中心,对事故要素进行二次组合聚类,实现对火灾事故各因素的深度信息挖掘。实验结果表明,与传统的单一挖掘算法相比,本文提出的改进的全因子深度信息挖掘算法可以有效过滤31.6%的无意义挖掘结果。结果表明,该算法能够更准确地挖掘出数据之间的关系,为火灾管理等工作提供更有效的决策支持。1. 介绍近年来,数据作为一种日益重要的信息资源,也引起了数据挖掘的极大关注。数据挖掘(Data Mining)是指从大量的、不完整的、模糊的实际应用数据中提取隐藏在其中的人们事先不知道但可能有用的信息和知识的过程[1]。随着消防信息化建设的不断成熟和发展,消防数据增长速度惊人,如何利用和分析这些数据成为亟待解决的问题。数据挖掘可以收集、存储、分析和利用这些火灾数据,找出火灾关键因素之间潜在的关联规则和客观规律。该方法可实现火灾隐患的早期发现、识别和处理,为火灾管理提供决策支持聚类和关联规则挖掘是火灾数据挖掘过程中常用的数据处理和分析方法,在数据分析中得到了广泛的应用。苏芳[2]等人利用Apriori算法[3]挖掘出各种因素与事故结果之间的关联规则路径,发现客观因素之间存在明显的方向性 分析了道路交通事故的特点和事故后果,揭示了事故发生的重要原因。黄宇X在[4]等人利用Apriori算法对事故风险数据进行深入分析,挖掘出其潜在的关联规则,并通过对潜在关联规则的分析,制定相关的日常防范措施,实现对事故风险数据的识别、管理和控制。*通讯作者:Xi工业大学计算机科学学院,学府中路2号电子邮件地址:yunmanxatu@163.com(Y. Man).https://doi.org/10.1016/j.cogr.2022.01.001接收日期:2021年10月7日;接收日期:2021年12月31日;接受日期:2022年1月4日2022年1月6日上线2667-2413/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表认知机器人期刊首页:http://www.keaipublishing.com/en/journals/cognitive-robotics/Y.伙计,X。费湖军等人认知机器人2(2022)3031事故风险源。隐患排查治理。陈海军[5]采用改进的Apriori算法处理图书信息数据,生成关联规则库,并基于关联规则库中的关联匹配信息实现图书信息的个性化推荐;蔡泽祥[6]等采用K-means聚类算法和Apriori算法挖掘不同故障模式下的关联规则,综合考虑系统运行状态和电力用户的差异性,显著降低了设备运维决策的风险王海兴[7]采用因子分析和K-Means聚类相结合的方法,实现了危险货物运输车辆驾驶员危险驾驶行为的科学聚类,对危险货物运输企业和行业管理部门具有重要的参考意义。刘哲[8]等提出了一种基于改进K-means的麦穗计数邢瑞康[9]等人提出了一种基于数据的“密度”信息,有效地改进了K-中心点聚类算法[10],并将其应用到入侵检测模型中。王立国[11]等人提出了一种基于流形的改进K-Medoids算法傅鸿鹏[12]研究了基于K-Medoids聚类的分层教学质量改进卢浩[13]等.结合等宽离散化和K-Means聚类两种方法对方鑫等人[14]研究了基于K-Means和Apriori算法的配电网故障规律挖掘方法。该方法基于支持度、置信度和提升框架[15]来完成强关联规则的筛选陈雪梅[16]等分析了微课和移动学习的内涵特征,重点分析了数据挖掘技术中的K-means聚类算法和Apriori算法,通过数据挖掘技术实现了教学平台上课程资源的然而,虽然上述相关研究在数据挖掘方面取得了一定的进展,但目前基于火灾预警的数据挖掘研究较少,主要集中在文献[17这些研究虽然在一定程度上可以达到火灾预警的目的,但都是采用单一的数据挖掘算法来发现数据之间的内在联系,没有从多角度、多层次探讨火灾原因之间的潜在关系。为此,采用改进的K-means聚类算法和引入兴趣度的Apriori关联算法进行数据挖掘,并对火灾事故数据进行挖掘,得到的结果进行分析。通过探索各种事故之间的潜在关联规则以及因素之间的相互影响等有价值的信息,为火灾管理提供支持性建议。具体而言,本文提出的火灾事故全因素二次挖掘方法首先利用关联算法对火灾大数据进行全因素一次挖掘,对数据进行过滤,提取关联规则中的常识性事故然后,基于提取的事故属性数据,使用聚类算法,作为聚类中心,对事故要素进行两次聚类。即以事故中心为圆心画一个圆,对半径内的火灾事故进行二次深度信息挖掘。采用改进的全因素深度关联聚类信息挖掘算法,发现火灾事故中关键因素之间的一定关联规则和客观规律,对火灾预警等消防领域具有重要意义2. 关联规则分析法2.1. Apriori算法Apriori算法由Rakesh Agrawal和Ramakrishnan Srikant在1994年提出它是布尔关联规则频繁项集挖掘中最重要的该算法已广泛应用于商业、网络安全等领域。Apriori算法的目标是找到具有K项的最大频繁项集。该算法采用迭代的方法,首先搜索候选1-项集和对应的支持度,通过剪枝去除低于支持度的1-项集,得到频繁1-项集。然后连接剩余的频繁1-项集得到候选频繁2-项集,过滤出低于支持度的候选频繁2-项集,得到频繁2-项集,依此类推。直到找不到k+1个频繁项集时第i次迭代过程包括三个步骤:计算候选频繁i-项集的支持度,剪枝得到真正的频繁i-项集,连接生成i+1项的候选频繁项集算法1:Apriori算法过程输入:数据集D,支持阈值输出:最大频繁k项集1. 扫描整个数据集,得到所有出现的数据作为候选频繁1-项集。k=1,频繁0-项集是空集。2.获取频繁k项集a) 扫描数据计算候选频繁k项集的支持度b) 在候选频繁k-项集中去除支持度低于阈值的数据集,得到频繁k-项集。如果 得到的频繁k-项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束。如果频繁k项集中只有一个项,则直接返回频繁k项集作为算法结果,算法结束。在频繁项集的基础上,连接生成k+1项的候选频繁项集设k=k+1,然后转到步骤2。Y.伙计,X。费湖军等人认知机器人2(2022)3032(������������ ������������������ ��� ⇒���������|()√√√∑2.2. 关联规则关联规则挖掘是数据挖掘技术的重要组成部分。它主要用于发现大量数据之间的关联,从而描述事物的某些属性同时出现的规律和模式设���= {1,2,������������ ���项的集合称为项集。���假设数据集表示数据库中所有事务的集合,非空项集表示一个事务,它是由若干项组成的项集设和是事务 中包含的两个项集,���也就是���说������ , 如果存在���关联规则���������,则���关联规则���构成事务集中的关联规则 。关联规则的强度通常通过支持度和置信度来衡量。支持度是指数据集中同时包含项目集和项目集的事务数占总事务数的百分比,表示为������������������������������如式(1)所示���������������������(���⇒������������������������)=���(���∪ )=���������������( ∪ )���(一)置信度是指数据集中包含项目集和项目集的事务数占事务数X的百分比,记为置信������������������度���,记为置信度,如公式(2)所示:���()=()=������������������������( )中文(简体)在支持度和置信度的基础上,引入了一个相关性度量:升力,其表达式如下:������������(���,���) =���(���∪���)(二)(三)式中:������������(,)为升力度;()为������和同时发生的概率;()������,()为X和Y分别发生的概率。大于最小支持计数SPCmin的项集被定义为频繁项集。在判断一条规则是否为强关联规则时,需要两个阈值,即最小支持度和最小置信度。最小支持度是用来度量项目集的支持度和出现频率的一个阈值在统计学意义上,它表示项目集的最低重要性。它是用户识别的项集的最低频率,表示为_���������(0<���������_���������<1),最小支持度的值通常是根据经验设定的。最低置信度为用于度量置信度的阈值,表示关联规则的最低可靠性,记录为_������������(0���������_������������1).同时满足给定的最小支持度阈值和最小置信度阈值的规则称为强规则。2.3. 改进K-means算法聚类是将一组样本按相似性分成若干类。其目的是使属于同一类别的样本之间的距离尽可能小,不同类别的个体之间的距离尽可能小越大越好聚类方法可以分为基于划分的方法、基于层次的方法、基于密度的方法和基于网格的方法。K-means算法[22]是应用最广泛的基于划分的聚类算法,具有原理简单、易于理解和实现、能够处理大数据集等优点在给定训练数据集和聚类数后,该算法可以根据准则函数迭代地对数据集进行聚类,直到准则函数不再变化或达到约定的阈值。初始聚类中心的选取是影响K-means聚类结果的一个重要因素,初始聚类中心是从数据集中随机产生的,容易陷入极小局部最优解,聚类结果不稳定。为了获得更合理的初始聚类中心,获得更好的聚类效果,采用一种改进的K-means聚类算法:基于初始聚类中心优化的样本分布密度和离群点预处理的K-means算法对火灾数据进行离散化处理。以火灾事故数据为研究对象,选取���样本数据{���1,���2,...,������}包含 样本数据集{���1,���2,...,������}作为初始聚类中心。计算剩余样本点到聚类中心的距离,并将其划分为以最近的聚类中心点表示的聚类欧氏距离用于计算样本点之间的距离。 两个n维向量���之间的欧几里得距离=(���11,���12,...,���1���)和���=(���21,���22,...,������式(4)中示出了:==1(1���−2���)2���(四)数据点密度 的定义为:������������������������(������)=���������������{ | ∈���,|���−������|(<���五)Y.伙计,X。费湖军等人认知机器人2(2022)3033∑()1||∑ ∑‖‖样本密度阈值定义为:���ℎ��������� ℎ��������� =��� ×��������������������� (6)1个其中���是一个常数,通过将所有数据点的样本密度的平均值乘以系数来确定样本密度 。初始集群中心域的范围定义为:������= {������∈���,min(������)+(���− 1)×���≤���,������������则������������������������3.生成一个新的字符串4. End if5. 连接sp1并生成sp26. 如果(���)>,������������则���������������������������7.生成一个新的字符串8. End if9. 迭代计算10.生成���{���1,���2,., 你好,... ������} (������,��� ∈��� ∗,��� ∈ ∗)���11.定义的,定义的���������12. choose{1,2,,���������������<������������13.计算最小值14.���∈��������������� (������)15.计算机图形学16.��� ∈���������������(������′)17. 端3.3. 分析试验结果3.3.1. 数据预处理本文分析所用数据来自XX市消防大数据,共计14,800条。每条记录包括事故直接原因、行业、时间段、人员培训、点火源、点火源类型、消防设施、事故等级、死亡人数等9个属性。预处理需要对事故发生时间、事故等级等文本信息进行离散化处理,删除一些缺失或无用的值。部分预处理数据见表1。3.3.2. 实验结果算法改进前后的效果比较挖掘结果的在对挖掘出的规则进行评估时,邀请业内专家对改进前后的所有挖掘出的规则,根据是否具有实际应用价值进行打分,分值在0 - 1之间。然后,根据支持度、置信度和专家评分评估所有挖掘出的规则。具体规则评估方法如式(12)所示规则评估得分=支持度× 30%+置信度× 30%+专家得分× 40%(12)因此,根据规则评价得分,可以为挖掘出的规则设置以下四个等级:算法改进将预处理后的离散数据作为挖掘算法的输入,对传统挖掘算法(只使用Apriori相关算法,不对事故因素进行二次聚类)和改进的挖掘算法进行比较。通过多次实验,我们将算法的支持度Smin设置为0.046,最小置信度Cmin设置为0.05。然后使用这两种不同的挖掘算法进行实验。实验结果表明,传统挖掘算法共挖掘出1239条规则,其中无意义规则459条;引入聚类算法后共挖掘出847条规则,其中无意义规则105条。从以上数据可以得出结论,传统的关联挖掘算法得到的大部分数据都是错误的或无用的规则。下表(表2)显示了没有值的规则以表3中的第一条规则为例。当人员培训缺乏消防安全意识,直接原因是员工违规操作时,服务行业火灾可能发生。然而,从现实中可以看出,当Y.伙计,X。费湖军等人认知机器人2(2022)3037表2规则表3一部分毫无价值的规则。度分数最佳规则0.8分≤1良好规则0.6分≤0.8不良规则0.4分≤0.6无意义规则分≤0.4规则求值数量1人员培训=消防安全意识缺乏,直接原因=员工违规操作- >行业=服务行业无意义的2时间段=傍晚,点火源=烟头->死亡人数=0无意义的规则3死亡人数=2,消防设施=消防设施不足->时间段=清晨无意义规则图二、 不同支持度下两种方法规则数的比较。火灾原因是员工违规操作,行业更可能是生产行业而不是服务行业。因此,这条规则对实际指导意义不大,是一条没有价值、没有意义的规则。在不同的条件下,上述两种算法挖掘出的规则数的变化如图所示。 2 - 3:从图2-3可以看出,在支撑度0.04-0.079和置信度0.1-0.37的范围内传统挖掘算法产生的规则数总是多于改进挖掘算法产生的规则数。结果表明,改进的挖掘算法有效地减少了挖掘规则的数量,过滤掉了一些无意义的规则,得到了更有效的规则。基于以上结论,通过关联和聚类的方法对全因子深度信息挖掘算法进行改进该方法不仅减少了挖掘的规则数量,而且在一定程度上减少了无意义的规则,能够更准确地定位聚类关系,大大提高了通过数据挖掘得到的规则的质量。火灾事故原因分析对于挖掘结果,我们采用改进的全因子深度信息挖掘算法进行严格的处理和分析。通过对获取的数据进行处理和分析,可以得出有效的规律和结果,为消防工作决策提供帮助和支持通过大量的实验,我们可以得出结论,当支持度设置为Smin= 0.046,最小置信度Cmin= 0.05时,通过改进的挖掘算法共得到847条规则,部分规则如表4所示:以表4中的第一条规则为例。当事故原因是化学反应、热和火灾,且消防设施不完善时,更可能发生火灾的场所是化工行业。因此,有可能加强Y.伙计,X。费湖军等人认知机器人2(2022)3038图三. 不同置信水平下两种方法的规则数比较。表4规则的一部分编号规则评估1直接原因=化学反应发烧和火灾,消防设施=消防设施不足->工业=化学最佳规则2点火源=电线短路,时间段=下午->死亡人数=0最佳法则3点火源=电线短路,等级=一般->行业=制造生产最佳法则今后对化工行业的关注,如加强消防设施的检查,尽量减少化学反应热引发火灾的可能性4. 结论本文将关联算法Apriori和聚类算法K-Means应用于挖掘和分析火灾大数据,可实现火灾隐患的早期发现、识别和处理,并提供决策支持火管理。通过改进的基于关联和聚类的全因子深度信息挖掘算法,利用关联算法对预处理后的数据进行初步挖掘,得到具有一定相关性的数据。然后利用聚类算法对挖掘出的数据再次进行二次挖掘,得到更准确的火灾事故致因。与传统的仅使用相关算法对大数据进行分析相比,该方法提高了分析结果的准确性和精度,更深层次地挖掘出数据的内在联系,为火力打击提供更准确的决策支持。竞争利益提交人声明,他没有已知的竞争性经济利益或个人关系,可能会出现在本文报告的工作中。致谢本论文得到以下基金的资助:(1)国家和省联合工程实验室。(2)陕西省自然科学基础研究项目(2020 JQ-817);(3)西安市碑林区2021年应用技术研究与开发项目引用[1]J. 韩,于:康博。数据挖掘:概念与技术[M],北京:机械工业出版社,2012年,第100页。 186比188[2] F. 苏庆元,城市道路交通事故处理规则分析[J],J. 武汉大学Tech. 42(04)(2020)313 -318 + 331。[3] C. [1]王,关联规则Apriori算法的研究与应用[D],北京:华北电力大学,2018。Y.伙计,X。费湖军等人认知机器人2(2022)3039[4] Y. Huang,Yan Zo,J. Fan,et al.,基于Apriori算法的煤矿双重预防信息系统[J],工矿自动化46(10)(2020年)8.[5] H.陈,基于Apriori数据挖掘算法的信息推荐图书管理系统设计[J],现代电工42(23)(2019)115-119+ 124.[6] 蔡志,妈,Sun Y.,等.基于数据挖掘的电力设备运行维护决策分析方法[J].华南理工大学学报(自然科学版),2019,47(06):57-64+ 71.[7] WangX Wang,Z.Wang等人,基于数据挖掘的危险货物运输风险驾驶行为聚类分析[J],Transp.系统Eng. 告知。20(01)(2020)183[8] Z. Liu,W. 黄湖,澳-地 王建,基于改进的K-均值聚类算法的田间穗数自动计数[J],J. 农业。Eng. 35(03)(2019)174-181。[9] R. 兴角,澳-地 李,一种改进的聚类算法在入侵检测系统中的应用[J],消防与指挥控制44(02)(2019)124-128.[10] 姚杰。K-均值聚类分析在本科教学管理中的应用研究[C] //2009国际先进计算机控制会议,2009,628[11]L. Wang,N.马湖,加-地Zhao等人,in:基于改进K-Medoids算法的高光谱图像聚类[J],39,哈尔滨工程大学学报,2018,pp. 1574-1581年。[12]H. 傅,基于K中心聚类的分层教学质量改进评价研究[J],Mod. 电子学。Tech. 42(23)(2019)110-114。[13]H. Lu,S.太阳,Y。施,基于Apriori算法的地表沉降影响因素数据挖掘与分析[J],隧道建设(中文)38(S2)(2018)104-110.[14]X. Fang,J. Yin,S.江等,基于Isometric K-means和Apriori算法的配电网故障规则挖掘方法[J],48,Smart Power,2020 99-104+ 125.[15]Q. 詹永,张永,一种改进的动态遗传Apriori挖掘算法[J],Comp. Appl. Res. 27(8)(2010)2929-2930。[16]X. 陈俊,杜军,面向微课移动学习的教学资源平台数据挖掘技术分析[J],计算机应用。 年龄(01)(2020)62-65.[17]X. 游,Apriori算法在矿井火灾事故预测中的应用[J],能源与环境保护(2018)。[18] C. 他,Y. 张,基于数据挖掘技术的火灾风险预警模型研究[J],消防. Sci. Tech. (12)(2017)5.[19]M.邱,基于Apriori关联规则的草原火灾预警与对策研究[J],科技经济导刊(26)(2019) 3.[20] X. Hu,X.[1]高东才,基于大数据支撑的政府消防安全管理机制创新--以广州市天河区为例[J],中国公共管理,2018。[21]韦里基奥斯五世美国,斯塔夫罗普洛斯C.的方法,佐卡迪斯五世等人一种基于约束的频繁项集隐藏问题模型[C]2020.[22] 吴杰,李G,卢·H,等. Statistical Shape Model Generation Using K-means Clustering[C]//Proceedings of the 2018 International Conference on Electronics andElectrical Engineering Technology.2018年:207
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功