没有合适的资源?快使用搜索试试~ 我知道了~
DM-MCDA:基于Web的道路事故数据挖掘和多准则决策分析平台
软件X 10(2019)100323原始软件出版物DM-MCDA:一个基于Web的数据挖掘和多准则决策分析平台--以道路交通事故为例Addi Ait-Mlouka,Tarik Agoukba瑞典Umeguide大学计算科学系b摩洛哥卡迪阿亚德大学计算科学系ar t i cl e i nf o文章历史记录:收到2019年收到修订版,2019年7月21日接受,2019年保留字:数据挖掘关联规则道路事故多指标分析时间序列可视化a b st ra ct当今这些数据库需要进行处理和分析,以提取有用的信息,并将其作为运输管理人员进一步使用的有效元素,例如道路安全,运输延迟和运输优化。数据挖掘算法的潜力在很大程度上是未开发的,本文展示了大规模的技术,如关联规则分析,多准则分析和时间序列,以提高道路安全,通过识别热点并给司机机会避免危险。事实上,我们提出了一个框架DM-MCDA的基础上,关联规则挖掘作为一个初步的任务,以提取变量之间的关系,相关的道路交通事故,然后集成多个标准分析,以帮助决策者作出最相关的规则的选择。 开发的系统是灵活的,并允许直观的创建和执行不同的算法,为广泛的道路交通主题。DM-MCDA可以根据需要扩展新的主题,使知识提取更加可靠,并提供有意义的信息,有助于为决策者制定适当的政策。©2019作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本1.0此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2019_141法律代码许可证GNU通用公共许可证(GPL)使用git的代码版本控制系统软件代码语言,工具和服务使用r,rshiny,Js。编译要求、操作环境R如果有开发人员文档/手册链接无问题支持电子邮件aitmlouk@gmail.com软件元数据当前软件版本1.0此版本可执行文件的永久链接https://aitmlouk.shinyapps.io/osp-armdashboard/法律软件许可证GNU通用公共许可证(GPL)计算平台/操作系统Linux、OS X、Microsoft Windows、类Unix、分布式/基于Web。安装要求R,rshiny.用户手册https://github.com/aitmlouk/DM-MCA/tree/master问题支持电子邮件aitmlouk@gmail.com*通讯作者。电子邮件地址:aitmlouk@gmail.com(A. Ait-Mlouk)。https://doi.org/10.1016/j.softx.2019.1003231. 介绍数据挖掘是从数据中识别有效的、新颖的、潜在有用的和最终可理解的模式2352-7110/©2019作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx2A. Ait-Mlouk和T.版权所有© 2019 - 2019上海市沪ICP备10032330号→⊂∩=→ ==→=→=[1,2]。它提供了几种技术,如关联规则分析,聚类,分类和序列分析,从数据集中提取有用的信息。关联规则挖掘是一种发现数据库中对象之间的相关性和关系的强大技术,它考虑输入数据集之间的条件相互作用,产生IF-THEN形式的决策规则。关联规则已经成功地应用于许多领域,其中包括电子商务系统、推荐、医学诊断、医学研究、电信、文本挖掘和运输。本文的其余部分组织如下:下一节介绍了相关工作的调查。在软件框架部分,我们介绍了该框架的体系结构和特点. 最后,在实现和实证结果部分,我们详细描述了一个关于道路事故数据的用例2. 问题和背景最近,在道路事故时代,技术的发展,物联网和自动驾驶汽车产生了存储在云环境和数据库中的巨大数据。这些数据构成了未来决策的主要来源,事实上,由于文献中提出的各种技术和算法,使用关联规则技术的知识提取变得越来越复杂和繁琐。为了克服这些挑战,已经提出了许多方法来分析道路事故数据。在这种情况下,Kuhnert等人使用CART和MARS确定了潜在的风险区域,主要由驾驶员情况引起[3]。Ossenbruggen等人[4]使用逻辑回归模型分析了事故发生的相关因素,发现购物区更危险。Chang和Wong [5]开发了一个CART模型来分析驾驶员、受伤严重程度和公路环境之间的关系。Anderson [6]研究了道路交通事故伤害的空间模式,并使用由此产生的模式创建了道路交通事故热点的分类系统。Kumar等人[7]使用关联规则来描述道路事故地点。其他关联规则挖掘算法在文献中被广泛用于提取频繁项集和提取关联规则。这些算法主要基于最小支持度和最小置信度.然而,它们中的大多数产生大量的规则,这使得决策者无法选择最相关的规则。因此,有必要通过实现用户图形界面来提取和评估关联规则,以帮助用户完成验证任务。在这种情况下,我们提出了一个框架的基础上,数据挖掘技术和多准则分析,以提取相关的关联规则适用于道路事故数据。该框架基于四个主要步骤:第一是数据处理,第二是关联规则提取最小置信度)。之后,系统允许用户使用多个标准分析来选择最相关的规则,并将结果分配到不同的相关类别。最后,用户可以根据时间序列分析(ARIMA模型[9])预测死亡和受伤。该框架使用R [10]和r shiny [11]实现,r shiny用于开发不同进程的交互式和用户友好界面用于演示的与道路事故相关的可用数据集列表位于本地数据源中。此外,该框架可以根据需要扩展新的数据集,使信息检索更加强大。3.2. 数据处理对于每起伤害事故,由在事故地点进行干预的执法单位(警察)收集描述事故的信息。这些信息以一种称为事故分析公报的形式收集,构成国家道路事故档案。从事故分析公报中提取的数据集列出了摩洛哥几年来的伤害事故总数,并进行了简化描述。这包括关于地点、司机以及事故特点、所涉车辆和受害者等的信息。数据处理是数据挖掘过程中非常重要的一步,但遗憾的是在数据挖掘过程中往往被忽视。为了获得强大的预测模型,准备数据、检测异常和确定清洁步骤至关重要。预处理是数据挖掘的重要任务之一,主要表现为噪声、缺失值的消除和无关属性的去除。系统提供了数据源模板和决策矩阵模板,方便了新数据集的集成和分析3.3. 关联规则挖掘关联规则技术是发现数据库中变量之间关系的一种强有力的技术.它是由Agrawal [2]发起的,第一次用来分析事务数据库。它通常被定义为形式的蕴涵一B如A、Bi和B.每个规则由两组不同的项目A和B组成,其中A称为前件或左手边(LHS),B称为后件或右手边(RHS)。为了从所有可能的规则集中选择有趣的规则,文献[12]中提出了对各种重要性和兴趣度量的约束最著名的约束是支持度、置信度和提升度,支持度被定义为数据库中包含项目A的事务的比例:Apriori算法[2],第三种是使用多准则分析的关联规则排序(Electre Tri方法[8]),最后一种是使用多准则分析的附加费(A B) 附加费(AB) |t(AB)|t(A)(一个)是时间序列分析(ARIMA模型[9])来预测不同地区的伤亡情况。置信度决定B中的项目在包含A的事务中出现的频率,正式定义为:3. 软件框架会议(A B)补充(A和B)附加费(A)(二)3.1. 软件构架本文提出了一个数据挖掘和多准则分析的框架,其结构如图1所示。1.一、的提升计算规则的置信度与规则后件中项集的支持度之比,形式定义为:主要模块有数据处理、关联规则、多准则分析和时间序列。数据处理模块允许用户处理和准备数据,以供帕特使用电梯(A B)会议(A和B)补充(B)(三)燕鸥挖掘算法,使用户能够提取关联基于某些输入阈值的规则(最低支持和1https://en.wikipedia.org/wiki/MoroccoA. Ait-Mlouk和T.版权所有© 2019 - 2019上海市沪ICP备10032330号3={个联系我们--⎩3.4. 多指标分析(MCA)Fig. 1. 系统架构概述。其中φ1,. . .φp是待估计的自回归参数,θ1,. . . ,θq是移动平均参数,MCA是运筹学和管理科学的一个子领域,致力于开发决策支持工具。在多准则分析领域,Roy [13]区分了三种类型的问题:选择,排序和排名。在我们从事故数据库中提取的大量规则的背景下,我们对在称为ELECTRE TRI [14]的现有方法中精确地多标准排序问题在使用该 方 法 时 , 决 策 者 必 须 确 定 多 个 阈 值 的 值 设 A 为 1 , 2 ,3,. . . ,a m表示备选方案的集合,C C1,C2,C3,. . . ,C h是范畴集,B b1,b2,b3,. . . .,b h简档集合(定义类别的限制的简档)。替代品进行比较,而不是彼此,但与阈值反映h类之间的边界ELECTRE TRI通过验证断言aSbh(其含义是“a至少与b h一样好”)来为类别分配1. 计算部分一致性指数cj(a,bh):如果gj(bh)−gj(a)<$pj(bh),则- -估计和1,. . .是假定遵循正态分布的一系列未知随机误差。ARIMA是AutoRegressive Integrated Moving Average的缩写。自回归(AR)项是指差分序列的滞后,移动平均(MA)项是指差分序列的滞后的误差,I是用于使时间序列平稳的差的数量。ARIMA建模需要遵循的步骤是:1. 探索性分析2. 拟合模型3. 诊断措施4. 执行情况和实证结果道路交通事故已成为世界上一个重要的公共卫生问题,据世界卫生组织[16]统计,每年有124万人死于道路交通事故,多达5000万人受伤。在这项研究中,数据是Cj(a,bh)=1if gj(bh)gj(a)qj(bh)如果不是pj(bh)+gj(a),pj(bh)−qj(bh)(四)从装备、运输和后勤部获得[17]在马拉喀什省(摩洛哥)。更多-超过19个变量(表1)被用来确定主要2. 计算不一致性指数dj(a,bh):{0if gj(ah)<$gj(bh)+pj(bh)影响交通事故的因素[18]。系统的实现基于R [10]和Rdj(a,bh)=1如果gj(ah)<$gj(bh)+vj(bh)如果不是 [0, 1](五)shiny [11],用于统计计算和图形的开源编程语言和软件环境。该服务器由两个组件组成:R Studio Server、Shiny Server和3. 可信度指标σ(a,bh)的计算σ(a,bh)=C(a,bh)<$1−dj(a,bh)(六)用于关联规则挖掘和可视化的R包。R shiny是一个R包,它使交互式Web应用程序易于直接使用R构建。Web应用程序是交互式的,可伸缩的,j∈ F 1−C(a,bh)适用于数据检索和分析,可用于大数据其中:Kj是标准jCj(a,bh)是准则j F=j∈F:dj(a,bh)>C(a,bh)的部分协调指数3.5. 时间序列分析该系统的另一部分是根据道路事故数据预测受伤和死亡人数在这种情况下,我们使用时间序列[15]。它是一个有限的时间索引数据序列(x1,. . . 时间序列可以被看作是在不同日期对同一现象的一系列重复观察(例如,给定位置的每日平均事故数)。我们通常用图表来表示时间序列,横坐标是日期,纵坐标是观测值,例如,我们使用ARIMA模型[9]。当平稳性不是问题时,我们可以定义自回归移动平均或ARMA模型如下:使用SparkR。在将与道路事故相关的不同数据源清理并转换为CSV文件后,数据挖掘算法(Apriori算法等) 分析输入数据以提取关联规则(图1和图2)。第2和第3段)。然后,将这些提取的规则作为多准则分析算法的输入元素,根据决策者的偏好选择最相关的规则。第二部分介绍了使用多标准分析来选择相关规则(图4)。第三部分是留给时间序列分析来了解一系列数值的演变,以预测它们未来的行为。该系统的另一个组成部分是时间序列分析,以根据道路事故数据预测伤亡人数。图5代表一个时间序列,对应于我们案例研究中伤害和死亡地图上数据的投影如图所示。6,并显示了事故的受伤,死亡和车辆类型等。Yt=∑φiYt−1+at−∑θiat−j(7)i=1j=1综上所述,关联规则技术的集成在多标准决策分析中,4A. Ait-Mlouk和T.版权所有© 2019 - 2019上海市沪ICP备10032330号图二. 提取的规则摘要。图三. 提取的规则图。见图4。使用多准则分析提取相关关联规则。图五、使 用 时 间 序 列 预测死亡和受伤。A. Ait-Mlouk和T.版权所有© 2019 - 2019上海市沪ICP备10032330号5表1道路交通事故的属性和因素男、女[11、[22001年、[1图六、事 故 可视化在马 拉 喀 什 市(摩洛哥).更好地了解道路事故的动态,并可以提供有意义的信息,帮助决策者和物流管理者提高运输质量和道路安全优化的性能[18]。5. 结论在本文中,我们提出了一个开源的信息检索(IR)软件,以说明我们提出的不同方法的贡献,结合数据挖掘,特别是关联规则和多准则分析。该软件使决策者能够全面了解正在解决的问题。在关联规则挖掘过程中的多准则分析的集成我们的结论是,多准则决策分析的一组提取的规则的应用程序可以有助于解决的问题时,使用trans-mapping算法,在冗余和非有趣的规则。该系统积极支持最终用户增加关于各种主题的新数据集。在未来的工作中,我们的目标是将该系统扩展到涵盖更多数据挖掘算法、多准则分析和可视化技术。竞合利益作者声明在该方法的设计方面没有利益冲突;数据的收集、发展、分析或解释;手稿的撰写或发表结果的决定。致谢感 谢 Jihane Mounji Manji 的 支 持 。 此 外 , 我 们 感 谢 瑞 典 的Umeguide大学和摩洛哥的Cadi Ayyad大学。引用[1]Fayyad UM,Piatetsky-Shapiro G,Smyth P.知识描述与数据挖掘的进展。Menlo Park , CA , USA : American Association forArtificial Intelligence;1996,p. 1-34,[2]放大图片作者:A.挖掘大型数据库中项目集之间的关联规则。SIGMOD Rec1993;22(2):207[3]刘伟,王伟,王伟.结合非参数模型与逻辑回归:应用于机动车伤害数据。ComputStatistist Data Anal2000;34(3):371-86.[4]Ossenbruggen PJ,Pendharkar J,Ivan J.农村和小城市化地区的道路安全。Accid Anal Prev 2001;33(4).[5]张丽燕,王宏文.交通伤害严重度分析:非参数分类树技术的应用。Accid AnalPrev2006;38(5):1019-27.[6]安 德 森 TK 。 核 密 度 估 计 和 k 均 值 聚 类 分 析 道 路 事 故 热 点 。 Accid AnalPrev2009;41(3):359-64.受害者_年龄属性名称值描述事故_ID整数事故ID事故类型致命、伤害、财产损失事故类型Driver_年龄Driver_性爱2019年12月20日,[21驾驶员年龄司机性爱Driver_体验车_年龄第1、[2驾驶员经验车辆使用年限光照_路况天气_路况_路况路况_几何路况_年龄时间日光,黄昏,公共照明,夜间照明条件正常天气,雨,雾,风,雪天气条件公路,冰路,塌陷道路,未铺砌道路道路条件水平,路线,桥梁,隧道道路几何[1[00–6],市特殊_地区季节事故_原因受伤人数死亡人数马拉喀什卡萨布兰卡拉巴特学校、市场、商店......秋天,春天,夏天,冬天酒精影响,疲劳,失控,速度,被另一辆车推,刹车失灵......1、[2市特定地区一年中的季节事故死亡人数6A. Ait-Mlouk和T.版权所有© 2019 - 2019上海市沪ICP备10032330号[7]Kumar S,Toshniwal D.一种描述道路交通事故地点的数据挖掘方法。J ModTransp 2016;24(1):62-72. http://dx.doi.org/10的网站。1007/s40534-016-0095-5,URLhttps://doi.org/10.1007/s40534-016-0095-5.[8]Mousseau V,Figueira J,Naux J-P.使用分配示例推断ELECTRE TRI方法的权重:一些实验结果。欧洲J Oper Res2001;130(2):263[9]Makridakis S,Hibon M. ARMA模型和Box-Jenkins方法。J Forecast1997;16(3):147[10]R项目,R项目。 2019年,URLhttps://www.r-project.org/。[11]R工作室,R闪亮。2019年,URLhttps://shiny.rstudio.com/。[12]Le Bras Y, Meyer P,Lenca P, Lallich S.关联 规则 的鲁 棒性 度量。 In:Balcázar JL,Bonchi F,Gionis A,Sebag M,editors.数据库中的机器学习和知识发现。柏林,海德堡:施普林格; 2010年, p. 227比42[13]Roy B , P. P. , Multicriteria analysis : survey and new directions. European JOper Res 1981;8(3):207-18.[14]Mousseau V,Figueira J,Naux JP.使用分配示例推断ELECTRE TRI方法的权重:一些实验结果。欧洲J Oper Res2001;130(2):263[15]Box GEP,Jenkins GM.时间序列分析:预测与控制。第3版 UpperSaddleRiver,NJ,USA:Prentice Hall PTR; 1994.[16]世界卫生组织。2019年,URLhttp://www.who.int/gho/road_safety/en/。[17]装备、运输部。2019年,网址http://www.equipement.gov.ma/en/Pages/home.aspx网站。[18]Ait-Mlouk A,Gharnati F,Agarnati T.多准则决策支援系统关联规则探勘之改良方法:以道路安全为例。欧洲运输研究修订版2017;9(3):40。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功