没有合适的资源?快使用搜索试试~ 我知道了~
制作和主办:Elsevier沙特国王大学学报物联网与数据挖掘:面向应用的研究综述Priyank Sunharea,b,Rameez R.Chowdharyc,Manju K.查托帕德海耶湾ca印度,Dewas 455001,政府理工学院,电子和电信工程系b印度新德里Devi Ahilya大学工程技术学院电子和电信工程系cDevi Ahilya大学电子学院,Khandwa Road,Incubine,M.P. 452017,印度阿提奇莱因福奥文章历史记录:收到2020年2020年6月20日修订2020年7月5日接受2020年7月9日在线关键词:物联网数据挖掘大数据智能家居环境助理生活智能医疗智能电网工业物联网智慧制造智慧农业智慧交通A B S T R A C T电子通信、数据处理和互联网技术领域的进步使人们能够轻松访问全球各种物理设备并与之交互。我们的整个世界被无数配备传感器和执行器的智能设备所包围。通过云技术对物联网(IoT)的广泛研究,可以积累从这种异构环境中创建的大量数据,并利用数据挖掘技术将其转化为宝贵的知识。此外,这些生成的知识将在智能决策、系统性能提升以及资源和服务的优化管理中发挥关键作用。在此背景下,本文对大规模和小规模物联网应用中采用的各种数据挖掘技术进行了系统而详细的回顾,以制定智能环境。它还概述了云辅助物联网大数据挖掘系统,以更好地理解数据挖掘对物联网环境的重要性©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言35701.1.特点和挑战35711.2.文献综述与贡献35722.IoT大数据挖掘系统概述35733.KeyData挖掘方法35753.1.分类35763.2.集群35763.3.关联分析或频繁模式挖掘35773.4.其他采矿方法35774.I IOT和数据挖掘应用程序35784.1.J. 智能家居,环境助理生活和智能医疗35784.2.智能电网35784.3.工业物联网与智能制造35794.4.其他应用3580*通讯作者。电子邮件地址:mkorwal@yahoo.com(M.K. Chattopadhyay)。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2020.07.0021319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com3570P. Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569- 35904.4.1.智慧农业35804.4.2.智能交通35805.物联网应用中的总结和开放研究问题6.结论3587竞争利益声明参考文献35881. 介绍世界各地的许多研究团体和行业都在积极地进行研究,并在无生命的物体(事物)上做出了很多贡献,使它们能够聪明地生活和工作。包括苹果、微软、谷歌、IBM、思科、西门子、华为在内的全球巨头以及包括物联网(IoT)、移动计算(MC)、无线传感器网络(WSN)、机器对机器通信(M2M)、普适计算(PC)、网络物理系统(CPS)等在内的研究社区,在全球范围内,正在坚持不懈地努力形成新的概念和标准,以创造智能环境(Stankovic,2014; Kravchenko等人,2017;Miorandi等人, 2012年)。物联网的基本思想是事物/对象可以连接到互联网。它们应该有一个独特的身份,应该被自动识别,并应相互沟通和人类。他们应该自己做出决定或遵循人类的命令(Tsai等人,2014年)。因此,如果我们说,在物联网中,互联网可以被认为是一个全球平台,它为机器和智能事物提供动力,以便在全球范围内与人类进行通信、计算 、 决 策 和 协 调 , 这 并 没 有 错 ( Miorandi 等 人 , 2012 年 ;Bandyopadhyay和Sen,2011年)。现在的问题是,为什么全球的研究社区和行业突然对物联网感兴趣世界各地的研究人员认为,在未来5-10年内,城市和世界本身将被传感和驱动设备覆盖传感和驱动设备的密度将比世界人口的增长多出许多倍爱立信和思科预测, 因此,我们可以说,大量连接的异构设备将形成物联网环境(Stankovic,2014; Kravchenko等人,2017; Miorandi 等人,2012; Uusitola ,2006; Ortiz 等人,2014年:Bijarbooneh等人,2006;Yue等人, 2014年)。异构的智能物联网环境产生了大量的数据。这些数据最初是原始数据,需要进行处理才能使用。该原始数据属于基础设施,即它是包含设备和网络相关信息的以基础设施为中心的数据;或者该数据属于IoT构建环境的环境参数(Tsai等人,2014),即它包含传感器记录的输出、致动器动作等。这里的两种类型的数据本质上是固有的异质的。如果用适当的数据挖掘算法处理得很好,人们可以从中挖掘出有价值的知识(Chen等人, 2015年)。任何物联网智能环境的一个挑战是选择或综合最合适的数据挖掘算法。这种算法应该产生有价值的分析,精确预测未来事件,并在所有约束条件下有效管理网络和服务。要深入理解这一点,请观察图1。该图描述了从小型到大型的几个物联网应用。每个区块代表一个物联网应用程序,Fig. 1.物联网应用:从小规模到大规模。执行特定的任务。例如,环境辅助生活(AAL)(Youngblood和Cook,2007; Samarah等人,2017年;Joergschmalenstroeer,2010年),我们在家中提供技术支持的智能环境,例如医疗保健助理。AAL利用许多智能传感器、执行器、可穿戴设备、智能小工具、闭路电视摄像机和具有网络间连接的通信设备。AAL环境中的设备具有不同的功能和限制。它们通过各种通信介质(如蓝牙、Wi-Fi等)彼此连接。这些设备产生的原始数据在特征上也有所不同。将这些原始数据转换成语义上有意义的相应活动,以识别用户的当前状态,需要数据挖掘。因此,当我们用传统的数据挖掘算法处理这种新类型的数据时,它不能提供准确的洞察力。而且,我们的系统可能无法建立一个智能和响应环境。对这一单一物联网应用的讨论突出了设备及其各自数据的多样性。如果从图1的左下角对角向上移动,我们会发现物联网应用程序由其他几个小规模应用程序组成。例如,智能家居包含四个应用,即智能计量、智能环境控制、AAL和安全。多层智能建筑物中可以具有:多个智能公寓、智能办公室、图书馆、教室、废物管理系统、监视系统、智能电梯以及消防安全和访问控制管理(Pacheco等人,2019年)的报告。因此,智能建筑可以被定义为一种融合了各种技术的建筑,这些技术赋予建筑思维能力,从而为居住者提供一个方便、舒适、高效和健康的环境。智能交通和医疗保健应用包括许多智能建筑(住宅、医院、商业、学校和大学)以及其他应用,如智能车辆、实时交通控制、地铁服务、紧急走廊、疾病诊断和医疗保健,这些应用一起运行,以提高生活质量。图1中的最后一个是智能城市应用,包括所有应用:智能家居、智能建筑、智能交通、智能医疗和其他基本应用,即。P. Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569-35903571环境监测、天气预报、灾害管理、物联网网络管理、智能电网、城市农业、智能灌溉、智能仓库、供应链和物流,以及重要的设备、网络隐私和安全控制管理。在物联网应用的复杂环境中,传感器、执行器和嵌入式设备等智能对象会产生和处理大量数据。因此,知识提取(数据挖掘)机制可以被认为是整个系统的心脏更好的信息抽取为最终用户提供高效的增值服务.大量具有基本到高级功能的设备正在小到大规模的应用环境中连接。 在这样的场景中,单个设备可以服务于多于一个应用是可能的。这种情况需要集中式中间件,以便简化开发过程,创建有用的分析,提供隐私、安全和信任机制,以及支持不同应用和服务内的互操作性(Razzaque等人,2016年)。因此,我们预测了具有数据挖掘算法的物联网设备的天文数字巨大的异构网络作为无缝结构而存在,覆盖并合成智能环境(Miorandi等人, 2012年)。1.1. 特点和挑战物联网基础设施和物联网数据挖掘算法/技术有几个特点。这些包括每个设备的唯一标识、超大规模物联网、设备和网络级异构性、无处不在的集成、交互和互操作性、鲁棒的数据和设备管理、设备以非常快的速率动态进入和退出网络、面向服务的计算、实时/资源受限的设备和隐私、安全和信任管理(Razzaque等人,2016; Xu and Helal,2016;Kantarci and Mouftah,2014;Stojmenovic,2014).所有这些特征都将各种应用和服务的研究和开发转化为新的挑战:每个器械物联网基础设施:识别是智能对象之间建立通信的基本需求。在全球范围内为数万亿台设备生成和管理唯一ID从互联网的角度来看,IPV6可能是有帮助的,但是通过蓝牙、NFC、Zigbee和许多其他媒介进行通信的设备呢?RFID、QR码或类似的ID能解决问题吗?或者我们应该采用以名称为中心的网络体系结构而不是以主机为中心?缺乏强大的命名协议,全球都需要。物联网数据挖掘:从物联网数据挖掘的角度来看,唯一标识也起着非常关键的作用。更好地理解与基础设施相关的数据(如唯一ID、设备功能等)可以从派生的知识中得到更好的致动控制。获取、存储和管理数万亿台设备的唯一ID和相关功能是另一个巨大的挑战。超大规模物联网物联网基础设施:物联网基础设施的毯子是由超大规模的传感器,执行器和嵌入式设备制造的,它们智能地服务于人类的需求。为了开发支持全球唯一标识的机制,在如此超大规模的操作、维护和保护利用期间认证访问,正在产生若干挑战。在处理大规模扩展时,还有更多需要解决的问题,包括对智能设备部署、环境随时间的变化以及自我管理/自动化的深入研究,资源约束设备的最大服务利用率(Stankovic,2014; Kravchenko等人,2017; Miorandi等人,2012年)。物联网数据挖掘:庞大的设备网络产生了一种称为物联网大数据的新型数据。当今数据挖掘领域的最大挑战来自数据存储、管理、隐私、安全和处理限制(如实时/流数据)等问题。 数据过滤、降维、特征选择、模式约简等数据预处理技术取代了在服务器上收集所有数据的做法。设备和网络级异构性物联网基础设施:物联网是一个多功能设备的网络,其中设备具有非常少的功能,基本计算,低功耗,低功耗(如RFID,QR码,纳米传感器和执行器,MEMS等)。对于具有高级特征、非凡处理能力和更大存储器的设备在许多应用中,传感器节点、设备和机器使用有限的通信模式(例如蓝牙和NFC)互连,这使得网络集群,并且该集群的任何一个高端设备连接到全球网络。因此,物联网是一个高度动态和完全分布式的物联网。综合健壮的体系结构和协议支持和适应异构性。如何在技术、服务和应用的各个层面提供更好的管理,是未来研究的新挑战。机器之间通过无线电接入网络(即,5G网络)可能导致后续的性能下降,包括服务不可用、不可容忍的延迟和分组丢失(Oh等人, 2015年)。普适并行计算和存储与改进现有的技术和算法似乎是可行的解决方案。物联网数据挖掘:与传统的数据挖掘结果相比通过对目标应用领域的深入了解和洞察,最大限度地泰国创造了一系列新的机遇和挑战。这是一个义务而不是选择,一个人必须处理结构化,半结构化和非结构化数据。 在传感器联网和设备管理中应用数据挖掘对于资源约束环境(例如LEACH(Ankerst等人, 1999)、DataCloud(Yue等人, 2014))。但是,它仅限于特定的应用程序,因此是最大的挑战之一。异构网络不仅需要从大规模的数据中获取信息,而且需要处理动态的、不确定的、不完整的数据。无处不在的集成、交互和互操作性物联网基础设施:具有高度通用特性和协议的无处不在的嵌入式传感器/致动器参与,并且在物联网环境中的许多应用程序之间共享。其中最关键的部分是实现大规模的自动化设备集成,并确保它们之间的互操作性。需要研究一个集中的中间件核心,它可以解决应用程序之间的依赖关系;支持各种协议之间的编码转换;在设备之间进行有效的交互;动态地创建和提供创新服务。物联网数据挖掘:人对人、人对机器和机器对机器是物联网网络中通常发生的三种类型的交互。来自同一设备的数据根据交互、应用和服务的类型可能具有不同的含义。其次,来自各种设备、应用程序和服务的相同类型的数据也可能不具有完全相同的含义。没有一个装置●●●●●●●●小行星3572Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569- 3590或应用程序,这是一个巨大的网络。为这样一个庞大的环境创建数据挖掘算法是非常关键的。算法应该具有根据特定服务和应用需求提取知识的能力,以便能够制造敏锐的交互性和互操作性。面向服务的智能物联网基础设施:始终在线的响应服务是物联网环境的固有属性。它支持用户的日常需求。在某些情况下,许多设备是移动的或电池供电的,它们可能多次离开和重新加入网络,或者它们甚至可能出于特定目的随机加入网络。在这个无处不在的不断变化的环境中,物联网基础设施有时也需要特别的应用程序和服务,这些应用程序和服务可以在运行时组合,执行和拆除,无论在构建系统时是否考虑过它们。物联网数据挖掘:物联网应用程序环境配备并部署了大量物联网传感器,利用了大量服务,即连接设备之间的实时交互,系统管理,ad-hoc应用程序管理,隐私和安全管理等等。高精度的数据挖掘算法使得灵活、动态、开放的ad-hoc物联网服务管理成为可能。为随机发起的ad-hoc服务提供动态知识合成能力是最具挑战性的部分之一物联网数据挖掘算法隐私、安全和信任管理物联网基础设施:隐私,安全和信任应该在系统的各个层面上集成。许多物联网应用,如医疗保健,应急系统,物理访问控制等等,都在关键条件下为人类服务。如果有人攻击设备和网络,这将是一个很大的威胁,许多人的生命。不仅是安全,维护隐私和信任也同样重要。让我们以智能手机为例;它安装了许多应用程序,包括银行,社交媒体,医疗保健,娱乐以及其他个人数据。可穿戴传感器、医疗保健设备、智能家电和其他设备通过各种介质连接到这款手机。电话不仅维护个人的隐私和安全,而且还与网络连接的设备共享许多重要细节,以实现不间断的智能环境服务。现在,如果任何设备泄漏,则个人的数据将不再保持私有(Pacheco等人,2019年;Qiu等人,2019年)的报告。开发一个可以检测攻击并在这种多样化的环境中实施隐私、信任和安全的接口是一项具有挑战性的任务。物联网数据挖掘:隐私和安全机制设计用于具有特定特征的一定量的数据。拥有庞大数据的物联网系统也带来了高度多样化的功能集。它包含我们的私人数据的更大功能集。数据挖掘算法应用于输入数据,也可以提取一些有用的和个人的信息。这可能使攻击者能够将数据武器化。基于web的系统中的自组织服务是隐私和安全应用的主要威胁之一,其可以使用深度学习进行数据挖掘来解决(Pacheco等人,2019年)的报告。因此,需要在每个级别以分布式方式解决这个问题,并提供适当的采矿和管理解决方案。因此,通过指定的特征,物联网基础设施和机器学习可以创建强大的 智 能 , 即 感 知 , 推 理 , 决 定 , 执行 操 作 , 学 习 和 交 互 的 能 力(Youngblood和Cook,2007)。研究团体和行业一直在努力使这在现实世界中成为可能。通常,世界各地的研究人员会发现一些好的、可实现的想法,但这些想法都是在小规模/有限的问题或在虚拟平台上模拟,这些虚拟平台不适合于更大和复杂的现实世界问题(Yue等人,2014; Joergschmalenstroeer,2010; Rashidi等人,2011; Saives等人,2015; Zdravevski等人,2017; Virone等人,2008年)。此外,物联网的研究是高度分散的,因此考虑全球解决方案可能无法实现。我们需要一些应该在全球范围内陈述的标准,以引导特定方向的研究。1.2. 文献综述和贡献许多关于物联网及其数据的良好调查已经从不同的角度提出。Stankovic(2014)从全球角度强调了物联网的愿景和特征,并在八个研究领域进行了强有力的讨论。它还建议物联网借鉴智能手机世界的架构方法,即使App-Store之类的环境能够实现开发,认证,安装和卸载应用程序和服务。(Miorandi等人,2012年)和(Bandyopadhyay和sen,2011年)从物联网中使用的技术的角度以及可能的研究和应用提出了调查。参考文献(Bandyopadhyay和sen,2011)还提出了物联网系统设计的通用五层架构。从下到上的五层包括边缘技术、接入网关、互联网、中间件和应用,而在Razzaque等人,2016年),该调查致力于物联网中间件。它侧重于应用程序和服务的异构环境中的计算、互操作性和通信。Dai等人(2019)研究了区块链技术与物联网架构的集成。他们深入介绍了物联网的区块链技术,并介绍了具有5G连接环境的几 个 好 处 的 物 联 网 区 块 链 ( BCoT ) 架 构 。 Lianttharak 和 Loke(2019)对移动众包研究进行了广泛的调查,强调了开发过程中的实现需求,架构以及开发的关键考虑因素。所有上述调查都集中在物联网基础设施的架构挑战上,对数据挖掘算法没有太多关注还有几项研究调查了转换器-数据挖掘与物联网参考文献(Tsai等人,2014; Chen等人,2015;Marjani等人,2017; Mohammadi等人,2018)从物联网的角度对数据挖掘算法进行了强有力的系统性审查。考虑到物联网环境,Tsai et al.(2014)从“关于事物的数据”和“由事物生成的数据”的角度介绍了核心数据挖掘算法,并提供了一个统一的框架,包括扫描,构建和更新功能。Chen等人(2015)提出了知识、技术和应用观点。向前迈出的一步,(Marjani等人,2017; Mohammadi等人,2018; Nahar等人,2019)讨论了由于一种新型的大数据(即物联网大数据产生的异构和设备)而即将面临的研究挑战。Marjani et al.(2017)研究了物联网应用中物联网大数据分析的力量。通过对物联网大数据分析、方法和技术的讨论,他们还提出了一个面向云的物联网大数据架构。 (Marjani等人,2017; Mohammadi等人,2018)对物联网实时大数据流进行了调查,并对促进更好的分析和学习的深度学习算法和架构进行了深入的概述。在(Mohammadi等人,2018),作者还详细总结了在物联网应用环境中利用深度学习的主要研究尝试以及雾和云支持的方法。虽然上述关于物联网和数据挖掘的调查足够强大,并提供了物联网中数据挖掘的深入学习和利用,但它们只是简要地突出了物联网应用部分。由于对物联网的研究分散,尽管考虑到一个应用环境可能不支持●●●●P. Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569-35903573其他.因此,从多个应用的角度来看,有各种各样的关于物联网和数据挖掘的调查论文。这几个是:M. Rashid等人(2020)讨论并批判性地分析了现有的行为模式挖掘算法。他们还提出了基于知识的框架,用于WSN和IoT中众多传感器的实时流数据。Qolomany等人(2019)从应用程序,数据分析和机器学习的角度对智能建筑进行了非常深入的调查。QiChen等人。(2019)提供了以技术为导向和以应用为导向的深度学习与智慧城市融合的综述。参考文献(Shu等人,2018; Pacheco等人,2019)分别调查了大数据挖掘和机器学习集成的医疗保健和大型石化工厂应用。Pacheco等人(2019)进行了一项系统性调查,以探索部署机器学习技术来实现网络流量分类。由于提取的大多数知识包含任何用户的高度隐私数据,Qiu et al.(2019)从安全角度对物联网环境数据搜索引擎的访问控制领域进行了尝试性调查。上述调查文件追求有效和知识生成的研究。大多数研究都是技术,知识提取或分析导向的。有些人也提出了应用程序视图,但具体到特定的应用程序,即智能车辆或智能城市。正如我们所讨论的,物联网加强了广泛的应用。许多大规模的应用程序可能包括许多小规模的应用程序。因此,本文提出了一个面向应用的系统,详细回顾了各种数据挖掘算法及其变体,这些算法在物联网环境中得到了很好的利用在这项面向应用的调查中,我们的研究工作的主要贡献是:本文探讨了众多的物联网应用环境,并确定了它们与各种数据挖掘算法的潜在集成。在引言部分,我们提出了物联网应用的edinter-correlation,以更好地理解物联网和数据挖掘的融合。在此,我们还强调了其特点及其相关挑战。我们提出了一个物联网大数据挖掘系统,提供了一个整体的复杂的应用程序环境的概述,从数据提取到处理,然后服务执行。介绍关键的数据挖掘算法及其变体,以及如何利用这些算法来辅助与智能家居、环境助理生活、智能医疗、智能电网、工业物联网、智能制造、智能农业和智能交通等应用相关的智能操作。最后,我们总结了应用环境和相关的开放性研究问题,并从应用的角度对数据挖掘和物联网本文件的其余部分组织如下。第2给出了物联网大数据挖掘系统概述,包括六个层,即传感和驱动,网关或预处理器,互联网,分散的数据中心,分散的数据处理和控制(知识发现),以及集中的处理和控制。第三节通过简单的例子讨论了数据挖掘的关键算法。第4节提供了物联网应用的深入调查,包括智能家居,环境助理生活,以及智能医疗、智能电网、工业物联网和智能制造、智能农业和智能交通与数据挖掘视角。第5节以表格形式总结了所有开放的研究问题,最后在第6总结了论文。2. 物联网大数据挖掘系统概述智能环境中的数十亿设备可以与周围的设备以及人类进行交互和通信。这就需要大量的异构数据。正如在(Tsaiet al.,2014),从这些原始数据中提取的知识可以被归类为物联网基础设施的数据(即唯一ID、设备类型、限制、位置、连接性和移动性等)。 以及由IoT环境测量的数据(即,测量的外部参数、设备到设备和设备到人的相互通信、数据交换和数据使用日志等)。从这两种类型的数据中提取的知识同样重要,因为如果适当优化,前者可以大幅提高性能,而后者则可以在质量上增强物联网基础设施的服务(Tsai等人,2014年)。因此,现在出现的最重要的问题是如何从原始数据中提取更高级别的有用信息。将这些原始数据表示为机器可解释和人类可理解的信息成为当前物联网基础设施的需要(Ganz等人,2015年)。为了从原始数据中构建知识,我们需要各种数据挖掘和知识发现算法。由于数据的异构性,需要多个处理(数据挖掘和知识发现)算法并行工作。在本节中,我们介绍了物联网大数据挖掘系统架构。已经从不同的物联网领域的角度提出了许多架构(Bandyopadhyay和Sen,2011;Dai 等 人 , 2019; Marjani 等 人 , 2017; Mohammadi 等 人 , 2018;Rashid等人,2020年)。例如,Dai等人(2019)提出了物联网区块链(BCoT)架构,他们在网络层和应用层之间引入了区块链复合层,具有5G连接环境的优势。Marjani等人(2017)提出了一个面向云的物联网大数据五层架构(从下到上物联网设备,网络设备,网关,云和数据分析),该架构研究了物联网应用中物联网大数据分析的力量。通过在我们的大数据挖掘系统架构中考虑上述参考,我们承担了智能家居、环境辅助生活、智能医疗、智能交通和停车系统、工业物联网、智能农业等各种应用之间的关系,作为物联网塑造智能世界的关键贡献领域。图2示出了IoT基础设施的云辅助系统架构概述。系统架构的最低层包括各种传感和致动装置。它包括传感器,执行器,摄像头和几个小型嵌入式系统,用于家庭自动化,医疗保健,交通,停车,汽车,工业和农业,为各种应用提供智能服务。从各种设备产生的原始数据,如时间序列数据和检测到的事件序列,视频和音频数据等,由网关层积累并预处理以去除噪声。重复的序列/事件使用各种类型的网关处理单元,甚至本地服务器也可以是网关。除了噪声去除之外,物联网环境的异构数据还需要由网关层执行特征提取和数据融合和投影。物联网产生的大量数据,到新的挑战-被称为大物联网数据。其内在特征-●●●●●●●●●●●小行星3574Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569- 3590图二.物联网的云辅助系统架构这些原始数据的特点是体积大、异构、生成速度快和数据变化快(GGL,2017)。物联网大数据有时间作为一个整体维度,即它应该被实时处理,或者在特定的短时间内处理,否则在一定的截止日期之后,处理的结果将的没有使用(Che等人, 2013年)。在网关之后,预处理的数据通过互联网发送到分散的数据中心。然后,分散的处理和控制站通过在各自的终端投入不同的数据挖掘算法和机器学习机制来提取知识。这是最重要的部分,因为单个应用程序通常由多个其他应用程序和服务组成。知识提取和分析生成可以根据任务而变化。如果应用程序或服务是事先已知的,一个定义良好的现有挖掘算法可以提取知识。但在ad-hoc应用程序或服务的情况下,系统应该具有动态机器学习功能,可以处理离群值,修改模型并选择适当的算法或一组算法来提取知识并准备相关分析。在知识提取和分析创建之后,分散的单元提供服务并执行所需的智能在自己受限的环境中行动。最后,通过集中式处理和控制站与分散式数据处理和控制服务器协调,将提取的物联网基础设施的更高级别的有用数据转换为机器可解释和人类可理解的信息,如果需要,可以进行调整,以做出明智的决策,优化物联网应用及其基础设施的性能和服务质量。具有分散式数据处理和控制服务器的集中式处理和控制站可以修改隐私和安全。由于许多智能设备(如可穿戴设备)通过各种其他高端设备(如智能手机)连接到网络,为了建立初始通信,大量数据在所有设备之间共享。Lee等人(2018)对几种智能设备进行了研究,发现大量的私人信息正在设备之间共享。因此,可能会对隐私造成很大的威胁。除此之外,还需要提供几个ad-hoc服务。搜索引擎可以生成大量的查询和任务。不仅是设备数据,我们的社交网络和医疗数据也会被积累和处理。在基于云的系统架构中,完整的数据被集中收集和处理。这可能导致滥用收集的信息P. Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569-35903575以及集中的web服务器(Tian等人,2020年a)。大规模企业还需要一个健壮的访问控制机制来管理物理访问(Geepalla等人,2013年)。因此,在每个级别上都应该以混合方式保持高度的安全性和隐私性。Tian等人(2020 a,b)提出了利用分布式深度学习机制的Web攻击检测系统。受(Tian et al.,2020a)在我们的系统架构中,我们还提出了与隐私、安全和服务的分散控制相协调的基于云的集中管理(Tian等人,2020 a,b; Geepalla等人,2013; Lee等人, 2018年)。在本节结束时,全球的几个研究小组正在积极研究发明更智能的知识发现技术,这些技术将从物联网大数据中提取更高级别的有用信息。3. 关键字数据挖掘方法我们周围的环境充满了大量的异质数据。如果不适当地利用数据挖掘技术,使这种环境具有敏锐的洞察力似乎是不可行的。数据挖掘可以是有监督的,无监督的或强化学习的自动化。当以分层的方式在多个层这一自动化的特点,以分层方式通过监督或无监督学习的方法被称为机器学习(ML)。Che等人(2013年)对大数据挖掘的调查关注了多样性、异构性、可扩展性、速度、准确性、信任、出处、隐私危机、保密性等挑战,最重要的是垃圾挖掘。应用数据挖掘的必要性不仅是知识发现的结果,也是从互联网上消除垃圾的结果。Ganz et al.(2015)建议将数据抽象作为适当的方法之一。他们回顾了各种抽象技术,并提出了一条建议,即在数据中心中只保留抽象的结果,而不是整个数据。数据挖掘是知识发现的一个组成部分,如图3所示.从各种物联网设备积累的数据首先被发送到预处理单元,在预处理单元中进行几个动作(如特征选择和提取、噪声提取、归一化降维等)。将原始数据塑造成适当的分析格式。然后将采集的数据发送到数据挖掘单元,在该单元中,各种数据挖掘技术执行其任务以提取更高级别的有用信息。数据预处理和数据挖掘单元的组合属于DL的一个盒子。此外,输出的DL被评估并表示为机器可解释和人类可理解的知识,这些知识将被物联网基础设施进一步利用(见图1)。 4).图三. 知识发现概述。见图4。物联网环境下的数据挖掘过程。¼Þ¼Tpþ Fpð Þ¼XX小行星3576Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569- 35903.1. 分类分类是将对象分配到先前定义的类别的过程它旨在准确预测每个数据对象的目的地类别(Kesavaraj和Sudararan,2013年)。由于假设目标标签在处理之前是已知的,因此这是一个监督学习过程(Han等人,2007; Tan等人,2006年; Kesavaraj和Sudaran,2013年; Liu,2011年)。分类中的预测函数(分类器)在用于分类未标记或未知对象/数据之前需要训练因此,可以使用标记或已知数据来训练预测函数。例如,在某个医疗护理中心,存在与患有疾病的患者相关的数据,所述疾病具有三个阶段,即原发性、中度、危重,具有三种具体的方法来分别治愈他们,即治疗_p、治疗_m和治疗_c。首先,分类器/预测函数由医学研究人员或先前在治疗期间记录的数据定义的一组规则构建现有数据分为两部分即训练集(标记)和测试集(未标记)。训练集首先构建分类器,然后测试集验证分类器。之后,分类器分析患者数据(未标记数据),根据构建的分类器识别的阶段将其放入类(Treatment_p,m或c)。大多数算法分为两步:首先计算项目属于特定类的概率。其次,将其与截止值进行比较并进行相应的分类。性能评价(Tan等人,2006)基于被分配给正确类别(即准确度)和被分配给错误类别(即错误率)的实例的数量来定义,给出如下:准确性正确预测的数量预测总数ð1Þ错误预测次数基于规则的分类,反向传播分类,支持向量机,k最近邻,深度神经网络和Enhancement方法。一组分类器还可以针对复杂的大规模IoT应用问题部署各种分类技术的融合(Chen等人,2015; Marjani等人,2017年;Han等人,2007; Tan等人,2006; Kesavaraj和Sudaran,2013;Liu,2011; Alsabti等人,1998)。一些主要使用的顶级分类方法包括C4.5(Alsabti et al. 1998),它是CLS和ID3的后代。它以一组更容易理解的规则的形式产生分类器。C4.5随后被C5.0取代,C5.0通过克服诸如大量CPU时间和内存需求的缺点而大大提高了效率、可扩展性和性能(Tsai等人,2014年)。基于规则的分类、支持向量机、基于关联规则分析的分类类型模型非常适合当今的物联网环境。在参考文献(Lai等人,2013; Fleury等人,2010;Brdiczka等人,2007年; Li等人,2017a-c),研究人员使用具有频繁数据挖掘技术(如隐马尔可夫模型)的分类模型来创建更敏锐的预测和响应环境。 朴素贝叶斯、高斯朴素贝叶斯、贝叶斯信念网络、贝叶斯网络、人工神经网络和Ensemble方法用于主要与生物医学、环境预测、智能建筑访问控制和用户活动识别、提高传感器网络效率、优化和人工智能相关的应用中的各种传感器和致动器数据(Misgeld等人, 2016; Rad等人,2017; Wu,2009; Abedin等人,2017; Rad等人, 2014;Perera and Dias,2011).3.2. 聚类一个簇被表示为一组相似的对象。聚类算法将收集到的对象分成一定数量的类,其中特定类中的对象具有相似的特征。与分类不同,聚类是一种无监督学习错误率¼预测总数ð2Þ技术(Yue等人,2014; Tsai等人,2014),即它将不需要先验知识来指导划分过程(Han等人,2007;Tan等人, 2006年)。例如,在某些医疗保健中心,还有分类算法结果的替代准确性度量,即精度:定义为随机选择的结果是相关的概率,召回:定义为随机选择的相关对象被检索的概率。这在数学上可以描述为:发现许多病人患有一种未知的疾病。医学研究人员只有关于观察到的症状和患者在进行多次治疗后取得的进展的数据。在这种情况下,聚类将有助于将患者分为多个组,以便根据已识别的症状和既往病史进行适当治疗精密度PrTp召回RTpTp Fnð3Þð4Þ治疗数据可用。聚类的输出由质心集合(c n)和如下所示的平方误差和(SSE)中的聚类测量质量表示(Han等人, 2007年):其中Tp、Tn、Fp、Fn可以使用以下混淆矩阵来定义cn¼1Xx 6预测类= 0预测类= 0实际分类= 0真阴性(Tn)假阳性(Fp)实际分类= 1假阴性(Tn)真阳性(Tp)在查准率和查全率的基础上,总体分类结果由F分数描述,给出为:2ωPrω Rmnx2 CnKSSE1/4 distancen;x12n¼ 1 x2 Cn其中x是对象,Cn是第n个聚类,Cn是第n个聚类的质心,mn是第n个聚类中的对象的数量,K是聚类的数量,dist是两个对象之间的标准欧几里得距离。大多数聚类方法,如k-均值、K-最近邻(Dhillon等人,2004; Jin等人, 2006)、k-中心点(Li等人,F-分数¼PrR52017 a-c)、分层聚类(CURE(Guha等人,1998)、SVD(Berry和Browne,2005)、ROCK(Guha等人, 1999年),BIRCH有许多分类模型可用于根据数据特征和情况将数据分类为各种类别,即决策树归纳,贝叶斯分类,(Zhang等人,1997))、基于密度的聚类(DBSCAN(Ester例如 , 1996 ) 、 OPTICS ( Ankerst 等 人 , 1999 ) 、 DENCLUE( Hinneburg 和 Keim , 1998 ) ) 、 基 于 网 格 的 聚 类 ( STRING(Wang等人,[Þ¼nP. Sunhare等人 /沙特国王大学学报-计算机与信息科学34(2022)3569-359035771997)、WaveCluster(Sheikholeslami等人,1998))是从单一系统的角度设计的,其中集中式数据或多或少属于某些特征。随着传感器技术的进步,物联网和无线传感器网络将用户环境模拟为足够智能,可以检测用户活动并采取相应行动。参考文献(Samarah等人,2017;Rashidi等人,2011; Brdiczka等人,2007;Saives等人,2015; Li等人, 2017; Virone等人,(2008年)支持和置信水平,以指示居民可能患有某种肾病(Han等人,2007年)。蔡等人(2014)定义了支持度和置信度,如等式(5)和(6)对于项目集合I = {i1,i2. ,im}和事务集T = {t1,t2,.. . ,tn}。产品展示v聚类作为一种核心技术,的信心B P A BvAUB9识别个人在IoT等环境联系我们Þ¼ ðjvA和WSN,基于云的分布式集群比集中式集群更重要,因为数据和设备 是 高 度 异 构 的 , 因 此 可 能 需 要 不 同 的 处 理 技 术 ( Younis 和Fahmy,2004; Uckelmann等人,2011;Heinzelman等人,2000年)。Saives et al.(2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功