大数据环境下智能数据抽取的模糊代理方法

59 浏览量更新于2024-01-14 收藏 2.87MB PDF 举报

大数据环境

多智能体系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报大数据环境下智能数据抽取的模糊代理方法ZakaryaElaggoune，RamanzaMaamri，Imane BousseboughLIRE实验室，君士坦丁二世大学阿提奇莱因福奥文章历史记录：收到2019年2019年5月20日修订2019年5月29日接受在线预订2019年保留字：大数据多智能体系统无线传感器网络模糊逻辑智能数据A B S T R A C T大数据时代给数据处理广告管理带来了新的挑战。现有的分析工具现在接近面临持续的挑战，从而以合理的成本提供令人满意的结果。然而，新数据被淹没的速度和如此大的数据量产生的噪声导致了各种新的挑战。本研究结合了以多智能体技术和模糊逻辑推理系统为代表的两个人工智能领域，从大噪声数据中提取所需的智能数据。一个基于多模糊代理的大规模无线传感器网络已被用来证明所提出的方法的有效性。它将传感器作为自治模糊代理来测量所收集数据的相关性并消除不相关的数据。仿真结果显示，随着传感器能耗的降低，数据质量较高，从而延长了网络的生命周期。©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在大数据时代开始时，出现了四个主要困难，即大数据属性所固有的四个V。它们代表了具有大量特征和高复杂性的数据集所说明的体积，速度即以恒定流快速生成的数据集，各种数据所指定的品种可以以多种形式找到，以及由归因于数据及其资源的信心和保证所表达的准确性。这些挑战，也被称为“数据洪流”，将数据库管理系统和处理技术推向了极限（Belghache等人，2016年）。在熟悉了最初的挑战后，新技术开始变得有效。然而，随着智能化、可穿戴化的发展，*通讯作者：LIRE实验室，君士坦丁二世大学电子邮件地址： zakarya. univ-constantine2.dz （ Z. Elaggoune ）， ram-soul.univ-constantine2.dz（ R.Maamri ），iboussebough@gmail.com（一）Boussebough）。沙特国王大学负责同行审查环境系统中的单位和不同的测量装置，新大数据的出现带来了新的挑战，需要更复杂的数据管理和分析。下一个层次的大数据挑战正在清晰地出现（Fan和Bifet，2013），并且基本上由两个硬任务代表。第一个，被称为通用性，必须响应于使可用工具适应不同应用领域的需要事实上，现在，大多数处理工具目前依赖于所处理的域（Katal等人，2013年），因此需要在这一特定领域的专家知识来建立它们。为了使这些工具适应不同的应用领域，需要开发人员重新设计其分析方法和策略，即重新构建数据探索协议。因此，创建一个通用的大数据处理工具实际上最终将成为一个新的挑战。价值是第二个挑战，它随着数据量的增加以及信息来源的增加而出现。这导致噪声率增加，数据贫乏，大数据相关信息减少，即尽管数据泛滥，但缺乏有用的信息。大数据分析的主要目的是将数据转换为知识，以帮助决策任务。然而，新的噪声数据从不同的来源以超高速流传输，导致在管理和存储系统方面产生困难。因此，将大数据转化为智能和有价值的数据成为一项必要的任务。这意味着在嘈杂的大数据集中接触信号，https://doi.org/10.1016/j.jksuci.2019.05.0091319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com466Z. Elaggoune等人/沙特国王大学学报数据转换成有意义的信息（Lenk等人， 2015年）。通过消除那些不相关的数据来减少数据量，必然会降低存储成本，并提高数据质量，从而有助于做出更好的决策。与智能数据提取相关的必要步骤如图1所示。它们可以被概括为两个过程，第一个代表“从数据到信息”的转变，第一个是事实，一系列事件描述了发生了什么，如何，何时，何地。. 等等，而第二个仅仅是数据的非冗余部分。第二步是将原始信息转换为相关信息的过程，这些相关信息需要满足三个条件才能作为有价值的知识（Garcia-Gil et al.，2019年）。它应该是：1. 准确：这意味着信息必须与它所说的相匹配，并具有足够的精度来驱动价值，2. 可采取行动：由于信息应导致立即和可规模化的行动，3. 敏捷：意味着准备就绪和灵活性，可以随时进行实时处理。如果必须将智能数据提取的这些步骤总结为一个等式，那么它可能是：SmartData冗余数据准确;可行;敏捷2. 相关工作目前关于噪声大数据问题的研究主要集中在数据压缩、冗余检测和数据过滤等冗余减少方法上。从收集的数据生成的噪声可以清楚地出现在视频或图像格式中，因为它包含相当大的冗余，包括与感测、时间、统计和空间相关的冗余（Chen等人， 2014年）。基于与场景中的背景和前景相关的上下文冗余的视频压缩方法已被证明能够解决视频监控传感器网络中的数据冗余问题（Tsai和Lin，2012）。然而，数据压缩和解压缩导致额外的计算负担，因此，数据压缩的好处和负面影响，如额外的成本，应仔细平衡。减少冗余的一种更通用的方法是重复删除数据，目的是过滤掉重复的数据副本（Sarawagi和Bhamidipaty，2002年）。此方法使用哈希算法在存储数据段或数据块之前识别它们。因此，如果具有与已经存储的块之一相等的标识符的新数据块出现，则它将被认为是冗余的，并且相应的存储数据块将替换它。因此，重复删除数据可能会导致Fig. 1. 从大数据中提取智能数据（Wu，2013）。减少存储需求。然而，浏览标识符列表需要花费太多时间，特别是在包含大量数据的大型系统中。冗余减少过程之后通常是特征提取过程，其中高维特征向量被转换成具有较小维度的相关特征向量。这种操作在消除噪声数据方面起着重要作用。无线传感器网络的优化包括其生命周期的优化一直是研究的热点传统的客户/服务器（C/S）模式通过直接传输将数据从传感器节点传送到基站，导致功耗较高此外，数据直接发送到基站，而不经过任何清洁处理，这会导致额外的功耗。因此，已经进行了大量的工作来优化该模型的性能，其中一些工作在下面列出。最大数量传感器模型的增量数据融合（Patil等人， 2004）试图将沿着相同路由到达基站的传感器的数据集中在一个包中，并同时一起发送。这大大降低了能源消耗。这种解决方案是不可扩展的，仅适用于不包含大量节点的网络此外，传感器节点并不总是有相关的信息发送，并没有过滤掉冗余和无关的信息。在蚂蚁代理中，开发了基于蚁群算法的数据聚合，以找到发射器-传感器和基站之间的最短可能路径（Liao等人， 2008年）。这种模型的详细说明主要取决于节点的部署，这通常是随机的。由于蚁群算法需要花费大量的时间来寻找最短路径，因此在大规模的无线传感器网络中表现不佳。移动代理在MAAD（基于移动代理的定向扩散）中的作用是收集整个网络中的传感器读数并将它们发送到基站（Chen等人，2006年）。这种模型的唯一缺点是移动代理的过载，特别是在大规模的无线传感器网络中，其中每秒收集非常大量的传感器读数（百万）。因此，移动代理无法实时传输传感器读数已经进行了若干其他研究，提出了结构化策略，例如多播树（Al-Karaki等人，2009年; Upadhyayula和Gupta，2007年）。这些结构化的方法不能很好地适应动态场景，这是由于过度的通信成本以及WSNs结构的集中管理。这些方法中的大多数没有考虑到无线传感器网络的大规模，并且不适合大数据应用。此外，它们大多关注所消耗的能量，而不考虑传输数据的质量。确实存在允许数据质量的方法（ Sardouk 等人， 2009 年 ;Bendjima和Feham，2013年），但它们只消除冗余，不产生智能数据。这些方法的另一个关键限制在于它们使用特定的度量标准。因此，它们仅适用于特定领域。本文介绍了一种通用的多智能体驱动的方法智能数据以及一种新型的通用数据约简方法。前一种方法是为大数据应用开发的，代表了一种新型的框架，可以处理与大数据相关的日益增长的挑战，而后者探索了使用多模糊代理系统的可能性，从而从大数据环境中提取智能数据。它可以应用于各种环境和不同的大数据操作，在目前的情况下，这些操作基本上由大的多传感器数据表示●●●●Z. Elaggoune等人/沙特国王大学学报467管理两种方法进行了研究，多模糊代理的方法和基于多代理的大规模无线传感器网络及其在温度监测中的应用。模拟和实验结果进行了讨论，比较和得出的结论导致的观点。3. 模糊代理方法3.1. 面向大数据应用随着数据规模的增加，商业智能和数据挖掘任务变得这将使它们难以用集中的方法进行管理。虽然应用多智能体系统（MAS）的动机因学科而异（Yu和Liu，2016），但它们在大数据中集成的主要优势包括：（1）它们对分布式环境（如大数据）的方便适应性，主要是由于它们的分布式性质，（2）建模和研究智能体之间的局部交互的可能性，（3）将建模和大数据挖掘任务组织成子组件的可能性，以及（4）使用人工智能（AI）技术为大数据系统提供动力的巨大潜力，使其能够使用智能分析能力来解决复杂在Wooldridge（2009）中，智能体被定义为能够在其所处的环境中执行自主行动以实现特定目标的实体。在此基础上，多智能体技术被定义为一组相互合作以达到全局目标同时实现局部目标的智能体（Weissand Multiagent，1999），被认为能够作为计算范例为大数据应用提供适当的解决方案。3.2. 多模糊代理系统在预处理循环大量的数据带来了一堆噪音，如不完整性，不确定性，冗余和不相关的数据。在处理步骤之前，必须过滤这些噪声，并且必须对这些数据进行优化并转换为智能数据。多模糊智能体系统的作用主要表现在预处理阶段，在此阶段，它们将被集成到大数据计算节点中如图 2中，由那些代理应用模糊逻辑推理来确定流式数据的相关率。因此，如果解模糊化输出高于由用户预先确定的数据的相关性的百分比将被认为是相关的;否则，它将被认为是不相关的，并且它将被忽略。使用多模糊代理系统的主要新颖性是多个，我们可以列出：更好的数据质量：能够估计数据的相关率并过滤掉不相关的数据，从而提高数据质量，一种精确的问题解决方法：模糊代理以不精确的术语查看数据，然后以精确的行动做出响应。它可以解决数据不完整和不确定性的问题，降低成本：模糊逻辑使低成本微控制器能够执行传统上由更强大的表达机器执行的高级功能，通用性：允许用户根据应用程序的域配置接受的相关性阈值。因此，这种方法是通用的，不依赖于特定的域。3.3. 模糊Agent角色行为所提出的多模糊代理系统代表了分布在不同大数据节点上的模糊代理网络被分解成相邻的模糊代理的集群。如图 3.每个簇头与协调器代理相关联，后者被实现为改善代理之间的协调，以容易地将数据传输到终端用户，并且特别地消除节点间冗余。在这种情况下，相邻代理充当反应代理。它们的主要作用仅限于将捕获的数据共享给协调代理进行处理。大数据服务器是可扩展的，即的数量图三. 模糊代理聚类。图二. 拟议办法概览。●●●●468Z. Elaggoune等人/沙特国王大学学报见图4。数据的相关程度节点是不断变化的，导致在模糊代理网络的结构的周期性变化。因此，一种结构中的某些反应性主体可以成为另一种结构中的认知性主体一个，反之亦然。协调代理在每次接收到来自其邻居的数据时应用模糊逻辑推理，从而估计数据的相关性并消除不相关的数据。协调代理应用的模糊逻辑推理遵循以下步骤：以帮助衡量数据的相关性。而模糊输入是从不同的邻近节点收集的数据2. 应用模糊运算：在定义了不同的概念和输入之后，将使用模糊运算（AND/ OR）将不同的参数组合在3. 应用蕴涵和聚合方法：像任何使用模糊逻辑的推理系统一样，一旦应用了规则，就轮到蕴涵和聚合方法了。支持两种蕴涵方法：min（最小值）和prod（乘积）。此外，支持三种聚合方法：max（最大值），probor（概率或）和sum（简单地说，每个规则的输出集的总和4. 解模糊化聚合输出：我们来到最后一个阶段，模糊代理将解模糊化结果与用户定义的相关性阈值进行比较，以决定信息是否相关因此，如果从这个模糊逻辑产生的相关性的百分比等于或大于用户预定义的百分比，则信息将被分类为相关的;否则，信息将被分类为不相关的，并且它将不被存储（图10）。 4）. 有五种支持的去模糊化方法：FOM（最大值的第一个）、LOM（最大值的最后一个）、MeOM（最大值的中间值）和COG（重心）。算法1描述了智能数据提取的协调代理应用的模糊逻辑模糊逻辑推理系统1. 实现模糊概念和模糊输入：模糊概念由允许代理度量数据相关性的参数表示。这些参数因应用而异，用户根据其在该领域的知识选择添加的参数类型。在所有类型的应用中必须定义的一个基本参数是数据的相似度。后者有助于根据它们的相似率来测量数据的相关性，这意味着冗余数据将被认为是不相关的并且将被删除。根据应用程序的上下文，可以使用其他次要参数。通过遵循这些步骤并基于等式1，我们可以推断出现在满足了提取智能数据的四个标准中的三个：（1）冗余被移除，（2）数据是相关的，这意味着它可以导致立即采取行动（可操作），以及（3）数据是灵活的，可以实时处理（敏捷）。尽管如此，数据还不具有允许用户做出直接决定的足够的准确性;这是由于冗余的消除，其阻止用户区分由多个节点捕获的真实数据和仅由一个或两个节点捕获的不确定数据为了解决这个问题并满足智能数据的所有标准，协调代理Z. Elaggoune等人/沙特国王大学学报469-将为存储的每个数据块分配权重。这个权重的范围是[ 1到1]，它代表了存储的数据。当量（2）用于计算该权重：速率-其中：NAD表示捕获类似数据块的相邻代理的数量，NAT表示相邻代理的总数4. 多传感器大数据管理如今，不同的行业，政府和公司使用大规模的无线传感器网络来收集有关其环境和状态的大量数据，例如交通，监控，能源，医疗保健，气候和天气。这些组织必须面对一个主要挑战，即管理和利用这些大传感器数据进行决策。计算机科学和计算智能技术的兴起正在推动无线传感器网络、无线网状网络、移动和自组织网络采用更先进的分析技术，这些技术可以从大传感器数据中提取有用的见解，从而实现更快的响应和更低的资源消耗。大规模无线传感器网络收集的数据一方面是连续的、海量的、分布式的，另一方面是噪声的、不确定的、错误的。因此，它可以被视为大数据，因为它们符合四个特征：数量，速度，多样性和准确性。在这种背景下，我们可以从这种新的大数据中提取一个主要挑战，即以节能的方式从多传感器大数据中提取智能数据。一个无线传感器网络包含大量的传感器节点，这些节点带有小电池，随机部署在一个区域内收集数据。考虑到这些数据中的许多数据可能是冗余的或不相关的，因此只收集有用的数据将是提高数据质量和处理这种新的大数据的重要因素此外，过滤掉传感器节点积累的噪声将有助于减少每个传感器节点的能耗;这是基于这样的事实，即在传感器节点中本地处理数据并消除不重要的数据比直接传输原始数据消耗的能量少得多（在100 m范围内发送1 KB所需的能量成本约等于执行0.3亿条指令所需的能量成本（Pottie和Kaiser，2000年））。4.1. 基于模糊代理的大规模无线传感器网络基于Agent的计算无疑是自主和分布式计算的主要技术之一基于代理的处理的概念主要基于将软件结构分解为交互和通信的虚拟对象，我们称之为代理。每个软件代理都是代码的一个自治部分，具有其单独的控制线程，以及要实现的个人目标集软件代理是目标-指导并执行正确的行为来实现这些目标（Leong和Lu，2014）。智能WSN由自主的智能传感器节点组成，这些智能传感器节点彼此通信、处理信息并交互（Sardouk等人，2008年）。智能传感器节点应该能够以感测其环境、处理所收集的数据以及估计所感测的信息的重要性。它还应该能够做出明智的决定，如删除这些信息，与其他传感器共享或忽略它。考虑到智能传感器的这种描述，我们可以探索它们与代理行为的相似性实际上，智能体从其环境中收集信息，处理信息并做出适当的决策。综合考虑以上因素，我们认为多智能体技术可以使无线传感器网络智能化。因此，我们建议使用基于模糊代理的大规模无线传感器网络。如图 5、提出的智能无线传感器网络包含一组智能传感器，其中每个传感器由一个模糊代理供电。这种智能无线传感器网络的主要目的是从环境中收集尽可能多的数据，并只向基站传输智能数据，这导致数据质量的提高，包括网络寿命的最大化多跳路由是智能传感器节点将传感数据从源节点传输到汇聚节点的协议。每一组相邻的智能传感器节点组成一个簇，然后选举距离sink最近的传感器节点作为簇头，相应的模糊代理代表协调代理。在下文中，我们给出一个示例来说明用于传输传感器读数的多跳路由协议和代理用于提取智能数据的通信策略在这个例子中，我们考虑图1所示的网络。六、1. 我们假设有一个事件报告的传感器节点A. 传感器A的读数被直接发送到相应的模糊代理（在这种情况下是模糊代理A）。2. 模糊代理A向其单跳邻居发送合作消息。通过发送合作消息，模糊代理A要求其单跳邻居代理加入它们的传感器读数以进行数据收集会话。见图6。网络拓扑。图五.智能无线传感器网络。470Z. Elaggoune等人/沙特国王大学学报--3. 每个邻居代理通过将其传感器读数发送到模糊代理A来响应合作请求，除了协调器代理（到接收器的最近邻居代理），其将被编程为不响应合作请求。4. 模糊代理A从其邻居接收数据，应用基于用户定义的规则和参数的模糊逻辑来消除数据冗余，过滤掉噪声并提取智能数据。5. 模糊代理A将提取的智能数据发送到下一个协调代理（代理B），该协调代理继而与其一个希望邻居重复相同的之后，模糊代理B将提取的数据与从模糊代理A接收的初始智能数据连接。然后将其发送到下一个协调代理（模糊代理C）。6. 最后，模糊代理C和所有协调代理重复与代理B相同的过程，直到到达汇聚节点。在大规模的无线传感器网络应用中，单个传感器读数的准确性至关重要;传感器节点读数必须准确，以避免误报和漏检（郭例如，2009年）。通过使用先前定义的例如，报告的到1意味着该值完全为真，并且所有相邻传感器“相似性数据的相似度：通常，传感器节点是随机部署的。因此，许多传感器节点将覆盖相同的地理位置，这意味着它们将获得可能相同的传感器读数，即分布式冗余。每个协调代理将测量从其组的节点收集的温度之间的相似率，以消除传感器节点间的冗余。换句话说，当值之间的差趋于0时，冗余率越大此参数适用于温度变量。相对湿度仅用于第二个参数。Pearson相关系数：Pearson相关系数（r）用于测量两个变量T和RH之间的线性相关性，给出1和+1之间的值，其中总负相关性定义为1，无相关性定义为0，总正相关性定义为+1。r值越接近0，相关性越弱。计算r的公式见Eq. 其中：（n）是样本量;（x，y）是我们案例中的（温度，相对湿度）。检测到相同的值;而使用阅读r¼“nPxy-RxRy- ð Þ]- -]ð3Þ‘ratesnPx2Rx2qnPy25. 应用案例：通过大规模智能温度监测WSN在这种情况下，一个大规模的无线传感器网络模拟是用来监测的温度。温度（T）和相对湿度（RH）是传感器节点感测的两个变量，并用作模糊输入。数据的相似度和Pearson相关系数是在此用例中用于估计数据相关性的两个模糊代理使用从这两个因素中导出的六个参数这些概念在图7中被描绘，图7示出了“温度”相对湿度随温度的变化而变化。它下降时，温度上升，这可以解释的事实，即温暖的空气，可以容纳更多的水比冷空气。因此，我们估计温度和相对湿度之间的Pearson相关系数可以用于测量传感器读数的相关性，并且我们决定将其作为第二个因素添加。在从其单跳邻居接收到传感器读数（T和RH）之后，每个协调代理将计算这些传感器读数的相关性的百分比。该百分比使用以下两个规则计算：见图7。不同代理持有的各种模糊集的表示。●●Z. Elaggoune等人/沙特国王大学学报471见图8。本用例中使用的模糊推理系统。见图9。提取温度与初始检测温度的比较示例。R1：如果（低冗余和强相关性），则它是相关信息R2：如果（高冗余和弱相关），则它是不相关信息在这个模型中，模糊逻辑推理系统对于所有代理都是相同的，它遵循图1所示的相同步骤。8.第八条。图9给出了使用该推理系统检测到的温度和提取的温度的示例，其中相关性阈值等于50%。5.1. 仿真设置我们使用多智能体可编程建模环境NetLogo（Wilensky，1999）进行了模拟。在这个模拟中使用的模型被设计成调查的效率的模糊代理方法提取智能数据在分散的大规模无线传感器网络。主要问题是：使用这种方法是否会导致数据丢失？或者，提取的智能数据是否会与最初检测到的质量更好的数据具有相同的值？采用模糊代理方法的网络是如何实现能源效率的？与原始数据传输相比，使用该方法获得的结果之间的最小变异百分比是什么参数？与原始数据传输相比，哪些参数可以实现最佳节能在这个模型中，我们比较了使用模糊代理的方法传输与原始数据传输所获得的结果。两种配置使用相同的多跳协议。随机选择两个代理作为源节点和目的节点，其中捕获的值将从源节点传输到目的节点。每次都用另外两个源和目的地代理重复传输过程，直到网络死亡，即当其中一个传感器不再有能量时。在此过程中使用了几种类型的变量●●●●●●472Z. Elaggoune等人/沙特国王大学学报×我们将它们分为三类：输入、模拟过程中计算的输出和模拟后计算的输出[输入。] 输入是用户可配置的参数：代理（节点）的数量、节点的初始能量、执行数据传输的能量消耗阈值、聚合的类型、解模糊的类型和接受的相关度阈值[模拟期间计算的输出。]在每次迭代（迭代是从源到目的地的一次传输），计算两个输出：检测温度和提取温度之间的平均百分比变化。变化的百分比越高，数据丢失率越高。与原始数据传输相比，模糊代理传输减少了能量。两个传感器之间数据传输的功耗用于测量消耗的能量的公式受到Heinzelman等人提出的公式的启发。（2000年）：● 发送数据的能耗ETxk;d Eω ksampωkωd2EL4● 接收数据的能耗ERxkEωk5其中：（k）是要传输的数据量（位），（d）是两个传感器之间的距离，（E）是能量消耗，以nJ/bit为单位进行数据传输，（samp）是能量其中，能量消耗常数是用于扩展无线电覆盖的能量消耗常数，以nJ/（bit* m2）为单位，并且（EL）是用于本地处理数据的能量消耗，并且在原始数据传输的情况下等于0。[模拟后计算的输出。]我们可以提取两个主要变量来验证我们方法的有效性总平均百分比变化和总降低能量。节点随机分布在600 350的景观中（图10）。表1显示了在该模拟中选择的不同参数。通过将“温度+20”值分配给相对湿度，我们将始终获得正相关性，这意味着相对湿度在估计数据的相关性时将不是决定性的，因为如果我们将随机值分配给相对湿度，我们将5.2. 结果和分析如上所述，提取智能数据的目的是为用户提供非冗余、可解释、准确和真实的数据，以便做出正确的决策在这种方法中有一个非常重要的参数，即可接受的相关百分比阈值。此参数不是常数，用户可以自由设置接受的百分比阈值。为了说明这个参数的重要性，给出了航空电子系统的例子，这是一个安全关键系统，有必要分析飞行过程中捕获的所有数据，以确保系统正常运行，避免故障。在这种情况下，如果接受的相关性阈值设置为高百分比，则重要数据将被忽略，这可能会导致问题。为了验证我们的方法的有效性，我们选择模拟三种不同的场景：（1）接受所有数据（即使表1基本模拟参数。模拟参数值节点数链接数每个节点的初始能量进行数据传输的能耗0.1/bit本地数据处理0.0001/bit聚合类型max去模糊化类型COG温度[20°-70°]相对湿度温度+20见图10。采用大规模的无线传感器网络进行仿真。●●Z. Elaggoune等人/沙特国王大学学报473-’’不相关数据），（2）仅接受相关数据，以及（3）仅接受非常相关的数据：[场景1：接受的相关性百分比阈值= 0%。]当我们将这个参数初始化为0时，这意味着所有捕获的值都被接受并被认为是相关的。图11示出了该第一场景的模拟结果。结果表明，平均变化百分比为0，这意味着没有数据丢失，因为所有值都被接受和传输，这相当于原始数据传输。他们还表明，减少的能量为0.002，这意味着原始数据传输消耗比这种情况下的模糊传输少一点能量。这是由于在模糊传输方法中用于本地处理数据的能量消耗，其中每次执行本地处理以确定所捕获的温度的相关性百分比是否大于所接受的相关性百分比阈值，并且由于阈值被设置为0，所以所有温度将被认为是相关的并且将被传输到目的地。关于与温度一起报告的权重（准确率），可以清楚地推断出由同一协调代理（同一地理区域）报告的所有温度共享同样的重量。如果我们以传感器节点786为例，它报告了三个温度，（它的局部温度和它的邻居的两个温度），并且由于所接受的相关性百分比阈值是0，这意味着每个温度被认为是相关的并且它将不会被忽略或由它的邻居之一的温度表示，对于三个报告的温度中的每一个，权重将是1/3 ± 0.33。在该第一场景中，每个温度的权重将总是：1/（邻居的数量+1）。[情景2：接受的相关性百分比阈值= 50%]。在这种情况下，只有具有平均相关率的值将被传输。图12示出了该第二场景的模拟结果。在将可接受的相关百分比阈值增加到50%之后，我们注意到平均百分比变化高达11.82%，并且减少的能量高达49.67%。这种数据丢失是由于消除了不相关的值（相关性百分比小于50%的温度）。为了很好地解释该过程，我们以传感器节点523为例，其报告了两个温度：22°，准确率为0.66;以及63°，准确率为0.33。链接到该传感器节点的代理最初接收到三个值，并且在应用模糊逻辑之后，它决定仅保留这两个值作为智能数据（22°和63°），并且它认为第三个值是最小的。见图11。场景1：接受的相关性百分比阈值= 0%。见图12。场景2：接受的相关性百分比阈值= 50%。474Z. Elaggoune等人/沙特国王大学学报’’值的相关性不够，与值22°（相关性百分比为50%）非常相似。因此，温度22°的准确率为2/3 0.66，因为它代表两个传感器节点，而温度63°的准确率为1/3 0.33，因为它代表一个传感器节点。与原始数据传输相比，能量减少了，因为在模糊方法中传输的分组的大小更轻，因为存在被忽略的值。[情景第三节：相关性百分比阈值接受= 100%]。在第三种情况下，接受的相关性百分比阈值增加到最大值。结果表明，与之前的场景相比，平均百分比变化增加，能量减少，因为智能数据的提取现在非常有选择性，并且只接受非常相关的温度。可以看出在图13中，每个协调器代理仅报告了一个值，该值表示由相应的传感器节点及其邻居检测到的温度。由于只有一个温度代表协调代理及其邻居的传感器读数，因此该温度的权重为：准确率=（1 +邻居数）/（1 +邻居数）= 1，这意味着报告的温度为100%为真，并且所有相邻传感器节点都检测到相同或近似的温度（基于接受的相关百分比阈值）。总体测量结果显示了接受的相关性百分比阈值与总平均百分比变化/总减少能量之间的比率，如图所示。十四岁总的来说，我们可以推断，通过这种方法获得的结果必然取决于接受的相关百分比阈值，其中，接受的相关百分比阈值增加得越多，减少的能量和平均百分比变化增加得越多，也就是说，当减少的能量增加时，数据丢失率降低（平均百分比变化增加），反之亦然。最重要的是，两个主要因素可能导致结果的变化：（1）改变定义模糊概念的模板;（2）增加或减少相邻传感器的数量。为了显示这两个因素对变化百分比和减少的能量的影响，我们尝试改变模拟的计算量图十三.情景3：接受的相关性百分比阈值= 100%。见图14。相关百分比与变异/能量百分比之间的比率减小。Z. Elaggoune等人/沙特国王大学学报475图15. 高冗余和低冗余两种不同的概念图16. 改变模糊概念对变异百分比和减少能量的影响。首先，我们用两种不同的高冗余和低冗余概念进行了两次模拟。从图15可以看出，在第一模板中，最大相似率被限制为12.5，而在第二模板中，最大相似率被扩展到25。考虑图16，它说明了从两个模拟中获得的结果，我们可以推断出变化的百分比和减少的能量根据概念而变化，其中它们通过增加最大相似率而增加其次，我们使用三种不同数量的链路进行了三次模拟（图17）。链路数量的变化导致每个传感器节点的邻居数量的变化，其中链路数量越多，传感器节点邻居的数量越多。仿真结果表明，随着邻居数目的增加，变异率和能量减少率也随之增加，这是合理的，因为邻居数目越多，数据冗余率越高。这示于图十八岁我们只使用一种类型的去模糊化，这是：COG（重心），得到了以前的结果模拟与不同类型的去模糊化进行了测试，以找出什么参数将给出最小的变化百分比和最佳的节能。图图19显示了获得的结果。图17.三种不同的传感器节点间链路数的初始化。从所获得的结果可以看出，所有类型的解模糊化给出几乎相同的结果，除了从其他类型中脱颖而出的COG考虑到最好的476Z. Elaggoune等人/沙特国王大学学报图18. 增加链接数量对变异百分比和能量减少的影响。图19. 得到的结果与类型的聚合最大和不同类型的去模糊化。图20. 具有不同关联度的火灾检测初始化。执行类型是给出最低变化百分比和最高能量减少的类型，我们可以说所有类型的去模糊化具有相同的性能，除了COG类型，该类型在[0%- 50%]范围内给出变化百分比的最佳性能和减少能量的最差性能，并且它在[50%-100%]范围内给出变化百分比的最差性能和减少能量的智能城市是我们可以找到如此大规模的无线传感器网络的现实世界的例子为了展示我们的有效性和好处，在这样的环境中的方法，我们已经扩展了从温度监测到火灾探测的案例研究。因此，如果报告的温度值等于或大于55°且权重（准确率）等于或大于0.5，则必须触发警报作为真警报;如果报告的温度值等于或大于55°且权重小于0.5，则必须触发警报作为不确定警报或假警报。为了显示在这个用例中接受的相关度的影响，我们用三个不同的相关度阈值运行了三个模拟（图1）。 20）：30%，60%，90%。Z. Elaggoune等人/沙特国王大学学报477表2现有方法和我们的方法之间的比较大数据支持冗余消除相关数据提取降成本数据压缩UUU重复数据删除UU特征提取UUU现有的WSNs方法U我们的方法UUUU1. 接受的相关性百分比阈值= 30%：注意，在这种情况下有最高数量的警报和不确定的警告（或错误警报）。报警数量如此之多是因为过滤的不相关温度很少，因为可接受的相关度低于平均值。此外，不确定警告的数量高是由于“率”低报告的温度2. 接受的相关性百分比阈值= 60%：触发的警报比前面的场景中少，这意味着报告的噪声更少;这是由于接受的相关性百分比的增加。我们还可以注意到，真实警告的百分比占主导地位，因为报告的错误读数较少，并且3. 接受的相关性百分比阈值= 90%：在该第三种情况下，接受的相关性比率非常高，并且每个检测到的温度被认为是不相关的并且必须被忽略，或者非常相关并且必须以“比率”报告“of veracity”等于1，表示真警告。这种情况下的优点是我们可以避免错误警报，但有一个主要的异常是由于非常高的接受百分比而错过检测。通过对这三种情况的分析，我们可以得出结论，在本案例研究中，第二种情况（相关度阈值= 60%）是最值得推荐的;因为在第一种情况下，由于数据传输的不确定性，我们无法避免误报，而在第三种情况下，我们可能会由于数据丢失而陷入漏检6. 讨论事实上，对于各种数据缩减方法，并不存在适用于大数据所有领域的统一方法，数据科学家必须考虑数据集的具体问题、特征、应用背景、性能要求等因素来选择合适的此外，数据简化方法的应用并不真正产生智能数据，而是产生非冗余数据，因为方程中的三个因素中没有一个（1）满足（数据必须准确、可操作和敏捷）。在一般情况下，考虑到所有因素，我们可以在表2中总结我们的方法与其他方法相比的优势。在这项研究中，我们提出了使用多智能体系统和模糊逻辑来处理在大数据领域日益增长的挑战，通过引入多模糊代理的方法从大噪声数据中提取智能数据两个主要的问题仍然没有答案：（1）这种方法在其他大数据领域（如医疗保健行业或银行业）是否有效？（2）如何验证来自社交网络等未知来源的数据的确定性，以及它对准确率的影响模糊代理的使用是我们解决方案的第一步在我们未来的研究中，我们将尝试扩展这种方法，使其能够适应所有的大数据领域：1. 首先，我们打算用强化学习来增强模糊代理在强化学习模型中，规则对于每个模糊智能体保持相同，但是对构成高冗余与低冗余、强相关与弱相关以及相关与不相关的感知对于每个智能体是特定2. 其次，我们将调整MAS，以集成在智能数据提取周期的数据源3. 最后，我们将通过使用系统的系统，这意味着发现和消除更多的冗余数据，从大量的相邻节点的追溯性质扩展的邻域空间。通过这种方式，每个MAS成为一个子系统，并且每组相邻的子系统将配置整个多代理系统的系统，其中超级协调代理作为簇头。7. 结论本文的主要关注点是提出一个模糊代理的方法来提取智能数据在分布式大规模环境中。特别注意所提出的方法的一般性，从用户有所有的自由来配置不同的参数，并使它们适应应用领域。我们不仅解决了噪声数据的问题，还解决了能耗问题。为了证明所提出的方法的有用性，我们选择了大的多传感器数据管理上下文，在这里，提出了一个基于多模糊代理的大规模无线传感器网络。多模糊智能体系统的主要目标是根据用户定义的可接受的相关性阈值来消除不完整的、不确定的、冗余的和不相关的数据仿真结果表明，智能数据的提取可以极大地延长网络的生存时间，但也表明，接受的相关百分比阈值越大，网络的生存时间越长，提取数据的准确性越低。利益冲突一个也没有。引用Al-Karaki，J.N.，Ul-Mustafa河，Kamal，A.E.，2009.无线传感器网络中的数据聚集和路由：最优和启发式算法。 Comput. 网络 53 （ 7 ）， 945-960 。https://doi.org/10.1016/j.comnet.2008.12.001网站。Belghache，E.，Georgé，J.，Gleizes，M.，2016.面向动态大数据分析的自适应多代理系统。2016年国际IEEE泛在智能计算会议，先进和可信计算，可扩展计算和通信，云和大数据计算，人的互联网和智能世界大会（UIC/ATC/ScalCom/CBDCom/IoP/SmartWorld），pp。753-758https://doi.org/10.1109/UIC-ATC-ScalCom-CBDCom-IoP-SmartWorld。2016.0121。Bendjima，M.，Feham，M.，2013.基于多代理系统的无线传感器网络智能通信。国际计算机科学10。陈美，Kwon，T.，Yuan，Y.，崔，Y.，Leung，V.C.，2006年。基于移动代理的无线传感器网络定向扩散。 EURASIPJ. Adv. 信号处理。 2007 ，（ 1 ） .https://doi.org/10.1155/2007/36871036871.陈美，Mao，S.，Liu，Y.，2014.大数据：一项调查。移动网络Appl. 19（2），171- 209.478Z. Elaggoune等人/沙特国王大学学报范，W.，Bifet，A.，2013.大数据挖掘：现状与未来预测。SIGKDD Explor.

下载后可阅读完整内容，剩余1页未读，立即下载