物联网数据结构化存储方法研究

175 浏览量更新于2024-01-17 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报面向物联网Samer Sawalhaa，Ghazi Al-Naymatb，ca印度尼西亚苏马亚公主技术大学侯赛因国王计算机科学学院。Box 1438，Amman 11941，Jordanb阿拉伯联合酋长国阿治曼大学工程与信息技术学院人工智能研究中心（AIRC）c约旦安曼苏马亚公主技术大学侯赛因国王计算机科学学院阿提奇莱因福奥文章历史记录：2021年6月1日收到2021年9月12日修订2021年9月12日接受2021年9月17日网上发售关键词：物联网大数据数据库架构A B S T R A C T物联网（IoT）是我们生活中必不可少的技术;由于其出色的使用价值，IoT的重要性逐年增加。物联网管理可以帮助利益相关者根据以前的历史感知数据进行分析并做出正确的决策。然而，在使用物联网时会出现一些挑战，这些挑战在未来将更加复杂数据管理是物联网技术面临的重大挑战之一传感器数量的增长将增加生成的数据（大数据）。几年后，分析、处理和存储这些数据的问题将成为一个高度复杂的过程。由于上述挑战，在本文中，我们提出了一种新的模式来有效地存储结构化物联网数据，以提高分析和检索数据的性能所提出的模式的主要思想是在数据预处理步骤中执行的，将数据分组到不同的级别，而不会丢失任何单个值（无损压缩）。我们使用其他八个数据集的存储大小和处理时间来评估我们提出的模式，我们的结果表明，该模式优于传统的存储方法的所有数据集。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在过去的几十年里，互联网给我们的生活和商业带来了巨大的它对教育、通信、政府、科学、商业等产生了积极的影响。大量的信息可以很容易地通过互联网访问（Uckelmann等人， 2011年）。广泛分布的信息之间的相互作用这些信息可以由许多智能设备生成，如传感器、发动机或任何其他智能设备（ Zeinab 和 Elmustafa ，2017）。物联网（IoT），有时也被称为物联网这些设备通过人、物、数据和应用程序之间的交互产生信息。术语的*通讯作者。电子邮件地址：sam20179002@std.psut.edu.jo（新加坡）Sawalha）。沙特国王大学负责同行审查预计到2021年，物联网中连接和使用的传感器数量将超过501亿个传感器，分布在全球范围内，如图所示。1.一、到2022年，物联网的预期经济影响将达到1万亿美元（Economides，2017）。物联网的想法始于1999年，当时麻省理工学院自动识别中心在剑桥大学成立建立自动识别中心的目标是开发广泛的识别技术，然后可以在行业中使用，通过提高效率和减少错误数量来支持和增强自动化过程。他们通过使用射频识别（ RFID ）标签开始了他们的工作（Fletcher，2015）。RFID技术是一种自动识别系统，通过集中式服务将任何标签附在物体上，提供有关该物体的一些细节。近年来，RFID因其快速可靠而受到欢迎; RFID可以跟踪单个对象。第一个使用物联网技术的系统是在2003年推出的EPC网络。该网络表明，他们可以在生产、分销和交付阶段使用计算机自动跟踪和识别制造产品（Khattab等人，2017年）。在那一年之后，人们对物联网的兴趣增加了;许多公司竞相在智能应用程序中使用这项技术，或者研究生成的数据以做出正确的决策。https://doi.org/10.1016/j.jksuci.2021.09.0131319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. Sawalha和G. 奈马特沙特国王大学学报7804Fig. 1. 连接的传感器的预期数量。物联网被用于许多应用;这些应用使我们的生活自动化并使其更加舒适，例如智能城市，环境应用，水应用，能源计量，安全和紧急情况，零售应用，家庭应用和健康应用等（Zeinab和Elmustafa，2017）。物联网主要基于称为传感器的智能设备。这些传感器用于读取和提取数据，通过感知人类行为或任何其他环境，机械或电气行为。它们的主要功能可以对这些传感器进行分类，例如温度和湿度传感器、液位和泄漏传感器、运动传感器、电和磁传感器、位置和存在传感器、光和机器视觉传感器、压力和机械应力传感器。这些传感器可以单独使用，或者将一个以上的传感器链接到通过控制应用程序进行交互的传感器网络（Hassan等人，2017; Chaves and Nochta，2011）.物联网在不同方面都是有用的技术;它已成为互联网未来的关键要素然而，也出现了一些挑战和障碍这些挑战在参考文献中详细列出（Patel和Patel，2016; Mattern和Floerkemeier，2010）。第一个挑战是隐私和安全（Stergiou等人，物联网必须在交换数据、控制传感器的访问、保护存储的数据免受未经授权的访问等时保持隐私和可靠性。物联网技术面临的第二个挑战是成本与可用性;物联网不能忽视成本，因此使用物联网技术的好处必须大于其成本。成本包括传感器价格、网络、通信成本、存储、安全、应用等。第三个主要挑战是设备级能量;考虑到能量限制，必须适当地互连传感器。传感器和网络层之间的通信设备消耗的能量最多物联网面临的最后一个主要挑战是数据管理。数据管理和存储是使用物联网的基本挑战，每年传感器的数量都会增加一倍。世界各地的传感器之间的互连将交换所有类型的数据。增加设备数量将增加生成的数据量。几年后，分析、处理和存储数据将是一个巨大的挑战。存储大量的传感数据将使数据的分析过程成为一个具有挑战性的问题，它将需要巨大的存储空间。此外，它需要大量的时间来读取这些大量的数据，将它们加载到内存中并处理它们。因此，我们需要有一个有效的解决方案来存储数据，以加快数据访问和分析过程，并减少存储这些数据所需的存储大小从传感器生成的数据可以分类为两种主要数据类型（二进制数据或十进制数据）;二进制数据由不同类型的传感器产生，例如泄漏传感器、运动传感器和存在传感器。这些传感器仅生成两个值（0或1）。例如，在运动传感器中，如果在其前面存在任何运动，则所得到的数据将是连续的1;否则将是连续的0。在十进制数据中，传感器产生实数;这些实数可以由不同的传感器生成，例如温度和湿度，水平、加速度和位移、电和磁、位置和光。目前，这些生成的数据与诸如传感器类型、传感器的位置、每个感测数据的日期和时间、感测值之类的一些信息一起存储。所有的传感值都是单独存储的（没有任何分组），因此经过多年的传感会产生大量的数据。这些数据需要大量的时间和复杂的计算才能在不同的应用程序中读取和分析，如报告、可视化、预测等。传统的框架如图2所示，传统的数据库模式如图2所示。3.第三章。大数据是一种高容量、高速度和多种信息资产，需要一种独特的高质量信息处理形式来服务于决策和自动化流程。如图4所示，IoT周期性设备以规则的间隔发送一组值，生成大数据流。这些大量的大数据流将意味着3V问题（Kaur和Sood，2017）。大量和高速的数据需要新的方法分析和管理它们（Jagadish，2015）。例如，如果有100个传感器，每个传感器每1 s测量一个二进制值（0或1），持续十年;那么需要存储和分析的值的总数是315亿个值。然而，在现实世界中，传感器的数量要多得多（数十亿个连接的传感器），这将是一个需要解决的巨大挑战。这促使我们关注这些收集到的数据的巨大价值，并妥善存储和管理图二. 传统的框架。图三. 传统的数据库模式。S. Sawalha和G. 奈马特沙特国王大学学报7805见图4。大数据本文将重点关注数据管理挑战;因此，提出了一种物联网通用模式，有助于提高分析过程关于所提出的模式的主要思想是在数据预处理步骤中通过将数据分组到不同的级别而不丢失任何单个值（无损压缩）来执行的;这些级别主要是基于需求来指定的。分组为每个级别中的每个值提供统计信息，因此每次请求一条信息时无需传递所有记录。对于传统数据库模式中的前一个示例，31.5十亿个二进制值在一个年度级查询中，所提出的模式将只存储两个值，每个传感器每年有总共2000个值需要分析。这被认为是在复杂性、存储大小和性能方面的显著增强本文的其余部分组织如下：以前的研究在第2节中讨论。我们将在第3中详细讨论所提出的模式，然后在第4中介绍实现和评估，最后在第5中总结我们的论文。2. 以前的研究许多研究都涉及物联网数据存储和处理技术，因为存储要在最短时间内检索和分析的数据非常重要。物联网数据分为三种主要类型：结构化、非结构化和半结构化数据。管理这些数据类型的数据库系统分为两大类：关系数据库和非关系数据库。关系数据库（RDBMS），也称为SQL数据库系统，它使用SQL查询语言来管理数据库中的数据。非关系数据库或NoSQL数据库用于存储非结构化数据和结构化数据。该数据库的模式在处理各种数据方面是自由灵活的设计，是可扩展的，并且由于关系数据库在处理大量IoT数据时的限制，被认为是用于存储IoT数据的有利数据库（Cai等人，2017; Kang例如， 2016年）。NoSQL数据库分为三种类型：键值存储，文档数据库和面向列的数据库。键值数据库存储为键和该键的值的对。在文档数据库中，数据是以键值格式存储的;然而，值是以一种复杂的结构（如XML数据）存储的;这种数据称为文档。面向列的数据库将数据存储在列中而不是行中;这种数据库对于面向列的计算（如聚合）是一个很好的选择。表1给出了每种分类的一些示例（Kang等人， 2016年）。表1NoSQL数据库的分类键值存储文档数据库列式数据库伏地魔SimpleDBBigtableRiakCouchDBHBaseRedisMongoDBHyperTable斯卡拉里斯特拉斯托雷Cassandra处理和分析大量的数据是一个非常复杂的过程，需要花费大量的时间和资源，因此，许多研究都集中在减少大量的数据。数据抽样就是其中的一种研究，即从总体中选择一个数据子集来估计整个总体的特征。数据的选择被用作整个数据的表示。采用数据采样技术，减少了数据量，提高了处理和分析性能。然而，问题是如何从整个数据中提取适当的样本，而不会丢失一些重要信息。另一方面，数据聚类是通过将一组相似的数据分组在同一个聚类中来完成的，这些数据与其他聚类中的其他数据不同。聚类技术可以用作摘要技术;这将在不丢失数据意义的情况下将数据压缩到聚类中（P.G. L.，Mallappa，S.， 2017年）。Lavanya等人（P.G. L.，Mallappa，S.，2017）介绍了一种使用采样和聚类技术总结传感器数据的有效方法。他们对采样数据进行了汇总处理，并对样本的平均值应用了分类技术，如（KNN，SVM，NB）另一方面，他们也对聚类后的数据进行了总结，使用K-均值聚类，然后应用分类得到总结结果。然而，问题是他们使用其主要特征总结了数据，因此它被认为是有损压缩，因为一些数据被丢弃。Alzennyr da Silva等人（da Silva等人，2010年）提出了一种“CLUSMASTER”算法，包括对数据流的聚类和采样技术。他们使用了一个时间采样过程;这个过程是通过从曲线中保留一些测量值来执行的，这将尽可能多地保留底层信息。然后，他们选择了适当的传感器集合然后，他们进行了一些聚类过程，为每个传感器分配最佳采样率，使平方误差之和最小化。然而，该算法考虑了来自原始数据流的样本，丢失了一些值，并在查询数据时提供了近似信息。Mohammad Abu Alsheikh等人（Alsheikh等人，2016）提出了一种使用人工神经网络（ANN）进行特征提取的自适应数据压缩解决方案;他们探索了训练数据中的特征，以生成原始数据的低维表示。该过程将减少原始数据的总数，并且可以快速处理和分析。问题是，提取的特征的准确性可能有一些误差，并且也会减少数据维度的总数，这将降低提取的信息的整体准确性。梁峰等（Feng等人， 2017）提出了一种部署在网关和边缘层上的多层数据缩减技术。在网关层，通过从大量数据中提取数据模式他们在点过滤上应用在边缘层，他们采用数据融合的方法，将从网关层接收到的所有数据进行融合，提高了数据的可靠性，扩大了观测的时空域范围。这种数据缩减减少了数据总数，表2以前的研究比较。参考出版年份研究重点技术优点缺点张彩明等（彩明2020一种大型结构化数据清理、混合群集、数据加速数据分析不适用于物联网、存储和Hao-Nan，2020）Hani Ramadhan等人2020人力资源档案数据库数据物联网数据采样数据分发，加速数据分析尺寸问题存储大小问题，复杂（Ramadhan等人，2020年）Alaa Alsaig等人（Alsaig等人，2019使用类数据记录语言特性和效率数据清洗、数据采样、数据加速数据分析过程存储大小问题2019年度）Konstantinos Demertzis等人2018物联网驱动的智慧城市发展一种多任务学习方法，分布多任务，k-NN分类器与自我加速数据分析存储大小问题，复杂（Demertzis等人， 2018年）时间大数据分析调整记忆，滑动车窗Lavanya等人（P.G. L.，Mallappa，S.，（2017年）Liang Feng等人（Feng等人，20172017基于采样和聚类的传感器汇总数据分类：性能分析一种多层数据简化机制，采样和聚类（KNN，SVM，NB）数据过滤和简化减少数据减少数据有损压缩有损压缩（2017年）Wenbin Zhang等人（Zhang和2017物联网传感器混合学习框架，网关和边缘层混合框架、采样和减少数据有损压缩，存储大小Wang，2017）Mohammad Abu Alsheikh等人2016不平衡流分类率失真平衡数据分类自适应数据压缩减少数据问题有损压缩（Alsheikh等人，（2016年）MichalWozniak等.（Woz'niak2014用于无线传感器网络的数据装袋和提升人工神经网络抽样、替换、数据分发加速数据分析有损压缩，存储大小例如， 2014年度）Tingli Li等人（Li等人， 2012年）2012海量物联网数据修改、分类器特征提取，过滤，减少数据问题有损压缩，存储大小B. Krawczyk等人（Krawczyk和2011基于NoSQLk-nn的隐私保护模型重复数据消除、存储管理、分布式计算数据分区和分布式加速数据分析分布式计算复杂性问题存储大小问题，分布式沃兹尼亚克，2011年）Krzysztof Walkowiak等人2011算法一个分散的分布式计算计算分布式计算，混合分类器加速数据分析计算复杂度存储大小问题，分布式（Walkowiak等人，（2011年）Alzennyr da Silva等人（da Silva2010用于结合隐私保护的系统分类器抽样和聚类减少数据计算复杂度有损压缩例如，（2010年）传感器网络中的采样数据流S. Sawalha和G. 奈马特沙特国王大学学报7806S. Sawalha和G. 奈马特沙特国王大学学报7807用减少的数据量表示总体数据，导致一些基本值的丢失。Tingli Li等人（Li等人，2012）提出了一种称为“IoTMDB”的存储管理技术，并且该技术使用NoSQL数据库。作者对物联网数据进行了统一的组织。在第一步中，他们对接收到的数据应用预处理技术（提取信息、清理、重复数据删除和根据用户需求进行自定义处理）。然后，他们将数据形成特定的表达式然而，某些预处理技术可能会损坏某些值，导致整体提取信息准确性的降低。它还存储了大量数据，因此分析这些数据的挑战尚未解决。Wenbin Zhang等人（Zhang和Wang，2017）提出了一个混合框架，主要处理不平衡流学习。它包含三个主要部分：分类器更新，恢复和成本敏感分类器。他们通过做一些再训练过程解决了对不平衡数据流进行分类的问题。当有不平衡的数据时，重新分配过程用于给少数类更多的关注。如果数据是均匀分布的，则不会使用它来降低学习过程的复杂性。他们使用合成少数过采样技术（SMOT）来增加训练少数类实例的机会，而训练多数调用实例的机会则通过欠采样来减少。然而，本研究主要集中在分类数据，特别是当不平衡的数据，并没有减少存储大小或要处理的记录数在分析阶段。除此之外，他们对原始数据进行了重新排序处理，这将丢失一些值并提供查询数据的近似信息。其他一些研究提出了数据分区来解决大数据分析和存储挑战（Krawczyk和Wozniak，2011）。然而，分发数据将提高隐私，这是前面提到的主要挑战。为了解决这个问题，Krzysztof Walkowiak等人（Walkowiak等人，2011）提出了一种分散式分布式计算系统，其通过独立地在数据的每个分布式部分上训练分类器，然后使用混合分类器的原理合并它们的输出，来保持数据的私密性。最流行的技术是装袋和助推技术（Woz'niak等人， 201 4）。 Bagging使用带替换的抽样技术获得独立的训练过程，而Boosting根据先前训练的分类器的结果修改输入数据分布。然而，这项研究主要集中在生成准确的分类器，并没有减少存储大小或在分析阶段处理的记录的数量此外，他们对原始数据进行了重新定位和更新过程，这将丢失一些值。Konstantinos Demertzis等人（Demertzis等人，2018）提出了一种基于 Kappa 架构的实时大规模数据分析框架多任务学习模型（MOLESTRA）。该框架的主要思想是通过重叠执行（多任务）来加速对大量数据的分析，以确保数据流之间的学习关系的利用。它还使用具有自调整存储器（SAM）的k-NN分类器。他们还在学习过程中使用了滑动窗口技术。然而，它们并没有解决存储大量数据的问题。此外，它还需要建立一个预测过程的模型，并进行许多复杂的计算。张彩明等（蔡明和郝楠，2020）提出了一种人力资源档案数据库中大结构化数据的预处理方法。所提出的方法的主要思想是使用一种预处理方法，可以去除和清洗数据任何异常值和不相关的异常数据。对数据库进行归档，设计了一种基于混合聚类的人力资源档案数据然后，利用统计局收集的企业数据工资汇总表对预处理步骤进行了然而，所提出的方法不能用于物联网数据，因为它没有解决存储数据所需的空间问题，也没有提高分析时间。Alaa Alsaig等人（Alsaig等人，2019）提出了新的智慧城市发展架构。它包括两个MongoDB数据库：通用数据存储（GDS）和应用程序数据存储（ADS）。它们将所有应用程序所需的一般数据存储在GDS数据库中。相比之下，ADS只存储与特定应用程序相关的数据，包括事实、规则和有关该应用程序的一些上下文信息。他们使用一组组件来准备和验证ADS中的数据，例如传感器组件、上下文组件、接口组件和适配组件。然而，所提出的架构没有解决存储大小问题，也没有解决大数据处理的问题。它只以适当的格式准备应用程序所需的数据，以降低处理复杂性。Hani Ramadhan等人（Ramadhan等人， 2020）提出了一种名为MusQ的物联网数据多存储查询处理系统。它使用模式匹配映射器和模式匹配映射器自动构造全局模式，以映射所有局部模式并保持完整性。该模式的创建没有用户的手动定义过程。该系统包含三个主要组成部分;全局模式构造器模块隐藏数据异构性，并连接多个源上的复杂查询。第二部分是中介器模块，用于处理用户发送的查询-用多存储查询语言编写。最后一部分是包装器模块，用于转换子查询以检索结果。然而，所提出的系统集中于以快速的方式查询数据。尽管如此，它没有考虑到所需的存储大小或操作的复杂性我们提出的模式解决了分析和处理数据的性能问题，并以不会丢失任何单个值的方式存储数据（即，无损压缩），这将减少存储整体数据所需的存储大小。因为先前提出的技术中没有一个以解决分析和处理数据的复杂性和性能的方式解决存储所有感测数据（而不丢失任何单个值）的问题，如表2所示。我们将比较我们的方法与传统的存储模式，这是在引言部分讨论。3. 物联网的大数据管理模式我们对前面讨论的问题的解决方案是将一些数据分组并将它们存储在数据库中。将在多个级别上执行测试所有的统计信息被请求一段时间，以便分组将在感测数据时间和日期的部分上完成，例如年、月等。在第一个数据预处理步骤中，将数据存储在建议的模式中，这在数据挖掘过程中是至关重要的。在此步骤中，准备和清理数据，以便在以下数据挖掘步骤中轻松准确地处理数据，从而从数据中提取知识。所提出的模式中的准备数据可用于分析不同应用中的数据，例如报告、可视化、预测等。. 等等，如图5所示。预处理后的数据与原始数据相同，但进行了分组，以改进处理和分析，从而可以丢弃和删除旧数据。S. Sawalha和G. 奈马特沙特国王大学学报7808图五. 拟议的框架。在开始插入过程时，这种方法在存储数据时比前一种方法消耗更多的空间。由于在许多表中插入相同的值，但在表中插入唯一值之后，接收到的任何新值都将增加计数器（更新过程）以减少总存储大小。有时传感器会生成异常值;问题可能会导致该传感器中出现这些值，或者周围环境发生一些奇怪的事件。这些数据可能会影响分析过程后提取的信息，从而误导利益相关者做出正确的决策。正因为如此，我们提出了一个错误检测过程中，我们的新方法。当接收到新值时，将该值与该传感器的传感器表中的lower_value和upper_value进行比较。如果该值超出可接受的值范围，则忽略该值，并且不将其添加到数据库中。存储数据的伪代码如下所示：数据存储方法输入SensedDataSID←SensedData.传感器Y←SensedData.年份M←SensedData.月D←SensedData.DayH←SensedData.小时Val←SensedData.值LowerValue←SensorLowerValue（SID）如果ValLowerValue或Val>UpperValue，则返回false<如果（SID，Y，Val）在YearTable中出现，则UpperValue←SensorUpperValue（SID）其发生率←发生率+1在YearTable中插入SensedData如果（SID，Y，M，Val）在MonthTable其发生率←发生率+1在MonthTable中插入SensedData如果（SID，Y，M，D，Val）在其发生率←发生率+1在DayTable中插入SensedData如果（SID，Y，M，D，H，Val）在小时表其发生率←发生率+1在HourTable中插入SensedData返回YearTable，MonthTable，DayTable，HourTable见图6。建议的数据库模式。所提出的数据库模式如图6所示。首先，将在sensor_year_data表中检查每个值。如果该年存在该值，则将该值的出现次数增加1，否则在该表中添加新记录然后移动到如数据存储方法所示，使用上限和下限检查验证数据的每个值;如果值超出此范围，则该值将被视为异常或错误并丢弃。如果该值有效，则根据年份表中的当前状态检查该值;如果该值在今年的年份表中不存在它将作为一个新记录添加，其出现次数等于1。如果该年存在该值（该值在该年之前已经被检测到），则只需将该值的出现次数增加1，而无需将该值再次存储在新行中。之后，将在月份表中比较该值;如果该年和该月存在该值，则发生次数将递增1;否则，将作为的下表传感器月数据，传感器日数据，sen-sor_hour_data，并重复相同的过程。这一年和这一个月的新纪录。同样的事情将被用于日表和小时表。S. Sawalha和G. 奈马特沙特国王大学学报7809数据查询方法输入QueryLevel，Criteria结果←空列表如果QueryLevel等于Year，则否则，如果查询级别等于月，则结果←在YearTable上执行标准如果QueryLevel等于Day，结果←在MonthTable上执行标准如果QueryLevel等于Hour，结果←在DayTable上执行条件返回结果结果←在HourTable上执行标准当需要或请求检索数据时，将执行检索方法，如下所示：如数据查询方法所示，当用户根据查询级别请求数据时，例如年、月等范围，利用诸如运动传感器数据中的感测值假设请求的查询级别是年份（例如，过去十年的平均温度）。在这种情况下，将根据请求的标准从年份表中检索数据，而不需要处理其他表中的记录。如果查询级别为月份级别请求（例如，2020年10月至2021年3月之间的最大湿度值），则将从月份表中检索数据，并在日和月级别中检索相同的数据。从原始数据生成的记录数的计算公式如下：年表：将总年数乘以生成数据的传感器数量，再乘以例如二进制值的唯一感测值的数量是2（0和1）。YearTableRecords（年份表记录）年ω传感器ω不同值月份表：将年的总数乘以一年中的月数，它还乘以生成数据的传感器的数量乘以唯一感测的数量。月份表记录<$4年<$月<$传感器<$不同值天数表：将总年数乘以一年中的月数，再乘以一个月中的天数，还乘以生成数据的传感器数量，再乘以唯一感测值的数量日表记录<$$>年<$月<$天<$传感器<$不同值小时表：将总年数乘以一年中的月数乘以一个月中的天数乘以一天中的小时数，还乘以生成数据的传感器的数量乘以唯一感测值的数量。HourTableRecords<$4年<$月<$天<$小时<$传感器ω相异值4. 执行和评价为了证明我们的技术在存储整个数据所需的存储大小和处理它所需的总时间方面第一个数据集是由国家气候数据中心（NCDC）提供的真实数据集（Diamond等人， 2013），第二和第三数据集是合成数据集。我们还在另外五个数据集上评估了提议的模式，如表27所示。评价工作按以下步骤进行，并与传统方法进行比较：4.1. 数据集准备如前所述，我们在评估过程中使用了三种类型的数据集，这些数据集是：4.1.1. NCDC气候信息数据集使用的第一个数据集是由国家环境信息中心（NCEI）的国家气候数据中心（NCDC）提供的温度数据（Diamond等人，2013年）。NCEI负责保存、监测、评估和向公众提供气候和历史天气数据和信息。我们的研究使用了提供的最大数据集，即每小时的数据;这些数据来自234个站点。每个监测站每五分钟检测并生成一个值，从2006年1月1日到2021年4月27日共检测到258，212，798个值。这些数据包括气温、降水、太阳辐射、地表温度、湿度、土壤湿度和温度。在本评估中，我们提取并使用了包含最多数据的温度值，这比使用其他感测值更具挑战性，因为重复值分组将获得高性能。表3提供了存储数据的快照。每个记录表示单个感测值;例如，表3中的第一行描述了值1，该值是在2011年1月1日00：00从传感器编号25，711感测到的，等等。4.1.2. 合成数据生成我们还创建了两个不同的数据集来测试我们在不同数据类型（二进制和十进制）上提出的方法。每个数据集有两个传感器，每个传感器的采样率为每10秒一个值（两个传感器每分钟12个值），采样周期为2000年1月1日至2017年12月31日。我们使用SQL Server 2017数据库工具。这些数据集存储在不同的模式中，并分别进行评估。这一步使我们能够在很长一段时间内完全控制生成物联网通用数据（二进制和十进制）。4.1.2.1. 二进制数据集生成。在二进制数据集中，传感器将数据生成为二进制数据（0 0 s和1 0 s）;该数据可以从诸如运动传感器、泄漏传感器等的许多传感器产生。我们以与传统方法相同的方式存储该数据集;表4中给出了所存储数据的快照。每个记录表示单个感测值;例如，表4中的第一行描述的是值1，该值是在日期1/1/2000的00：00：10等从1号传感器感测的。记录总数为113，615，964条记录。4.1.2.2. Declare数据集生成。在第二个数据集中，传感器生成十进制数据;该数据可以从许多传感器生成，例如温度传感器、液位传感器等。该数据集的值范围在-39到39之间我们存储●●●●S. Sawalha和G. 奈马特沙特国王大学学报表37810-使用传统存储模式的NCDC气候信息数据集的快照传感器IDS_年份S_月S_DayS_HourS分钟S值2571120111100125711201111051257112011110100257112011110150257112011110201257112011110251257112011110300257112011110350257112011110400表4使用传统存储模式的二进制数据集的快照传感器IDS_年份S_月S_DayS_HourS分钟秒S值12000110010112000110020112000110030012000110040012000110050112000110101120001101100120001101200120001101300表5使用传统存储模式的十进制数据集的快照传感器_Id S_年份S_月份S_天S_小时S_分钟S_秒 S_值1 2000 1 1 0 0 10 121 2000 1 1 0 0 20 181 2000 1 1 0 0 30 271 2000 1 1 0 0 40- 261 2000 1 1 0 0 50 361 2000 1 1 0 1 0 61 2000 1 1 0 1 10- 361 2000 1 1 0 1 20- 111 2000 1 1 0 1 30 12以与传统方法处理十进制数据集相同的方式处理该数据集;存储数据的快照如表5所示。每个记录表示单个感测值;例如，表5中的第一行描述了在日期1/1/2000的00：00：10等从1号传感器感测的值12记录总数为113，615，964条记录。4.2. 数据预处理对每个数据集执行预处理步骤，该预处理步骤使用所提出的方法转换和分组数据，并将其存储在所提出的模式中。该步骤在加工步骤之前进行4.2.1. NCDC气候信息数据集将该方法应用于NCDC气候信息数据集（温度值），对不同层次的数据进行分组。表6是年份分组表的快照。表6中的每个记录表示按年分组的每个传感器的总计数值;例如，第一行表示从传感器感测到的值“0”的总数2006年的数量为25，711;即5587次，等等。记录总数为142，615条记录。表7表示按月份分组的月份分组表的一部分：表7中的每个记录表示按月份分组的每个传感器的总计数值;例如，第一行表示在2006年10月从传感器号25，711感测到的值“0”的总数记录总数为861，892条记录。表8表示按天数分组的天数分组表的一部分：表6使用所提出的模式的年NCDC温度信息数据集的快照。传感器IDS_年份S值发生257112006055872571120061352925711200622785257112006336192571120064304025711200652990257112006633792571120067338125711200683073S. Sawalha和G. 奈马特沙特国王大学学报表77811-使用所提出的模式的月NCDC温度信息数据集的快照传感器IDS_年份S_月S值发生2571120061004932571120061017622571120061021064257112006103123925711200610411152571120061051610257112006106160325711200610782225711200610895表8使用所提出的模式的天的NCDC温度信息数据集的快照25711 2006 12 22- 7 1025711 2006 12 22- 6 225711 2006 12 22- 5 625711 2006 12 22- 4 2425711 2006 12 22- 3 3225711 2006 12 22- 2 9625711 2006 12 22- 1 4625711 2006 12 22 0 19表9使用所提出的模式的小时的NCDC温度信息数据集的快照传感器IDS_年份S_月S_DayS_HourS值发生25711201291219122571120129122812571120129122911257112012912381125711201291239125711201291248122571120129125792571120129125832571120129126712表8中的每个记录表示按天分组的每个传感器的总计数值;例如，第一行表示在2006年12月22日从传感器号25，711感测到的值"8”的总数，即两次等。记录的总数是11，779，412个表9表示按小时分组的小时分组表的一部分：表9中的每个记录表示以小时分组的每个传感器的总计数值;例如，第一行表示在2012年9月12日1点从传感器号25，711感测到的值“9”的总数4.2.2. 合成数据所提出的预处理步骤应用于两个合成数据集（二进制和十进制），如下所示：4.2.2.1. 二进制数据集。我们提出的方法适用于二进制数据集;分组是在不同的水平上的数据。表10是年份分组表的简要介绍表10中的每个记录表示按年分组的每个传感器的总计数值;例如，第一行表示2000年，即1，581，610次，等等。记录总数为72条记录。表11表示按月份分组的月份分组表的一部分：表11中的每个记录表示按月份分组的每个传感器的总计数值;例如，第一行表示在2000年1月从传感器号1感测到的值“0”的总数表10使用所提出的模式的年份二进制数据集的快照传感器IDS_年份S值发生1200011,581,6101200011,580,6291200101,575,7951200101,577,8041200211,577,2391200211,576,3601200301,575,8691200301,577,7301200401,582,042传感器IDS_年份S_月S_DayS值发生2571120061222-82S. Sawalha和G. 奈马特沙特国王大学学报表117812---使用建议模式的月份二进制数据集的快照传感器IDS_年份S_月S值发生1200010134,2791200011133,5601200020125,0871200021125,4731200030133,7811200031134,0591200040129,8791200041129,3211200050134,302表12使用建议模式的天二进制数据集的快照传感器IDS_年份S_月S_DayS值发生120001104357120001114282120001204280120001214360120001304304120001314336120001404386120001414254120001504335表13使用建议模式的小时二进制数据集的快照传感器IDS_年份S_月S_DayS_HourS值发生120001100182120001101177120001110177120001111183120001120171120001121189120001130162120001131198120001140182表14使用建议模式的年份十进制数据集的快照Sensor_Id S_Year S_ValueOccurrence 1 2000- 39 39，3221 2000- 38 39，9921 2000- 37 39 7661 2000- 36 39 7631 2000- 35 39 4011 2000- 34 39 231

下载后可阅读完整内容，剩余1页未读，立即下载