参数化大数据模型中的子集、子查询和可查询可视化

114 浏览量更新于2024-01-02 收藏 2.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 1（2021）100003参数化大数据模型中的子集、子查询和可查询可视化Sugam Sharmaa，Sha，Shashi Gadiab，Udoyara Sunday Timca美国爱荷华州立大学调查统计和方法中心和eFeed-Hungers.com，爱荷华州艾姆斯，IA 50010美国爱荷华州立大学计算机科学系（Department of Computer Science，Iowa State University，Ames Iowa，IA 50010）c美国爱荷华州立大学ABE系，爱荷华州艾姆斯，爱荷华州50010ABsTRA cT在大数据模型（或可互换地称为数据库）中，可以通过提取较小的感兴趣数据集（称为子集）来简化数据分析，从庞大的原始数据集。因此，子集有助于通过避免在进一步分析中通过巨大的父数据进行不必要的迭代来增强系统的性能。在这项研究中，感兴趣的数据模型是参数化大数据模型（ParaDB），它以处理多维大数据而闻名。与其他经典的数据模型不同，子集为系统提供了额外的力量，而ParaDB完全缺乏这种潜在的功能，因此相对而言无法变得同样高效和有效。因此，在这项研究中，我们实现了ParaDB的子集功能，以进一步加强其鲁棒性，并确保关系的结果，而不是流出来的纯文本。此外，为了进行初步调查，探索性视觉分析是任何大数据模型，特别是时空大数据模型中的一个重要方面。不幸的是，ParaDB并不提供任何格式的早期可视化支持因此，采取了一些全面的步骤来实现ParaDB中的此外，集成并实现了GIS可视化丰富性，以进一步增强ParaDB的可视化成熟度，其中它提供了可查询的可视化。1. 介绍在（大）数据科学社区中，维度一词通常指的是时间或空间。与传统的数据库不同，多维数据库处理具有与之相关联的维度的数据，例如时间、空间或两者。具有这些维度的数据库分别被称为时间数据库、空间数据库和时空数据库。尽管已经利用时空数据库实现了重要的研究，以管理空间和时间参考数据，但大数据科学界对该研究领域的兴趣仍在不断增长，以寻找有效的大数据工程和分析的新方法，以改善数据学习，从而更好地做出决策。今天，大多数现实世界的应用程序处理空间和时间维，并要求高效的数据处理系统，这些尺寸;此外，以大数据形式出现的大量数据快速增长，将对强大的数据管理系统和模型的需求推到了最前沿。参数化大数据模型（ParaDB）（Gadia Nair，1993;Sharma Gadia，2019）就是这样一种模型（或数据库，可互换地称为），它以高效处理超大型数据而闻名。在这项工作中，进行了包容性的扩展，以进一步丰富ParaDB的新功能，发挥其数据工程和分析实力，应对从大数据中全面学习的挑战。自20世纪80年代中期以来，ParaDB一直在积极研究其可用性，特别是在维数据方面。ParaDB假设了一个基本的假设空间，称为参数空间，可以简单地看作是一组点。参数元素-空间、时间或时空- 是参数空间的子集。这允许ParaDB在抽象级别统一管理异构维度（如空间和时间），从而简化了对各种维度的处理。ParaDB配备了一种高效且简化的类似SQL的查询语言，称为参数结构查询语言（ParaSQL）（ Gadia S& Nair S ， 1998;Seo-Young ， 2006;Sharma&Gadia ，2019）。工作原型（Narayanan，2009;Seo-Young，S Ma，2008）ParaDB已经开发完成，并通过全面的时空NC-94大数据集（NCRA（北中部地区国家农业实验站主任协会））验证了各种有趣的用例。预期结果2004;Pham ， Jones ， Metoyer ， Swanson& Pabst ， 2013 ）。然而，传统ParaDB的当前设计和实现缺乏两个重要功能：(1)子集能力和（2）可视化支持，这将在下面解释。*通讯作者。电子邮件地址：sugamsha@iastate.edu，info@efeed-hungers.com（S。Sharma），gadia@iastate.edu（S. Gadia）、tim@iastate.edu（美国）Tim）。https://doi.org/10.1016/j.jjimei.2020.100003接收日期：2020年11月3日;接收日期：2020年12月5日;接受日期：2020年12月5日2667-0968/© 2020作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiS.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000032在给定的数据库中，子集抽取不仅有助于数据分析，而且增强了系统的效率和性能。一个子集，它的规格，或其提取的正式过程可能是复杂的。在数据库社区中，通过类似SQL的查询。SQL查询可以是子查询的组合（在另一个select语句中的select语句）。每个子查询都可以看作是提取所需子集的迭代步骤。要做到这一点，子查询应该产生与给定数据库中的父关系具有相同结构的关系。与子集为数据库提供额外强度的其他数据库不同，ParaDB以前的实现状态缺乏这种潜在的功能。ParaSQL查询的执行结果是以原始文本格式流出的数据。结果可以被定向到输出控制台，如Windows的DOS（磁盘操作系统）控制台进行显示，也可以附加到静态文本文件中供以后使用，在这两种情况下都可以拆除关系结构。这可能对各种各样的应用程序都有帮助，但从各种角度来看，这是不够的，因为流式输出的数据不能像关系子集那样进一步查询。因此，在这项研究工作中，我们在ParaDB中实现了子集功能，从而丰富了它的子集功能来处理大数据。此外，在空间、时间和时空大型数据库中，交互式可视化分析总是有帮助的当对大数据进行探索性调查（Gahegan，2005;Tupas，2015）。可视化是任何维数据库不可分割的重要特征。不幸的是，现有的ParaDB完全缺乏可视化功能。因此，在这项研究工作中，我们实现的可视化功能到ParaDB的方式，是方便的，以支持至少基本显示的任何数据集。地理信息系统（GIS）支持的可视化技术，如ESRI& 利用GIS可视化的综合实力，通过实现ParaDB的原始可视化，进一步增强和扩展了ParaDB的原始可视化并将支持GIS的可视化集成到ParaDB中，它的视觉鲁棒性和成熟度。这种GIS支持的可视化是一种可查询的可视化，它为更密集的大数据分析和操作提供了更广泛的范围。通常，关系数据库，如Oracle（Ras，2018），MySQL（Foster& Godbole，2016a），DB2（Foster&Godbole，2016 b），SQL Server（Foster&Godbole，2016 c）不提供对数据的查询启动的直接可视化支持;相反，表格数据首先导出到可扩展文件中，然后，无论是否有数据按摩和建模的中间步骤，都被注入到外部和独立的可视化系统中。因此，这种查询驱动的可视化功能集成到ParaDB中，本质上是严格的关系，进一步增加了它的独特性。这项研究是潜在的有用的，特别是那些应用程序，需要探索性的可查询的可视化分析，随着SQL的复杂查询系统，以更好地决策;一些这样的应用领域包括医疗保健，城市规划，农业等，这项研究已经过测试的农业（NCRA（北中部地区协会国家农业试验站主任。预期成果2004）应用。总而言之，本研究所解决和适应的挑战如下：• ParaDB中子集功能的实现• 在ParaDB• 可查询可视化辅助工具的实现和集成本文件其余部分的组织如下。第二节包括背景和文献综述，探讨了发展，这项工作的一部分。第3节有助于彻底理解系统架构，并进一步帮助自我描述的几个重要算法。第4节探讨了ParaDB中子集、子查询和可视化功能的实现.第5节更详细地讨论了子集存储方面。第六部分是对本研究工作的总结。2. 文献综述子集和子查询的概念并不新鲜，特别是对于关系数据库。流行的、领先的和商业上成功的关系数据库，如Oracle（Ras，2018）、MySQL（Foster Godbole，2016 a）、IBM DB2（Foster&Godbole，2016 b）、SQL Server（Foster&Godbole，2016 c），都具有丰富的子集和子查询功能。数据管理员、工程师和科学家经常提取和存储复杂的子集，并编写不同的、简单到复杂的查询，这些查询由几个子查询组成，以每天处理大量复杂的数据。在大多数SQL中，INTO子句（Microsoft，2017）有助于将提取的子集存储回数据库。近年来，大数据的发展带动了服务业的发展，例如，NoSQL数据库（Corbellini，Mateos，Zunino，Godoy& Schia Schianno ，2017），（Sharma，Shandilya ，Patnaik&Mahapatra，2016），其中一些变得非常流行并广泛用于处理大数据，如MongoDB（MongoDB，2016），Cassandra（Chebotko，Kashlev&Lu，2015）和Neo4j（Webber& Robinson，2018）。NoSQL数据库有自己的查询系统，用于子集提取和处理。ParaDB中的子集和子查询功能的添加和实现早就应该进行了，而ParaDB从外观上受到了阻碍，因此一直没有得到充分利用。此外，还对文献进行了综述，以获得不同数据库中的可视化支持。空间或时空大数据的有效和信息化呈现在GeoDec（Shaiden，Banaei-Kashani，Khoshgozaran，Nocera Xing，2010）中描述了一种有趣的可视化方法，其提供了一种沉浸式环境来可视化地理空间数据以帮助决策。它依赖于地理空间数据-矢量数据，卫星图像和光栅地图-的融合Kraak（Kraak M，2006）揭示了地理可视化增强了对复杂地理空间模式、趋势和关系的视觉思考，倡导理解对智能决策的视觉支持Gahegan 等人（Gahegan， Hardisty ，Demšar Takatsuka ，2008）介绍了一个名为GeoVISTA工作室的环境，该工作室提供了一个用于地理计算和地理可视化应用的免费编程软件开发褶皱GeoVISTA工作室隐藏了大量的工程、元数据和概念性细节，并且其编程接口（可视的）允许用户使用数据流范例来组装他们的应用。Ferreira（Ferreira，2015）提倡在时空数据库中使用可视化，并提到探索性可视化分析可以是一种有效的分析手段。大型多层面数据集的探索性视觉分析在初步调查中非常有用（Gahegan，2005），（Kraak M，2006），其中数据的空间组成部分至关重要。异构时空数据库中的空间元素可能具有不同的格式，并且每种格式都不能保证使用现成的可视化分析GIS软件系统（如ESRI的ArcGIS（LawCollins，2015））轻松获取和共享数据，这些软件系统& 所有的软件系统都使用相同的格式是不太可能的，因为每个供应商都有自己的专有设计、数据模型和存储技术。大多数科学可视化系统允许从不同的角度检查相同的时空数据，帮助直观地理解数据。在许多进行时空可视化的科学系统中，可视化对象是可选择的，这有助于更好地检索更多有趣的信息，并允许新的查询，S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000033Fig. 1. 系统架构。应用于可选输出。除了直观的数据分析外，可视化还为智能决策提供了有价值的辅助（Elouni，Lti& Fiayed，2016），然而，从人类的角度来看，与可视化工具的交互可以极大地促进对数据的理解（Valdez，Brauner，Zie Zee，Kuhlen& Sedlmair，2016）。因此，如果没有适当的可视化成分和特征，就无法想象、构想或感知一个时空的、更具体的大数据库。在时空数据库中，可视化是探索性分析不可或缺的核心特征。另一方面，关系数据库不配备SQL查询驱动的直接可视化能力，并且通常需要额外的外部软件开发和工程来促进数据可视化。在关系数据库社区中，即使是领先的数据库，如Oracle、MySQL、IBM DB2、SQL Server等，也没有为探索性数据分析提供SQL查询驱动的直接可视化。然而，ParaDB在这个联盟中脱颖而出，因为它本质上是纯关系型的，并且在支持GIS的分析丰富的探索性环境中具有紧密耦合的查询驱动的数据可视化功能。3. 系统架构本节简要讨论系统架构（图1），尤其是重要组件及其功能。图2. （a）。关系表达式的BNF。（b）。域表达的BNF。（c）布尔表达式的BNF。3.1. ParaSQLParaSQL是ParaDB的查询语言，主要由三种不同的相互递归的表达式--关系表达式、域表达式和布尔表达式以及求值关系、时态元素和布尔值组成。此外，这些表达与其简化的BNF形式一起简要讨论（Gadia&Chopra，1993），Gadia& Nair，1993），（Seo-Young等人， 2008年）。3.1.1. 关系式关系表达式可以由union、intersection、diffusion和select语句组成和表示，但它总是返回一个关系。一个关系表达式的简化BNF如图所示。S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000034⟨ ⟩2.1一个select语句。select语句有两个新的可选子句3.1.2. 域表达式ParaSQL中由[]表示的域表达式限制并返回元组、属性或关系的域。图2.2是结构域表达的原子域表达式[attribute>]检索指定属性的域（空间或时间）。域表达式[attribute>< §>< value>]收集属性和常量的域，满足§关系。域表达式[relational expression>]聚集了关系表达式返回的合格元组的所有子域3.1.3. 布尔表达式布尔表达式计算条件是真还是假。图2.3显示了一个布尔表达式的BNF ParaSQL布尔表达式不同于经典SQL，因为它使用带有集合运算符（ �� ）的域表达式。例如，要在 ParaSQL 中将 DName 计算为“Sales”，则WHERE子句表达式及其等效域表达式分别为DName=“Sales”和[DName =“Sales”] Φ（空集）。布尔表达式使用布尔运算符- AND、OR和NOT进行连接。3.2. 查询执行引擎查询E执行器使用DOM API（Friesen，2019）来学习和执行表达式树。从给定的表达式树（由迭代器信息组成）中，Query EX执行器还了解所需的适当迭代器迭代器从存储器中检索数据（元组），合格的元组最终由查询执行器（算法1和2）产生这个输出数据可以流到控制台或嵌入式文本文件中，也可以作为关系子集存储回存储中（算法3）。3.3. 存储管理引擎存储管理引擎管理分页的XML数据，并根据来自查询引擎的页面请求，从磁盘交付所请求的页面，一次一页。DOM API帮助迭代器从加载的页面中检索节点。缓冲器管理器将频繁使用的页面进行缓冲，从而减少了磁盘访问次数，优化了系统性能。ParaDB有自己的存储技术，称为CanStoreX（XML规范存储）（Ma，2004）。3.3.1. CanStoreXCanStoreX（Ma，2004）是一种内部开发的基于XML的存储技术，用于ParaDB。它分页并存储大型图三. CanStoreX分页。XML文档作为一个页面树，其中每个页面本身就是一个XML文档。分页是递归处理的。图3（a）显示了基本情况，其中整个XML文档适合于一个页面。树中的子元素也是具有可变物理大小和复杂性的XML元素。如果子树的数量太大，无法在页面中容纳它们的指针，那么在这种情况下，一些子树被分组在一起（图3（b））。为了将它们表示为一个组，生成一个伪父节点（称为_f（fanout）节点）。此外，如果在分页树中，子节点太大，为了适应一个页面（图3（c）），树再次分页，并创建一个指针（_c（用于子节点））来表示子节点。因此，_f和_c节点的概念使CanStoreX分页具有可伸缩性，可以对任何大小或类型的XML文档进行分页。3.4. 可视化引擎可视化是ParaDB的新功能。可视化引擎摄取合格的最终结果数据，并将所需的数据（如Geo Id，要显示的属性值）传递到其映射器中，映射器将其保存为键值对（算法4）。密钥可以是数字化的，它唯一地标识空间组件，如FIPS代码（Pub，2001）。值部分包含感兴趣的属性的计算值。显示器读取“颜色编码配置文件”，该文件定义显示的基色以及可用的色调数。显示器从配置文件中了解颜色阴影，并从映射器中读取最小值和最大值。基于它们，显示器将计算的属性值分类为与阴影数量相同的波段数量。随后，它开始用适当的色调渲染地理。S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000035S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000036S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000037算法1-4中的重要步骤在这里简要概述。• PARASQL-QUERY-EXECUTION将表达式树作为输入，并返回元组流作为输出。• PARASQL-SUBSETTING将表达式树作为输入，并将合格的元组存储回存储中的关系子集• PARADB-VISUALIZATION将表达式树作为输入，生成中间对象，并将它们传递给另一个过程DISPLAYER。• MAPPER接受一个合格的元组作为输入，并生成GeoId的键值对和计算属性的值• DISPLAYER摄取两个参数-地图（由MAP- PER生成）和颜色编码配置文件的名称。作为该过程的一部分，它产生两个相同长度的数组：1）属性值的数组（来自map的键值对），2）为这些值计算的适当颜色阴影的数组（精确地一对一匹配）。最后，它将map和两个数组传递给另一个进程PRINTER。• PRINTER过程将来自DISPLAYER的参数视为输入，并最终使用适当的颜色阴影绘制每个地理（具有唯一的GeoId）。4. ParaDB中的子集、子查询和可视化本文使用NC-94（NCRA）（美国北中部地区国家农业试验站站长协会）对ParaDB中新增加和实现的特性和功能进行了测试。2004年）大数据集。为了验证大量的用例场景，示例ParaSQL查询是在NC-94数据集的各种元素和属性上构建和公式化的。下面的部分提供了关于这个数据集的更多细节4.1. NC-94数据集50多年来，美国中北部地区农业试验站协会（NCRA）一直在验证、开发和验证农业数据集（NCRA）。预期成果，2004年）。NC-94就是这样一个大数据集，它以多种科学格式广泛用于作物管理和风险分析、虫害管理和预测等异构应用。它是30年气候-作物-土壤数据的汇编，专注于产生连续的高质量县级数据，包括气温、降水、作物产量和土壤数据等常用测量量，NC-94由geospatial和aspatial（非空间）属性组成。空间（非空间）数据可在Microsoft Access（Eckstein Schultz，2018）中获得，适用于整个中北部地区的每个县（通过FIPS代码识别），并分为三类-气候，作物和土壤。每个类有不同的属性集，但对于每个类，空间几何是相同的和固定的。4.2. 子集能力在任何数据库中，子集和子查询的概念都是至关重要的。子集和子查询的过程有助于从一个非常复杂的大型数据库中提取一个较小的数据集，作为所需的数据集，称为子集。与原始庞大的大数据集相比，这个较小的子集的切片和切割非常容易，并且经常揭示导致有效决策的重要见解。在本节中，讨论了ParaDB中子集概念的实现。图4提供了传统ParaDB与新更新（具有子集能力）的ParaDB的输出的图形表示。可以注意到，ParaDB将数据存储为对象，其中每个对象对应于经典关系数据库中的元组因此，ParaDB也是见图4。具有子集和子查询功能的ParaDB。S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000038关系数据库。这些对象具有空间（地理）和空间（非空间的其他相关属性）组件，ParaDB将它们分开存储;对于上述NC-94大数据集，县是一个对象。 ParaDB 有自己的基于 XML 的存储技术，称为 CanStoreX（Canonical Storage for XML）（Ma，2004）。图4（a）描绘了遗留的ParaDB，其将关系数据集作为输入，但是在查询（ParaSQL查询1）上执行时产生作为流的数据输出。默认情况下，流输出会继续在DOS控制台上释放，但可以写入一个可扩展的文本文件进行简单的分析。毫无疑问，输出本质上不是关系型的，因此，ParaSQL查询不能进一步应用于它。ParaDB用户无法从底层的大数据集中获得全部知识和价值。因此，在ParaDB中实现了子集的概念（算法3）。图4（b）清楚地展示了ParaDB中执行查询（ParaSQL查询2）时的子集输出。与其父数据集相比，ParaSQL查询2的子集输出具有一些不合格的对象或它们的属性缺失，但是子集数据集的关系的完整性和结构被严格保留，因此适合于另一个查询（ParaSQL查询3）。ParaSQL中新实现的INTO子句（ParaSQL查询2）和其他更新的相关工件（如解析器）使子集ca-pability到ParaDB，并促进提取的输出持久化，作为子集存储回CanStoreX。4.3. 添加子查询概念ParaDB中的子集实现鼓励在ParaDB中添加子查询概念。保留的关系结构ParaSQL查询的子集的持久化输出打开了子查询的范围。类似于经典的关系数据库，新的实现允许一个ParaSQL查询（内部）被写入另一个ParaSQL查询（外部），前一个查询被称为子查询。ParaSQL有一个现有的RESTRICTED TO子句，它已经更新以适应另一个ParaSQL查询。此外，ParaSQL解析器已被重写和更新，以正确解析RESTRICTED TO子句中的子查询并生成适当的解析树，该解析树用于随后相应地开发表达式树。ParaSQL查询3（b）是一个简单的ParaSQL查询的例子，它同时具有外部查询和内部查询。4.4. 实现可视化在数据科学界，重要的研究正在进行，以使大数据可视化更加有效和成熟（Macievski& Montgomery，2016）。数据可视化的潜在用途已经在许多不同的研究领域和应用中得到了验证（Tang，Liu，Zhang&Mei，2016）。数据可视化已经帮助解决了许多问题，并将继续为新的方向提供潜在的帮助。在这个数据驱动的互联网时代，数据库，特别是时空大数据，应该具备一定的能力，以某种形式提供直接或间接的可视化支持，以便进行直观的分析和智能决策。虽然，ParaDB的遗留版本能够有效地处理时空数据集的空间和时间域，但完全没有意识到可视化的潜力。因此，ParaDB对于这样一个庞大而复杂的可视化社区来说既没有用也没有优势。因此，为了扩展其功能潜力，可视化的概念被构思、引入并发展到ParaDB中。在ParaDB中实现并集成了有效数据可视化所需的适当组件、特性和功能，这是本文的另一个贡献随着模块化ParaDB和底层ParaSQL中的可视化实现（Sharma Gadia，2019）也得到了扩展，以适应并有效地支持ParaDB中的可视化方面。在ParaSQL中，开发了两个新的重要子句-SQL和VIA，以支持和帮助ParaDB中的可视化。在一个ParaSQL查询中，SQL子句在语法上需要并且应该后跟属性的名称，以便于可视化和分析。VIA子句负责协助和促进数据可视化，并使用XML配置文件中的适当颜色编码方案进行显示，作为查询中的输入。图5（a）显示了三个不同的用例（ParaSQL查询4-6）来测试ParaDB可视化。ParaSQL查询 4呈现了美国中北部地区爱荷华州斯托里县邻近县的寒冷程度（ Sharma& Gadia ， 2010a ），（ Sharma&Gadia ，2010b）。ParaSQL查询4根据人口规模过滤出县，并显示程度寒冷的。查询6只发出SNAP合格的县（Sharma，Tim U，Smith Gadia，2011），它们是Story County的邻居。图5（b）示出了一个有点复杂的用例，其中数据子集设置和随后的可视化通过单个查询（ParaSQL查询7）一起进行。于是，持久化子集被暴露以执行另一个查询（ParaSQL查询8），以进一步评估和评价ParaDB可视化。这是ParaDB有史以来获得的第一个基本可视化功能。它是一种原始的可视化，只适合于简单的显示，并允许对输出进行简单的人工分析，但从功能上或编程上来说，多样化，密集和复杂的分析是不可能的。因此，本文对ParaDB可视化进行了进一步的实现改进，使其更加成熟，并考虑将地理信息系统（GIS）的可视化丰富性进行集成，以实现复杂综合的大数据可视化和分析。因此，开发了一个新的软件系统AutoConViz（Sharma，Tim& Gadia，2012），以帮助为ParaDB可视化提供GIS环境。图6显示了AutoConViz显示窗口中GIS支持环境（ParaSQL查询9）中的ParaDB可视化示例。这种支持GIS的可视化不是终端可视化，而是一种可查询的可视化，其中有用的分析可以更深入地理解大数据的数据复杂性。AutoConViz的开发和核心架构是基于领先的GIS软件系统ESRI的ArcGIS的库。与ArcGIS相比，AutoConViz在可视化显示方面具有很高的时间效率但相对而言，其特点和功能还存在不足因此，为了在ParaDB可视化中充分发挥ArcGIS的潜力，AutoConViz实现了一个基于点击的功能，可以自动将支持GIS的ParaDB可视化委托给功能齐全、加载完整的ArcGIS系统（图10）。 6）。4.5. ParaSQL查询ParaDB中的新实现和添加通过各种用例进行测试和验证。开发了几个示例ParaSQL查询，以正确和语法地定义这些用例。示例查询在NC-94数据集上执行（如上所述），以评估和评估ParaDB中新设计的功能丰富性的正确性，准确性和鲁棒性。示例查询也在经典的主流关系数据库（Oracle、SQL Server、MySQL和DB2）中表示，然后讨论查询表达式。ParaSQL查询1. 美国中北部地区寒冷时联系我们限制为[（C.MaxTemp +C.MinTemp）/20]来自气候CS.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）1000039甲骨文：联系我们来自气候CWHERE（（C.MaxTemp +C.MinTemp）/20）SQL Server：联系我们来自气候CWHERE（（C.MaxTemp +C.MinTemp）/20）MySQL：DB2：联系我们来自气候CWHERE（（C.MaxTemp +C.MinTemp）/20）联系我们来自气候CWHERE（（C.MaxTemp +C.MinTemp）/20）这是 ParaSQL 的一个基本查询，它只有三个子句： FROM 、RESTRICTED TO和SELECT。当平均温度小于0时，查询将对Cli- mate数据执行并仅报告结果ParaSQL查询2. 将美国中北部地区冷季的气候信息进行统计，并将其存储回ParaDB。甲骨文：联系我们INTO亚气候限制为[（C.MaxTemp +C.MinTemp）/20]来自气候C联系我们从气候CWHERE（（C.MaxTemp +C.MinTemp）/20）SQL服务器：联系我们从气候CWHERE（（C.MaxTemp +C.MinTemp）/20）MySQL：DB2：联系我们从气候CWHERE（（C.MaxTemp +C.MinTemp）/20）联系我们从气候CWHERE（（C.MaxTemp +C.MinTemp）/20）图五、具有原始可视化功能的ParaDB。这是两个重要的ParaSQL查询之一，用于ParaDB中的子集实现。该查询有助于将满足限制条件的合格数据从父数据集Climate存储到新数据集SubClimate中。ParaSQL查询3.a. 对美国中北部地区冷期的气候信息进行预处理，并存储最近存储的SubClimate子集的结果。S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）10000310图六、 ParaDB可查询-GIS环境下的可视化。甲骨文：联系我们来自亚气候C1联系我们甲骨文：联系我们从气候C，其中C。年（从次气候C1中选择C1.年份）来自亚气候C1SQL Server：联系我们来自亚气候C1MySQL：联系我们来自亚气候C1DB2：联系我们来自亚气候C1这是ParaSQL最基本的查询，它包括构成查询所需的最小子句-SELECT和FROM。此查询的目的是简单地测试并确保保持持久化子集的关系完整性。查询成功地从最近存储的子集数据集SubClimate读取数据，并准确地报告所有属性。b. 利用ParaDB中的子集关系SubClimate返回的美国中北部地区的气候信息进行了分析。联系我们仅限于[从SubClimate C1中选择样本来自气候CSQL Server：联系我们从气候C，其中C。年（从次气候C1中选择C1.年份）MySQL：联系我们从气候C，其中C。年（从次气候C1中选择C1.年份）DB2：联系我们从气候C，其中C。年（从次气候C1中选择C1.年份）这个ParaSQL查询展示并验证了ParaDB中新开发的子查询概念.与以前的查询相比，该查询有点复杂，涉及两个查询。RESTRICTED TO子句中的内部查询首先计算。查询在最近存储的Climate数据子集上执行，并返回合格的时间域（Gadia S VaishnavJ， 1985），随后限制了在其父Climate数据集上运行的外部查询的结果。ParaSQL查询4. 对美国中北部地区斯托里县邻近地区的气候信息进行冷期分析，并显示其降水量。S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）10000311见图7。Co l o r C o d e 配置。X毫升。联系我们通过ColorCodeConf iguration.xml生成的沉淀受限于[（C.MaxTemp+C.MinTemp）0]来自气候CWHERE NEIGHBOR（C.FIPS，19，169）=TRUE甲骨文：SQL Server：MySQL：DB2：这是验证ParaDB 中可视化方面数据从 Climate 数据集读取，WHERE子句仅允许Story County（FIPS代码-19，169）的相邻县RESTRICTED TO子句进一步过滤掉不满足内部条件的数据。随后，RESPONSE子句启用降水属性的可视化。此子句需要一个颜色编码配置文件作为输入，该文件通过VIA子句提供。图7显示了一个示例配置文件ColorCodeConfiguration。以提供给定基色的各种色调。在众多元素中，配置文件由两个主要的可视化元素-并且，基于给定的范围数，- the-numery上的numerous子句将结果划分为相等数量的范围作为色带，并相应地分配不同的阴影并呈现结果。ParaSQL查询5. 对美国中北部斯托里县冷海子期间的气候信息进行了分析，并显示了人口规模小于“x”的邻近地区的降水量联系我们通过ColorCodeConf iguration.xml生成的沉淀受限于[（C.MaxTemp+C.MinTemp）0]来自气候C其中邻居（C.FIPS，19，169）=真且（人口（C.FIPS）x）甲骨文：SQL Server：MySQL：DB2：此查询的功能与ParaSQL查询4类似，并使用用户定义的基色的许多颜色阴影显示降水量。但是，在WHERE子句中很容易注意到这种差异。在此查询中，WHERE子句仅返回那些相邻的县的故事县，其中有一个人口规模小于一定的阈值数量（如X|X∈n+：正整数）。此查询中的POPULATION函数是一个抽象，用于根据输入参数计算并返回人口大小ParaSQL查询6. 在较冷的时期，显示气候信息，并显示有资格获得SNAP援助的美国中北部地区Story County的邻居的降水量。联系我们XNUC.FIPS VIA ColorCodeConfiguration.xml受限于[（C.MaxTemp+C.MinTemp）0]来自气候C其中NEIGHBOR（C.FIPS，19，169）=TRUE且SNAP（C.FIPS）=TRUE甲骨文：SQL Server：MySQL：DB2：该查询的WHERE子句返回Story County的SNAP合格相邻县，查询随后用单一颜色呈现它们。这意味着，在这种情况下，配置文件中的Number-of-Shades元素的值只有一个。RESTRICTED TO子句中的条件表达式对于该查询名义上是重要的，因为它不影响县显示。这里的SNAP函数是复杂数学公式的简单但示例性的抽象，它计算SNAP资格并确定县是否符合SNAP资格。S.夏尔马，西-地Gadia和美国蒂姆International Journal of Information Management Data Insights 1（2021）10000312ParaSQL查询7. 将美国中北部地区Story County邻近地区在寒冷季节的气候信息重新存储到ParaDB中作为SubClimate，并随后显示合格邻近县的降水量联系我们INTO亚气候通过ColorCodeConf iguration.xml生成的沉淀受限于[（C.MaxTemp+C.MinTemp）0]来自气候CWHERE NEIGHBOR（C.FIPS，19，169）=TRUE甲骨文：SQL Server：MySQL：DB2：这是ParaDB可视化上下文中另一个重要的ParaSQL查询。该查询与查询 4 完全相同，只是有一个附加子句 INTO 后跟一个关系名称SubClimate。该查询在可视化方面与查询4完全相同，但另外，INTO子句的存在将合格的数据注入CanStoreX存储中的另一个关系数据集SubClimate中。这个持久化的SubClimate数据

下载后可阅读完整内容，剩余1页未读，立即下载