DT时代的大数据管理:从VLDB到海量数据处理

需积分: 23 0 下载量 175 浏览量 更新于2024-08-23 收藏 1.91MB PPT 举报
"这篇内容来自《数据库系统概论(第五版)》的第14章——大数据管理,主要探讨了大数据的分类、应用、管理系统及其概述。" 在大数据的领域中,根据不同的应用类型,大数据可以被分为三类: 1. 海量交易数据:这类数据主要用于企业在线事务处理(OLTP)应用,例如银行交易、电子商务等。数据量极大,读写操作频繁,一次交易的数据量不大,但要求高度的数据完整性和安全性,即必须满足事务的ACID(原子性、一致性、隔离性和持久性)特性,保证数据的强一致性。 2. 海量交互数据:常见于社交网络、传感器网络、GPS定位和Web信息。这些数据通常是多样化的、异构的,且可能包含不完备和噪声数据,数据增长速度极快。交互性强,但不要求强一致性,也不需要支持事务特性。 3. 海量处理数据:这类数据主要应用于企业在线分析处理(OLAP)应用,比如商业智能和数据分析。数据同构性高,如关系型、文本或列模式数据,稳定性较好,不常进行更新操作。通常采用并行和分布式处理框架来提升分析效率,不强调事务支持。 2014年马云的演讲指出,人类正在从信息技术(IT)时代转向数据技术(DT)时代,大数据和强大的计算能力成为推动世界发展的关键。伴随着5G物联网和芯片技术的发展,大数据的应用越来越广泛。 大数据的定义随着时代的进步而演变。2008年《Science》杂志的文章定义了大数据为那些超出当时计算机存储和处理能力的数据集,需要新的技术来应对存储、管理和处理的挑战。大数据不仅体现在数据量的巨大,还在于数据类型的多样性,包括半结构化和非结构化数据,这需要更高效的数据集成和管理方法。 在14章中,除了大数据的概述和分类,还涵盖了大数据的应用场景和管理系统,包括大数据管理的基础,如数据的存储、处理、分析以及如何利用现有的数据库管理系统理论和技术(如三级模式、数据独立性、SQL、优化技术、事务管理等)来应对大数据的挑战。这些技术是大数据管理和分析的重要基石。