大数据与云计算关键解析:分布式存储、处理与影响

需积分: 9 1 下载量 18 浏览量 更新于2024-08-04 收藏 54KB MD 举报
"这是一份关于大数据与云计算的课堂笔记,采用Markdown格式记录,涵盖了大数据的概述、概念、特征、影响、关键技术、计算模式以及大数据与云计算、物联网的关系等内容。" 大数据是当前信息技术领域的核心概念之一,它描述的是那些超过传统数据库系统处理能力的数据集合。大数据的特点包括四大方面: 1. **大量化**:数据规模持续增长,每两年翻一番,这得益于存储设备容量的不断提升。 2. **快速化**:数据生成到消费的时间极短,要求实时或近实时的处理能力。 3. **多样化**:数据类型繁多,非结构化数据占比高达90%,如文本、图片、视频等。 4. **价值密度低**:尽管整体数据量庞大,但有价值的信息往往隐藏在大量无用信息中。 大数据的发展历程可以分为三个阶段:萌芽期(数据仓库、专家系统)、成熟期(Web2.0)和大规模应用期(大数据广泛渗透到各行各业)。大数据的关键技术主要包括数据采集、存储和管理、处理与分析,以及数据隐私和安全。其中,**分布式存储** 和 **分布式处理** 是大数据处理的两大核心技术,如Hadoop的HDFS和MapReduce。 大数据的计算模式有多种,例如: - **批处理**:处理大规模数据,如Apache Spark。 - **流计算**:对流数据进行实时计算,如Apache Flink。 - **图计算**:处理大规模图结构数据,如Pregel。 - **查询分析**:用于大规模数据的存储管理和分析查询,如Google的Dremel。 大数据的应用不仅改变了科学研究的范式,也影响了商业决策。通过分析大数据,企业可以发现潜在的市场趋势,如谷歌通过搜索词预测流感疫情。此外,大数据与云计算、物联网有着紧密的联系。云计算提供了弹性可扩展的基础设施,支持大数据的存储和处理;物联网则源源不断地生成大量数据,成为大数据的重要来源。 总结来说,大数据与云计算的结合,以及与物联网的互动,共同推动了信息技术的创新和发展,为企业和社会带来了新的机遇和挑战。理解并掌握这些关键技术对于IT专业人士至关重要,因为它们已经成为现代数字化世界的基石。