大数据技术入门：概念、特征与应用 - CSDN文库

版权申诉

PDF格式 | 1.01MB | 更新于2024-06-29 | 130 浏览量 | 举报

收藏

在"第1章大数据技术教程-大数据技术概述.pdf"中，章节1.1深入探讨了大数据的概念和特性。随着互联网技术的发展，特别是社交网络、物联网、云计算和雾计算的兴起，非结构化数据如文本、图片、视频等快速增长，传统的数据处理方法已无法满足实时处理和分析的需求。大数据的出现正是应对这一挑战。大数据的核心概念并非单纯指数据量大，而是强调其在规模、速度、复杂性和价值四个维度的显著特征。大数据的特点包括： 1. 规模大：数据量远远超过传统的数据集，通常用TB或PB（太字节或拍字节）为单位衡量。 2. 多样性：包括结构化、半结构化和非结构化数据，而非单一的数字或表格形式。 3. 高速性：数据产生和更新的速度极快，实时分析成为必要。 4. 难以用常规方法处理：大数据集通常包含大量噪声和冗余，需要新的算法和技术进行处理。大数据的应用价值广泛，它能够帮助企业发现隐藏的模式、预测趋势、优化决策，甚至推动科学研究的进步。例如，在市场营销中，通过分析用户行为数据，企业可以个性化推荐商品；在医疗领域，大数据可以帮助研究疾病模式和制定治疗策略。处理大数据的技术包括分布式计算、并行处理、流处理、数据挖掘和机器学习等。Hadoop、Spark、NoSQL数据库等技术工具在大数据处理中扮演着关键角色。同时，数据可视化和数据仓库也是必不可少的部分，它们帮助用户理解和利用大数据中的价值。总结来说，大数据不仅仅是数据量的增加，而是一种全新的数据处理和分析范式，它改变了我们理解和利用信息的方式，对现代社会产生了深远影响。在本教程中，读者将系统地学习如何理解和运用大数据技术，以及如何在实际场景中解决相关问题。

数据都采集到的话，其数量会比来自互联网的数据更大。

1.1.3 大数据的特征

最早是 IBM 提出了大数据领域的“3V”概念，即大量化（Volume）、多样化（Variety）、

快速化（Velocity）。通常在计算机领域用 4 个 V（即 Volume、Variety、Value、Velocity）

来概括大数据的特征，也有学者提出 N 个 V 的特征。

大数据的特征一是数据量巨大（Volume）。据有关统计，截至目前，人类生产的所有印

刷材料的数据量大约是 200PB，而历史上全人类说过的所有的话的数据量大约是 5EB。然而

目前很多个人计算机硬盘的容量为TB 量级，而很多大企业的数据量已经接近或达到EB 量级。

大数据的特征二是数据类型繁多（Variety）。类型的多样性让数据被分为结构化数据和

非结构化数据。相对于以往为了方便存储以文本为主的结构化数据，大数据主要采用非结构

化数据，主要包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数

据的处理技术提出了更高要求。

大数据的特征三是价值密度低（Value）。价值密度的高低与数据总量的大小成反比例关

系。以监控视频为例，一段1 小时的监控视频，有用数据可能仅有一二秒。一般而言，数据

规模越大，种类越多，用户得到的信息量越大。获得的知识越多，数据能够发挥的潜在价值

越大。但在实际情况中，大数据价值密度低这一特点，使其数据价值往往依赖于较好的数据

处理方式和工具。如何通过精密的机器算法更迅速地完成对大量数据的价值“提纯”成为目

前大数据背景下亟待解决的难题。

大数据的特征四是处理速度快（Velocity）。该特性包括大数据传输方式和处理方式。

传输方式包括批处理传输、实时传输、近似实时传输和流传输等方式。数据处理方式包括数

据处理时间和相应的时延。大数据需要以较高的速率被分析、处理、存储和管理，这是大数

据区分于传统数据最显著特征之一。根据 IDC 的“数字宇宙”的报告，预计到 2020 年，全

球数据使用量将达到 35.2ZB。在如此海量的数据面前，如何快速准确处理数据将是最关键

的步骤。

1.1.5 现状与发展

大数据是信息化发展到一定阶段的产物。随着信息技术和人类生产生活深度融合，互

联网快速普及，全球数据呈现爆发增长、海量集聚的特点，对经济发展、社会进步、国家治

剩余16页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

春哥111

粉丝: 1w+

最新资源