大数据技术入门:概念、特征与应用

版权申诉
PDF格式 | 1.01MB | 更新于2024-06-29 | 130 浏览量 | 0 下载量 举报
收藏
在"第1章大数据技术教程-大数据技术概述.pdf"中,章节1.1深入探讨了大数据的概念和特性。随着互联网技术的发展,特别是社交网络、物联网、云计算和雾计算的兴起,非结构化数据如文本、图片、视频等快速增长,传统的数据处理方法已无法满足实时处理和分析的需求。大数据的出现正是应对这一挑战。 大数据的核心概念并非单纯指数据量大,而是强调其在规模、速度、复杂性和价值四个维度的显著特征。大数据的特点包括: 1. 规模大:数据量远远超过传统的数据集,通常用TB或PB(太字节或拍字节)为单位衡量。 2. 多样性:包括结构化、半结构化和非结构化数据,而非单一的数字或表格形式。 3. 高速性:数据产生和更新的速度极快,实时分析成为必要。 4. 难以用常规方法处理:大数据集通常包含大量噪声和冗余,需要新的算法和技术进行处理。 大数据的应用价值广泛,它能够帮助企业发现隐藏的模式、预测趋势、优化决策,甚至推动科学研究的进步。例如,在市场营销中,通过分析用户行为数据,企业可以个性化推荐商品;在医疗领域,大数据可以帮助研究疾病模式和制定治疗策略。 处理大数据的技术包括分布式计算、并行处理、流处理、数据挖掘和机器学习等。Hadoop、Spark、NoSQL数据库等技术工具在大数据处理中扮演着关键角色。同时,数据可视化和数据仓库也是必不可少的部分,它们帮助用户理解和利用大数据中的价值。 总结来说,大数据不仅仅是数据量的增加,而是一种全新的数据处理和分析范式,它改变了我们理解和利用信息的方式,对现代社会产生了深远影响。在本教程中,读者将系统地学习如何理解和运用大数据技术,以及如何在实际场景中解决相关问题。
身份认证 购VIP最低享 7 折!
30元优惠券

相关推荐

filetype
⼤数据技术概述 ⼤数据的概念 4V:⼤量化volume、价值密度低value、快速化velocity、多样化variety。⼤量化每两年增长⼀倍,到了2020年,全球就会有35ZB数据 量,Byte->KB->MB->GB->TB->PB->EB->ZB。多样化,结构化数据,保存在关系数据库中,具有规范的⾏和列的结构数据,只占⼈类数据 量10%不到。90%是⾮结构化数据,存储在⾮关系数据库中。快速化,数据有价值必须快速处理,⼀秒定律,数据从⽣成到决策响应仅需 要⼀秒,时间延长不会有商业价值,例如推荐系统。价值密度低,⼤量数据中有价值的⽐较少,但是单点价值⽐较⾼ ⼤数据影响 数据库专家jim gray,⼈类从诞⽣以来,经历了四种研究范式。2010年后,进⼊⼤数据时代以后,是以数据为中⼼的研究范式。第⼀种实 验,⼀开始科研就是做实验观察;第⼆种理论,发明了⽜顿定律、⼏何理论由理论去研究科学问题;第三阶段,⼀九四⼏年计算机开始发明 以后,进⼊以计算为中⼼的时代,靠计算可以帮助我们解决相关的科学问题。以计算为中⼼,事先已经知道问题是什么,以数据为中⼼事先 问题不知,只有⼀堆数据,从⼤量数据中去发现问题,再靠数据去解决问题,全部靠数据去驱动。我们思维⽅式⾃从⼤数据时代到来后,发 ⽣了值的变迁。全样⽽⾮抽样,以前采⽤统计学抽样⽅式(存储设备贵、存储数据少、CPU和技术能⼒不强、⽆法短时间迅速计算),⼤数 据时代有⾜够能⼒存储⾜够算例去计算。效率⽽⾮精确,不苛求精确度,全样数据不存在误差放⼤问题,追求速度。相关⽽⾮因果,追求相 关性,⽐如相关性是推荐系统的核⼼,有相关性⾜够带来商业价值。 ⼤数据的关键技术 数据流程包括数据采集、数据存储与管理、数据处理与分析、数据隐私与安全。⼤数据的关键技术两⼤核⼼,分布式存储和分布式处理,解 决数据存储和数据⾼校计算问题。分布式存储:⾕歌GFS和开源实现HDFS->⾕歌Big Table和开源版本Hase->NoSQL(键值、列族、图 形、⽂档数据库)->NewSQL。分布式处理:MapReduce->Spark->Flink。 ⼤数据计算模式 不同的计算模式需要使⽤不同的产品。第⼀个批处理,MapReduce和Spark⾯向批处理。第⼆个流计算,流数据像溪⽔⼀样不断到达,每 次量可能不⼤,但是会连续不断的到达。流数据要求实时处理,给出实时响应(秒级或毫秒级),否则分析结果会失去商业价值。流计算代 表产品有S4、Storm、Flume、Puma、DStream、银河流数据处理平台。第三种模式是图计算,有些应⽤场景⽐较适合图来建模,⽐如 地理信息系统(快递)、微博微信社交群体,⽹友是点,点赞就建⽴边,会发现哪些⼩朋友圈⽐较紧密。图计算代表软件:Google Pregel、GraphX、Giraph、Hma、PowerGraph、GoldenOrb。第四种场景是查询分析计算,代表产品:Google Dremel、Hive、 Cassandra、Impala。 ⼤数据技术之Hadoop Hadoop⽣态系统图 HDFS存储⾮结构化数据,⾯向批处理,YARN资源调度和管理框架,计算所需要底层内部CPU资源。MapReduce数据的计算。数据仓库 Hive本⾝不保存数据,数据保存在底层HDFS,本⾝是编程接⼝,把你写的SQL语句⾃动转换对HDFS查询分析,得到结果。Pig数据流处 理,数据清洗转换。Mahout数据挖掘的算法库,实现常⽤数据挖掘算法(分类、聚类、回归等),调⽤接⼝,传⼊参数,减少⼯作量,针 对海量数据进⾏数据挖掘分析。Ambari⾃动化的安装部署配置管理Hadoop集群的。Zookeeper分布式协作服务,选管家等,专门做分布 式协调⼀致性⼯作。HBase实时性计算,分布式数据库。Flume⽇志采集,Sqoop数据库ETL(抽取、转换、加载),完成Hadoop系统组 件之间的互通,Hadoop系统组件当中数据和关系数据库当中数据之间相互导⼊导出(HDFS数据可以导⼊MySql当中去)。 MapReduce,Map函数和Reduce函数,编程容易,屏蔽底层分布式并⾏编程细节。采⽤分⽽治之思想,并⾮所有任务都可以分⽽治之。 YARN实现⼀个集群多个框架,例如⼀千台机器,同时部署了三个框架(MapReduce、Storm、Impala),会产⽣打架,有三个管家去底 层强CPU资源。如果三个产品只接受⼀个管家,就不会打架。出现了YARN资源调度和管理框架。 ⼤数据技术之Spark Spark架构图 Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core 之上的。 Spark SQL:提供通过Apache Hi
242 浏览量