大数据入门:从Hadoop习题看互联网发展历程

版权申诉
0 下载量 14 浏览量 更新于2024-08-09 收藏 478KB PDF 举报
"(完整版)hadoop习题册.pdf" 本资源主要涵盖了大数据的基本概念以及Hadoop的相关知识,包括以下几个方面: 1. **大数据概述**: - 大数据经历了四个发展阶段,从早期的互联网(Web 1.0)到社交媒体(Web 2.0),再到移动互联网(Web 3.0)以及目前的智能互联网(Web 4.0或IoT)。 - 大数据的特点包括:数据量巨大(Volume)、种类和来源多样化(Variety)、处理速度快(Velocity)以及数据价值密度高(Value)。此外,还包括复杂类型的数据,如结构化、半结构化和非结构化数据。 - 数据换算关系:1YB=1024EB,1PB=1024EB,1024ZB=1EB,这些表示了数据存储容量的不同单位之间的转换。 2. **结构化数据**: - 结构化数据通常表现为二维表形式,例如数据库中的表格,其特点是数据和数据之间的关系明确,易于处理和分析。 - 在结构化数据中,先有数据的结构定义,再有具体的数据填充,即先有结构后有数据。 3. **大数据技术**: - 大数据技术主要包括数据采集、数据存储、数据计算和数据冗余等,其中数据冗余是为了提高数据的可靠性和可用性。 - 大数据的特点包括数据量大、类型多、处理速度快以及蕴含高价值,但价值密度相对较低,因为大量的数据中可能只有一小部分具有价值。 4. **Hadoop简介**: - Hadoop是大数据处理的重要框架,它基于云计算架构,支持大规模分布式处理。 - 云计算架构通常分为三层:IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)。有时也扩展为五层,增加了固件/硬件层和云应用程序层。 - IaaS提供了弹性计算和效用计算的服务,允许用户按需获取计算资源。 - 四层云栈模式将虚拟化部分从基础设施层中分离出来,形成虚拟资源层,提高了资源的灵活性和管理效率。 - 五层云栈模式的第五层为云应用程序层,提供了各种云上应用服务。 通过这个习题册,读者可以深入了解大数据的基础概念,掌握Hadoop在大数据处理中的角色,以及云计算架构的层次划分,为学习和理解大数据技术打下坚实基础。