Spark与Hadoop结合使用及Linux命令、环境变量笔记

需积分: 9 30 下载量 180 浏览量 更新于2024-07-20 1 收藏 2.64MB PDF 举报
"Spark+hadoop+mllib及相关概念与操作笔记" 这篇笔记主要涵盖了Spark、Hadoop以及mllib(Spark的机器学习库)的相关概念和操作,适合于个人学习和理解分布式计算框架的基础知识。作者刘炜在2016年7月18日编写了这个0.1版本的笔记,旨在帮助读者深入理解大数据处理的技术栈。 首先,笔记提到了进行技术调研的重要性,包括明确调研目的、梳理问题、寻找解决方案和形成有说服力的结论。在实际工作中,这一步骤对于了解现有技术状况、发现潜在问题和提出改进措施至关重要。 接着,笔记介绍了Linux操作系统的一些常用命令,这对于在Linux环境下操作Spark和Hadoop非常重要。例如,`locate`命令用于快速查找文件,但由于依赖数据库,可能无法找到最近创建的文件。`uname -a`用于查看系统和内核信息,而`cat /proc/version`和`cat /etc/issue`则分别提供运行中的内核版本和发行版信息。`lsb_release -a`则是一个跨发行版的命令,用于获取更详细的Linux发行版信息。 然后,笔记讲解了Linux环境变量的设置。环境变量在系统和用户级别都有定义,影响着用户的交互体验和程序的运行。`/etc/profile`是系统级环境变量,用于交互式Login shell,而`/etc/bashrc`通常用于非交互式shell,确保每个使用bash shell的用户都能得到正确的环境设置。`/etc/environment`则是在登录时加载的全局环境变量。 在Spark和Hadoop方面,笔记可能涵盖了如何配置和使用这两个工具,包括数据处理、分布式计算、任务调度等方面。mllib作为Spark的一部分,提供了丰富的机器学习算法,如分类、回归、聚类、协同过滤等,便于在大数据集上进行训练和预测。学习这部分内容,读者需要理解RDD(弹性分布式数据集)和DataFrame的概念,以及如何使用Spark SQL进行数据操作。 这份笔记是一个综合性的学习资源,涵盖了从基础操作系统的使用到大数据处理框架的实践,对想要掌握Spark和Hadoop的初学者来说非常有价值。通过深入学习,读者能够提升自己在大数据分析和机器学习领域的技能。