SparkSQL与MySQL、Hive连通实战：保姆级教程

5星 · 超过95%的资源需积分: 3 104 浏览量更新于2024-07-04 收藏 5.54MB PDF 举报

本篇文章是一份保姆级教程，主要介绍了如何在Linux环境下使用Apache Spark SQL连接MySQL数据库以及Hive的数据仓库。作者彭大帅通过这个实验，旨在让读者掌握Spark与这两种流行的大数据处理技术的集成应用。首先，实验环境的基础配置包括： 1. Java：文章推荐使用JDK 8u152版本，用户需要下载并解压到`/usr/local/java`目录，然后配置环境变量，确保`java -version`命令可以正确显示Java版本。 2. Hadoop：采用Hadoop 2.7.1，同样解压至`/usr/local/hadoop`，配置核心配置文件`core-site.xml`，设置临时目录和默认文件系统(HDFS)的地址。 3. Spark：实验使用的是Spark 2.0.0版本，适合与Hadoop 2.7.1搭配。Spark安装后，可以在Local模式下运行，即在单台机器上模拟分布式环境。 4. Hive：Apache Hive 2.0.0用于数据仓库管理，其安装和配置没有在文中详述，但通常涉及到安装Hive的binaries、配置Hive metastore等步骤。 5. MySQL：选择的是MySQL 5.7.18作为关系型数据库，需要安装MySQL客户端驱动——`mysql-connector-java-5.1.47.jar`。在实际操作中，作者指导了SSH配置，以便通过SSH连接到本地主机，并生成SSH密钥对以实现无密码登录。接下来是关键的步骤——Spark与MySQL的连接： Spark SQL与MySQL连接：使用Spark的JDBC (Java Database Connectivity) API，可以在Spark应用程序中执行SQL查询到MySQL数据库。这需要创建一个SparkSession实例，并提供MySQL的JDBC URL、用户名、密码等信息。例如： ```python from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("SparkSQLtoMySQL") \ .config("spark.jars", "/path/to/mysql-connector-java-5.1.47.jar") \ .getOrCreate() query = "SELECT * FROM your_table" df_mysql = spark.read.format("jdbc").options( url="jdbc:mysql://localhost:3306/your_database", driver="com.mysql.jdbc.Driver", user="your_username", password="your_password" ).load(query) ``` Spark与Hive的连接： Spark SQL能够直接与Hive交互，无需额外配置。在SparkSession中设置Hive metastore的位置，并加载Hive元数据，这样就可以像操作Hive表一样查询数据。例如： ```python spark.sql("USE your_hive_db") df_hive = spark.sql("SELECT * FROM your_hive_table") ``` 通过这篇文章，读者不仅能学习到如何在Spark环境中连接MySQL，还能了解如何将Spark与Hive无缝集成，这对于大数据处理和分析工作来说是非常实用的技能。整个过程强调了环境配置和细节操作的重要性，有助于初学者快速上手。

$ vi /etc/profile

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:/usr/local/hadoop/sbin

➢

Spark 安装

$ tar -zxvf /对应文件地址 /usr/local

$ mv 进行重命名

$ cd /usr/local/spark

$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh

$ vi ./conf/spark-env.sh

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

# Spark 就可以把数据存储到 Hadoop 分布式文件系统 HDFS 中，也可以从 HDFS 中读取数据。

如果没有配置上面的信息

➢

MySQL 安装

$ rpm -qa | grep mariadb

$ rpm -e --nodeps 对应的安装包

$ cd /usr/local/mysql-5.7.18/

$ rpm -ivh mysql-community-common-5.7.18-1.el7.x86_64.rpm

$ rpm -ivh mysql-community-libs-5.7.18-1.el7.x86_64.rpm

$ rpm -ivh mysql-community-client-5.7.18-1.el7.x86_64.rpm

剩余16页未读，继续阅读

py4Ho123

粉丝: 0
资源: 2

SparkSQL与MySQL、Hive连通实战：保姆级教程

spark读取hbase数据，并使用spark sql保存到mysql

Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

sparksql连接mysql

java sparksql 将mysql数据迁移到hive

sparksql配置mysql

sparksql读取数据存入hive

sparksql hive 配置

sparkSQL原理介绍

sparksql基础知识

【SparkSql篇03】SparkSql之数据加载和保存1

最新资源