spark 读取mysql 数据库
时间: 2023-07-05 14:31:20 浏览: 127
使用Spark SQL读取数据库教程.docx
可以使用Spark的JDBC连接器来读取MySQL数据库中的数据。可以按照以下步骤进行操作:
1. 在Spark应用程序中添加MySQL JDBC驱动程序的依赖项。例如,在Maven项目中,可以将以下依赖项添加到pom.xml文件中:
```
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>8.0.25</version>
</dependency>
```
2. 在Spark中创建一个JDBC连接器。可以使用以下代码:
```
import java.util.Properties
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder()
.appName("Read from MySQL")
.master("local[*]")
.getOrCreate()
val jdbcUrl = "jdbc:mysql://localhost:3306/mydatabase"
val connectionProperties = new Properties()
connectionProperties.put("user", "myusername")
connectionProperties.put("password", "mypassword")
val df = spark.read.jdbc(jdbcUrl, "mytable", connectionProperties)
df.show()
```
在这个例子中,我们创建了一个SparkSession对象,并指定了应用程序的名称和主节点。然后,我们定义了一个JDBC连接器,指定MySQL数据库的URL,用户名和密码。最后,我们使用SparkSession的read.jdbc()方法来读取MySQL表中的数据,并将结果作为DataFrame返回。我们可以使用DataFrame的show()方法打印结果。
注意:需要将“mydatabase”和“mytable”替换为实际的数据库名称和表名称。
阅读全文