数据库转换指南：MySQL、Teradata到PySpark代码示例

需积分: 6 63 浏览量更新于2024-07-09 收藏 602KB PDF 举报

本文主要介绍了如何在MySQL、Teradata和PySpark之间进行表和数据转换的代码示例。在数据库管理中，有时我们需要在不同的系统间进行数据迁移或操作，例如从MySQL迁移到Teradata，或者在大数据处理环境中使用PySpark进行数据处理。下面将分别介绍这三种环境下创建表、删除表以及插入数据的基本语法。 1. MySQL: - 删除表：`DROPTABLE IF EXISTS `<架构名称>`. `<表名>`;` - 创建表并插入数据： ```sql CREATETABLE `<架构名称>`. `<表名>` ( `<字段名1>` `<类型1>` AUTO_INCREMENT, `<字段名2>` `<类型2>` AUTO_INCREMENT, `<字段名3>` `<类型3>` AUTO_INCREMENT, ... `<字段名n>` `<类型3n>` AUTO_INCREMENT, PRIMARY KEY (`<主键字段名>`), UNIQUE (`<唯一值字段名1>`, `<唯一值字段名2>`, ..., `<唯一值字段名m>`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; INSERT INTO `<架构名称>`. `<表名>` SELECT * FROM ...; ``` 2. Teradata: - 删除表：`DROPTABLE `<架构名称>`. `<表名>`;` - 创建表并插入数据： ```sql CREATE TABLE `<架构名称>`.`<表名>` ( `<字段名1>` `<类型1>`, `<字段名2>` `<类型2>`, `<字段名3>` `<类型3>`, ... `<字段名n>` `<类型n>`, PRIMARY INDEX `<主键字段名>`, UNIQUE (<唯一值字段名1>, <唯一值字段名2>, ..., <唯一值字段名m>) ); INSERT INTO `<架构名称>`.`<表名>` SELECT * FROM ...; ``` 3. PySpark (Python API for Apache Spark): - 删除表（这里通常涉及HDFS操作）： ```python import subprocess subprocess.check_call(['hdfs', 'dfs', '-rm', '-r', '<存储路径>/<表名>']) ``` - 创建表（PySpark不直接支持创建表，但可以通过DataFrame写入HDFS或Hive metastore）： ```python from pyspark.sql import SparkSession, DataFrameWriter # 假设df是DataFrame df.write \ .format("parquet") \ .mode("overwrite") \ .save("<存储路径>/<表名>") ``` - 插入数据（PySpark通过DataFrame操作数据，而不是直接使用SQL语句）： ```python # 假设df是待插入的数据，df_target是目标表 df_target = spark.read.parquet("<存储路径>/<表名>") df_target.createOrReplaceTempView("<临时视图名>") df_target = spark.sql("SELECT * FROM <临时视图名> UNION ALL SELECT * FROM df") df_target.write.mode("append").parquet("<存储路径>/<表名>") ``` 在实际操作中，可能需要根据具体环境和需求调整这些代码，例如处理字符集、分区、分桶等高级特性。在转换过程中，需要注意不同数据库系统之间的数据类型差异，以及PySpark中的分布式计算模型与传统SQL的关系数据库的区别。对于大型数据集，性能优化和错误处理也是必须考虑的因素。在进行数据迁移时，可以使用ETL（提取、转换、加载）工具或编写自定义脚本来自动化这些过程。

更多数据库资源请访问美河学习在线 www.eimhe.com

DECIM

AL 类

型转换

SELECT (CAST(<数值字段/变量/常量 1> AS

DECIMAL(38,2)) / CAST(<数值字段/变量/常量 2>

AS DECIMAL(38,2)));

SELECT (CAST(<数值字段/变量/常量 1> AS

DECIMAL(38,2)) / CAST(<数值字段/变量/常量

2> AS DECIMAL(38,2)));

<变量> = spark.sql("""

SELECT <数值字段/变量/常量 1> * 100 / <数值字

段/变量/常量 2> / 100""")

获取年

月日和

获取中

国时区

的当天

日期

SELECT YEAR(CURRENT_DATE()),

MONTH(CURRENT_DATE()),

DAY(CURRENT_DATE()), CONVERT_TZ(create_time,

@@session.time_zone,'+8:00');

SET time_zone='Asia/Shanghai';

select now();

SELECT EXTRACT(YEAR FROM CURRENT_DATE),

EXTRACT(MONTH FROM CURRENT_DATE),

EXTRACT(DAY FROM CURRENT_DATE),

CAST(CONVERT_TIMEZONE('Asia/Shanghai',CAS

T(GETDATE() AS TIMESTAMP)) AS DATE)

<变量> = spark.sql("""

SELECT YEAR(CURRENT_DATE),

MONTH(CURRENT_DATE), DAY(CURRENT_DATE),

CAST(CONVERT_TIMEZONE('Asia/Shanghai',CAST

(GETDATE() AS TIMESTAMP)) AS DATE)""")

时间戳

之间间

隔天数

计算

SELECT TIMESTAMPDIFF(DAY, <开始时间戳>, <结

束时间戳>)

SELECT EXTRACT(DAY FROM (<结束时间戳> - <

开始时间戳> DAY(4) TO SECOND)) * 86400

<变量> = spark.sql("""

SELECT YEAR(CURRENT_DATE),

MONTH(CURRENT_DATE), DAY(CURRENT_DATE)""")

分区操

作

一、查看 MySQL 是否支持分区

1、MySQL5.6 以及之前版本

show variables like '%partition%';

2、MySQL5.7

show plugins;

二、分区表的分类与限制

1、分区表分类

RANGE 分区：基于属于一个给定连续区间的列

值，把多行分配给分区。

LIST 分区：类似于按 RANGE 分区，区别在于 LIST

分区是基于列值匹配一个离散值集合中的某个值

来进行选择。

HASH 分区：基于用户定义的表达式的返回值来

进行选择的分区，该表达式使用将要插入到表中

的这些行的列值进行计算。这个函数可以包含

MySQL 中有效的、产生非负整数值的任何表达

式。

KEY 分区：类似于按 HASH 分区，区别在于 KEY

分区只支持计算一列或多列，且 MySQL 服务器

提供其自身的哈希函数。必须有一列或多列包含

整数值。

复合分区：在 MySQL 5.6 版本中，只支持 RANGE

和 LIST 的子分区，且子分区的类型只能为 HASH

和 KEY。

2、分区表限制

1）分区键必须包含在表的所有主键、唯一键

中。

2）MYSQL 只能在使用分区函数的列本身进行比

较时才能过滤分区，而不能根据表达式的值去过

滤分区，即使这个表达式就是分区函数也不行。

3）最大分区数：不使用 NDB 存储引擎的给定

表的最大可能分区数为 8192（包括子分区）。

如果当分区数很大，但是未达到 8192 时提示

Got error … from storage engine: Out of resources

when opening file,可以通过增加 open_files_limit

系统变量的值来解决问题，当然同时打开文件的

数量也可能由操作系统限制。

Teradata 的分区中常用的是按时间分区，如

下例只要添加到 create table 语句末尾就可以

实现 2013 年全年一天一个分区了（为了省

事，可以一次分 5-10 年）：

PARTITION BY RANGE_N(

Rcd_Dt BETWEEN DATE '2013-01-01' AND

DATE '2013-12-31'

EACH INTERVAL '1' DAY, NO RANGE

);

另外一个常用（但是不容易掌握）的是按字

符串取值分区。在上述按时间分区中我们可

以看到 RANGE_N 关键字。按值分区采用

CASE_N 关键字，如下例所示：

PARTITION BY CASE_N(

(CASE WHEN (my_field='A') THEN (1) ELSE (0)

END)=1,

(CASE WHEN (my_field='B') THEN (2) ELSE (0)

END)=2,

(CASE WHEN (my_field='C') THEN (3) ELSE (0)

END)=3,

NO CASE OR UNKNOWN);

更进一步，其中如下面的语法元素：

my_field='A'

可以修改为类似于这样的形式：

SUBSTR(my_field,1,1) IN ('E','F','G')

在现实中，因为访问数据从全表扫描变成了

分区扫描的原因，某些步骤可以达成 10-100

倍的性能提升。对于复杂的耗时较长的大作

业，也总是能够缩短一半以上的运行时间。

1.数据分区

在分布式程序中，通信的代价较大，通过对数据集在

节点间的分区进行控制以获得较少的网络传输从而提

升整体性能。如果给定的 RDD 只需要被扫描一次，

则完全没有必要对其预先进行处理。只有当数据集多

次在诸如连接这种基于键的操作中使用时，分区才会

有帮助。

尽管 Spark 无法显示控制每个键具体落在哪一个工作

节点，但 Spark 可以确保同一组的键出现在同一个节

点上。

以 Join 操作为例，如果未根据 RDD 中的键重新分，

那么在默认情况下，连接操作会将两个数据集中的所

有键的哈希值求出来，将哈希值相同的记录通过网络

传输到同一台机器上，然后在那台机器上对所有键相

同的记录进行连接操作。

2.partitionBy()算子

from pyspark import SparkContext,SparkConf

if __name__ == '__main__':

conf =

SparkConf().setMaster("local").setAppName("word_cou

nt")

sc=SparkContext(conf=conf)

pair_rdd=sc.parallelize([('a',1),('b',10),('c',4),('d',7),('e',9),

('f',10)])

rdd_1=pair_rdd.partitionBy(2,partitionFunc=lambda

x:ord(x)%2).persist()

print(rdd_1.glom().collect())

结果如下：

rdd_1

[[('b', 10), ('d',

7), ('f', 10)], [('a',

1), ('c', 4), ('e',

9)]]

parittionBy()只能用于 pairRDD,将 pairRDD 中的 key 传

入到 partitionFunc 函数中。还需要注意的是，如果不

将 partitonBy（）操作的结果持久化，那么后面每次

用到这个 RDD 时都会重复地对数据进行分区操作，

那样的话，partitionBy()重新分区带来的好处将会被

抵消。通过这个算子可以完成 python 中的自定义分

区，则不要向 scala 语言中那样麻烦（spark 本身提供

了 HashPartitioner 和 RangePartitioner）。

3.影响分区方式的操作

以下算子会为生成的结果 RDD 设好分区方式：

剩余16页未读，继续阅读

CodeGolang

粉丝: 155
资源: 1423

数据库转换指南：MySQL、Teradata到PySpark代码示例

MySQL、Teradata和PySpark代码互转表和数据转换代码.docx

teradata数据字典

"MySQL、Teradata和PySpark代码互转表和数据转换操作详解"。

java-Teradata-MySQL.rar_JAVA连接teradata_teradata_teradata java_te

Teradata数据仓库

teradata

TeraData

TeraData金融数据模型

Teradata RDBMS 错误代码查询指南

Teradata数据字典详解：系统表、存储过程与宏

最新资源