使用Spark从中国S3 AWS下载数据并解决常见问题

下载需积分: 25 | TXT格式 | 1KB | 更新于2024-09-07 | 182 浏览量 | 举报

1 收藏

在本篇文章中，作者详细介绍了如何在中国区域利用Apache Spark（版本2.3.0）与Amazon S3进行数据交互，特别关注了连接中国亚马逊AWS（Amazon Web Services）S3存储服务时遇到的问题和解决方案。首先，由于中国的访问限制，作者建议使用`s3a`而非`s3n`，因为`s3a`支持中国的特定区域（如`cn-north-1`），而`s3n`可能遇到权限问题。文章开始时，提到了使用PyCharm IDE和Spark 2.3.0版本，同时指定了与Hadoop 2.7.3兼容的环境。在创建SparkSession时，作者设置`master`为本地模式，并确保配置了必要的AWS SDK依赖项，包括`hadoop-aws`和`aws-java-sdk`。通过设置环境变量`PYSPARK_SUBMIT_ARGS`来安装所需的包。接下来，作者分享了如何设置AWS的访问凭证，即`access_id`和`access_key`，这是与Amazon S3进行身份验证的关键。他们设置了`fs.s3a.impl`为`S3AFileSystem`，并将其与访问密钥和秘密密钥关联起来，同时指定了S3的中国北方区域endpoint。在读取CSV文件时，作者使用`pyspark.read.csv()`函数，从`s3a://myBucket/MyFilePattern`路径加载数据。值得注意的是，如果遇到权限问题，如提示`Permission Denied`，可能是由于未正确设置访问权限或者使用了错误的配置键（如`s3n`）。正确的配置应使用`s3a`，而不是`s3n`。最后，作者展示了如何使用SparkContext的`textFile()`方法读取`s3a`路径下的文本文件，并计算其行数，这展示了对S3数据的进一步操作。总结来说，本文主要讲解了如何在中国区域使用Spark与Amazon S3进行数据处理，涉及到了环境配置、身份验证、路径设置以及基本的数据读取操作。这对于那些需要在AWS S3上使用Spark进行大数据处理的用户来说，是一份实用的指南，尤其是在处理跨区域连接时可能会遇到的问题和解决方法。

pycharm，spark2.3.0_bin_hadoop2.7，hadoop2.7.3（版本不要搞错，否则浪费很多时间）
一、利用s3a连接中国cn-north-1下载数据：
s3a python代码如下：
import pyspark
import os
from pyspark import SparkContext

os.environ['PYSPARK_SUBMIT_ARGS'] = "--packages=org.apache.hadoop:hadoop-aws:2.7.3," \
"com.amazonaws:aws-java-sdk:1.7.4 " \
"pyspark-shell"
access_id =”***“
access_key = “***“

#spark = pyspark.sql.SparkSession.builder.master('local').getOrCreate()
#sc = spark.sparkContext
sc = SparkContext()
hadoop_conf = sc._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("fs.s3a.access.key", access_id)
hadoop_conf.set("fs.s3a.secret.key", access_key)
hadoop_conf.set("fs.s3a.endpoint", "s3.cn-north-1.amazonaws.com.cn")
sql = pyspark.SQLContext(sc)
df = sql.read.csv("s3a://myBucket/MyFilePattern"")
print(df.count())

二、利用s3n连接下载(如果secretkey中有/，好像也连不上，提示Permision Dennied错误）
将上述代码中设置改为
hadoop_conf.set("fs.s3n.awsAccessKeyId", "BLABLA")(**注意fs.s3n.后面与s3a不同**）

下载后可阅读完整内容，剩余1页未读，立即下载