阿里云E-MapReduce扩展支持Spark/Hadoop数据源

需积分: 0 97 浏览量更新于2024-09-28 收藏 342.56MB ZIP 举报

资源摘要信息:"扩展了对阿里云 E-MapReduce 上 Spark/Hadoop 数据源的支持" 知识点详细说明： 1. 阿里云 E-MapReduce 介绍：阿里云 E-MapReduce 是一个托管的 Hadoop/Spark 大数据计算平台，它能够简化大数据集群的搭建和管理流程，让用户专注于业务逻辑的开发和数据分析。E-MapReduce 支持用户通过简单的配置即可实现对海量数据的存储、计算和分析。阿里云通过 E-MapReduce，为用户提供了一个可靠、可扩展且易于使用的环境，以运行和管理 Spark 和 Hadoop 应用程序。 2. Spark/Hadoop 数据源支持：本项目提及的支持指的是能够将阿里云的其它服务如OSS（对象存储服务）、ODPS（开放数据处理服务）、LogService（日志服务）和ONS（消息服务）与 Spark 或 Hadoop 环境集成的能力。这种集成能力可以极大地丰富用户在使用 Spark 或 Hadoop 进行数据处理时可访问的数据源类型，进一步增强数据处理能力和数据交互的便捷性。 3. Spark 版本要求：本项目需要Spark版本至少为1.3+。Spark 1.3版本是一个重要的里程碑，它引入了多项改进和新特性，包括对 Spark SQL 的支持以及流处理功能的改进。因此，为了确保项目可以正常使用，开发者需要确保其 Spark 环境的版本满足要求。 4. 构建和安装过程： - 首先，通过git clone命令克隆仓库到本地。 - 进入克隆的项目目录。 - 使用 mvn clean package -DskipTests 命令进行项目构建，跳过测试以加快构建过程。 - 对于 Spark 3.2.0 的构建，需要进入特定模块（如emr-maxcompute），并指定构建参数（-Pspark3）以确保正确的Spark版本配置。 5. Eclipse 集成说明： - 从项目构建输出的 jar 文件中选择相应的 SDK jar。 - 将该 jar 文件复制到 Eclipse 项目的类路径中。 - 在 Eclipse 中右键单击项目，选择“属性”。 - 在弹出的属性窗口中选择“Java构建路径”并添加或修改库以包含 SDK。 6. 技术标签说明： - "阿里云"：指的是阿里巴巴集团提供的云计算服务，即阿里云（Alibaba Cloud）。 - "MapReduce"：是 Hadoop 中的一个组件，负责大规模数据集的并行运算，是分布式计算框架的核心组成部分。 - "Spark"：是一种快速、通用、可扩展的大数据处理引擎，支持多种计算任务，包括批处理、流处理、机器学习等。 - "Hadoop"：是一个开源框架，允许使用简单的编程模型在跨计算机集群存储和处理大规模数据集的系统。 7. 文件名列表解读： - 提供的文件名“aliyun-emapreduce-datasources-main”代表了仓库中的主分支代码，它包含了所有的源代码和构建脚本，使得用户可以下载并构建出可以运行的项目。

收起资源包目录

扩展了对阿里云 E-MapReduce 上 Spark/Hadoop 数据源的支持（461个子文件）

RangeRowQueryCriteriaWritable.java 7KB

TableStoreOutputFormatExample.java 9KB

temp_topic_q6.avsc 194B

TableStoreOutputFormat.java 8KB

org.apache.spark.sql.sources.DataSourceRegister 52B

TableStoreRecordWriter.java 6KB

temp_topic_q42.avsc 407B

temp_topic_q15.avsc 294B

temp_topic_q27.avsc 653B

temp_topic_q73.avsc 427B

Inventory.avsc 437B

Integer.java 9KB

BinaryGeometry.java 10KB

temp_topic_q101.avsc 319B

temp_topic_q18.avsc 1KB

temp_topic_q96.avsc 145B

TableStoreFilterWritable.java 9KB

Field.java 10KB

temp_topic_q84.avsc 220B

TimestampWithTimeZone.java 12KB

temp_topic_q99.avsc 565B

temp_topic_q79.avsc 557B

emr-datasources_shaded_2.11-1.9.0.jar 67.91MB

TableStoreStorageHandler.java 10KB

ClientWorker.java 9KB

temp_topic_q48.avsc 173B

temp_topic_q100.avsc 319B

temp_topic_q102.avsc 319B

emr-datasources_shaded_2.11-1.7.0.jar 47.94MB

WebSales.avsc 3KB

TableStoreSerDe.java 18KB

.gitignore 488B

Source.java 10KB

temp_topic_q13.avsc 580B

Record.java 45KB

TableStoreRecordReader.java 5KB

temp_topic_q55.avsc 319B

org.apache.spark.sql.sources.DataSourceRegister 59B

AdminUtils.java 8KB

temp_topic_q62.avsc 566B

temp_topic_q46.avsc 621B

RowCounter.java 7KB

Float.java 11KB

temp_topic_q76.avsc 494B

emr-datasources_shaded_2.11-2.1.0.jar 70.63MB

StoreReturns.avsc 2KB

Character.java 10KB

temp_topic_q26.avsc 560B

temp_topic_q3.avsc 380B

emr-datasources_shaded_2.11-2.1.0.jar 70.63MB

org.apache.spark.sql.sources.DataSourceRegister 54B

BinaryObject.java 10KB

ConditionWritable.java 5KB

temp_topic_q19.avsc 446B

EMRMetricsReporterConfig.java 5KB

Timestamp.java 10KB

WritableConsts.java 7KB

temp_topic_q91.avsc 388B

TableStoreInputFormat.java 10KB

emr-datasources_shaded_2.11-2.0.0.jar 70.59MB

org.apache.spark.sql.sources.DataSourceRegister 444B

TableStore.java 9KB

org.apache.spark.sql.sources.DataSourceRegister 45B

SinkConfig.java 9KB

FilterWritable.java 8KB

temp_topic_q21.avsc 469B

temp_topic_q43.avsc 1KB

temp_topic_q52.avsc 364B

temp_topic_q34.avsc 450B

temp_topic_q40.avsc 221B

DateTime.java 20KB

temp_topic_q22.avsc 448B

temp_topic_q8.avsc 299B

org.apache.spark.sql.sources.DataSourceRegister 445B

emr-datasources_shaded_2.11-1.8.0.jar 53.4MB

CatalogSales.avsc 3KB

org.apache.spark.sql.sources.DataSourceRegister 50B

org.apache.spark.sql.sources.DataSourceRegister 57B

RowCounter.java 7KB

EMRClientMetricsReporter.java 13KB

org.apache.spark.sql.sources.DataSourceRegister 59B

Decimal.java 11KB

CatalogReturns.avsc 2KB

StoreSales.avsc 2KB

WebReturns.avsc 2KB

temp_topic_q7.avsc 560B

TextObject.java 10KB

temp_topic_q68.avsc 723B

TableMapReduceUtils.java 5KB

TextGeometry.java 10KB

temp_topic_q103.avsc 319B

TableStoreInputFormat.java 9KB

JarFinder.java 7KB

DriverBehavior.avsc 658B

MNSAgentUtil.java 6KB

org.apache.spark.sql.sources.DataSourceRegister 63B

MysqlFieldConverter.java 15KB

PrimaryKeyWritable.java 6KB

org.apache.spark.sql.sources.DataSourceRegister 53B

temp_topic_q71.avsc 411B

共 461 条

余十步

粉丝: 1679
资源: 172

阿里云E-MapReduce扩展支持Spark/Hadoop数据源

spark-3.1.3-bin-without-hadoop.tgz

spark-3.2.1-bin-hadoop2.7.tgz

aliyun-emapreduce-datasources:在Aliyun E-MapReduce上扩展了对SparkHadoop数据源支持

hadoop-mapReduce-spark：目录包含CS 6240中的作业分配-大规模并行数据处理

阿里云E-MapReduce开发手册：Spark、Hive与OSS集成

Docker下快速部署Spark/Hadoop多容器环境及教程

老虎集团笔试题JAVA-Cloudera-Certified-Hadoop-and-Spark-Developer-practice:代码完成

阿里云 专有云Enterprise版 E-MapReduce V3.3.0 技术白皮书 20180312.pdf

阿里云 专有云Enterprise版 E-MapReduce V3.3.0 用户指南 20180312.pdf

spark-1.6.1-bin-hadoop2.6.zip （缺spark-examples-1.6.1-hadoop2.6.0.jar）

最新资源

阿里云专有云Enterprise版 E-MapReduce V3.3.0 技术白皮书 20180312.pdf

阿里云专有云Enterprise版 E-MapReduce V3.3.0 用户指南 20180312.pdf