Exasol云存储扩展：公共云数据格式化访问与导出

需积分: 9 10 浏览量更新于2024-12-06 收藏 440KB ZIP 举报

资源摘要信息:"Exasol Cloud Storage Extension是一个用户定义功能（UDF）扩展包，用于在Exasol数据库中直接访问和操作存储在公共云存储系统上的格式化数据。它支持Avro、Orc和Parquet这几种数据格式，并允许用户从这些格式的文件中导入数据到Exasol数据库中，同时也支持将表以Parquet格式导出到云存储。该扩展支持的云存储系统包括Amazon S3、Google Cloud Storage、Azure Blob Storage等。此外，Exasol Cloud Storage Extension还支持配置并行的导入或导出过程，以提高处理效率。" 知识点详细说明： 1. Exasol数据库: Exasol是一个高性能的分析型数据库管理系统，适用于大规模数据集，支持复杂的数据查询和分析任务。Exasol数据库的特点是其列式存储和并行计算能力，能够提供快速的数据处理速度。 2. 用户定义功能（UDF）: UDF是数据库系统中允许用户自定义函数的能力，这些函数可以被数据库查询调用，执行特定的数据处理任务。在Exasol中使用UDF可以扩展数据库的功能，实现更多定制化的数据处理需求。 3. 公共云存储系统: 公共云存储系统指的是由云服务提供商提供的存储解决方案，如Amazon S3、Google Cloud Storage和Azure Blob Storage。这些系统可以存储大量数据，并为用户提供了可扩展、按需付费的存储资源。 4. 数据格式支持: - Apache Avro: Avro是一种用于序列化数据的行式文件格式，主要用于高效的数据交换。Avro文件通常用于支持大规模数据集的序列化。 - Orc（Optimized Row Columnar）: Orc是Hadoop生态系统中一种列式存储格式，优化了数据的存储和查询效率，特别适合大数据处理。 - Parquet: Parquet是另一种列式存储格式，支持数据压缩和编码，优化了I/O性能和存储效率，广泛应用于大数据分析任务。 5. 数据导入导出: Exasol Cloud Storage Extension允许用户将数据从云存储中导入到Exasol数据库中，或者将数据库中的表导出到支持的云存储系统。这一过程支持并行处理，以提高数据传输的效率。 6. 并行处理: 该扩展支持并行导入和导出过程，这意味着在处理大量数据时，可以将任务分配到多个处理单元上，以并行方式进行，从而显著提高处理速度和效率。 7. 云存储系统支持: 该扩展支持Amazon S3、Google Cloud Storage、Azure Blob Storage等公共云存储系统，这意味着用户可以根据自己的需求选择合适的云存储服务，实现与Exasol数据库的无缝对接。 8. 编译与运行依赖: 该扩展使用Java 8进行编译和构建，但兼容运行在更新的Java虚拟机（JVM）版本上。对于构建环境，还依赖Scala语言的支持，说明该扩展在开发和运行时需要相应版本的Java和Scala运行时环境。 9. 许可: 文档提到了许可（执照），但未具体说明是哪种类型的许可。用户需要查看具体文档来获取这部分信息，以确保遵守相应的许可条款。 10. 标签关键词: 标签中提到了多种关键词，如"avro"、"s3"、"cloud-storage"、"gcs"、"parquet"、"azure-storage"、"orc"、"exasol"、"azure-blob-storage"、"exasol-integration"、"Scala"，这些都指明了该扩展包的适用场景、支持的技术和环境。

资源目录

收起资源包目录

Exasol云存储扩展：公共云数据格式化访问与导出（140个子文件）

OrcSource.scala 3KB

ParquetWriteOptions.scala 1KB

log4j.properties 274B

BucketTest.scala 1KB

TableDataExporterTest.scala 6KB

S3BucketTest.scala 4KB

CHANGES.md 24B

PathTest.scala 1KB

.editorconfig 276B

ParquetRowReaderComplexTypesTest.scala 14KB

AzureBlobBucket.scala 3KB

GCSBucket.scala 1KB

S3Bucket.scala 3KB

sales_positions2.snappy.parquet 6KB

ParquetConverter.scala 14KB

IntegrationTestSettings.scala 1KB

OrcConverterPrimitiveTypesTest.scala 5KB

ParquetRowReaderPrimitiveTypesTest.scala 6KB

changelog.md 8KB

DateTimeUtilTest.scala 2KB

SecureBucket.scala 1KB

FilesDataImporter.scala 2KB

build.properties 19B

AUTHORS.md 417B

RepeatedConverter.scala 4KB

BatchSizedSinkTest.scala 2KB

FilesDataImporterTest.scala 3KB

FilesImportQueryGeneratorTest.scala 2KB

BatchSizedSink.scala 3KB

OrcTestDataWriter.scala 8KB

Bucket.scala 5KB

FilesMetadataReader.scala 1KB

DateTimeUtil.scala 3KB

DataImporterIT.scala 38KB

ValueHolder.scala 2KB

AzureAdlsBucket.scala 2KB

sales_positions1.avro 12KB

BaseOrcConverterTest.scala 2KB

sales1.snappy.parquet 38KB

code_coverage_example.png 159KB

AvroSource.scala 2KB

sbtx 23KB

ParquetSource.scala 2KB

.gitignore 426B

plugins.sbt 2KB

BaseIntegrationTest.scala 5KB

Compilation.scala 6KB

build.sbt 1KB

ParquetWriteOptionsTest.scala 3KB

RowReadSupport.scala 2KB

AzureAbfsBucketTest.scala 3KB

ParquetTestDataWriter.scala 1KB

TableDataExporter.scala 3KB

AzureBlobBucketTest.scala 5KB

changes_0.9.0.md 1KB

changes_1.0.0.md 3KB

Source.scala 2KB

TableExportQueryGeneratorTest.scala 4KB

AbstractBucketTest.scala 2KB

SecureBucketTest.scala 1KB

ParquetConverterFactory.scala 5KB

BaseParquetReaderTest.scala 2KB

SchemaUtil.scala 6KB

changes_0.8.0.md 3KB

ParquetConverterTest.scala 2KB

SchemaUtilTest.scala 7KB

log4j.properties 274B

AbstractSourceTest.scala 1KB

AzureAbfsBucket.scala 3KB

Settings.scala 4KB

.scalafmt.conf 376B

plugins.sbt 333B

sales_positions_small.avro 508B

FilesMetadataReaderIT.scala 2KB

DockerNamedNetwork.scala 2KB

OrcConverterComplexTypesTest.scala 4KB

OrcConverterFactory.scala 2KB

FilesImportQueryGenerator.scala 1KB

sales_positions_small.snappy.parquet 2KB

AzureAdlsBucketTest.scala 3KB

StorageTest.scala 1KB

StoragePropertiesTest.scala 9KB

DeltaFormatBucketTest.scala 3KB

cloud-storage-etl-udfs_128x128.png 6KB

Dependencies.scala 5KB

OrcConverter.scala 10KB

FileSystemManagerTest.scala 2KB

sales_positions1.snappy.parquet 6KB

RowWriteSupport.scala 8KB

sales11.avro 44KB

changes_1.1.0.md 1KB

sales10.avro 44KB

README.md 10KB

StorageProperties.scala 5KB

ParquetSourceTest.scala 2KB

AlluxioExportImportIT.scala 5KB

TableExportQueryGenerator.scala 2KB

BaseS3IntegrationTest.scala 3KB

ParquetRowWriter.scala 1KB

user_guide.md 39KB

共 140 条

吉莫吉鱼

粉丝: 21
资源: 4590

Exasol云存储扩展：公共云数据格式化访问与导出

parquet-avro-1.10.0-API文档-中文版.zip

flink-avro-1.10.0-API文档-中文版.zip

cascalog-avro-parquet:用于 Parquet Avro 的 Cascalog Tap

avro-storage-formats:Avro的存储格式用例

parquet-avro-protobuf:例子

parquet-mr-example:Avro Parquet MapReduce实现示例

spring-cloud-stream-kafka：Spring Cloud Streams Kafka Avro

lua-avro-c:lua-avro-c

avro-parquet-reader-writer

apache-beam-csv-to-avro：好了

最新资源