Flink连接器Kudu：支持动态数据源与范围分区功能

需积分: 50 62 浏览量更新于2024-12-24 2 收藏 162KB ZIP 举报

资源摘要信息: "flink-connector-kudu" 是一个基于Apache Bahir项目中的Kudu连接器进行改造的Flink连接器，旨在满足公司内部对于Kudu数据库连接和操作的需求。该连接器特别支持了Flink 1.11.x版本的动态数据源和数据接收器（Dynamic Table Source Sink）的功能，并且加入了范围分区（range partitioning）的特性，允许用户定义哈希分桶数（hash buckets）以优化数据存储和访问。这个改造版本不仅增强了原有的功能，还贡献了部分改进的功能回Apache Flink社区。在Apache Flink中使用Kudu连接器可以实现高效的数据持久化和处理。Kudu是一个开源的分布式列式存储系统，适用于快速和可预测的数据分析，特别适合于OLAP（在线分析处理）工作负载。它被设计用于支持快速插入和更新，并且能够在同一数据集上执行高效的扫描和聚合操作。Flink是一个开源的流处理框架，用于处理高吞吐量的数据流，支持有状态的计算和精确一次的状态一致性。以下是一些关键知识点的详细说明： 1. Kudu连接器改造背景： Kudu连接器的改造主要是为了解决公司在使用Flink与Kudu集成时的特定需求，特别是需要支持动态数据源功能和更灵活的数据分区策略。这一改造基于Apache Bahir项目中的Kudu连接器进行了深化，加入了一些企业级的特性，如范围分区和哈希分桶数的定义。 2. 支持的Flink版本和特性：连接器支持Flink 1.11.x版本，这是Flink社区稳定发布的重要版本之一。在该版本中，Flink引入了Dynamic Table Source Sink的概念，即动态数据源和数据接收器的概念，这允许在流处理应用中动态地添加或移除数据源和数据接收器，大大提高了应用的灵活性和扩展性。flink-connector-kudu完美地融入了这一特性，为用户提供了更加灵活和强大的数据处理能力。 3. 范围分区（Range Partitioning）：范围分区是数据库系统中常见的分区策略之一，它允许根据数据行的某个或某些字段的值范围来将数据分散存储在不同的分区中。在Kudu连接器中实现的范围分区特性，可以帮助用户按照业务逻辑或数据访问模式将数据分组存储，提高查询效率并优化存储结构。 4. 哈希分桶（Hash Buckets）：哈希分桶是一种基于哈希函数的分桶策略，通过为数据项生成一个哈希值，然后将数据根据哈希值分配到不同的分桶中。在Kudu连接器中，用户可以定义分桶的数量，这有助于在分布式环境中的负载均衡和查询优化。 5. 使用方法和配置：为了在Flink项目中使用该Kudu连接器，用户需要按照以下步骤操作： - 克隆代码库。 - 修改pom.xml文件中的项目坐标，以便使用公司私有服务器上的依赖。 - 在Java代码中设置Kudu目录和环境，创建StreamExecutionEnvironment实例，然后配置KuduCatalog实例，并将其注册到Flink的TableEnvironment中。 6. 标签解析： - kudu：指的是Apache Kudu数据库。 - flink：指的是Apache Flink流处理框架。 - datastream：指的是Flink中的流式数据处理概念。 - flink-sql：指的是Flink提供的SQL API，用于执行SQL查询。 - Java：指的是连接器的开发语言，也是用户实现业务逻辑的主要编程语言。通过以上知识点的讲解，我们可以看到flink-connector-kudu连接器在Apache Flink社区中的重要位置以及在实现数据处理、存储和查询中的关键作用。它的开发和贡献不仅是对社区的贡献，同时也极大地丰富了数据处理生态系统，为更多用户带来了便利。

收起资源包目录

flink-connector-kudu:基于Apache-bahir-kudu-connector的flink-connector-kudu，支持Flink1.11.x DynamicTableSourceSink，支持范围分区等（162个子文件）

KuduTableFactoryTest.java 7KB

AbstractSingleOperationMapper.java 4KB

KuduCatalogTest.java 15KB

KuduTableSource.java 9KB

Maven__org_apache_flink_flink_streaming_scala_2_11_1_12_0.xml 684B

TupleOpertaionMapperTest.java 3KB

KuduTableTestUtils.java 2KB

org.apache.flink.table.factories.Factory 71B

RowResultConvertor.java 487B

pom.xml 6KB

CreateTableOptionsFactory.java 2KB

RowOperationMapperTest.java 3KB

Maven__org_apache_flink_flink_optimizer_2_11_1_12_0.xml 642B

KuduOutputFormatTest.java 5KB

Maven__org_apache_flink_flink_streaming_java_2_11_1_12_0.xml 677B

KuduCatalog.java 13KB

IntegerGauge.java 512B

KuduReaderConfig.java 3KB

KuduTestBase.java 11KB

KuduFilterInfo.java 6KB

PojoOperationMapper.java 3KB

.gitignore 176B

Maven__org_apache_flink_flink_sql_connector_kafka_2_11_1_12_0.xml 712B

.name 25B

Maven__org_apache_flink_flink_shaded_guava_18_0_12_0.xml 649B

RowResultRowDataConvertor.java 3KB

KuduInputFormatTest.java 4KB

log4j2-test.properties 1KB

AbstractOperationTest.java 2KB

Maven__org_apache_flink_flink_table_api_java_bridge_2_11_1_12_0.xml 726B

Maven__org_scala_lang_modules_scala_java8_compat_2_11_0_7_0.xml 680B

PojoOperationMapperTest.java 3KB

.gitignore 353B

RowResultRowConvertor.java 788B

jarRepositories.xml 1KB

KuduTableFactory.java 10KB

KuduReader.java 7KB

RowOperationMapper.java 1KB

KuduOutputFormat.java 4KB

compiler.xml 662B

KuduWriterConfig.java 3KB

org.apache.flink.table.factories.TableFactory 902B

Project_Default.xml 1KB

KuduSink.java 5KB

Maven__org_junit_platform_junit_platform_commons_1_4_1.xml 657B

UpsertOperationMapper.java 2KB

Maven__org_apache_flink_flink_connector_files_1_12_0.xml 649B

flink-connector-kudu_2.11.iml 11KB

Maven__org_apache_flink_flink_table_api_scala_bridge_2_11_1_12_0.xml 733B

README.md 5KB

Project.xml 1KB

KuduDynamicTableSourceSinkFactory.java 8KB

KuduTableInfo.java 4KB

Maven__org_apache_logging_log4j_log4j_slf4j_impl_2_13_3.xml 646B

KuduRowInputFormat.java 3KB

KuduLookupOptions.java 2KB

KuduWriter.java 5KB

KuduRowDataInputFormat.java 3KB

Maven__org_apache_flink_flink_table_api_scala_2_11_1_12_0.xml 684B

Maven__org_apache_flink_flink_shaded_zookeeper_3_3_4_14_12_0.xml 705B

Maven__org_apache_flink_flink_table_runtime_blink_2_11_1_12_0.xml 712B

AbstractReadOnlyCatalog.java 7KB

RowDataUpsertOperationMapper.java 2KB

KuduTableSink.java 3KB

Maven__org_apache_flink_flink_file_sink_common_1_12_0.xml 656B

misc.xml 1008B

BaseKuduLookupFunction.java 7KB

Maven__org_apache_flink_flink_connector_base_1_12_0.xml 642B

KuduDynamicTableSourceITCase.java 3KB

KuduDynamicTableSourceTest.java 8KB

ColumnSchemasFactory.java 2KB

KuduOperationMapper.java 2KB

BaseKuduInputFormat.java 6KB

KuduDynamicTableSink.java 3KB

TupleOperationMapper.java 1KB

Maven__org_apache_flink_flink_shaded_jackson_2_10_1_12_0.xml 677B

Maven__org_apache_flink_flink_shaded_netty_4_1_49_Final_12_0.xml 705B

$PROJECT_FILE$ 364B

Maven__org_apache_flink_flink_table_planner_blink_2_11_1_12_0.xml 712B

KuduInputSplit.java 1KB

Maven__org_junit_jupiter_junit_jupiter_migrationsupport_5_4_1.xml 709B

Maven__org_apache_flink_flink_queryable_state_client_java_1_12_0.xml 733B

KuduCatalogFactory.java 3KB

Maven__com_google_errorprone_error_prone_annotations_2_4_0.xml 676B

RowLookupFunction.java 2KB

Maven__org_apache_flink_flink_table_api_java_1_12_0.xml 642B

KuduReaderIterator.java 2KB

Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_4.xml 722B

Maven__org_apache_flink_flink_runtime_web_2_11_1_12_0.xml 656B

KuduTypeUtils.java 5KB

Maven__commons_collections_commons_collections_3_2_2.xml 640B

KuduDynamicTableSource.java 7KB

qaplug_profiles.xml 41KB

KuduTableUtils.java 20KB

KuduFailureHandler.java 2KB

NewFeatureTest.java 10KB

KuduSinkTest.java 7KB

Maven__org_apache_flink_flink_shaded_asm_7_7_1_12_0.xml 642B

RowDataLookupFunction.java 2KB

DefaultKuduFailureHandler.java 1KB

共 162 条

李青廷Austin

粉丝: 25
资源: 4612

Flink连接器Kudu：支持动态数据源与范围分区功能

flink写入带kerberos认证的kudu connector

flink1.14.0 kudu1.10.0 connector

FlinkSql2Kudu.rar

Flink SQL集成Kudu：探索flink-connector-kudu及其依赖

streaming-flink-dynamodb-connector:适用于Apache Flink的DynamoDB连接器

flink-userportrait-main:基于Flink流处理的动态实时亿级全端用户画像系统

apache-doris-flink-connector-1.11_2.12-1.0.3

最新资源