Flink集成Hive：全新Catalog接口解析

版权申诉

9 浏览量更新于2024-09-03 收藏 106KB DOCX 举报

"Flink与Hive的集成是大数据领域的一个重大进展，旨在提供对Hive元数据和数据的无缝访问。这一集成使得Flink能够利用Hive的存储和元数据管理能力，扩展其在大数据处理中的应用范围。" Apache Flink与Hive的集成主要涉及两个关键方面：元数据管理和实际表数据的访问。在早期，Flink尝试通过ExternalCatalog接口来实现对元数据的访问，但这个接口存在局限性，导致其实用性不高。因此，在Flink 1.10版本中，社区决定移除ExternalCatalog API，并引入了全新的Catalog接口（newCatalogAPI）作为替代。新的Catalog接口提供了更全面的功能，可以支持数据库、表、分区等多种元数据对象。它还允许在同一用户Session中管理多个Catalog实例，这意味着用户可以同时访问多个外部系统，增强了系统的灵活性和扩展性。Catalog以插件化的方式接入Flink，允许开发人员根据需要实现自定义Catalog。在Flink中，当创建TableEnvironment时，会伴随创建一个CatalogManager，它负责管理不同的Catalog实例。TableEnvironment通过Catalog为TableAPI和SQL客户端用户提供元数据服务。例如，下面的代码片段展示了如何创建一个连接到Hive的Catalog： ```scala val settings = EnvironmentSettings.newInstance().useBlinkPlanner().inBatchMode().build() val tableEnv = TableEnvironment.create(settings) val catalogName = "myhive" val defaultDatabase = "mydatabase" val hiveConfDir = "/opt/hive-conf" // 本地路径 val version = "2.3.4" val hive = new HiveCatalog(catalogName, defaultDatabase, hiveConfDir, version) tableEnv.registerCatalog(hive.getName, hive) tableEnv.useCatalog(hive.getName) ``` 在这个例子中，我们创建了一个名为“myhive”的HiveCatalog，指定了默认数据库“mydatabase”，并提供了Hive配置目录的本地路径和Hive版本。然后，将这个HiveCatalog注册到TableEnvironment，并将其设为当前使用的Catalog。对于表数据的访问，Flink能够读取和写入Hive表，使得用户能够在Flink作业中直接操作Hive的数据。这极大地简化了数据处理流程，用户不再需要在Flink和Hive之间进行繁琐的数据迁移。 Flink与Hive的集成提供了更强大的数据处理能力，使得用户能够在Flink的流处理和批处理环境中充分利用Hive的元数据管理和存储功能。这种集成对于那些已经广泛使用Hive的大数据项目来说，意味着可以更加平滑地过渡到实时流处理，提升数据处理的效率和响应速度。同时，这也是Flink进一步完善其大数据生态系统，增强其在企业级应用中的竞争力的重要举措。

集成 Hive 功能

Flink 与 Hive 集成的功能在 1.9.0 版本中作为试用功能发布，存在不少使用的

局限性，但是不久将发布的 Flink 1.10 稳定版本会愈加完善集成 Hive 的功能

并应用到企业场景中。

为了让读者提前体验 Flink 1.10 集成 Hive 的功能，笔者会基于 Cloudera

CDH 编译 Flink 1.10.0 RC1 版本并进行较为完整的测试。

1. 环境信息

CDH 版本：cdh5.16.2

Flink 版本：release-1.10.0-rc1

Flink 使用了 RC 版本，仅供测试，不建议用于生产环境。

目前 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品，格外便利

用户使用。

CDH 环境开启了 Sentry 和 Kerberos。

2. 下载并编译 Flink

$ wget https://github.com/apache/flink/archive/release-1.10.0-

rc1.tar.gz

$ tar zxvf release-1.10.0-rc1.tar.gz

$ cd flink-release-1.10.0-rc1/

$ mvn clean install -DskipTests -Pvendor-repos -

Dhadoop.version=2.6.0-cdh5.16.2

不出不测的话，编译到 flink-hadoop-fs 模块时，会报如下错误：

[ERROR] Failed to execute goal on project flink-hadoop-fs: Could not

resolve dependencies for project org.apache.flink:flink-hadoop-

fs:jar:1.10.0: Failed to collect dependencies at org.apache.flink:flink-

shaded-hadoop-2:jar:2.6.0-cdh5.16.2-9.0: Failed to read artifact descriptor

for org.apache.flink:flink-shaded-hadoop-2:jar:2.6.0-cdh5.16.2-9.0: Could

not transfer artifact org.apache.flink:flink-shaded-hadoop-2:pom:2.6.0-

cdh5.16.2-9.0 from/to HDPReleases

(https://repo.hortonworks.com/content/repositories/releases/): Remote host

closed connection during handshake: SSL peer shut down incorrectly

剩余12页未读，继续阅读

bingbingbingduan

粉丝: 0

Flink集成Hive：全新Catalog接口解析

还在为搭建集群的期末作业发愁吗？最简单的搭建hadoop+spark+hive大数据集群搭建文档.docx

Flink1.7.2集群安装.docx

基于Flink构建实时数据仓库.docx

基于Flink的实时数仓建设实践.docx

专治数仓疑难杂症！美团点评 Flink 实时数仓经验分享.docx

hmyjsmst.docx

大数据职业发展方向.xmind.docx

大数据产品平台化体系.xmind.docx

大数据文章合集.docx

数据仓库调研.docx

最新资源