FlinkSql深入：Table操作与连接详解

需积分: 0 197 浏览量更新于2024-08-05 收藏 539KB PDF 举报

在Flink SQL的系列教程中，本篇文章主要介绍了Flink SQL中的Table操作，特别是如何在TableEnvironment中处理和管理数据表。Flink SQL中的Table概念是核心组成部分，它允许用户以更直观的方式操作数据源，无论是来自外部文件系统还是数据库。首先，TableEnvironment在Flink中扮演了关键角色，它能够注册Catalog（目录），这是一种逻辑上的组织结构，用于存放不同来源的表（Table）。每个Table都由三个基本组件构成：Catalog名称、数据库名称和对象名称（即表名）。如果不指定Catalog或数据库，TableEnvironment会使用默认设置来处理。 Table类型包括两种：常规Table（通常对应于外部数据源，如CSV文件、数据库表或消息队列）和虚拟Table（View，通常是现有TableAPI查询或SQL查询的结果）。常规Table的注册可以通过`connect()`方法，这里以文件系统为例，使用`FileSystem()` connector描述器，旧版本的CSV描述器可能会被新的、遵循RFC-4180标准的`Csv()`描述器替换，后者需要额外引入flink-csv依赖。连接外部文件系统时，示例代码展示了如何通过`tableEnv.connect()`方法指定数据源路径，并使用`withFormat()`方法配置数据解析格式，例如从旧版的`OldCsv`转换为新版的`Csv`。同时，通过`withSchema()`定义表的字段和数据类型，最后使用`createTemporaryTable()`创建一个临时表。对于与Kafka的集成，虽然未在提供的代码片段中展示，但Flink也支持连接到Kafka作为数据源。连接Kafka通常涉及到创建一个新的Table实例，使用特定的Kafka connector，并可能需要配置相应的消费组和分区等信息。本节内容深入讲解了Flink SQL中的Table操作，包括表的注册、数据源连接、格式化和结构定义，这对于理解和操作Flink流处理和批处理中的数据至关重要。通过掌握这些基础知识，开发人员可以更加高效地在Flink环境中进行数据处理和分析。

不要轻易凝视深渊

FlinkSQl之Table的操作

注册表

表（Table）的概念

TableEnvironment可以注册目录Catalog，并可以基于Catalog注册表。它会维护一个Catalog-Table

表之间的map。表（Table）是由一个“标识符”来指定的，由3部分组成：Catalog名、数据库

（database）名和对象名（表名）。如果没有指定目录或数据库，就使用当前的默认值。

表可以是常规的（Table，表），或者虚拟的（View，视图）。常规表（Table）一般可以用来

描述外部数据，比如文件、数据库表或消息队列的数据，也可以直接从 DataStream转换而来。

视图可以从现有的表中创建，通常是table API或者SQL查询的一个结果。

连接到文件系统（Csv格式）

连接外部系统在Catalog中注册表，直接调用tableEnv.connect()就可以，里面参数要传入一个

ConnectorDescriptor，也就是connector描述器。对于文件系统的connector而言，ﬂink内部已

经提供了，就叫做FileSystem()。

代码

这是旧版本的csv格式描述器。由于它是非标的，跟外部系统对接并不通用，所以将被弃用，以

后会被一个符合RFC-4180标准的新format描述器取代。新的描述器就叫Csv()，但ﬂink没有直接

提供，需要引入依赖ﬂink-csv：

代码非常类似，只需要把withFormat里的OldCsv改成Csv就可以了。

连接到Kafka

tableEnv

.connect( new FileSystem().path("sensor.txt")) // 定义表数据来源，外部连接

.withFormat(new OldCsv())  // 定义从外部系统读取数据之后的格式化方法

.withSchema( new Schema()

 .field("id", DataTypes.STRING())

 .field("timestamp", DataTypes.BIGINT())

 .field("temperature", DataTypes.DOUBLE())

)  // 定义表结构

.createTemporaryTable("inputTable")  // 创建临时表

 <groupId>org.apache.flink</groupId>

 <artifactId>flink-csv</artifactId>

 <version>1.10.0</version>

</dependency>

下载后可阅读完整内容，剩余7页未读，立即下载

永远的12

粉丝: 1045
资源: 320

FlinkSql深入：Table操作与连接详解

【FlinkSql篇03】FlinkSql之流式持续查询1

Flink SQL大数据项目实战（基于Flink1.14.3版本）

【FlinkSql篇05】FlinkSql之函数1

【FlinkSql篇01】FlinkSql之入门概述1

Flink基础系列32-Table API和Flink SQL之时间窗口

flinksql LATERAL TABLE

flink sql CREATE TABLE AS SELECT

flink sql中 table函数作用

flinksql 操作clickhouse需要的jar

Apache Flink SQL教程：集成TableAPI与SQL的实时流批处理

最新资源