网站首页 > 知识剖析 正文
前言
Flink 本身是批流统一的处理框架,所以 Table API 和 SQL,就是批流统一的上层处理 API。目前功能尚未完善,处于活跃的开发阶段。 Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询(比如 select、filter 和 join)。而对于 Flink SQL,就是直接可以在代码中写 SQL,来实现一些查询(Query)操作。Flink 的 SQL 支持,基于实现了 SQL 标准的 Apache Calcite(Apache 开源 SQL 解析工具)。图片
1、导入所需要的的依赖包
<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-planner_2.12</artifactId> <version>1.10.1</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-api-scala-bridge_2.12</artifactId> <version>1.10.1</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-csv</artifactId> <version>1.10.1</version> </dependency>
flink-table-planner:planner 计划器,是 table API 最主要的部分,提供了运行时环境和生成程序执行计划的 planner; flink-table-api-scala-bridge:bridge 桥接器,主要负责 table API 和 DataStream/DataSet API的连接支持,按照语言分 java 和 scala。
这里的两个依赖,是 IDE 环境下运行需要添加的;如果是生产环境,lib 目录下默认已经有了 planner,就只需要有 bridge 就可以了。
当然,如果想使用用户自定义函数,或是跟 kafka 做连接,需要有一个 SQL client,这个包含在 flink-table-common 里。
2、两种 planner(old& blink)的区别
- 批流统一:Blink 将批处理作业,视为流式处理的特殊情况。所以,blink 不支持表和DataSet 之间的转换,批处理作业将不转换为 DataSet 应用程序,而是跟流处理一样,转换为 DataStream 程序来处理。
- 因为批流统一,Blink planner也不支持BatchTableSource ,而使用有界的
- Blink planner 只支持全新的目录,不支持已弃用的 ExternalCatalog。
- 旧 planner 和 Blink planner 的 FilterableTableSource 实现不兼容。旧的 planner 会把PlannerExpressions 下推到 filterableTableSource 中,而 blink planner 则会把 Expressions 下推。
- 基于字符串的键值配置选项仅适用于 Blink planner。
- PlannerConfig 在两个 planner 中的实现不同。
- Blink planner 会将多个 sink 优化在一个 DAG 中(仅在 TableEnvironment 上受支持,而在 StreamTableEnvironment 上不受支持)。而今 planner 的优化总是将每一个 sink 放在一个新的 DAG 中,其中所有 DAG 彼此独立。
- 旧的 planner 不支持目录统计,而 Blink planner 支持。
3、表(Table)的概念
TableEnvironment 可以注册目录 Catalog,并可以基于 Catalog 注册表。它会维护一个Catalog-Table 表之间的 map。 表(Table)是由一个标识符来指定的,由 3 部分组成:Catalog 名、数据库(database)名和对象名(表名)。如果没有指定目录或数据库,就使用当前的默认值。
4、连接到文件系统(Csv 格式)
连接外部系统在 Catalog 中注册表,直接调用 tableEnv.connect()就可以,里面参数要传入一个 ConnectorDescriptor,也就是 connector 描述器。对于文件系统的 connector 而言,flink内部已经提供了,就叫做 FileSystem()。
5、测试案例 (新)
需求: 将一个txt文本文件作为输入流读取数据过滤id不等于sensor_1的数据实现思路: 首先我们先构建一个table的env环境通过connect提供的方法来读取数据然后设置表结构将数据注册为一张表就可进行我们的数据过滤了(使用sql或者流处理方式进行解析)
准备数据
sensor_1,1547718199,35.8 sensor_6,1547718201,15.4 sensor_7,1547718202,6.7 sensor_10,1547718205,38.1 sensor_1,1547718206,32 sensor_1,1547718208,36.2 sensor_1,1547718210,29.7 sensor_1,1547718213,30.9
代码实现
import org.apache.flink.streaming.api.scala._ import org.apache.flink.table.api.{DataTypes} import org.apache.flink.table.api.scala._ import org.apache.flink.table.descriptors.{Csv, FileSystem, Schema} /** * @Package * @author 大数据老哥 * @date 2020/12/12 21:22 * @version V1.0 * 第一个Flinksql测试案例 */ object FlinkSqlTable { def main(args: Array[String]): Unit = { // 构建运行流处理的运行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment // 构建table环境 val tableEnv = StreamTableEnvironment.create(env) //通过 connect 读取数据 tableEnv.connect(new FileSystem().path("D:\\d12\\Flink\\FlinkSql\\src\\main\\resources\\sensor.txt")) .withFormat(new Csv()) //设置类型 .withSchema(new Schema() // 给数据添加元数信息 .field("id", DataTypes.STRING()) .field("time", DataTypes.BIGINT()) .field("temperature", DataTypes.DOUBLE()) ).createTemporaryTable("inputTable") // 创建一个临时表 val resTable = tableEnv.from("inputTable") .select("*").filter('id === "sensor_1") // 使用sql的方式查询数据 var resSql = tableEnv.sqlQuery("select * from inputTable where id='sensor_1'") // 将数据转为流进行输出 resTable.toAppendStream[(String, Long, Double)].print("resTable") resSql.toAppendStream[(String, Long, Double)].print("resSql") env.execute("FlinkSqlWrodCount") } }
6、TableEnvironment 的作用
- 注册 catalog
- 在内部 catalog 中注册表
- 执行 SQL 查询
- 注册用户自定义函数
- 注册用户自定义函数
- 保存对 ExecutionEnvironment 或 StreamExecutionEnvironment 的引用
在创建 TableEnv 的时候,可以多传入一个 EnvironmentSettings 或者 TableConfig 参数,可以用来配置 TableEnvironment 的一些特性。
7、 老版本创建流处理批处理
7.1老版本流处理
val settings = EnvironmentSettings.newInstance() .useOldPlanner() // 使用老版本 planner .inStreamingMode() // 流处理模式 .build() val tableEnv = StreamTableEnvironment.create(env, settings)
7.2 老版本批处理
val batchEnv = ExecutionEnvironment.getExecutionEnvironment val batchTableEnv = BatchTableEnvironment.create(batchEnv)
7.3 blink 版本的流处理环境
val bsSettings = EnvironmentSettings.newInstance() .useBlinkPlanner() .inStreamingMode().build() val bsTableEnv = StreamTableEnvironment.create(env, bsSettings)
7.4 blink 版本的批处理环境
val bbSettings = EnvironmentSettings.newInstance() .useBlinkPlanner() .inBatchMode().build() val bbTableEnv = TableEnvironment.create(bbSettings)
总结:
本篇文章主要讲解了Flink SQL 入门操作,后面我会分享一些关于Flink SQL连接Kafka、输出到kafka、MySQL等
猜你喜欢
- 2024-11-22 做测试不会 SQL?超详细的 SQL 查询语法教程来啦!
- 2024-11-22 MySQL之SQL优化
- 2024-11-22 「SQL数据分析系列」4.过滤操作
- 2024-11-22 SQL基本语句练习(基础版)
- 2024-11-22 数据分析师数据查询方法必备,SQL取数,简单查询与高级查询
- 2024-11-22 5大步骤+10个案例,堪称业内SQL优化万能公式
- 2024-11-22 SQL点滴(查询篇):数据库基础查询案例实战
- 2024-11-22 「SQL」 当我们join数据时,到底发生了什么?一文让你不再混淆
- 2024-11-22 002 Excel SQL 比较运算符的使用--OLE DB方法
- 2024-11-22 MySQL数据库常用的子查询SQL命令
- 最近发表
- 标签列表
-
- xml (46)
- css animation (57)
- array_slice (60)
- htmlspecialchars (54)
- position: absolute (54)
- datediff函数 (47)
- array_pop (49)
- jsmap (52)
- toggleclass (43)
- console.time (63)
- .sql (41)
- ahref (40)
- js json.parse (59)
- html复选框 (60)
- css 透明 (44)
- css 颜色 (47)
- php replace (41)
- css nth-child (48)
- min-height (40)
- xml schema (44)
- css 最后一个元素 (46)
- location.origin (44)
- table border (49)
- html tr (40)
- video controls (49)