Swifts动态流处理框架:SQL支持与数据查找手册

需积分: 0 0 下载量 188 浏览量 更新于2024-08-04 收藏 277KB DOCX 举报
"这篇文档是关于wh swifts的使用手册,日期为201903131,主要介绍了如何使用swifts进行HBase和Redis的数据处理,提供了类似SQL的语法支持。swifts是一个动态流式处理框架,专注于通过SQL实现对数据的实时处理。此外,它还支持多种数据库的lookup操作,包括MySQL、Oracle等,并且在Sparkx中支持leftjoin。" 在大数据处理领域,Swifts扮演着一个关键角色,它为业务人员提供了通过编写SQL语句来处理实时数据的能力,消除了对技术背景的高要求。Swifts的设计流程基于Sparkx,数据首先由DBUS从源数据库实时抽取并转换为UMS格式,然后存储在Kafka中。Swifts从Kafka中读取这些数据,依据用户定义的SQL逻辑对数据进行持续的操作和变换。 Swifts的一个独特功能是其lookup机制,它能够从多种不同的数据库(如Mysql、Oracle、ElasticSearch、MongoDB、Cassandra、Hbase和SQLServer)中查询数据。对于HBase和Redis这样的非SQL数据库,swifts提供了类SQL的语法支持,使得数据查询和处理更为便捷。例如,用户可以通过单字段或多个字段的join操作来联接数据。 在处理过程中,Swifts还提供了一种检查规则(option)和超时等待的机制。用户可以设置规则来检查生成的宽表中是否存在null值,如果发现无效数据,原始数据会被保存为parquet格式等待下次处理。如果数据在超时后仍然无效,用户可以选择drop、alert或send等策略进行处理。 Swifts的主要操作包括join、union等,所有这些操作都是在数据流入系统时动态进行的。值得注意的是,虽然swifts支持从各种数据库进行lookup操作,但具体支持的数据库加工操作(如groupby、join等)取决于目标数据库自身的能力,swifts并不保证所有操作都能执行。 Swifts提供了一个灵活的、SQL驱动的实时数据处理框架,简化了大数据处理流程,尤其适合那些希望用SQL处理流数据的业务团队。通过集成多种数据库支持和自定义检查规则,Swifts能够在保证数据质量的同时,有效地处理大规模的实时数据流。