银行大数据平台做增量数据抽取,详细说明,带代码

时间: 2024-05-01 10:22:11 浏览: 11
银行的大数据平台需要从各个业务系统中抽取数据,以便进行数据分析和挖掘。增量数据抽取是一种常用的方式,可以定期抽取最新的数据,而不是全量抽取所有数据。以下是一种基于Apache Kafka和Apache Spark的增量数据抽取方案。 1. 准备工作 首先需要安装和配置以下工具和组件: - Apache Kafka - Apache Spark - MySQL数据库 2. 创建Kafka主题 在Kafka中创建一个主题(topic)用于存储业务系统中的数据。可以使用Kafka命令行工具创建主题: ``` bin/kafka-topics.sh --create --topic bank-data --zookeeper localhost:2181 --replication-factor 1 --partitions 1 ``` 3. 编写数据生成器 为了模拟业务系统中的数据,需要编写一个数据生成器。可以使用Python编写一个简单的生成器,每隔一定时间生成一条随机的JSON格式数据,并将其发送到Kafka中。代码如下: ```python import time import json from kafka import KafkaProducer producer = KafkaProducer(bootstrap_servers='localhost:9092') while True: data = { 'account_number': random.randint(10000000, 99999999), 'transaction_amount': random.uniform(0, 10000), 'transaction_time': time.time() } producer.send('bank-data', json.dumps(data).encode()) time.sleep(1) ``` 4. 创建MySQL表 为了存储增量数据抽取的状态信息,需要在MySQL中创建一个表。以下是一个简单的表结构: ``` CREATE TABLE incremental_extraction ( id INT PRIMARY KEY AUTO_INCREMENT, last_offset BIGINT, last_timestamp DATETIME ); ``` 5. 编写Spark作业 使用Spark Streaming读取Kafka主题中的数据,并将其保存到MySQL中。为了实现增量数据抽取,需要记住上一次抽取的位置(即offset),并只读取新的数据。以下是一个基于Scala的Spark作业示例: ```scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.kafka010._ import org.apache.kafka.common.serialization.StringDeserializer import java.sql.{Connection, DriverManager, ResultSet} object IncrementalExtraction { def main(args: Array[String]): Unit = { val brokers = "localhost:9092" val groupId = "incremental-extraction" val topics = Set("bank-data") val sparkConf = new SparkConf().setAppName("IncrementalExtraction") val ssc = new StreamingContext(sparkConf, Seconds(1)) ssc.checkpoint("checkpoint") val kafkaParams = Map[String, Object]( "bootstrap.servers" -> brokers, "key.deserializer" -> classOf[StringDeserializer], "value.deserializer" -> classOf[StringDeserializer], "group.id" -> groupId, "auto.offset.reset" -> "latest", "enable.auto.commit" -> (false: java.lang.Boolean) ) val jdbcUrl = "jdbc:mysql://localhost:3306/bank_data" val jdbcUser = "root" val jdbcPassword = "password" var lastOffset = 0L var lastTimestamp = new java.sql.Timestamp(0) def getOffsetFromDb(): Unit = { Class.forName("com.mysql.jdbc.Driver") val conn = DriverManager.getConnection(jdbcUrl, jdbcUser, jdbcPassword) val stmt = conn.createStatement() val rs = stmt.executeQuery("SELECT * FROM incremental_extraction ORDER BY id DESC LIMIT 1") if (rs.next()) { lastOffset = rs.getLong("last_offset") lastTimestamp = rs.getTimestamp("last_timestamp") } conn.close() } def saveOffsetToDb(offset: Long, timestamp: java.sql.Timestamp): Unit = { Class.forName("com.mysql.jdbc.Driver") val conn = DriverManager.getConnection(jdbcUrl, jdbcUser, jdbcPassword) val stmt = conn.prepareStatement("INSERT INTO incremental_extraction (last_offset, last_timestamp) VALUES (?, ?)") stmt.setLong(1, offset) stmt.setTimestamp(2, timestamp) stmt.executeUpdate() conn.close() } getOffsetFromDb() val messages = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, ConsumerStrategies.Subscribe[String, String](topics, kafkaParams, Map("bank-data" -> lastOffset)) ) val transactions = messages.filter { message => val data = parseJson(message.value()) data("transaction_time") > lastTimestamp }.map { message => parseJson(message.value()) } transactions.foreachRDD { rdd => if (!rdd.isEmpty()) { val lastMessage = rdd.reduce((a, b) => if (a("transaction_time") > b("transaction_time")) a else b) lastOffset = lastMessage("offset").asInstanceOf[Long] lastTimestamp = new java.sql.Timestamp(lastMessage("transaction_time").asInstanceOf[Double].toLong) saveOffsetToDb(lastOffset, lastTimestamp) rdd.foreachPartition { partitionOfRecords => Class.forName("com.mysql.jdbc.Driver") val conn = DriverManager.getConnection(jdbcUrl, jdbcUser, jdbcPassword) partitionOfRecords.foreach { record => val stmt = conn.prepareStatement("INSERT INTO transactions (account_number, transaction_amount, transaction_time) VALUES (?, ?, ?)") stmt.setInt(1, record("account_number").asInstanceOf[Int]) stmt.setDouble(2, record("transaction_amount").asInstanceOf[Double]) stmt.setTimestamp(3, new java.sql.Timestamp(record("transaction_time").asInstanceOf[Double].toLong)) stmt.executeUpdate() } conn.close() } } } ssc.start() ssc.awaitTermination() } def parseJson(jsonString: String): Map[String, Any] = { JSON.parseFull(jsonString).get.asInstanceOf[Map[String, Any]] } } ``` 该作业首先从MySQL中获取上一次抽取的位置和时间戳,然后使用Spark Streaming读取Kafka主题中的数据,并过滤出新的数据。最后将新的数据保存到MySQL中,并更新上一次抽取的位置和时间戳。 6. 运行作业 将以上代码保存为一个可运行的Jar包,并在命令行中运行以下命令启动Spark作业: ``` spark-submit --class IncrementalExtraction --master local[*] incremental_extraction.jar ``` 该作业将会不断从Kafka中读取新的数据,并将其保存到MySQL中。通过修改数据生成器中的生成频率和数量,可以模拟不同的数据量和速度。同时,可以通过修改作业中的时间窗口大小和MySQL表结构来适应不同的场景和需求。

相关推荐

最新推荐

recommend-type

Informatica-时间增量抽取更新图文教程.docx

数据更新方式有两种增量更新或者全量更新,全量更新直接删除插入即可,增量更新则需要判断跟新条件。增量更新一般采用按时间戳和数据对比的方式更新,本文介绍在informatica中如何使用参数和组件,实现数据更新
recommend-type

MongoDB/SQL Server增量同步方案

依据采用的原理不同分为如下方法:依据时间戳更新数据、通过触发器更新数据以及SQL Server特有的CDC(change data capture)机制更新数据。本文针对公司的数据库同步需求,首先介绍3种方法的优缺点,然后提出其中可行...
recommend-type

Postgresql备份和增量恢复方案

主要给大家介绍了关于Postgresql备份和增量恢复的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Postgresql具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
recommend-type

增量式PID控制算法.doc

增量式PID算法 原理及实现方法 物理模型 软件算法流程图流程图 增量式PID算法的优点,对声音信标麦克纳姆轮pid的代码 写法有帮助,里面还有一个连接,附带代码,可以参考。搜集全网最实用资料。
recommend-type

python 爬虫 实现增量去重和定时爬取实例

今天小编就为大家分享一篇python 爬虫 实现增量去重和定时爬取实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

解答下列问题:S—>S;T|T;T—>a 构造任意项目集规范族,构造LR(0)分析表,并分析a;a

对于这个文法,我们可以构造以下项目集规范族: I0: S -> .S S -> .T T -> .a I1: S -> S. [$ T -> T. [$ I2: S -> T. I3: S -> S.;S S -> S.;T T -> T.;a 其中,点(.)表示已经被扫描过的符号,;$表示输入串的结束符号。 根据项目集规范族,我们可以构造出LR(0)分析表: 状态 | a | $ ---- | - | - I0 | s3| I1 | |acc I2 | | 其中s3表示移进到状态3,acc表示接受。在分析字符串a;a时,我们可以按照以下步骤进行
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。