订单服务器交易统计与审计方案
需积分: 0 64 浏览量
更新于2024-08-04
收藏 56KB DOCX 举报
"该文主要描述了一个大数据处理的场景,涉及到实时统计和离线审计,以及数据源生成、数据消费、存储与审计的过程。"
在这个大数据处理任务中,首先面临的需求是统计每分钟的交易量,包括总交易额,并且需要对数据进行审计以确保准确性。以下是具体的技术实现步骤:
0. 产生交易数据:
- 使用`SheetGeneratorServer`类模拟生成交易数据,每秒产生一个记录。
- 数据通过`log4j`写入日志文件,按每128MB分片。
- 同时将数据发送到`Kafka`,定义自定义的`topic`。
1. 实时统计汇总:
- 使用`Storm`框架从`Kafka`消费数据,创建独立的工程处理。
- 实时数据存储在`Redis`中,用于快速查询。
- 每一分钟的交易数据存储在`MySQL`数据库中,创建`trade_minutes`表,包含`id`(主键)、`value`(交易额)和`logtime`(时间戳)字段。
2. 离线统计汇总:
- 使用`FlumeNG`监控日志文件,当数据发生变化时,实时将数据写入`HDFS`。
- 在`HDFS`上创建`Hive`外部表,以管理导入的数据。
3. 审计:
- 编写Java方法`audit(String minute)`,参数为分钟级别的日期时间格式(如201612070949)。
- 对比`MySQL`和`Hive`中对应时间范围内的交易数据,检查两者是否一致。
集群的启动和配置包括:
- 关闭防火墙:`service iptables stop`
- 启动Redis:`redis-server /opt/redis/etc/redis.conf`
- 启动MySQL:`service mysqld start`
- 启动Zookeeper:在每个节点上运行`bin/zkServer.sh start`,并检查日志和进程状态。
- 启动Kafka:`nohup bin/kafka-server-start.sh config/server.properties > nohup.out 2>&1&`
- 创建`Kafka`主题:`bin/kafka-topics.sh --create --zookeeper 192.168.1.`
以上方案结合了实时处理和批量处理的优点,通过`Storm`实现快速响应,通过`Flume`和`Hive`实现大规模离线分析。审计机制确保了数据的一致性和准确性,整个流程覆盖了数据生成、传输、存储和验证的全过程,是大数据处理的一个典型应用场景。
2022-08-08 上传
2009-06-30 上传
2024-09-12 上传
896 浏览量
1126 浏览量
1248 浏览量
点击了解资源详情
点击了解资源详情
点击了解资源详情
咖啡碎冰冰
- 粉丝: 18
- 资源: 292
最新资源
- Chausie提供了可自定义的视图容器,用于管理内容页面之间的导航。 :猫:-Swift开发
- DianMing.rar_android开发_Java_
- Mockito-with-Junit:与Junit嘲笑
- recycler:[只读] TYPO3核心扩展“回收者”的子树拆分
- 分析:是交互式连续Python探查器
- emeth-it.github.io:我们的网站
- talaria:TalariaDB是适用于Presto的分布式,高可用性和低延迟时间序列数据库
- lexi-compiler.io:一种多语言,多目标的模块化研究编译器,旨在通过一流的插件支持轻松进行修改
- 实时WebSocket服务器-Swift开发
- EMIStream_Sales_demo.zip_技术管理_Others_
- weiboSpider:新浪微博爬虫,用python爬取新浪微博数据
- Vue-NeteaseCloud-WebMusicApp:Vue高仿网易云音乐,基本实现网易云所有音乐,MV相关功能,转变更新到第二版,仅用于学习,下面有详细教程
- asciimatics:一个跨平台的程序包,可进行类似curses的操作,外加更高级别的API和小部件,可创建文本UI和ASCII艺术动画
- Project_4_Java_1
- csv合并js
- containerd-zfs-snapshotter:使用本机ZFS绑定的ZFS容器快照程序