大数据分析:挑战与解决方案
需积分: 48 17 浏览量
更新于2024-07-20
2
收藏 2.14MB PDF 举报
"该资料主要探讨了大数据分析的案例、方法以及所面临的挑战,由中山大学海量数据与云计算研究中心黄志洪在DTCC2012会议上分享。内容涉及数据分析者遇到的问题,如数据量增长导致的性能瓶颈、实时性需求增加、复杂计算模型以及传统工具的局限性。此外,还详细介绍了信令监测的场景,以及一个具体的数据库体系架构,包括数据库服务器、存储设备和入库、查询的硬件配置。在数据库设计方面,采用了ASM(Automatic Storage Management)并实施了按时间分区的策略来应对大数据。然而,随着入库节点的增多,出现了入库故障,AWR(Automatic Workload Repository)报告揭示了系统的性能问题,尤其是BufferCache的管理。"
本文重点讨论了大数据分析的实践问题和应对策略。首先,大数据分析者面临着数据量快速增长带来的入库和查询性能瓶颈,同时用户对分析结果的实时性和响应时间要求不断提升。传统的数据分析工具,如R、SAS、SQL,已经难以满足这些需求。在这种背景下,大数据分析需要寻求新的解决方案。
在具体案例中,黄志洪介绍了信令监测的场景,该场景需要处理每小时200GB的数据,存储设备超过1000个硬盘。为了处理这样的大数据量,采用了一种特殊的数据库架构,包括配备128GB内存和48颗CPU的HP小型机,以及双节点RAC(Real Application Clusters)数据库服务器,一个用于入库,另一个用于查询。存储系统使用了HP虚拟化存储。然而,即使使用了表分区设计,入库速度仍然成为问题,特别是在增加入库节点后,sqlldr工具出现了停顿。
为了解决这些问题,数据库设计上选择了Oracle的ASM作为物理存储管理,并且将大表按照时间进行分区,最初是按小时,后来调整为15分钟,甚至每分钟切换一次分区,以适应数据增长。尽管如此,随着入库节点的增多,性能问题依然存在,AWR报告揭示了系统的瓶颈,特别是BufferCache的使用效率,这可能需要进一步优化以提高整体性能。
大数据分析不仅需要应对数据量的挑战,还需要解决实时性、计算复杂度和系统性能优化等问题。这个案例展示了在实际操作中如何运用各种技术手段,如数据库分区和集群,以及如何通过监控和报告工具(如AWR)来诊断和改进系统性能。然而,随着大数据环境的持续演变,新的挑战将继续涌现,需要不断探索和研究更先进的分析方法和技术。
2022-06-20 上传
2023-05-25 上传
2023-12-21 上传
2023-11-25 上传
2023-07-26 上传
2023-10-09 上传
2024-01-01 上传
2023-12-29 上传
2023-08-27 上传
baojc85413412
- 粉丝: 3
- 资源: 16
最新资源
- 天池大数据比赛:伪造人脸图像检测技术
- ADS1118数据手册中英文版合集
- Laravel 4/5包增强Eloquent模型本地化功能
- UCOSII 2.91版成功移植至STM8L平台
- 蓝色细线风格的PPT鱼骨图设计
- 基于Python的抖音舆情数据可视化分析系统
- C语言双人版游戏设计:别踩白块儿
- 创新色彩搭配的PPT鱼骨图设计展示
- SPICE公共代码库:综合资源管理
- 大气蓝灰配色PPT鱼骨图设计技巧
- 绿色风格四原因分析PPT鱼骨图设计
- 恺撒密码:古老而经典的替换加密技术解析
- C语言超市管理系统课程设计详细解析
- 深入分析:黑色因素的PPT鱼骨图应用
- 创新彩色圆点PPT鱼骨图制作与分析
- C语言课程设计:吃逗游戏源码分享