大数据分析:挑战与解决方案

3星 · 超过75%的资源 需积分: 16 15 下载量 44 浏览量 更新于2024-07-23 1 收藏 2.14MB PDF 举报
"中山大学海量数据与云计算研究中心的黄志洪在DTCC2012会议上探讨了大数据分析的案例、方法以及所面临的挑战。他指出,随着数据规模的急剧增长,传统数据处理方法在性能、实时性、计算复杂度等方面遇到了瓶颈。报告中提到了信令监测的应用场景,描述了一套包括数据库服务器、存储设备在内的系统架构,并讨论了数据库设计、入库过程中的问题及AWR报告分析,特别是BufferCache的相关内容。" 在大数据分析的背景下,黄志洪首先强调了数据分析者所遇到的主要问题。这些问题包括:数据量过大导致入库和查询性能下降;用户对应用和分析结果的实时性需求增加;复杂计算模型的使用使得计算量显著增加;传统的数据分析工具如R、SAS、SQL等在处理大数据时显得力不从心。 黄志洪介绍了信令监测作为大数据应用场景的例子,这是一个监控通信网络中信号交互的过程。为了处理海量数据,他们构建了一个强大的系统架构,包括配备128GB内存和48颗CPU的HP小型机作为数据库服务器,以及超过1000块硬盘的HP虚拟化存储。数据入库通过sqlldr常规路径进行,并且大量使用表分区策略来优化性能。然而,每小时高达200GB的数据写入量仍然造成了入库和查询的瓶颈。 在数据库设计方面,黄志洪提到物理上采用ASM(Automatic Storage Management),所有大表都按照时间进行分区,起初按小时分区,但随着数据量的增加,逐渐缩短至15分钟,甚至每分钟切换一次分区。sqlldr入库方式在多节点并发时遇到了停顿问题。 为了解决这些挑战,黄志洪展示了AWR(Automatic Workload Repository)报告,这是一个Oracle数据库性能分析工具,用于识别性能瓶颈。报告详细分析了BufferCache,这是数据库缓存机制的一部分,用于存储最近访问的数据块,以提高数据读取速度。通过对AWR报告的深入解读,可以找出系统性能的短板并进行相应的优化。 大数据分析面临着性能、实时性和计算复杂度的挑战,需要创新的解决方案和工具来适应不断增长的数据规模。黄志洪的报告提供了实际案例和实践经验,对于理解大数据处理的复杂性和解决策略具有重要价值。