大数据分析:挑战与解决方案

需积分: 48 19 下载量 17 浏览量 更新于2024-07-20 2 收藏 2.14MB PDF 举报
"该资料主要探讨了大数据分析的案例、方法以及所面临的挑战,由中山大学海量数据与云计算研究中心黄志洪在DTCC2012会议上分享。内容涉及数据分析者遇到的问题,如数据量增长导致的性能瓶颈、实时性需求增加、复杂计算模型以及传统工具的局限性。此外,还详细介绍了信令监测的场景,以及一个具体的数据库体系架构,包括数据库服务器、存储设备和入库、查询的硬件配置。在数据库设计方面,采用了ASM(Automatic Storage Management)并实施了按时间分区的策略来应对大数据。然而,随着入库节点的增多,出现了入库故障,AWR(Automatic Workload Repository)报告揭示了系统的性能问题,尤其是BufferCache的管理。" 本文重点讨论了大数据分析的实践问题和应对策略。首先,大数据分析者面临着数据量快速增长带来的入库和查询性能瓶颈,同时用户对分析结果的实时性和响应时间要求不断提升。传统的数据分析工具,如R、SAS、SQL,已经难以满足这些需求。在这种背景下,大数据分析需要寻求新的解决方案。 在具体案例中,黄志洪介绍了信令监测的场景,该场景需要处理每小时200GB的数据,存储设备超过1000个硬盘。为了处理这样的大数据量,采用了一种特殊的数据库架构,包括配备128GB内存和48颗CPU的HP小型机,以及双节点RAC(Real Application Clusters)数据库服务器,一个用于入库,另一个用于查询。存储系统使用了HP虚拟化存储。然而,即使使用了表分区设计,入库速度仍然成为问题,特别是在增加入库节点后,sqlldr工具出现了停顿。 为了解决这些问题,数据库设计上选择了Oracle的ASM作为物理存储管理,并且将大表按照时间进行分区,最初是按小时,后来调整为15分钟,甚至每分钟切换一次分区,以适应数据增长。尽管如此,随着入库节点的增多,性能问题依然存在,AWR报告揭示了系统的瓶颈,特别是BufferCache的使用效率,这可能需要进一步优化以提高整体性能。 大数据分析不仅需要应对数据量的挑战,还需要解决实时性、计算复杂度和系统性能优化等问题。这个案例展示了在实际操作中如何运用各种技术手段,如数据库分区和集群,以及如何通过监控和报告工具(如AWR)来诊断和改进系统性能。然而,随着大数据环境的持续演变,新的挑战将继续涌现,需要不断探索和研究更先进的分析方法和技术。