大数据分析:挑战与解决方案
3星 · 超过75%的资源 需积分: 16 44 浏览量
更新于2024-07-23
1
收藏 2.14MB PDF 举报
"中山大学海量数据与云计算研究中心的黄志洪在DTCC2012会议上探讨了大数据分析的案例、方法以及所面临的挑战。他指出,随着数据规模的急剧增长,传统数据处理方法在性能、实时性、计算复杂度等方面遇到了瓶颈。报告中提到了信令监测的应用场景,描述了一套包括数据库服务器、存储设备在内的系统架构,并讨论了数据库设计、入库过程中的问题及AWR报告分析,特别是BufferCache的相关内容。"
在大数据分析的背景下,黄志洪首先强调了数据分析者所遇到的主要问题。这些问题包括:数据量过大导致入库和查询性能下降;用户对应用和分析结果的实时性需求增加;复杂计算模型的使用使得计算量显著增加;传统的数据分析工具如R、SAS、SQL等在处理大数据时显得力不从心。
黄志洪介绍了信令监测作为大数据应用场景的例子,这是一个监控通信网络中信号交互的过程。为了处理海量数据,他们构建了一个强大的系统架构,包括配备128GB内存和48颗CPU的HP小型机作为数据库服务器,以及超过1000块硬盘的HP虚拟化存储。数据入库通过sqlldr常规路径进行,并且大量使用表分区策略来优化性能。然而,每小时高达200GB的数据写入量仍然造成了入库和查询的瓶颈。
在数据库设计方面,黄志洪提到物理上采用ASM(Automatic Storage Management),所有大表都按照时间进行分区,起初按小时分区,但随着数据量的增加,逐渐缩短至15分钟,甚至每分钟切换一次分区。sqlldr入库方式在多节点并发时遇到了停顿问题。
为了解决这些挑战,黄志洪展示了AWR(Automatic Workload Repository)报告,这是一个Oracle数据库性能分析工具,用于识别性能瓶颈。报告详细分析了BufferCache,这是数据库缓存机制的一部分,用于存储最近访问的数据块,以提高数据读取速度。通过对AWR报告的深入解读,可以找出系统性能的短板并进行相应的优化。
大数据分析面临着性能、实时性和计算复杂度的挑战,需要创新的解决方案和工具来适应不断增长的数据规模。黄志洪的报告提供了实际案例和实践经验,对于理解大数据处理的复杂性和解决策略具有重要价值。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2023-08-09 上传
2021-11-06 上传
2021-09-06 上传
2022-05-20 上传
2021-11-06 上传
2017-03-04 上传
zbq
- 粉丝: 0
- 资源: 8
最新资源
- 用于学习vue2、node、MySQL的自研项目.zip
- Python-with-machine-learning
- ufmt:格式化所有代码文件!
- LinhProfile
- 这个是很久之前自己学习MySQL所做的一些笔记.zip
- FLARE21nnUNetBaseline:FLARE21的基线nnUNet模型
- 抛出无法找到主类:org.apache.axis.wsdl.WSDL2Java
- workshop-vue:WorkShop Vue,主要概念介绍
- white-helmets:在白头盔纸上复制RT Disinfo的代码
- Java SSM基于JavaEE的网上图书分享系统【优质毕业设计、课程设计项目分享】
- Panzer-Predicament:作者:安德鲁·李,克里斯托弗·敏和凯文·墨菲
- pantheon-helper:用于 Pantheon 服务的常用 Git 和 Drush 命令的 Bash 菜单
- 孤独聊天
- 源码主要用于学习:1. Spring Boot+Hadoop+Hive+Hbase实现数据基本操作,Hive数据源使.zip
- resr_rpwq.dll库文件
- Kapok 超简单的序列化库