DM7:大数据环境下分析应用的性能优化与支持策略
100 浏览量
更新于2024-06-28
收藏 4.37MB DOCX 举报
"本文档主要探讨了DM(假设为某数据分析处理平台)在面对大数据量环境下分析型应用的支持方案,特别是在DTCC2020项目中的具体实践和挑战。首先,通过一个实际案例,我们了解到DTCC2020处理的数据量巨大,日增长达到56GB,且包含大量数值、字符串和时间类型的结构化数据。数据存储容量已超过3TB,最大的计费表有约150亿条记录,预计未来在线数据规模将达到400TB以上。
DTCC2020的应用场景中,业务流程主要包括数据清洗入库、分析统计型查询,其中查询分析过程复杂,涉及连接查询、子查询、数据分组与排序等操作,虽然SQL语句相对简单,但对IO性能要求极高。日常数据维护方面,包括用户手动修改记录、批量删除以及定期维护,对查询性能有特别高的依赖,尤其是在第一个过滤步骤,由于条件不确定性,可能导致千万级别结果集的返回。
然而,原有的DM产品在面对这些挑战时显得力不从心,因为其仅支持行式存储,查询优化器较为简单,虚拟机实现存在不足,物理存储设计和多机资源利用效率不高,日志系统复杂且数据分片技术不成熟。为了解决这些问题,DM团队在2020年启动了新一代产品DM7的研发,经过技术积累,逐步引入物理操作符和高级特性,并尝试与Oracle兼容,以提升稳定性和功能性。
尽管DM7在稳定性与功能上与开源系统相比仍有一定的差距,但从5.6版本到6.0版本,可以看到DM产品线的持续改进。DM7的出现标志着对大数据量环境下的分析型应用有了更有力的支持,特别是对于查询性能、数据装载速度和大规模数据处理能力的提升。
总结来说,这份文档揭示了DM在大数据环境下应对分析型应用的关键挑战,展示了从实际问题出发,通过技术创新和产品升级来满足不断增长的数据处理需求的过程。"
2021-11-06 上传
2022-12-02 上传
2023-02-10 上传
2021-10-28 上传
2022-11-18 上传
2022-06-23 上传