没有合适的资源?快使用搜索试试~ 我知道了~
首页转发_ETL的过程原理和数据仓库建设
资源详情
资源评论
资源推荐
优化方案:ETL 的过程原理和数据仓库建设
根据笔者多年的数据仓库实施经验,同时结合 ETL 的过程原理和数据仓库建设
方法归纳总结了以下优化的方案,详细内容请读者参考下文:这篇论坛文章
(赛迪网技术社区)
1.引言
数据仓库建设中的 ETL(Extract, Transform, Load)是数据抽取、转换和
装载到模型的过程,整个过程基本是通过控制用 SQL 语句编写的存储过程和函
数的方式来实现对数据的直接操作,SQL 语句的效率将直接影响到数据仓库后
台的性能。
目前,国内的大中型企业基本都具有四年以上计算机信息系统应用经验,
积累了大量可分析的业务数据,这些信息系统中的数据需要通过搭建数据仓库
平台才能得到科学的分析,这也是近几年数据仓库系统建设成为 IT 领域热门话
题的原因。
2.优化的思路分析
数据仓库 ETL 过程的主要特点是:面对海量的数据进行抽取;分时段对大
批量数据进行删除、更新和插入操作;面对异常的数据进行规则化的清洗;大
量的分析模型重算工作;有特定的过程处理时间规律性,一般整个 ETL 过程需
要在每天的零点开始到 6 点之前完成。所以,针对 ETL 过程的优化主要是结合
数据仓库自身的特点,抓住需要优化的主要方面,针对不同的情况从如何采用
高效的 SQL 入手来进行。
优化的实例分析
目前数据仓库建设中的后台数据库大部分采用 Oracle,以下的 SQL 采用
Oracle 的语法来说明,所有的测试在 Oracle9i 环境中通过,但其优化的方法
和原理同样适合除 Oracle 之外的其他数据库。
3.1 索引的正确使用
在海量数据表中,基本每个表都有一个或多个的索引来保证高效的查询,
在 ETL 过程中的索引需要遵循以下使用原则:
(1) 当插入的数据为数据表中的记录数量 10%以上时, 首先需要删除该表
的索引来提高数据的插入效率,当数据全部插入后再建立索引。
(2) 避免在索引列上使用函数或计算,在 WHERE 子句中,如果索引列是
函数的一部分,优化器将不使用索引而使用全表扫描。举例:
shabust
- 粉丝: 0
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 27页智慧街道信息化建设综合解决方案.pptx
- 计算机二级Ms-Office选择题汇总.doc
- 单链表的插入和删除实验报告 (2).docx
- 单链表的插入和删除实验报告.pdf
- 物联网智能终端项目设备管理方案.pdf
- 如何打造品牌的模式.doc
- 样式控制与页面布局.pdf
- 武汉理工Java实验报告(二).docx
- 2021线上新品消费趋势报告.pdf
- 第3章 Matlab中的矩阵及其运算.docx
- 基于Web的人力资源管理系统的必要性和可行性.doc
- 基于一阶倒立摆的matlab仿真实验.doc
- 速运公司物流管理模式研究教材
- 大数据与管理.pptx
- 单片机课程设计之步进电机.doc
- 大数据与数据挖掘.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0