DMBOK2
参与人员及分工
发起人 徐进(微信号:londarxid)
参与人
Stan.C 1和 3 微信号:stanley121236
徐进 4和5 微信号:londarxid
老马 2、6、7、8、9和14 微信号:lymadalin
李步伟 10 微信号:vivilbw
巧巧 11和12 微信号:qqwang92
盼盼 13 微信号:lp911028
Raja 15 16 17 微信号:fightingzzyou
当你获得这份材料后,仅限用于个人学习使 用,如有
他用,请与发起人联系(否则保留相关责任追究权利 )。
2021/6/10~2021/6/20
1数据管理4%
引言
業務驅動因素
數據管理的目標包括
理解並支撐企業及其利益相關方的信息需求 得到
滿足
獲取,存儲,保護數據和確保數據資產的完 整性
確保數據和信息的質量
確保利益相關方的數據隱私和保密性
防止數據和信息未經授權或不當管理,操作 及使
用
確保數據有 效地服務於企業增值的目標
基本概念
數據
數據和信息
數據是一種組織資產
數據管理原則
數據是獨特的資產 使用過程不產生消耗
數據價值用經濟術語表示 應開發一致的方法來量化價值
數據質量管理 符合應用要求是首要目標
需要元數據 必須先抈有該資產的數據
需要計劃
需要做協調工作以保持最終結果一致,從架 構和
流程規劃
須驅動决策
數據與信息的技術和管理結合,技術服務予 戰略
數據
跨職能工作 單個團隊沒法管理所有數據
企業級視覺 必須有效地應用於整個企業
多角度考慮 數據是流動的及不斷發展演進
生命周期管理
不同類型數據有不同的生命周期征,不同的 管理
需求,以滿足靈活性
納入與數據相關的風險 掉失,被盜,誤用
管理層承担責任 不僅要管理技巧,還要來自領導層的願景和使命
數據管理的挑戰
數據與其他資產的區別
非有形,價值隨時間而降低,使用時不會被 消
耗,不損耗下被偷走火,動態,多人使用, 數據
產生數據
難以設定貨幣價值,及定義所有權
數據價值
評估資產-成本和收益
獲取和儲存數據的成本
掉失和更換數成本
數據掉失的影响
風險成本
改進數據成本
高質量數據優劫
對手付出的費用
數據銷售價格
應用數據的收入
挑戰及建議
價值與上下文相關,暫時的,隨時間而變化
將財務價值與數據建立關聯至關重要,幫助 組織
對數據的理解,轉變想法
數據質量
確保高質量數據是數據管理的核心
IT團 隊通常對數據質量不屑一顧,管理數據質被
認為是事後諸葛亮
低質量數據代價高昂,支出佔入收的10%-30%
低質量數據的成本主要來源
報癈和返工
解決方法和隱藏的糾正過程
生產率或效率低下
組織衝突
工作滿意度低
客戶不滿意
機會成本,包括無法創新
合規成本,罰款
聲譽成本
高質量的數據包括
改善客戶體驗
提高生產力
降低風險
快速响應商機
增加收入
洞察客戶,產品,流程和商機,獲得竞爭優 勢
數據優化計劃 獲取數據不是偶然,要以多種形式進行規劃
數據也許被視為獨立於業務流程的存在
業務流程與支持它們技術之間的關係
系統的設計和架構及其所生和存儲的數據
使用數據的方式可能被用於推動組織戰略
元數據和數據管理
需要可靠的元數據去管理數據資產
描述有什麼數據,代表什麼,如何被分類, 來自
那里,如何移動,如何在使用中演進
元數據管理是全面改進數據管理的起點
數據管理是跨職能的工作 數據生命周期中不同階段由不同的人管理
建立企業級視角
數據是組織中"橫向領域之一"
目的是使數據的,概念,差異一致
需要多角度思考 不同行業,國家,法規要求,了解潛在用途
數據生命周期
創建和使用是關健點
數據質量必須貫穿整個生命周期,是數據管 理的
核心
低質量數據是成本和風險,不是價值
元數據管理必須貫穿整個生命周期 組識依賴元數據來管理其他數據
數據管理還包括確保數據安全 從創建到銷毀
數據管理工作應聚焦於關鍵數據
將ROT,冗余的(Redundant),過時的(
Obsolete),碎片化(Trivial)的降至最低
不同種類的數據
將數據對象進行分類,按類型,內容,格式 ,保
護級別,儲存或訪問方式,位置進行分類管 理
數據和風險
數據代表價值,也代表風險,不準確,不完 整或
過時的低質量的數據,它可能被誤解和誤用 ,也
會被濫用,當風險沒有管理時,對資產負債 表的
影响越來越大
高質量數據帶來最大的價值,使數據有意義 和易
於理解
數據管理和技術
數據管理的概念與技術管理緊密結合在一起 ,需
要對技術做出正確的决策
需領導力和承諾
組織有機增長的最佳機會在於數據,但組識 往往
不道抈有什麼數據,或者不知道業務最關鍵 旳數
據是什麼,混淆了數據和信息技術,沒有數 據的
戰略藍圖,低估了數據管的相關工作
成功的數據管必須業務驅動
組織成功的要素是堅定的領導各組織中各級 人員
的參與
數據戰略管理
戰略是一組選擇和决策,是為實現高水平目 標而
採取的高水平行動
數據戰略的組成
數據管理願景,商業案例總結,指導原則、 價值
觀和管理觀點,使命和長期目標,建議措施 ,符
合SMART原則的計劃,角色組識的描述,管理程
序序,明確範圍,實施路線草圖
可交付成果
數據管理章程
總體願景,業務案例,目標、指導原則,成 功的
衡量標準,關鍵成功因素,可識別的風險, 運營
模式
數據管理範圍聲明
包括規劃目的和目標(3年),以及負責實現這些目
標的角色,組識和領導
實施路線圖 特定計劃項目,項目,任務分配和里程碑
數據管理框架
戰略一致性模型SAM P.15 橫軸( 業務 / IT戰略 )
阿姆斯特丹信息模型AIM P.16 縱軸(業務戰略 / 業務運營)
DAMA-DMBOK框架
P.16 DAMA車輪圖(數據管理框架) 定義了數據管理知識領域
P.17 環境因素六邊形圖 顯示了人、過程和技術之間的關係
P.17 知識領域語境關係圖
,描述了知識領域的細節,人員,流程和技 術相
關的細節
基於產品管理(供給,輸入,活動,交付成果和消
費者)的SIPOC圖的概念
活動分為4個階段:計劃(P),控制(C),開發(D)和
運營(O)
左側是輸入桘供給者,右側是交付成果和消 費
者,底層是影响知識領域的技術,工具和度 量指
標
DMBOK金字塔(Aiken) P.19 分4個階段,描述了一個組織實踐發展路徑
第一階段,使用數據功能的應用程序
第二階段,一致的數據框架和元數據提升數 據質
量
第三階段,數據質量,元數據和架構得到嚴 格的
實踐
第四階段,從管理中得到好處
DAMA數據管理框架的進化
P.20 DMAM功能領域依賴關係圖
P.21 DAMA數據管理功能框架,知識領域內容的
附加細節
P.22 DAMA車輪圖演變,另一種形式的DAMA
車輪圖
DAMA 和 DMBOK
數據治理(Data Governance)
通過建立一個能夠滿足企業需求的數據决策 體
系,為數據管理提供指導和監督。
數據架構(Data Architcture)
定义了与组织战略协调的管理数据资产蓝图 ,以
建立战略性数据需求及满足需求的总体设计
数据建模和设计( Data Modeling and Design)
以数据模型( Data Model)的精确形式,进行发
现、分析、展示和沟通数据需求
数据存储和操作( Data Storage and
Operations)
以数据价值最大化为目标,包括存储数据的 设
计、实现和支持活动以及在整个数据生命周 期
中,从计划到销毁的各种操作活动(参见第6章)。
数据安全( Data Security)
确保数据隐私和机密性得到维护,数据不被 破
坏,数据被适当访问
数据集成和互操作( Data Integration and
Interoperability)
包括与数据存储、应用程序和组织之间的数 据移
动和整合相关的过程
文件和内容管理( Document and Content
Management)
用于管理非结构化体数据和信息的生命周期 过
程,包括计划、实施和控制活动,尤其是指 支持
法律法规遵从性要求所需的文档
参考数据和主数据( Reference and Master
Data)
包括核心共享数据的持续协调和维护,使关 键业
务实体的真实信息以准确、及时和相关联的 方式
在各系统间得到一致使用
数据仓库和商务智能( Data Warehousing and
Business Intelligence)
包括计划、实施和控制流程来管理决策支持 数
据,并使知识工作者通过分析报告从数据中 获得
价值
元数据( Metadata)
包含规划、实施和控制活动,以便能够访问 高质
量的集成元数据,包括定义、模型、数据流 和其
他至关重要的信息(对理解数据及其创建、维护和
访问系统有帮助)
数据质量( Data Quality)
包括规划和实施质量管理技术,以测量、评 估和
提高数据在组织内的适用性
除了有关知识领域的章节外,DAMA- DMBOK2
还包含以下主题的章节
1)数据处理伦理( Data Handling Ethics)。描述
了关于数据及其应用过程中,数据伦理规范 在促
进信息透明、社会责任决策中的核心作用。 数据
采集、分析和使用过程中的伦理意识对所有 数据
管理专业人员有指导作用(参见第2章)。
2)大 数据和数据科学( Big Data and Data
Science)。描述了针对大型的、多样化数据集收
集和分析能力的提高而出现的技术和业务流 程(参
见第14章 )。
3)数据管理成熟度评估( Data Management
Maturity Assessment)。概述了 评估和改进组织
数据管理能力的方法(参见第15章)。
4)数据管理组 织和角色期望( Data
Management Organization and Role
Expectations)。为组建数據管理團隊,實現成
功的數據管理活動提供了實踐指導和參考(參見第
16章)
5)數據管理和組變革管理(Data Management
and Organizationsl Change Management)。
描述了如何計劃和成功地推動企業文化變革 。文
化的變革是將數據管理實踐有效地嵌入組織 中的
必然結果(參見第17章)。
2数据处理理论2%
一、概要
定义
如何以符合道德准则及社会责任的方式去获 取、
存储、管理、解释、分析、应用和销毁数据
目标
1.定义组 织中数据处理的伦理规范
2.教导员工不正当处理数据会产生的企业风险
3.改变或渗透数据处理行为文化
4.监管、度量、监控和调整组织伦理准则行为
二、基本概念
数据伦理准则
尊重他人
行善原则
不伤害
将利益最大化、伤害最小化
公正
尊重法律和公众利益
违反伦理的数据实践活动
1.时机选 择
2.可视化误导
3.定义不清晰或无效的比较
4.偏见
1.预设结 论的数据采集
2.预感和搜索
3.片面抽样方法
4.背景和文化偏见
5.转换 和集成数据
1.对数据 来源和血缘的了解有限
2.质量差的数据
3.不可靠的元数据
4.没有修订历史的文档
6.数据的混淆和修订
数据聚合时
数据标记时
数据脱敏时
建立数据伦理文化
1.评审现 有数据处理方法
2.识别原则、实践和风险因素
3.制定合乎伦理的数据处理策略和路线图
1.价值观 声明
2.符合伦理的数据处理原则
3.合规框架
4.风险评估
5.培训 和交流
6.路线图
7.审计 和监测方法
4.采用对社会负责的伦理风险模型
3数据治理10%
1. 引言
定義
DG 在管理數據資過程中行使權 力和管控
職能是指導有其他數據管理領域的活動
目的是確保根據數據管理制和最佳實踐正確 地管
理數據
整體驅動力是確保從數據中獲得價值
聚焦如何制定有關數據據的決策
包括
1.戰略;
制度
標准和質量
監督
合規
問題管理
針對數據管理項目及數據資產估值
需要變革管理(第17章)
P.44 語境關係圖:數據治理和 管理職摃
2.業務驅動因素
減少風險
一般性風險管理 財務,商譽,法律
數據安全
獲得性,可用性,完整性,連續性,可审計 ,數
據安全
私隱 私人信息,機密信息,個人 身份信息
改進流程
法規遵從性
數據質量提升
元數據管理
項目開發效率
供應商管理
3.目標和原則
可持續發展
是一個持續的過程;整個組織的責任;必須 改變
數據的應用和管理方式
嵌入性
可度量
成功建立的原則
領導力和戰略
業務驅動
共担責任
多層面
基於框架
原則導向
4.基本概念
以數據為中心的組織
數據應作為企業資產管理起來
應該在整個組織內鼓勵數據管理的最佳實踐
企業數據戰略必須與業務戰略一致
應不斷改進數據管理流程
數據治理組織
政治治理角度解釋
立法職能(定義策略,標淮和企業框架) 立法和司法做正確的事
司法職能(問題升級和管理) 立法和司法做正確的事
執行職能(保護和服務,管理責任) 執法做正確的事
通用數據治理組織模型
P.48 數據治組織的組成部份
P.49 典型數據治理委員會
數據治理指導委員會 監督,支持和資助數治理活 動
數據治理委委員會 治理規劃,問題升級、處理
數據治理辦公室 關注企業級數據定義和數據管理標准
數據管理團隊 偏重管理職責
本地數據治理委員會 大型組織中的部門級或數據 治理指導委員會分部
數據治理運營模型類型
集中式 數據治理組織監親所有業務領域中的活動
分佈式
每個業務單元中采用相同的數據治理運營模 和標
淮
聯幫式
數據治理組織與多個業務單元協同,以維護 一致
的定義和標准
數據管理職責
職責 確保數據資產得到有效控制 和利用
活動
創建和管理核心元數據
記錄規則和標淮
管理數據質量問題
執行數據治理運營活動
數據管理崗位類型
首席數據管理專員 CDO的替代角色,高層發起者,治理機構主席
高級數據管理專員 數據治理委員會的資深管理者
企業數據管理專員 監督跨越業務領域的數據職能
業務數據管理專員 業務領域專業人士,對一個數據域負責
數據所有者
某個業務數據管理專員,對其領域內的數據 有决
策權
技術數據管理專員 某個知識領域內的IT專業人員
協調數據管理專員
在大型組織中尤為重要,領導並代表務業和 技術
數據管理專員進行跨團隊討論
數據制度
制度 應該做什麼和不做什麼
標淮 應該如何做
數據資產估值
度量價值的方式
替換成本 數據破壞和中斷時的數據替換或恢復成本
市場價值
發現商機
售賣數據
法律和監管風險成本
缺少必需的數據
存在不應留存的數據
財務或聲譽的損害
風險下降後的溢出價值
P.52 數據資產會計准則( 10毎原則 )
Summary
活動
規劃組識的數據治理
執行就緒評估
數據管理成熟度
了解組織對數據的處理方式,衡量管理能力 和容
量
變革能力 評估現有的組織架構,文化觀念及變革管理過程
協作淮備 評估組織在管理和使用數據方面的協作能力
與業務保持一致
通過業務一致性評估可以檢查組織如何調整 數據
以滿足業務戰略要求
探索與業務保持一致
必須找到特定的價值為組織作出貢獻
例如:
數據質量分析
數據管理實踐評估
從發現和交准活動中派生出一個數據治要需 求清
單,這些影響著治理的戰略和戰術
制定組識觸點 P.54 CDO組織觸點
採購和合同
預算和資金
法規遵從性
SDLC/開發框架
制定數據治理戰略
制定的內容
章程
運營框架和職責
實施路線圖
為成功運營制訂計劃
定義數據治理營運框架
數據對組織的價值
業務模式
分散式
集中式
本地化
國際化
文化因素 文化會抵制制度和原則
監管影響 監管度高具有不同的治理心態和營運模式
P.56 運營框架示例
制定目標,原則和制度
由數據管理專業人和業務策略人員,在數據 治理
組識的支持下共同起草數據治理的目的,、 原則
和制度,後由數據管理專員和管理人員審查 並完
善,並由數據管理委員會進行終審,修訂和 發佈
採用。
推動數據管理項目
數據治理委員會負責定數據管理目的商業案 例,
監督項目狀態和進度
管理項目可視為整個IT項目組合的一部門分,還
可以與業企內的大型項目集配合開展數據管 理改
進工作。
參與變革管理
建立團隊負責
規劃.:規劃變革管理
培訓:執行數據治理項目培訓
影响系統開發:在軟件開發周期中SDLC增加數
據治理步驟
制度實施:宣傳制度和管理活動承諾
溝通:提高治理角色,職責,項目目標和預 期的
認知
溝通重點放在
提升數據資產價值
監控數據治理活動的反並採取行動
實施數據管理培訓
從以下5個領域衡量變管理的程度
意識到需要改變
希望參與支持變革
知道如何改變
具備實施新技能和行為的能力
保持持續變革
實施新的指標和關鍵績效(KPI):重新調 整員工激
勵措施
參與問題管理
包括授權;變更管理升級;合規性;沖突; 一致
性;合同;數據安全和身份識別;數據質量
建立機制和流程
識別、收集、記錄和更新問題
各項活動的評估和跟踪
記錄利益相關方的觀點和可選解決方案
確定、記錄和傳達問題解決方案
促進客觀、中立的討論,聽取各方觀點
將問題升級到更高權根級別
評估法規遵從性要求,全球性法規
會計准則
BCBS239(巴塞X銀行委員會)
CPG(澳大利亞審慎監管局)
PCI-DSS(支付卡行業數據安全標准)
償付能力標准II
隱私法
實施數據治理
高優先級的前期工作
定義可滿足高優先級的數據治理流程
建立業務術語表,記錄術語和標淮
協調企業架構師和數據架構師,幫助他們更 好地
理解數據和系統
為數據資產分配財務價值
發起數據標淮和規程
定義
定義:標淮被定義為"用來判斷其他事物質量的好
東西"或由權威建立,作為衡量數量、重量、範
圍、價值或質量規則
通過採用標准,組織只需做一次决定,並將 其編
成一組實施細則,這樣不用再重新做出相同 的决
定
標准在組織內部和跨組織變化很大,數據治 理的
標准應該具強制性
通常由數據管理專業人員起草,由數據治理 辦公
室審查,批准和採用
內容
1)数据架构( Data Architecture)。它包含企 业级
数据模型、工具标准和系统命名规范。
2)数 据建模和设计( Data Modeling and
Design)。它包括数据模型管理程序、数据模型
的命名规范、定义标准、标准域、标准缩写 等。
3)数据存储和操作( Data Storage and
Operations)。它包括标准工具、数据库恢复和
业务连续性标准、数据库性能、数据留存和 外部
数据采集。
4)数据安全( Data Security)。它包括数据访问安
全标准、监控和审计程序、存储安全标准和 培训
需求。
5)数据集成( Data Integration)。它是用于数据
集成和数据互操作的标准方法、工具。
6)文件和内容( Documents and Conten)。它包
含内容管理标准及程序,包括企业分类法的 使
用,支持法律查询、文档和电子邮件保留期 限、
电子签名和报告分发方法。
7)参考数据和主数据( Reference and Master
Data)。它包括参考数据管理控制流程、数据记
录系统、建立标准及授权应用、实体解析标 准。
8)数据仓库和商务智能( Data Warehousing
and Business Intelligence)。它包括工具标准、
处理标准和流程、报告和可视化格式标准、 大数
据处理标准。
9)元数据( Metadata)。它指获取业务和技术元数
据,包括元数据集成和使用流程。
10)数据质量( Data Quality)。它包括数据质量规
则、标准测量方法、数据补救标准和流程。
11)大数据和数 据科学( Big Data and Data
Science)。它包含数据源识别、授权、获取、记
录系统、共享和刷新。
制定業務術語表
對核心業務概念和術語有共同的理解
降低由於對業務概念理解不一而導致數據誤 使用
的風險
改進技術資產(包括技術命名規範)與業務組 織之
間的一致性
最大限度地提高搜索能力,並能夠獲得記錄 在案
的組織知識
協調架構團隊協作
數據治理委員會批准數據架構,可以由企業 數據
架構師和數據管理專員在業務領域團隊共同 開發
和維護企業數據模型,也可以由企業數據架 構師
或數據管理專員協調這項工作
發起數據資產估值
信息缺口--所需信息和可用信息之間的差異-代
表業務負債,彌補或防止差距的成本可用於 估算
數據掉失的業務價值,也可以開發模型來評 估實
際存在的價值
嵌入數據治理
需持續運作,意味著採取行動,保證流程和 資金
到位,以確保可以持續地執行數據治理組織 框架
工具和方法
線上應用/網站
提供核心文檔,文檔庫,提供搜索功能,工 作流
等
業務術語表
工作流工具
文檔管理工具
數據治理記分卡
實施指南
組織和文化
對於决策和治理項目的新方法,可能存在扺 制變
化、學習,或採用消極態度
需要組織文化的轉變和持續變革管理
調整與溝通
業務戰略/數據治理戰略藍圖(Business/ DG
Strategy Map)
數據治理路線圖(DG Road Map)
數據治理的持續業務案例(Ongoing Business
Case for DG)
數據治理指標(DG Metrics)
度量指標
價值
業務目標的貢獻
風險的降低
營運效率的提高
有效性
目標的實現
擴展數據管理專員工在使用的工具
溝通
培訓
採納變革
可持續性
制度和流程的執行情況
標淮和規程的遵從情況
4数据架构10%
业务驱动因素
数据架构的目标
在业务战略和技术实现之间建立起一座通畅 的桥梁,数据架构是
企业架构中的一部分。
主要职责
1利用新兴技术所带来的业务优势,从战略上帮 助
组织快速改变产品、服务和数据。
2将业务需求 转换为数据和应用需求,以保证能
够为业务流程处理提供有效数据。
3管理复杂数据和信息,并传递至整个企业。
4确保 业务和IT技术保持一致。
5位企业改革、转型提高适应性提供支撑。
数据架构的主要成果
1数据存储和处理需求
2设计满足企 业当前和长期数据需求的结构和规划
基本概念
企业架构类型
包括业务架构,数据架构,应用架构和技术 架构。
业务架构
目的:识别企业如何为消费者和其他利益相 关方
创造价值。
元素:业务模型,流程,功能,服务,事件 ,策
略,词汇
依赖项:指定其他框架的需求
角色:业务架构师和分析师,业务数据管理 员
数据架构
目的:描述数据应该如何组织和管理
元素:数据模型,数据定义,数据映射规范 ,数
据流,结构化数据应用编程接口
依赖项:管理业务架构创建和需要的数据
角色:数据架构师,建模师,数据管理员
应用架构
目的:描述企业应用的结构和功能
元素:业务系统,软件包,数据库
依赖项:依据业务需求处理指定的数据
角色:应用架构师
技术架构
目的:描述能使系统发挥功能和传递价值的 试题
技术
元素:技术平台,网络,安全,整合工具
依赖项:承载并执行应用架构
角色:基础设施架构师
企业架构框架 Zachman框架,5W+1H
企业数据架构
包括业务数据描述,如数据的收集、存储、 整合、 移动和分布。
企业数据模型
数据实体
数据实体间关系
关键业务规则
关键属性
企业数据模型架构从上往下:概念模型--主题域模型--逻辑模型--
逻辑数据模型。DMBOK2-P75
数据流设计
记录数据血缘的数据加工过程,展示数据在 业务流程、不同存储位置、业务角色和技
术组件间的流动。
业务流程中的应用
某个环境中的数据存储或数据库
网段,有助于安全映射
业务角色,描述哪些角色有职责创建、更新 和删
除数据
出现局部差异的位置
活动
建立企业数据架构 企业数据架构包括的内容 P79
战略:选择框架,指定方法,开发路线图。
沟通与文化:建立沟通机制,并激励积极参 与者。
组织:通过明确责任和职责来组织数据框架 工作。
工作方法:与企业架构保持一致,在开发项 目中
定义最佳实践并执行数据架构工作。
结果 在总体路线图中产出数据架 构产品。
企业数据架构项目相关的活动包括
定义范围 保证范围和接口与企业数据模型一致
理解业务需求
获取数据相关的需求,如实体,资源,可用 性,
质量和痛点,以及评估满足这些需求的业务 架
构。
设计 形成详细的目标规范。
实施
什么时候购买,什么时候重用数据,什么时 候构
建。常见的实施方式有:瀑布方式,迭代方 式和
敏捷方式。
工具
数据建模工具
资产管理软件
图形设计应用
方法
生命周期预测
图标使用规范
数据架构治理
数据架构治理活动
项目监督
管理架构设计、生命周期和工具
定义标准
创建数据相关构件
度量指标
架构标准接受率
实施趋势
业务价值度量指标
5数据建模和设计10%
什么是数据建模 发现、分析和确定数据需求的过程。
数据建模和数据模型
概念数据模型 CDM
数据主题域
战略发展类主题
战略规划
计划与预算
投资
绩效
管理支持类主题
财务
人力资源
物资管理
项目管理
内控审计
生产执行类主题
生产管理
生产调度管理
设备管理
主题域样例
产品主题域
采购主题域
库存主题域
概念模型建设步骤
1选择模型类型
2选择标示方 法
3完成初始概念模型
4收集 组织中最高级的概念(名词)
5收集与这些概念相关的活动(动词)
6合并企业术语
7获取签署
逻辑数据模型LDM
建模过程
1分析信息需求
2分析现有文 档
3添加关联实体
4增加 属性
5指定域
6指定键
UML
物理数据模型PDM
规范模型
视图
分区
逆规范化
规范化
抽象化
建模过程包括
1解决逻辑抽象
2添加属性细 节
3添加参考数据对象
4指定 代理键
5逆规范化
6建立索引
7分区
8创建视图
数据模型开发步骤
架构愿景
业务架构
信息系统架构
技术架构
依据脚骨蓝图开发解决方案
迁移规划的工作内容
架构开发和解决方案的实施治理
架构变更管理
数据建模分类
关系建模
维度建模
事实表
维度表
雪花模型
粒度
一致性维度
一致性事实
面向对象建模:UML
基于事实的建模FBM 对象角色建模 ORM
基于时间的数据建模
数据拱顶
时间顺序模式:锚建模
非关系型数据库建模 NoSQL模式:文档、列、图、键值
规划数据建模
数据建模模型组件
实体
关系
事实
键和属性
数据关联关系
实体:名词对象
属性:列属性及特征
主键:唯一标示
外键:外部关联关系
关系:一对一,一对多,多对多
数据血缘关系
数据从生产、处理、流转到消亡过程中,数 据之
间形成的类似于人类社会血缘关系的关系。
表级或字段级血缘关系
数据流转关系
数据流转路径 数据流转方向,数据更新量级,数据更新频次
数据流转通过系统间的接口进行交换和传输
数据建模工作计划主要包括
评估组织需求
确定建模标准
明确数据模型存储管理等任务
数据建模工作交付成果
图表
定义
争议和悬而未解的问题
血缘关系
数据库设计PRISM设计原则
1性能和易用性
2可重用性
3完整性
4安全 性
5可维护性
数据建模和设计治理
数据建模和设计质量管理
1开发数据建模和设计标准
2评审数据建 模以及数据库设计质量
3管理数据模型版本与集成
度量指标 数据模型计分卡
模型多大程度上反映了业务需求15分
模型的完整性如何15分
模型与模式的匹配度是多少10分
模型的结构如何15分
模型的通用性如何10分
模型遵循命名标准的情况如何5分
模型的可读性如何5分
模型的定义如何10分
模型与企业数据架构的一致性如何5分
与元数据的匹配程度如何10分
6数据存储与操作2%
一、概要
定义
管理数据存储的设计、实现和支持活动,以 实现
其最大化价值
目标
1.贯穿整 个数据生命周期,管理数据的可用性
2.确保数据资产的完整性
3.管理数据交易的性能
业务驱动因素 业务连续性
原则
1.识别自 动化的机会并采取行动
2.构建时就考虑重用的思想
3.理解并适当使用最佳实践
4.支持数据库的标准需求
5.为项 目中的DBA角色 设置期望值
二、基本概念
数据库术语
1.数据库
存储数据的集合
一些大型数据库也称为实例或模式
2.实例
通过数据库软件,执行对某一特定存储区域 的控
制访问
3.模式
数据库或实例中数据库对象的一个子集(
Subset),用来将数据库对象组织成多个可管理
的集合
4.节点
一台单独的计算机作为分布式数据库处理数 据或
存储数据的一个部分
5.数据 库抽象 通用应用接口
数据生命周期管理
包括为数据的获取、迁移、保留、过期和处 置进
行的实施策略和过程。
稳妥的办法是准备好检查表,确保所有的任 务都
能高标准、高质量的完成
DBA
生产DBA
负责数据操作管理
通过性能调优、监控、错误报告等活动,确 保数
据库的性能及可靠性
通过建立备份与恢复机制,确保在任何意外 情况
下使数据能够被恢复
通过建立集群和容错机制,确保数据连续可 用
执行其他数据库维护活动,如建立数据归档 机制
交付成果
生产数据环境,包括支持服务器上数据库管 理系
统实例,提供足够的资源和容量,确保获得 很好
的性能;配置适当的安全性、可靠性和可用 性级
别。
在生产环境中,控制数据库实施变更的机制 和流
程
针对各种可能导致数据丢失或损坏的情况, 建立
确保数据完整、可用和恢复的机制
建立任何可能发生在数据库或数据库服务器 上的
错误检测和报告的机制
提供与服务水平协议(SLA)相匹 配的数据库服
务,包括可用性、数据恢复及性能等
建立伴随工作负载和数据量变化的数据库性 能监
控的机制和过程
应用程序DBA
负责所有环境中的一套或多套数据库,而不 是指
定负责管理某个环境的数据库系统。
应用程序DBA被当作应用支持团队不可或缺的成
员,为应用开发人员提供更好的支持服务
应与数据分析师、建模师和架构师等密切协 作
过程和开发DBA
负责审查和管理数据库的过程对象
过程DBA专门开发和支持关系数据库控制和执行
的过程逻辑:存储过程、触发器及用户自定 义函
数
开发DBA主要关注数据库设计活动,包括创建和
管理特殊用途的数据库,如数据沙盒或数据 探索
区
网络存储管理员
Network Storage Administrators,NSA,主要
关注支持数据存储阵列的软硬件
数据架构类型
集中式数据库
分布式数据库
非联邦的
联邦的
紧耦合联邦系统
松耦合联邦系统
区块链数据库
数据处理类型
ACID
Atomicity 原子性
Consistency 一致性
Isolation 隔离性
Durability 持久性
BASE
Basically Available 基本可用
Soft State 软状态
Eventual Consistency 最终一致性
CAP
Consistency 一致性,系统必须总是按照设计和
预期的方式运行
Availability 可用性,请求发生时系统时刻都保
持可用状态,并对请求作出响应
Partition Tolerance 分区容错,偶尔发生数据丢
失或者部分系统发生故障时,系统依然能够 继续
运行服务
CAP定理指出,在任何 共享数据的系统里,这3
项要求最多只可能满足其中两项。
数据库环境
生产环境
非生产环境
开发环境
测试环境
支持环境
特别用途环境
数据库组织模型
1.层次型 数据库
2.关系型数据库
多维数据库
将数据存储在一种数据结构中,允许同时对 多个
数据元素过滤器进行搜索,常用于DW和BI
访问数据库采用SQL变体:多维表达式(
Multidimensional eXpression,MDX)
时态数据库
内置了支持处理涉及时间数据的关系型数据 库
面向时间的特性包括有效时间和事务时间
3.非关系型数据库
列式数据库
当需要对很多行进行聚合运算时,面向列的 存储
组织方式更高效
当一次向所有行更新某个列时,面向列的存 储组
织更高效
当同时需要获取一行中的许多列,并且行的 体量
相对较小,单次磁盘访问就能将整行数据检 索
时,面向行的存储组织更高效
如果写入一条新纪录时同时要提供所有的行 数
据,那么面向行的组织效率更高;整个行的 数据
可以用单次磁盘操作写入
面向行的存储布局适合于OLTP类负载,重点是
交互式事务
面向列的存储布局适合OLAP类工作负载。
空间数据库
优化用于存储和查询表示几何空间中定义的 对象
数据
支持操作
空间评估(Spatial Measurements)
空间功能(Spatial Functions)
空间预测(Spatial Predicate)
几何构造(Geometry Constructors)
观测功能(Observer Functions)
对象/多媒体数据库
用于高效管理磁盘介质和光存储介质,还包 括表
示系统基础对象的集合
平面文件数据库
Flat File Database,Hadoop数据库 使用平面文
件做数据存储
键值对
Key-Value Pair Database,文档数据 库,图数
据库
三元组存储
由主语、谓语和宾语组成的数据实体称为三 元组
存储(Triplestore),三元组存储是专 用用于存
储和检索三元组的数据库
原生三元组存储
RDBMS支持的三元组存储
NoSQL三元组存储
常见数据库过程
数据归档(Archiving)
将数据从可立即访问的存储介质迁移到查询 性能
较低的存储介质上的过程
容量和增长预测
变动数据捕获
Change Data Capture,CDC是指检测到数据的
变动并确保与变动相关的信息被适当记录的 过
程。
通常指的是基于日志的复制,是一种非侵入 性方
法,将数据更改复制到目标端而不影响源端 。
数据清除
数据复制
主动复制:不存储主副本,可以在每个副本 上主
动创建和存储来自其它副本的相同数据
被动复制:首先在主副本上创建和存储数据 ,然
后把更改的状态传送到其它副本上
两种主要复制方式:镜像、日志传送
韧性与恢复
韧性(Resiliency)是衡量系统对错误条件容忍
度的指标
恢复
立即恢复(Immediate Recovery)
关键恢复(Critical Recovery)
非关键恢复(Non-critical Recovery)
数据保留 Retention,指数据保持可用的时间。
数据分片 Sharding,指把数据库中一部分独立出来的过程
三、活动
1.管理数 据库技术
理解数据库的技术特征
评估数据库技术
产品结构和复杂性
应用和速度限制,包括数据流传送速率
应用类别,如事务处理、商务智能、个人资 料
特殊功能,如时间计算支持
硬件平台及操作系统支持
软件支持工具的可用性
性能评测,包括实时统计信息
可扩展性
软件、内存和存储需求
韧性,包括错误处理和错误报告
其它因素
组织对技术风险的偏好
提供训练有素的技术专业人员
拥有成本,如软件许可费、维护费和计算资 源成
本
供应商声誉
供应商支持策略和版本计划
其它客户案例
管理和监控数据库技术
2.管理数据库操作
1.理解需 求
定义存储需求
识别使用模式
事务型
大数据集的读写
时间型(月末压力大?周末压力轻?)
位置型(人口集中地区有更多交易?)
基于优先级型(某些部门或某些批处理相对 有更
大权限的优先级)
定义访问需求 选择合适的数据访问方法和工具
2.规划业务连续性
备份数据
恢复数据
3.创建数据库实例
安装和更新DBMS软件
维护多种环境的安装,包括不同的DBMS版本
安装和管理相关的数据技术
4.管理数据库性能
设置数据库性能服务水平
管理数据库可用性
管理数据库运行
维护数据库性能服务水平
维护备用环境
开发环境
测试环境
数据沙箱
备用的生产环境
5.管理 测试数据集
6.管理数据迁移
四、工具
1.数据建 模工具
2.数据库监控工具
3.数据库管理工具
4.开发支持工具
五、方法
在低阶环境中测试
物理命名标准
所有变更操作脚本化
六、度量指标
数据存储度量指标
数据库类型的数量
汇总交易统计
容量指标
已使用的存储数量
存储容器的数量
数据对象中已提交和未提交块或页的数量
数据队列
存储服务使用情况
对存储服务提出的请求数量
对使用服务的应用程序性能的改进
性能度量评估指标
事务频率和数量
查询性能
API服务性能
操作度量指标
有关数据检索时间的汇总统计
备份的大小
数据质量评估
可用性
服务度量指标
按类型的问题提交、解决和升级数量
问题解决时间
7数据安全8%
概要
定义
定义、规划、开发、执行安全策略和和规程 ,以
提供对数据和信息资产的适当难、授权、访 问、
审计
目标
1.启用对 企业数据资产的适当访问,并防止不适
当的访问
2.理解并遵守有关隐私、保护和保密的法规和政
策
3.确保所有利益相关方的隐私和保密需求得到执
行和审计
原则
1.协同合 作
2.企业统筹
3.主动管理
4.明确责任
5.元数 据驱动
6.减少接触以降低风险
相关概念
脆弱性
系统中容易遭受攻击的弱点或缺陷,本质上 是组
织防御中的漏洞。某些脆弱性称为漏洞敞口
威胁
可能对组织采取的潜在进攻行动。存在威胁 的地
方也称为攻击面
风险
指损失的可能性,也指构成潜在损失的事物 或条
件
风险分类
关键风险数据(Critical Risk Data,CRD)
高风险数据(High Risk Data,HRD)
中等风险数据(Moderate Risk Data,MRD)
安全过程
1.访问( Access):使具有授权的个人能够 及时
访问系统
2.审计(Audit):审 查安全操作和用户活动
3.验证(Authentication):验证 用户的访问权
限
4.授权(Authorization):授权个人访问与其角
色相适应的特定数据视图的权限
5.权限 (Entitlement):由单个访问授权决策向
用户公开的所有数据元素的总和。
加密
1.哈希( Hash):将任意长度数据转换为固定长
度数据表示
2.对称加密:使用一个密钥来加解密数据
3.非对称加密:发送方和接收方使用不同的密钥
混淆或脱敏
静态脱敏(Persistent Data Masking)
不落地脱敏(In-flight Persistent Masking):
不会留下中间文件或带有未脱敏数据的数据 库
落地脱敏(In-place Persistent Masking):从
数据源中读取未脱敏数据,进行脱敏操作后 直接
覆盖原数据。
动态数据脱敏(Dynamic Data Masking)
在不改变基础数据的情况下,在最终用户或 系统
中改变数据的外观
脱敏方法
1.替换( Substitution):将字符 或整数值替换为
查找或标准模式中的字符或整数值
2.混排(Shuffling):在一个记录中交换相同类
型的数据元素或在不同行之间交换同一属性 的数
据元素。如在发票中混排供应商名称
3.时空变异(Temporal Variance):把日期前
后移动若干天(小到足以保留趋势),足以 使它
无法识别
4.数值变异(Value Variance):应用一个随机
因素,正负一个百分比,小到足以保持趋势 ,重
要到足以使它不可识别
5.取消 或删除(Nulling or Deleting):删除不
应在测试系统中出现的数据
6.随机选择(Randomization):将部分或全部
数据元素替换为随机字符或一系列单个字符
7.加密 技术(Encryption):通过密码代码将可
识别、有意义的字符流转换为不可识别的字 符流
8.表达式脱敏(Expression Masking):将所有
值更改为一个表达式的结果。
9.键值脱敏(Key Masking):指定的脱敏算法/
进程的结果必须是唯一且可重复的,用于数 据库
键值(或类似字段)脱敏。
数据安全制约因素
保密等级:取决于谁需要知道某些类型的信 息,
源自内部
监管要求:监管信息在“允许知道”的基础上共
享。共享方式受法规明细条款的约束,由外 部定
义
系统安全风险
1.滥用特 权
2.滥用合法特权
3.未经授权的特权升级
4.服务账户或共享账户滥用
5.平台 入侵攻击
6.注入漏洞
7.默认 密码
8.备份数据滥用
活动
1.识别数 据安全需求
业务需求
监管要求
2.制订数据安全制度
1.企业安 全制度
2.IT安全制度
3.数据安全制度
3.定义数据安全细则
1.定义数 据保密等级
2.定义数据监管类别
3.定义安全角色
4.评估当前安全风险
存储或传送的数据敏感性
保护数据的要求
现有的安全保护措施
5.实施 控制和规程
1.分配密 级
2.分配监管类别
3.管理和维护数据安全
4.管理安全制度遵从性
数据安全治理
安全架构
1. 用于管理数据安全的工具
2.数据加密标准和机制
3.外部供应商和承包商的数据访问指南
4.通过互联网的数据传送协议
5.文档 要求
6.远程访问标准
7.安全 漏洞事件报告规程
度量指标
1.安全实 施指标
2.安全意识指标
3.数据保护指标
4.安全事件指标
5.机密 数据扩散
方法
1.应用CRUD矩阵
2.即时安全补丁部署
3.元数据中的数据安全属性
4.项目需求中的安全需求
5.加密 数据的高效搜索
6.文件清理
工具
1.杀毒软 件
2.HTTPS
3.身份管理技术
4.入侵检测和入侵防御软件
5.防火 墙
6.元数据跟踪
7.数据 脱敏/加密
8数据集成和互操作2%
一、概要
定义
管理应用程序或组织内部(或之间)的数据 移动
和整合活动
目标
1.按照所 需格式,及时地提供安全、合规的数据
2.将数据物理地或虚拟地合并到数据中心
3.构建开发共享模型和接口,降低解决方的成本
和复杂度
4.识别有意义的事件(机会和威胁),自动触发
预警动作
5.支撑 商务智能、数据分析、主数据管理,并致
力于提高运营效率
业务驱动因素
管理数据集成的复杂性及相关成本
维护管理成本
原则
1.采用企 业视角确保未来的可扩展性设计,通过
迭代和增量交付实现
2.平衡本地数据需求与企业数据需求,包括支撑
与维护
3.确保数据集成和互操作设计和活动的可靠性。
二、基本概念
ETL
抽取
转换
格式变化
结构变化
语义变换
消除重复
重新排序
加载
映射
转换的同义词,既是从源结构到目标结构建 立查
找矩阵的过程,也是该过程的结果。映射定 义了
要抽取的源数据与抽取数据的识别规则、要 加载
的目标与要更新的目标行的识别规则以及要 应用
的任何转换或计算规则。
时延(Latency)
从源系统生成数据到目标系统可用该数据的 时间
差
批处理
变更数据捕获
准实时和事件驱动
异步
实时,同步
低延迟或流处理
复制
将分析和查询对主事务操作环境性能的影响 降至
最低
归档
不经常使用的数据移动到对组织成本较低的 备用
数据结构或存储解决方案中
企业消息格式/规范格式
交互模型 系统之间建立连接以传送数据的方式
点到点
中心辐射型
发布与订阅
数据集成和互操作架构
应用耦合:描述两个系统交织的程度
编排(Orchestration):描述在一个系统中如
何组织和执行多个相关流程。
数据库活动日志
批量作业日志
警报
异常日志
作业依赖图,包括补救方案,标准回复
作业的时钟信息,如依赖作业的定时、期望 的作
业长度、计算(可用)的窗口时间
企业应用集成(EAI):软件模块之间仅通过定
义良好的接口调用进行交互。
企业服务总结(ESB):充当系统之间的中介,
在它们之间传送消息。
面向服务的架构(SOA):在独立的软 件模块之
间定义良好的交互
复杂事件处理(Complex Event Processing,
CEP):跟踪和分析(处理) 有关发生事件的信
息流,并从中得出结论的方法。
数据联邦(Data Federation):提供访问各个
独立数据存储库组合的权限。
数据虚拟化(Data Virtualization):使分布式
数据库以及多个异构数据存储能够作为单个 数据
库来访问和查看
数据即服务(DaaS) :从供应商获得许可并按需
由供应商提供数据
云化集成(IPaaS):云服务交付的一种系统集
成形式,处理数据、流程、SOA和应用 集成
数据交换标准 数据元素结构的正式规则
三、活动
1.规划和 分析
定义数据集成和生命周期需求
执行数据探索
记录数据血缘
剖析数据
收集业务规则
评估潜在的源数据集和目标数据集的数据
管理组织中的数据流
监控组织中的操作数据
指示何时自动触发事件和警报
2.设计数据集成解决方案
设计数据集成解决方案
选择交互模型
设计数据服务或交换模式
建模数据中心、接口、消息、数据服务
映射数据源到目标
设计数据编排
3.开发数据集成解决方案
开发数据服务
开发数据流编排
制定数据迁移方法
制定发布方式
开发复杂事件处理流
维护数据集成 和互操作的元数据
4.实施和监测
四、工具
1.数据转 换引擎、ETL工具
2.数据虚拟化服务器
3.企业服务总线
4.业务规则引擎
5.数据 和流程建模工具
6.数据剖析工具
7.元数 据存储库
五、方法
六、度量指标
数据可用性:请求数据的可获得性
数据量和速度
传送和转换的数据量
分析数据量
传送速度
数据更新与可用性之间的时延
事件与触发动作之间的时延
新数据源的可用时间
解决方案成本和复杂度
解决方案开发和管理成本
获取新数据的便利性
解决方案和运营的复杂度
使用数据集成解决方案的系统数量
9文件和内容管理2%
概要
定义
对任何形式或媒介的数据及信息进行全生命 周期
管理的计划、实施和控制活动
目标
履行与档案管理有关的法律义务并达到客户 的期
望
确保能够高速有效的存储、检索、使用文件 和内
容
确保结构化和非结构化内容之间的集成能力
原则
组织中的每个人都应该在保护组织的未来方 面发
挥作用
档案和内容管理的专家应充分参与制度和规 划的
制定
档案保存指导原则(GARP)
1.问责原 则(Accountability)
2.完整原则(Integrity)
3.保护原则(Protection)
4.遵从原则(Compliance)
5.可用 原则(Availability)
6.保留原则(Retention)
7.处置 原则(Disposition)
8.透明原则(Transparency)
基本概念
内容
定义:文件、档案或网站内的数据和信息
内容管理(Content Management):组织、分
类和构造信息资源的流程、方法和技术,以 便以
多种方式存储、发布和重复使用这些资源
内容元数据
格式
可搜索性
自我描述性
既有模式
内容主题
需求
内容建模(Content Modeling):将逻辑内容
概念转换为具有关系的内容类型、属性和数 据类
型的过程
内容分发方法
推式
拉式
交互式
受控词表
定义:被明确允许用于通过流星和搜索对内 容进
行索引、分类、标引、排序和检索术语的定 义列
表,在理想情况下,应与企业概念数据模型 中的
实体名称和定义保持一致,构成了参考数据 的一
个类型
词汇表管理:针对任何给定的词汇进行定义 、寻
源、导入和维护的过程
词汇表视图(Vocabulary View)是受控词表的
子集,涵盖了受控词表领域内有限范围的主 题。
微控制词汇表(Micro-Controlled
Vocabulary):包含一般词汇表中不包含的高
度专业化术语的词汇表
同义词环(Synonym Ring):一组含 义大致相
同的术语,允许搜索其中一个术语的用户去 访问
与该词环其它术语相关的内容。
规范表(Authority List):描述性术语的受控词
汇表,旨在促进特定领域范围内的信息检索 。
分类法:一种命名结构,包含用于概述主题 、启
用导航和搜索系统的受控词表。分类法有助 于减
少歧义并控制同义词。
扁平分类法(Flat Taxonomy)
层次分类法(Hierarchical Taxonomy)
多重层次结构(Polyhierarchy)
面分类法(Facet Taxonomy)
网状分类法(Network Taxonomy)
分类方案(Classification Schemes):代表受
控词表的代码
主题词表(Thesauri):又称叙词表,是一种用
于内容检索的受控词表。
本体(Ontology):一种分类法,代表一套概
念和它们在某个领域内概念之间的关联,描 述
类(概念)、个体(实例)、属性、关系和 事
件。
文件和档案
文件(Document):是包含任务说明、对执行任
务或功能的方式和时间的要求以及任务执行 和决
策的日志等的电子或纸质对象。文件可用于 交流
并分享信息和知识。程序、协议、方法和说 明书
都属于文件
档案(Record):用于证明 所做的决策和所采取
的行动是符合程序的,可作为组织业务活动 和法
规遵从的证据。
文件管理:在文件和档案整个生命周期中控 制和
组织它们的流程、方法和技术
档案管理:文件管理的一部分,有一些特殊 的要
求。
数字资产管理(Digital Asset Management,
DAM):专 注于存储、跟踪和使用视频、徽标、
照片等富媒体文件。
数据地图
Data Map,是所有ESI数据源、应用程序和 IT环
境的清单,其中包括应用程序所有者、保管 人、
相关地理位置和数据类型等信息。
信息架构:为信息体或内容创建的结构
1.受控词 表
2.分类法和本体
3.元数据映射
4.搜索功能规格
5.用例
6.用户流
语义模型
允许用户以非技术的方式提出信息问题,包 含语
义对象和语义约束
语义搜索 侧重于语义和语境而非预先设定的关键字
活动
1.规划生 命周期的管理
规划档案管理
制定内容策略
2.创建内容处理制度
社交媒体制度
设备访问制度
处理敏感数据
应对诉讼
3.定义内容信息架构
4.实施的生命周期管理
1.获取档 案和内容
2.管理版本的控制
3.备份和恢复
4.管理保管和处置
5.审计 文件/档案
5.发布 和分发内容
开放访问、搜索和检索
通过可接受的渠道分发
实施指南 档案管理成熟度
1级:低于标准的
2级:发展中 的
3级:基本的
4级: 积极的
5级:完成变革的
工具
1.企业内 容管理系统
2.协作工具
3.受控词汇表和元数据工具
4.标准标记和交换格式
1.可扩展 标示语言
2.JSON
3.资源描述框架(RDF)和相关的万维网联盟(
W3C)规范
4.Schema.org
5.电子 取证技术
10参考数据和主数据4%
管理的驱动因素
主数据
满足组织数据需求
管理数据质量
管理数据集成成本
降低成本和风险:简化共享架构
参考数据
降低数据整合成本和风险
提升参考数据质量
目标
完整、一致、最新、权威的参考数据和主数 据
促进共享
降低成本和复杂性
原则
管理共享数据
所有权属于整个组织
持续的质量监控和治理
业务数据管理员对参考数据的质量负责
控制变更
在某时间点,主数据代表最佳理解,变更可 追溯
对参考数据的更改遵循明确流程和审批
权限:主数据值仅从记录系统中复制
概念
主数据
定义
有关业务实体的数据,这些实体为业务交易 和分
析提供了语境信息。
评估主数据管理情况
哪些对象实体被反复引用
哪些数据被用来描述对象实体
数据如何定义和设计,粒度如何
数据所属权、存储权、共享权
数据被系统如何加工
数据使用方和目的
数据来源的质量和可靠性衡量标准
主数据管理关键步骤
数据模型管理
企业级的术语和定义应与整个组织所进行的 业务
相关联
粒度在整个组织中也必须有意义
数据采集
接收需求
质量评估
评估数据整合复杂性,分析成本效益
试点数据采集及其对匹配规则的影响
确定数据质量指标
数据质量监控和维护
完成与整体数据管理环境的集成
数据验证 识别明显错误数据
标准化和数据丰富
确保数据符合参考数据值
添加改进实体解析的属性
实体解析、管理和共享
匹配
风险
假阳性:一个标识符指向多个实体
假阴性:多个标识符指向同一个实体
算法
确定式算法
或然式算法
身份解析
匹配流程/协调类型
重复标识匹配规则
匹配链接规则
匹配合并规则
主数据ID管理
从属关系管理
主数据类型
参与方主数据
财务主数据
法律主数据
产品主数据
位置主数据
行业主数据(参考目录)
参考数据
定义
可用于描述或分类其他数据,或者将数据与 组织
外部的信息联系起来的任何数据
常用存储技术
代码表
参考数据管理系统
用特定于对象属性的元数据指定允许值
结构
列表
交叉参考数据列表
分类法
本体
类型
专有或内部参考数据
行业参考数据
地理或地理统计参考数据
计算参考数据
标准参考数据集的元数据
主数据与参考数据的区别
两者都为交易数据的创建和使用提供重要的 上下
文信息
参考数据变化小,不包含实体解析的挑战
管理重点不同
参考数据对阈值和定义进行管理
主数据对值和标识符进行管理
数据共享架构 主数据中心环境的三种实现方法
注册表
交易中心
混合模式
管理
主数据管理
识别驱动因素和需求
评估和评价数据源
定义架构方法
建模主数据
定义管理职责和维护过程
建立治理制度,推动主数据使用
参考数据管理
定义驱动因素和需求
评估数据源
定义架构方法
建模参考数据
定义管理职责和维护过程
建立参考数据治理制度
实施
遵循主数据架构
监测数据流动
如何共享和使用
数据血缘
辅助分析问题根本原因
通过数据消费展示源系统的数据值延迟
确定业务规则和转换的有效性
管理参考数据变更
对外部参考数据集的行级变更
外部参考数据集的结构变化
对内部参考数据集的行级变更
内部参考数据集的结构变化
创建新的参考数据集
数据共享协议
组织和文化变革
治理
应决定事项
要整合的数据源
数据质量规则
使用规则的条件
监控规则
优先级和响应等级
信息展示方案
参考数据和主数据管理的授权扎口和预期
度量指标
数据质量
数据变更活动
数据获取和消费
服务水平协议
数据管理专员覆盖率
拥有总成本
数据共享和使用情况
11数据仓库和商务智能10%
业务驱动因素
运营支持
合规需求
商务智能活动
目标
支持商务智能活动
赋能商业分析与智能决策
基于数据洞察寻找创新方法
原则
聚焦业务目标
以终为始
全局性的思考和设计
总结并持续优化
提升透明度和自助服务
与数据仓库一起建立元数据
协同
不要千篇一律
概念
商务智能
一、商务智能指的是一种理解组织诉求和寻 找机
会的数据分析活动
二、商务智能指的是支持这类数据分析活动 的数
据集合
数据仓库
一个集成的决策支持数据库和与之相关的用 于收
集、清理、转换和存储来自各种操作和外部 元数
据的软件程序。
包括相依赖的数据集市
数据仓库建设
数据仓库中数据的抽取、清洗、转换、控制 、加
载等操作过程。
数据仓库建设方法
Inmon“面向主题的、整合的、随时间变化的、相
对稳定的支持管理决策的数据集合”
Kimball“为查询和分析定制的交易数据副本”,又
称为多维模型
核心理念
数据仓库存储的数据来自其他系统
存储行为包括以提升数据价值的方式整合
便于数据被访问和分析使用
需要让授权的利益相关方访问到可靠的、集 成的
数据
建设目的涵盖工作流支持、运营管理和预测 分析
企业信息工厂(CIF)
概念
“面向主题的、整合的、随时间变化的、包含汇总
和明细的、相对稳定的历史数据集合”
与业务系统的区别
面向主题的
整合的
随时间变化的
稳定的
聚合数据和明细数据
历史的
组成部分
应用程序
数据暂存区
集成和转换
操作型数据存储
数据集市
操作型数据集市
数据仓库
运营报告
参考数据、主数据和外部数据
多维数据仓库
概念
“为查询和分析定制的交易数据副本”,又称为多
维模型
组件
业务源系统
数据暂存区
数据展示区
数据访问工具
数据仓库架构组件
源系统
数据集成
数据存储区域
暂存区
参考数据和主数据一致性维度
中央数据仓库
操作型数据存储
数据集市
数据立方体
加载处理方式
历史数据
批量变更数据捕获
时间戳增量加载
日志表增量加载
数据库交易日志
消息增量
全量加载
准实时和实时数据加载
涓流式加载
消息传送
流式传送
活动
理解需求
业务目标和业务战略
业务人员访谈,记录关键的性能指标和计算 口径
定义和维护数据仓库/商务智能架构
概念
描述数据从哪里来、到哪去、什么时候去、 为什
么要去,以及用什么样的方式流入数据仓库
两个确定
确定数据仓库/商务智能技术架构
确定数据仓库/商务智能管理流程
开发数据仓库和数据集市
构建轨迹
数据
技术
商务智能工具
数据处理
将源映射到目标
修正和转换数据
加载数据仓库 确定加载方式考虑的因素
延迟要求、源可用性、批处理窗口或上载间 隔、
目标数据库及时间帧的一致性
变更数据捕获
实施商务智能产品组合
概念
为了在业务部门或者业务部门之间为正确的 用户
社区选定合适的工具
方法
根据需要给用户分组
将工具与用户要求相匹配
维护数据产品
发布管理
管理数据产品开发生命周期
监控和调优加载过程
监控和调优商务智能活动
工具
元数据存储库
数据字典和术语
数据和数据模型的血缘
数据集成工具 概念 用于加载数据仓库
商务智能工具的类型
运营报表
业务绩效管理
运营分析应用
方法
驱动需求的原型
自助式的商务智能
可查询的审计数据
实施
就绪评估/风险评估
有业务支持、与战略保持一致、有一个定义 好的
架构方法
明确数据敏感性和安全性约束;选择工具; 保障
资源安全;创建抽取过程以评估和接受源数 据
版本路线图
配置管理
组织和文化变革
业务倡议
业务目标和范围
业务资源
业务准备情况
愿景一致
治理
业务接受度
业务对数据的接受程度,包括可以理解的数 据、
具有可验证的质量,以及具有可证明的血缘 关系
客户/用户满意度
服务水平协议
报表策略
报表策略包括标准、流程、指南、最佳实践 和程
序,它将确保用户获得清晰、准确和及时的 信
息。
解决的问题
安全访问
描述用户交互、报告、检查或查看其数据的 访问
机制
用户社区类型和使用它的适当工具
报表摘要、详细信息、例外情况以及频率、 时
间、分布、存储格式的本质
通过图形化输出发挥可视化功能的潜力
及时性与性能间的权衡
度量指标
使用指标
主题域覆盖率
响应时间和性能指标
12元数据管理10%
业务驱动因素
通过提供上下文语境和执行数据质量检查提 高数
据的可信度
通过扩展用途增加战略信息的价值
通过识别冗余数据和流程提高运营效率
防止使用过时或不正确的数据
减少数据的研究时间
改善数据使用者和IT专业人员之间的沟通
创建准确的影响分析,从而降低项目失败的 风险
通过缩短系统开发生命周期的时间缩短产品 上市
时间
通过全面记录数据背景、历史和来源降低培 训成
本和员工流动的影响
满足监管合规
目标
确保人们理解和使用数据内容的一致性
了解来自组织不同部门的数据之间的相似和 差异
确保元数据的质量、一致性、及时性和安全
提供途径,可以访问元数据
推广或强制使用技术元数据标准,以实现数 据交
换
原则
组织承诺 高级管理层的支支持和资金
战略
企业视角
潜移默化
访问
质量
审计
改进
基本概念
元数据与数据 关于数据的数据
元数据的类型
业务元数据
包括主题域、概念、实体、属性的非技术名 称和
定义、属性的数据类型和其他特征
技术元数据
提供有关数据的技术细节、存储数据的系统 以及
在系统内和系统之间的数据流转过程的信息
操作元数据 描述处理和访问数据的细节
ISO/IEC 11179 元数据注 册标准 提供了用于定义元数据注册的框架
非结构化数据的元数据
描述元数据
结构元数据
管理元数据
书目元数据
记录元数据
保存元数据
元数据的来源
应用程序中元数据存储库
业务术语表
商务智能工具
配置管理工具
数据字典
数据集成工具
数据库管理和系统目录
数据映射管理工具
数据质量工具
字典和目录
事件消息工具
建模工具和存储库
参考数据库
服务注册
其他元数据存储
元数据架构的类型
架构层次
元数据创建和采集
元数据在一个或多个存储库中存储
元数据集成
元数据交付
元数据使用
元数据控制和管理
类型
集中式元数据架构
分布式元数据架构
混合式元数据架构
双向元数据架构
允许元数据在架构的任何部分(源、数据集 成、
用户界面)中进行更改,然后将变更从存储 库(
代理)同步到其原始源以实现反馈。
活动
定义元数据战略
概念
描述组织应如何管理其自身元数据,以及元 数据
从当前状态到未来状态的实施线路
步骤
启动元数据战略计划
组织关键利益相关方的访谈
评估现有的元数据资源和信息架构
开发未来的元数据架构
制订分阶段的实施计划
理解元数据需求
内容 需要哪些元数据和哪种详细 级别
功能需求点
更新频次
同步情况
历史信息
访问权限
存储结构
集成要求
运维要求
管理要求
质量要求
运维要求
定义元数据架构
创建元模型 创建一个元数据存储库的数据模型
应用元数据标准
管理元数据存储
控制活动
质量控制活动
元数据管理活动
培训活动
创建和维护元数据
管理原则
责任
标准
改进
步骤
整合元数据
分发和传递元数据
查询、报告和分析元数据
工具
元数据存储库
提供了在集中位置管理元数据的功能
方法
数据血缘和影响分析 数据如何在系统间转移
应用于大数据采集的元数据
实施指南
就绪评估/风险评估
坚定元数据战略
缺失高质量元数据可能的影响
因不正确、不完整和不合理的假设或缺乏数 据内
容的知识导致错误判断
暴露敏感,使客户 或员工面临风险,影响商业信
誉和导致法律纠纷
了解数据的领域专家离开了,他们了解的知 识也
随之带走
对元数据相关活动状况进行正式的成熟度评 估
重要的业务元数据
可用的元数据术语表
数据血缘
数据剖析和数据质量管理过程
主数据管理成熟度等
组织和文化变革 需要高级管理层的支持和参与
元数据治理
过程控制
数据管理团队应负责定义标准和管理元数据 的状
态变化(通常使用工作流或协作软件),同 时负
责组织内质量提升活动、培训计划或实际培 训活
动。
元数据解决方案的文档
概念 元数据的主目录包括当前作 用域中的源和目标
指引作用,告知用户能满足其如下需求
元数据管理实施状态
源和目标元数据存储
元数据更新的调度计划信息
留存和保持版本
内容
质量声明或警告
记录系统和其他数据源状态
相关的工具、架构和人员
敏感信息和数据源的移除或脱敏策略
元数据标准和指南
为了支持共享信息的最佳使用,需要共享公 共元
数据,这催生了许多专业领域的标准
度量指标
元数据存储库完整性
元数据管理成熟度
专职人员配备
元数据使用情况
业务术语活动
主数据服务数据遵从性
元数据文档质量
元数据存储库可用性 正常运行时间、处理时间
13数据质量10%
1、数据质量概述
业务定义:为确保满足数据消费者的需求, 应用
数据管理技术进行规划,实施和控制等管理 活
动。
导致低质量数据产生的因素包括:组织缺乏 对低
质量数据影响的理解、缺乏规划、孤岛式系 统设
计、不一致的开发过程、不完整的文档、缺 乏标
准或缺乏治理等。
所有数据管理的原则都应有助于提高数据质 量,
支持组织使用高质量数据应是所有数据管理 原则
的目标
业务驱动因素
1)提高组织数据价值和数据利用的机会。
2)降低低质 量数据导致的风险和成本。
3)提高组织效率和生产力。
4)保 护和提高组织的声誉。
管理目标
1)提高组织数据价值和数据利用的机会。
2)降低低质 量数据导致的风险和成本。
3)提高组织效率和生产力。
4)保 护和提高组织的声誉。
遵循原则
1)重要性。
2)全生命周 期管理。
3)预防。
4)根 因修正。
5)治理。
6)标准驱动。
7)客观测量和透明度。
8)嵌入业务流程。
9)系统强制执行。
10)与服务水平关联。
2、数据质量 相关概念
1、数据质量水平高低取决于使用数据的场景和 数
据消费者的需求。2、数据质量管理的挑战之
一,是与质量相关的期望并不总是已知的。
数据质量管理的一个原则是将改进的重点集 中在
对组织及其客户最重要的数据上,这样做可 以明
确项目范围,并使其能够对业务需求产生直 接
的、可测量的影响。
可根据以下要求评估关键数据:1)监管报告。
2)财务报告 。3)商业政策。4)持续经营。
5)商业战略,尤其是差异化竞争战略。
数据质量评估维度
Strong-Wang框架(侧重于数据消费者对数据的
看法,描述了数据质量的4个大类及15个指标)
Thomas Redman基于数据结构的数据质量维
度,在三大类别中(数据模型、数据值、数 据表
达),共描述20多个维度
Larry English:固有特征和实用特征
DAMA UK白皮书,描述了数据质量的6个核心维
度
1)完备性。存储数据量与潜在数据量的百分比 。
2)唯一性。 在满足对象识别的基础上不应多次
记录实体实例(事物)。
3)及时性。数据从要求的时间点起代表现实的
程度。
4)有 效性。如数据符合其定义的语法(格式、
类型、范围),则数据有效。
5)准确性。数据正确描述所描述的“真实世界”对
象或事件的程度。
6)一致性。比较事物多种表述与定义的差异。
常见的数据质量评估维度
1、准确性。2、 完备性。3、一致性。4、完整
性。5、合理性。6、及时性。7、唯一性\数据去
重。8、有效性
数据质量改进:常用方法是戴明环,戴明环 是一
个被称为“计划-执行-检查-处理”的问题解决模型
数据质量问题常见原因
(1)缺乏领导力导致的问题
(2)数据输 入过程引起的问题
(3)数据处理功能引起的问题
(4) 系统设计引起的问题
(5)解决问题引起的问题
数据质量和数据处理
(1)数据清理
(2)数据增 强
(3)数据解析和格式化
(4) 数据转换与标准化
3、数据质量活动
1 、定义高质量数据
2 、定义数据质量战略(数据质量优先级必须与
业务战略一致。)
1)了解并优先考虑业务需求。2)确定满足业务
需求的关键数据。3)根据业务需求定义业务规
则和数据质量标准。4)根据预期评估数据。5)
分享调查结果,并从利益相关方那里获得反 馈。
6)优先处理和管理问题。7)确定并优先考虑改
进机会。8)测量、监控和报告数据质量 。9)管
理通过数据质量流程生成的元数据。10)将数据
质量控制集成到业务和技术流程中。
3、识别关键数据和业务规则
数据质量管理工作应首先关注组织中最重要 的数
据
在确定关键数据之后,数据质量分析人员需 要识
别能描述或暗示有关数据质量特征要求的业 务规
则。
4 、执行初始数据质量评估
数据质量评估的最重要部分就是实际查看数 据、
查询数据,以了解数据内容和关系,以及将 实际
数据与规则和期望进行比较。
5、识别改进方向并确定优先排序
6、 定义数据质量改进目标
当发现问题时,根据以下内容确定改进的投 资回
报率:1)受影响数据的关键性(重要性排序) 。
2)受影响的 数据量。3)数据的龄期。4)受 问
题影响的业务流程数量和类型。5)受问题影响
的消费者、客户、供应商或员工数量。6)与问
题相关的风险。7)纠正根 本原因的成本。8)潜
在的工作成本。
7 、开发和部署数据质量操作
1.管理数 据质量规则
2.测量和监控数据质量
3.制定管理数据问题的操作过程
4.制定数据质量服务水平协议
5.编写 数据质量报告
4、管 理工具
1 数据剖析工具
数据剖析工具生成高级别的统计信息,分析 人员
能够据此识别数据中的模式并对质量特征进 行初
始评估。
2 数据查询工具
数据剖析只是数据分析的第一步,它有助于 识别
潜在问题。数据质量团队成员还需要更深入 地查
询数据,以回答分析结果提出的问题,并找 到能
够深入了解数据问题根源的模式。
3 建模和ETL工具
用于数据建模和创建ETL过程的工具对数据质量
有直接影响。
4 数据质量规则模板
5 元数据存储库
定义数据质量需要元数据,而高质量数据的 定义
是元数据的一种价值呈现方式。
5、方法
1 预防措施(创建高质量数据的最佳方法是防止
低质量数据进入组织)
1)建立数据输入控制。
2)培训数据 生产者。
3)定义和执行规则。
4)要 求数据供应商提供高质量数据。
5)实施数据治理和管理制度。
6)制定正式的变更控制。
2 纠正措施
1)自动修正。
2)人工检查 修正。
3)人工修正。
3 质量检查和审核代码模块
4 有效的数据质量指标(管理数据质量的一个重
要组成部分是开发度量指标,以告知数据消 费者
对其数据使用非常重要的质量特征。)
1)可度量性。
2)业务相关 性。
3)可接受性。
4)问 责/管理制度。
5)可控制性。
6)趋势分析。
5 统计过程控制(统计过程控制(SPC)是一种
通过分析过程输入、输出或步骤的变化测量 值来
管理过程的方法。)
SPC使用的主要工具是控制图,它是一 个时间序
列图,包括平均值的中心线(集中趋势的度
量),以及描述测算的上下控制界限(围绕 中心
值的可变性)。在一个稳定的过程中,超出 控制
范围的度量结果表明了异常状况的存在。
6 根本原因分析
6、实施指南
1 就绪评估/风险评估
1)管理层承诺将数据作为战略资产进行管理。
2)组织对数 据质量的当前理解。
3)数据的实际情况。
4)与 数据创建、处理或使用相关的风险。
5)可扩展数据质量监控的文化和技术就绪。
2 组织与文化变革
7、数据质量和数据治理
1 数据质量制度
制度应包括:1)制度的目的、范围和适用性。
2)术语定义 。3)数据质量团队的职责。4) 其
他利益相关方的责任。5)报告。6)策略的实
施,包括与之相关的风险、预防措施、合规 性、
数据保护和数据安全性等。
2 度量指标
数据质量的高阶指标包括:1)投资回报。2)质
量水平。3)数据质量趋势。4)数据问题管理指
标。5)服务水平的一致性。6)数据质量计划示
意图。
14大数据与数据科学4%
一、概述
定义
对多种不同类型的数据进行收集(大数据) 和分
析(数据科学、分析、可视化),以此来为 在分
析的初始阶段未知的问题找到答案
目标
发现数据和业务的联系
支持将数据源迭代集成到企业中
发现和分析可能影响到业务的因素
利用可视化技术,以恰当的、可靠的且合乎 道德
规范的方式来发布数据
业务驱动
期望抓住从多种流程生成的数据集中发现的 商
机,是提升一个组织大数据和数据科学能力 的最
大业务驱动力
可以通过对更多、更大的数据集进行探索来 激发
创新,这些数据可用来定义预判客户需求的 预测
模型,并实现产品和服务的个性化展示
数据科学可以提升运营水平
机器学习算法可以将复杂耗时的活动自动化 ,从
而提升组织效率、削减成本、降低风险。
原则
未完全形成
组织应仔细管理与大数据源相关的元数据, 以便
对数据文件及其来源和价值进行精确的清单 管理
二、基本概念
数据科学
将数据挖掘、统计分析和机器学习与数据集 成整
合,结合数据建模能力去构建预测模型、探 索数
据内容模式。
数据科学依赖于:1)丰富的数据源;2)信息组
织和分析;3)信息交付;4)展示发现和数据洞
察
数据科学的过程
1.定义大 数据战略和业务需求
2.选择数据源
3.获得和接收数据源
4.制定数据假设和方法
5.集成 和调整进行数据分析
6.使用模型探索数据
7.部署 和监控
大数据
1.数据量 大(Volume)
2.数据更新快(Velocity)
3.数据类型多样/可 变(Variety/Variability)
4.数据粘度大(Viscosity):指数据使用或集成
的难度比较高
5.数据 波动性大(Volatility):指数据更改的频
率,以及由此导致的数据有效时间短。
6.数据准确性低(Veracity):指 数据的可靠程度
不高。
数据湖
一种可以撮、存储、评估和分析不同类型和 结构
海量数据的环境,可供多种场景使用
场景
1.数据科 学家可以挖掘和分析数据的环境
2.原始数据的集中存储区域,只需很少量的转
换(如果需要的话)
3.数据仓库明细历史数据的备用存储区域
4.信息记录的在线归档
5.可以 通过自动化的模型识别撮流数据的环境
基于服务的架构
批处理层(Batch Layer):数据湖作为批处理
层提供服务,包括近期和历史的数据
加速层(Speed Layer):只包括实时数据
服务层(Serving Layer):提供连接批处理和
加速层数据的接口
机器学习
机器学习探索了学习算法的构建和研究,可 以视
为无监督学习和监督学习方法的结合
无监督学习(Unsupervised learning)通常被
称为数据挖掘,基于找到的那些隐藏的规律 。
监督学习(Supervised learning)基于复杂的数
学理论,特别是统计学、组合学和运筹学; 基于
通用规则,比如识别出垃圾邮件。
强化学习(Reinforcement learning):基于目
标的实现,如国际象棋。
数据和文本挖掘
Data mining 是一种特殊 的分析方法,使用各种
算法揭示数据中的规律。
使用技术
1.剖析( Profiling)
2.数据缩减(Data reducation)
3.关联(Association)
4.聚类(Clustering)
5.自组 织映射(Self-organizing maps)
预测分析
Predictive Analytics,用户尝试对数据元素进
行建模,并通过评估概率估算来预测未来结 果。
规范分析
Prescriptive Analytics,比 预测分析更进一步,
对将会影响结果的运作进行定义,而不仅仅 是根
据已发生的运作预测结果。
非结构化数据分析
Unstructured Data Analytics,结合文本挖掘、
关联分析、聚类分析和其他无监督学习技术 来处
理大型数据集。
运营分析
Operational Analytics,也称运营BI或流 式分
析,包括用户细分、情绪分析、地理编码以 及应
用于数据集的其它技术,用于营销活动分析 、销
售突破、产品推广、资产优化和风险管理等
数据可视化
Visualization,通过图片或图形来解释概念、想
法和事实的过程。
数据混搭
Data Mashups,将数据和服务结合在一起,以
可视化的方式展示见解或分析结果。
三、活动
1.定义大 数据战略和业务需求
1)组织试图解决什么问题,需要分析什么
2)要使用或 获取的数据源是什么
3)提供数据的及时性和范围
4)对 其他数据结构的影响以及与其他数据结构
的相关性
5)对现有建模数据的影响
2.选择数据源
基础数据
粒度
一致性
可靠性
检查/分析数据源
3.获得和接收数据源
4.制定数据假设和方法
5.集成 和调整数据进行分析
6.使用模型探索数据
1)填充预测模型
2)训练模型
3)评估模型
4)创 建数据可视化
7.部署 和监控
1)揭示洞察和发现
2)使用附加 数据源迭代
四、工具
MPP无共享技术和架构
基于分布式文件的数据库
数据库内算法
大数据云解决方案
统计计算和图形语言
数据可视化工具集
五、方法
解析建模
大数据建模
六、实施指南
战略一致性
就绪/风险评估
1.业务相 关性
2.业务准备情况
3.经济可行性
4.原型
5.可能 最具挑战性的决策将围绕数据采购、平台
开发和资源配置进行
6.数字资料存储有许多来源,并非所有来源都需
要内部拥有和运营。可以买或租赁
7.市场 上有多种工具和技术,满足一般需求将是
一个挑战
8.及时保护具有专 业技能的员工,并在实施过程
中留住顶尖人才
9.培养内部人才的时间可能会超过交付窗口的时
间
组织与文化变迁
七、大数据和数据科学治理
1.可视化 渠道管理
2.数据科学和可视化标准
3.数据安全
4.元数据
5.数据 质量
6.度量指标
技术使用指标
加载和扫描指标
学习和故事场景
15数据管理成熟度评估6%
管理成熟度概述
成熟度评估等级
0级-无能力级。
1级-初始级或临时级:成功取决于个人的 能力。
2级-可重复级:制定了最初级的流程规则。
3级-已定 义级:已建立标准并使用。
4级-已管理级:能力可以被量化和控制。
5级-优化级:能力提升的目标是可量化的。
能力成熟度评估原因
1)监管。监管对数据管理提出了最低成熟度水 平
要求。
2)数据治理 。出于规划与合规性目的,数据治
理需要进行成熟度评估。
3)过程改进的组织就绪。组织认识到要改进其
实践过程应从评估其当前状态开始。例如, 它承
诺管理主数据,并需要评估其部署主数据管 理流
程和工具的准备情况。
4)组织变更。 组织变更(如合并)会带来数据管
理挑战。DMMA为应对这些挑战制订了规划 。
5)新技术。技术的进步提供了管理和使用数据
的新方法。组织希望了解成功采用的可能性 。
6)数据管理问题。当需要解决数据质量问题或
应对其他数据管理挑战时,组织希望对其当 前状
态进行评估.以便更好地决定如何实施变更 。
成熟度评估目标
·全面发现和评估整个组织的关键数据管理活动
·向利益相关方介绍数据管理的概念、原则和实
践,并在更广泛的背景下确定其作为数据创 建者
和管理者的角色和职责
·建立或加强可持续的企业范围数据管理计划,以
支持运营和战略目标
常见数据管理成熟度评估框架
CMMI 数据管理成熟度 模型(DMM)
EDM 委员会DCAM
IBM数据 治理委员会成熟度模型
斯坦福数据治理成熟度模型
Gartner的企业信息管理成熟度模型
基于评估结果,可以达到以下目标
1)与过程、方法、资源和自动化相关的高价值改
进机会。
2)符合业务 战略的能力。
3)为定期基于模型评估组织能力开展治理项
目。
业务驱动因素
输入
业务战略和目标
文化与风险承受能力
成熟度框架与DAMA-DMBOK
政策、流程、标准、操作模式
基准
活动
规划划评估活动(P)
(1)确定范围和方法
(2) 计划沟通
执行成熟度评估( C)
(1)收集信息
2)进行评估
(3)解释结果
解释结果及建议(D)
制订有针对性的改进计划(P)
重新评估成熟度(C)
交付成果
·等级和排名
成熟度基线
准备评估
风险评估
人员配置能力
投资和成果选择
建议
路线图
执行简报
技术驱动因素
方法
数据管理成熟度框架选择
1)易用性。实践活动是以非技术性术语来描述
的,它传达了活动的功能本质。
2)全面性。 该框架涉及广泛的数据管理活动,
包括业务参与,而不仅仅是IT过程。
3)可扩展性和灵活性。框架的结构能够支持增
强行业特定或附加的规程,并且可以根据组 织的
需要全部或部分使用。
4)内 置的未来演进路径。虽然不同组织确定的
优先级不同,但DMM框架描述了每个功能逻辑前
进的方式。
5)行业不可知论与行业特定论。某些组织受益
于行业特定的方法,但其他组织受益于更通 用的
框架。所有的 DMM框 架都应该遵循跨垂直领域
的数据管理最佳实践。
6)抽象或详细程度。实践和评估标准表达详
细,可以确保它们指导相关执行工作。7))非规
定性。框架描述了需要执行的内容,而不是 必须
如何执行。
8)按主题组织。框架将数据管理活动放 置在适
当的情景中,使每个活动都能够单独评估, 同时
又可识别依赖关系。
9)可重复。该框架可以得到一致的解释,支持可
重复的结果,以便将一个组织与其行业中的 其他
组织进行比较,并跟踪一段时间内的进展情 况。
10)由中立的独立组织支持。 为了避免利益冲
突,该模型应由保持中立的供应商广泛提供 ,以
确保最佳实践的广泛代表性。
11)技术中立。模型的重点应该放在实践上,而
不是放在工具上。
12)培训支持。 该模型有全面的培训支持,使专
业人员能够掌握框架并优化其使用方法。
社区参与
DMBOK
现有基准
工具
数据管理成熟度框架
沟通计划
协作工具
知识管理和元数据存储库
数据分析工具
度量指标
DAMA局部和总评级
资源利用率
风险敞口
支出管理
DAMA输入
变革速度
16数据管理组织与角色期望4%
1数据管理组织的结构
分散运营模式
概念:,数据管理职能分布在不同的业务部 门和I
部门(图16-2)。委员会是互相协作的基础,委员
会不属于任何一个单独的部门。许多数据管 理规
划从基层开始,意图统一整个组织的数据管 理实
践.因而具有分散的结构。
优点:组织结构相对扁平,数据管理组织与 业务
线或IT部门具有一致性。这种一致性通常意味着
对数据要有清晰的理解,相对容易实施或改 进。
缺点:是让过多的人员参与治理和制定决策 ,实
施协作决策通常比集中发布号令更加困难。 分散
模式一般不太正式,可能难以长期性维持。 为了
取得成功,他们需要一些方法强化实践的一 致
性,但这可能很难协调。使用分散模式来定 义数
据所有权,通常也比较困难。
网络运营模式
概念:通过 RACI (谁负 责,Responsible;谁批
准,Accountable;咨询谁,Consulted;通知
谁,In-formed)责任矩阵,利用一系列的文件
记录联系和责任制度,使分散的非正规性组 织变
得更加正式,称为网络模式。它作为人和角 色之
间的一系列已知连接运行,可以表示为“网络”
优点:类似于分散模式(结构扁平、观念一 致、
快速组建)。采用RACI,有助于在不影响组织结
构的情况下建立责任制。
缺点:是需要维护和执行与RACI相关的期望。
集中运营模式
概念:最正式且成熟的数据管理运营模式是 集中
运营模式。所有工作都由数据管理组织掌控 。参
与数据治理和数据管理的人员直接向负责治 理、
管理职责、元数据管理、数据质量管理、主 数据
和参考数据管理、数据架构、业务分析等工 作的
数据管理主管报告。
优点,它为数据管理或数据治理建立了正式 的管
理职位,且拥有一个最终决策人。因为职责 是明
确的,所以决策更容易。在组织内部,可以 按不
同的业务类型或业务主题分别管理数据。
缺点,实施集中模式通常需要重大的组织变 革。
将数据管理的角色从核心业务流程正式分离 ,存
在业务知识逐渐丢失的风险。
混合运营模式
概念:混合运营模式包含分散模式和集中模 式的
优点。在混合模式中,一个集中的数据管理 卓越
中心与分散的业务部门团队合作,通常通过 一个
代表关键业务部门的执行指导委员会和一系 列针
对特定问题的技术工作组来完成工作。
优点:它可以从组织的顶层制定适当的指导 方
向,并且有一位对数据管理或数据治理负责 的高
管。业务团队具有广泛的责任感,可以通过 业务
优先级调整给予更多的关注。他们受益于这 个专
门的数据管理卓越中心的支持,有助于将重 点放
在特定的挑战上。
缺点,该模式的挑战包括组织的建立,通常 这种
模式需要配备额外的人员到卓越中心。业务 团队
可能有不同的优先级,这些优先级需要从企 业自
身的角度进行管理。此外,中央组织的优先 事项
与各分散组织的优先事项之间有时也会发生 冲
突。
联邦运营模式
概念:作为混合运营模式的一种变体,联邦 模式
提供了额外的集中层/分散层,这在大型全球企
业中是必需 的。
优点:联邦模式提供了一个具有分散执行的 集中
策略。因此,对于大型企业来说,它可能是 唯一
可行的模式。一个负责整个组织数据管理的 主管
领导,负责管理企业卓越中心。当然,不同 的业
务线有权根据需求和优先级来适应要求。该 模式
使组织能够根据特定数据实体、部门挑战或 区域
优先级来确定优先级。
缺点:该模式的主要缺点是管理起来较复杂 。它
的层次太多,需要在业务线的自治和企业的 需求
之间取得平衡,而这种平衡会影响企业的优 先
级。
2DMO替代方案和设计考虑因素
1)通过评估当前状态来确定起点。
2)将 运营模式与组织结构联系起来。
3)组织和领域复杂性及成熟度
4)获 得高层支持
5)确保任何领导机构(指导委员会、咨询委员
会、董事会)都是决策机构。
6)考虑试点规划和分批次实施。
7)专注于高价值、高影响力的数据 域
8)使用现有的资源。
9)永远不要采用一刀切( One-Size-Fits-All)的方
法。
3组织成功的因素
1)高管层的支持。
2)明确的愿 景。
3)主动的变更管理。
4)领 导者之间的共识。
5)持续沟通。
6)利益相关方的参与。
7)指导和培训。
8)采用度量策略。
1)是否采用。
2)改进的程 度,或相对于之前状态的增量。
3)数据管理的有利方面。数据管理如何影响结
果可测量的解决方案。
4)改 进的流程和项目。
5)识别并规避的风险。
6)数据管理的创新方面。数据管理如何从根本
上改变业务的方式。
7)可信度分析。
9)坚持指导原则。
10)演进而非革命。
4建立 数据管理组织
识别数据管理参与者
识别委员会参与者
识别分析利益相关方
1)谁将受到数据管理的影响。
2)角色和职 责如何转变。
3)受影响的人如何应对变化。
4)人们会有哪 些问题和顾虑。
1)谁控制关键资源。
2)谁可以直 接或间接阻止数据管理计划。
3)谁可以影响其他关键因素。
4)利 益相关方是否会支持即将发生的变化。
让利益方参与进来
5与其他机构的沟通
1)首席数据官组织。
1)建立组织数据战略。
2)使以数据 为中心的需求与可用的IT和业务资源
保持一致。3)建立数据治理标准、政策和程序。
4))为业务提 供建议(以及可能的服务)以实现
数据能动性,如业务分析、大数据、数据质 量和
数据技术。
5)向企业内外部利益相关方宣传良好的信息管
理原则的重要性。
片数糊l冬公析和商冬知能中的街用情况
2)数据治理 机构。
数据治理是要“做正确的事情”,数据管理是要“将
事情做正确”
3)数据质量团队。
4)企 业架构团队。
1)技术架构。2)应用架构。
3)信息((或数据)架构。4)业务架构。
5)管理全球化组织
1)遵守标准。2)同步流程。3)明确责任制度。4)
培训和交流。5)有效地监控和度量。6)发展规
模经济。7)减少重复性工作。
6数据管理角色
组织角色
个人角色
执行官角色
业务角色
IT角 色
数据架构师
数据建模师
数据模型管理员
数据库管理员
数据安全管理员
数据集成架构师
数据集成专家
分析报表开发人员
应用架构师
技术架构师
技术工程师
桌面管理员
IT审 计师
混合角色
数据质量分析师
元数据专家
BI架构师
BI分析师
BI项目经理
17数据管理和组织变革管理2%
变革法则
组织不变革,人就变
人们不会抗拒变革,但抵制被改变。
事情之所以存在是惯性所致。
除非有人推动变革,否则很可能止步不前。
如果不考虑人的因素,变革将很容易。
变革经历的三个阶段
结束阶段
相持阶段
新的开始阶段
科特的变革管理的八大误区
过于自满
高估了自己推动巨大组织变革的能力。
低估了让人们走出舒适区的难度。
未能预见他们的行为和方法可能会引发抵触 而强
化现状。
冲向人们不敢踏足的地方。在缺乏充分沟通 (愿
景)需要改变什么、为何改变的情况下,就 启动
改变活动。
将紧迫性与焦虑混为一谈,这反过来又会导 致恐
惧和阻力,利益相关方会因此(毫不夸张地 说)故
步自封。
未能建立足够强大的指导联盟
职位权力。是否有足够多的关键人物,特别 是主
要管理者,这样那些被排除在外的人就不会 轻易
阻碍进展。
专家意见。相关观点是否有充分的代表性, 以便
做出有见识的和明智的决定。
可信性。团队中是否有足够多的人在组织中 声誉
良好,从而使团队受到重视。
领导力。团队中是否有足够可靠的领导者来 推动
变革进程。
低估愿景的力量
10倍、100倍、1000倍放 大愿景
允许阻挡愿景的障碍存在
心理障碍
组织结构
积极抵抗
未能创造短期收益
过早宣布胜利
忽视将变革融入企业文化
科特重大变革八步法
常见因素
内向型文化
瘫痪的官僚机构
狭隘性政治
信任度低
缺乏团队合作
狂妄自大
欠缺领导力或者领导力失败
对未知的恐惧
八步法
树立紧迫感
1)监管变化。
2)信 息安全的潜在威胁。
3 )业务连续性风险。
4)商业策略的 改变。
5)兼并与收购。
6)监管审计或诉讼风险。
7)技术变革。
8)市场竞争对手的能力变化。
9)媒体对组织或者行业信息管理问题的评论。
建立指导联盟
1.在联盟中发挥有效领导力的重要性
2.信息管理环境中的示例
3.建立有效团队
4.避免群体思维
5.信息 管理环境中的示例
6.共同目标
发展愿景和策略
愿景特指
明确性
动力性
一致性
有效愿景特征
1)充满想象。描绘了一幅未来的图景。
2)吸 引力。有利于增加员工、客户、股东和其他
利益相关方的长期利益。
3)可行性。目标现实、可实现。
4)重点突出。 为决策提供明确指导。
5)灵活性。它足够普适,允许个人采取主动,
并在条件或约束发生变化时做出替代计划和 响
应。
6)可交流性。容易在5分钟或者更短时间内分享
和清晰交流。
有效愿景要素
1)初稿。起草初步陈述,反映大家的梦想和巿场
需求。
2)指 导联盟的角色。指导联盟修改初稿,以适应
更广泛的战略视角。
3)团队合作的重要性。没有团队合作,团队过
程就会失灵。鼓励人们参与并做出贡献。
4)头脑和心灵 的作用。逻辑思考和异想天开在整
个活动中都是必需的。
5)过程的混乱。这不是一个一蹴而就的过程,
而是一个会有很多争论、返工和改变的过程 。如
果没有这些,那就是愿景和团队二者之一出 现了
问题。
6)时间框架。活动并非一次性交易,可能需要
几周、几个月甚至更长时间。在理想情况下 ,愿
景应该是不断发展的。
7)最终产品。一个未来的 方向,是可取的、可
行的、重点突出的、灵活的、可以在5分钟或更
短的时间内清晰表达的。
沟通变革愿景
1)保持简单。去掉行话、内部词汇和复杂句子。
2)使用比喻 、类比和例子。例如,一张简单的
图(甚至是一些图片)可以胜过千言万语。
3)适用不同场合。从电梯演讲到广播备忘录,
从小型会议到全员简报,信息需要在各种不 同的
场合之间传递。
4)重复,重复 ,再重复。思想在被内化和理解之
前必须被多次听到。
5)以身作则。重要人物行为需要与愿景保持一
致。不一致行为会废掉所有其他形式的沟通 。
6)解释表面上的不一致。虎头蛇尾和未解决的
协调问题会破坏所有沟通的可信度。
7)给予和索取。双向沟通 总是比单向沟通更有
效。
给基于委员会的行动权力
创造短期收益
巩固收益并创造更多变革
将变更成果融入企业文化
变革的秘诀 变革平衡公式(Gleicher公式)
C = (D x V x F) >R
C发生变 革
D对现状的不满程度
V对更好替代方案的愿景
F实现目标所采取的第一步行动
R组织的阻力
创新扩散和持续变革
创新扩散而需克服的挑战
突破早起使用者阶段
不必100%人接受
创新扩展的关键因素
创新
沟通渠道
时间
社会系统
创新采纳的五个阶段
知悉
说服
决策
实施
确认
持续变革
紧迫感/不满意
构建愿景
指导联盟
相对优势/可观测性
数据管理价值的沟通
沟通原则
1)有明确的目标和期望的结果。
2)由支持所 需结果的关键消息构成。
3)为受众/利益相关方量身定制。
4)通过适合受 众/利益相关方的媒介传达。
沟通目标
1)通知。
2)教 育。
3)设定目标或愿景。
4)定义问题的 解决方案。
5)促进变革。
6)影响或激励行动。
7)获得反馈。
8)获得支持。
受众评估与准备
人的因素
沟通计划
保持沟通
图例
将图标插入主题中