第11章 数据仓库和数据智能知识点梳理(附带页码)
◼ 数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代,后与商务智能(Business Inteligence,BI)作为业务决策主要驱动力协同发展。赋能组织将不同来源的数据整合到公共的数据模型,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。减少数据冗余,提高信息一致性,让企业能够利用数据做出更优决策的方法。数据仓库是企业数据管理的核心。P290
◼ 业务驱动因素:运营支持职能、合规需求(历史数据响应)和商务智能活动(主因。提供洞察。提升效率。增强竞争优势。)。P290
◼ 数据仓库的建设目标:
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。P291
◼ 数据仓库建设应遵循原则:
1)聚焦业务目标。用于最优级的业务并解决它。
2)以终为始。以业务优先级和最终成果驱动仓库创建。
3)全局性的思考和设计,局部性的行动和建设。
4)总结并持续优化,而不是一开始就这样做。
5)提升透明度和自助服务。
6)与数据仓库一起建立元数据。DW 的成功关键是能准确解释数据。
7)协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律。为每种数据消费者提供正确的工具和产品。P291-292
◼ 活动:
1.理解需求。
2.定义和维护 DW 和 BI 架构。
3.开发数据仓库和数据集市。
4.加载数据仓库。
5.实施 BI 产品组合。
6.维护数据产品。
◼ 商务智能:第一层含义,商务智能指的是一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率。第二层含义,商务智能指的是支持这类数据分析活动的技术集合。P292
◼ 数据仓库:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。数据集市是数据仓库中数据子集的副本。从广义上讲,数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或提供操作。P292
◼ 数据仓库建设:数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流程的重点是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。还包括与元数据资料库交互的流程。传统意义上建设主要关注结构化数据,现在也包含半结构化数据和非结构化数据。P292
◼ 数据仓库建设的方法。两位思想领袖比尔·恩门(Bill Inmon) 和拉尔夫·金博尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模。P293。比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit)中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本。”参考:https://blog.csdn.net/Luomingkui1109/article/details/91349335;(重要性★★★★★)
◼ 他们遵循的核心理念相似:
1)数据源于其他系统。
2)以提升数据价值的方式整合数据。
3)便于数据被访问和分析。
4)都为了让授权的利益相关方访问到可靠的、集成的数据。
5)建设目的涵盖工作流支持、运营管理和预测分析。
【源于其它。提升价值。便于分析。确保可靠。使能预测。】 P293
◼ 企业信息工厂(Corporate Information Factory,CIF):
1)面向主题的。不关注功能或应用。
2)整合的。统一的、内聚的。
3)随时间变化的。存储的是某个时间段的数据。
4)稳定的。数据不频繁更新,新数据加到老数据后。一组记录可代表交易的不同状态。
5)聚合数据和明细数据。即有原子的交易明细,也有汇总后的数据。
6)历史的。当前的/历史的。P293
◼ 企业信息工厂(Inmon)组成:
1)应用程序。
2)数据暂存区
3)集成和转换。
4)操作型数据存储(ODS)。
5)数据集市。
6)操作型数据集市(OpDM)。操作型数据集市是专注于运营决策支持的数据集市。直接从操作型数据存储而不是从数据仓库获取数据,具有与操作型数据存储相同的特性:包含当前或近期的数据,这些数据是经常变化的。
7)数据仓库。单向流向数据集市。
8)运营报告。运营报告从数据存储中输出。
9)参考数据、主数据和外部数据。图见 P295 图11-2。
◼ 业务系统到数据集市,数据流程过程的变化:
1)目标:功能执行——>数据分析。
2)用户:业务人员——>决策人员。
3)使用:固定操作——>即席查询。
4)时间:即时要求高——>不高。
5)影响面:数据少——>涉及更多数据。P295
◼ 数据仓库和集市中的数据与应用程序中的数据不同:
1)按主题域而非功能需要组织。
2)是整合而非孤立的。
3)随时间变化的系列数据而非仅当前时间点的。
4)延迟高。
5)历史数据多。
【1)组织形式:功能需要——>主题域。2)状态:烟囱——>整合。3)时间:当前时间——>时间序列。4)延迟性:低——>高。5)历史数据:少——>多。】P295
◼ 多维数据仓库(Kimball):专为查询和分析而构建的事务数据的副本,它不是以实体关系模型的规范化要求组织的。多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少)组成。多事实表通过“总线“共享公共的维度或遵循一致性的维度。事实表与许多维表关联,整个图看上去像星星一样。P296
◼ Kimball 的数据仓库分为业务源系统、数据暂存区域、数据展示区域、数据访问工具四个部分。P296
◼ 数据仓库的总线矩阵展示的是生成事实数据的业务流程和表示维度的数据主题域的交汇。独立于技术,用于表示数据仓库/BI 系统长期数据的内容需求,帮助组织确定可管理的开发工作范围。
◼ 数据仓库环境包括:一系列组织起来以满足企业需求的架构组件。包括源系统,数据集成,数据存储区域等。大数据方案一般会先加载数据,再处理,即 ELT。
◼ 数据仓库架构组件的数据存储区域包含:
1)暂存区。介于原始数据源和集中式数据存储库之间的中间数据存储区域。
2)参考数据和主数据一致性维度。
3)中央数据仓库。数据结构的设计元素包括:①基于性能考虑而设计的业务主键和代理主键之间的关系。②创建索引和外键以支持维度表。③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。
4)操作型数据存储 ODS。操作型数据存储包含一个时间窗口的数据而不是全部历史记录,因此可以比数据仓库有更快地刷新频率。
5)数据集市。面向特定主题域、单个部门或单个业务流程。
6)数据立方体 Cubes。3 种经典的支持在线分析处理系统 OLAP:基于关系、基于多维及混合型存储结构。P296-298
◼ 数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。P299
◼ 历史数据处理:
1.Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。
2.Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。
3.Data Vault,作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)。P299-300
◼ 批量变更数据捕获。数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务。因为不同源系统可能需要不同的变更捕获技术,所以加载过程可以包含各种变更检测。P300
◼ 准实时和实时数据加载:
1)涓流式加载(源端累积)。不同于夜间窗口批量加载,它会以更频繁的节奏或阈值进行批量加载。微批处理。
2)消息传送(总线累积)。极小数据报发到消息总线,目标系统订阅总线。MQ。
3)流式传送(目标端累积)。目标系统使用缓冲区或队列方式收集数据,并按顺序处理。kafka。P300-301
◼ 【活动 1】理解需求。
1 要考虑业务目标和业务战略。
2 确定业务领域并框定范围。
3 进行访谈,确定原因及想要的数据。
4 确定需求的优先级。
5 找出可以快速启动具有价值的需求。P301
◼ 【活动 2】定义和维护数据仓库/商务智能架构。
【活动 2-1】确定数据仓库/商务智能技术架构。应能以原子化的数据处理方式支撑交易级和运营级的报表需求。做好原型设计可以快速证明或驳斥关键需求的实现,避免对某些技术或架构进行过大的投入。
【活动 2-2】确定数据仓库/商务智能管理流程。通过协调和集成维护流程进行生产管理,定期向业务团队发布。建立一个有效的发布流程,确保管理层理解这是一个以数据产品为中心的主动流程,而不是已安装产品的被动式问题解决方式。
◼ 【活动 3】开发数据仓库和数据集市。数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据。支持业务分析所必需的数据。识别最佳来源、设计规则、处理不合预期数据。
2)技术。支持数据存储和迁移的后端系统及流程。
3)商务智能工具。内容:(70%的工作)1.将源映射到目标。建立转换规则。确保链接有效性或等效性。逻辑数据模型。最困难是确定多系统数据间的链接有效性或等效性。2.修正和转换数据。数据修正或清理活动的执行标准。纠正域值。源系统应负责数据的修复工作并确保数据正确。乐观加载策略:创建维度记录以容纳事实数据。悲观加载策略:事实数据的回收区域。P302-303
◼ 【活动 4】加载数据仓库。工作量最大的部分是数据准备和预处理。确定数据加载方法时,
1.要考虑的关键因素是数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性,还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度和数据拒绝等问题。
2.另一个因素是围绕变更数据捕获过程检测源系统中的数据变更,将这些变更集成在一起,并依时间调整变更。P303-304
◼ 【活动 5】实施商务智能产品组合。
1.根据需要给用户分组。了解用户组。将工具与用户组匹配。
2.将工具与用户要求相匹配。需要系统资源、技术支持、培训和架构集成。P304
◼ 【活动 6】维护数据产品。
1.发布管理。确保是最佳状态。
2.管理数据产品开发生命周期。
3.监控和调优加载过程。了解性能瓶颈和依赖路径。分区、备份调优、恢复策略。归档是难题。
4.监控和调优商务智能活动和性能。最佳实践是定义一组面向客户满意度的指标。定期审查 。透明度和可见性推动数据仓库/商务智能监控的关键原则。P305-307
◼ 工具:
1.元数据存储库。A.数据字典和术语。数据字典是支撑数据仓库使用的必需组件。字典用业务术语来描述数据,数据字典内容来自逻辑数据模型。B.数据和数据模型的血缘关系。1)调查数据问题的根本原因。2)对系统变更或数据问题进行影响分析。3)根据数据来源确定数据的可靠性。
2.数据集成工具。用于加载数据仓库。考虑:1)过程审计、控制、重启和调度。2)有选择地提取数据元素并将其提供给下游系统进行审计的能力。3)控制操作的执行,并重启失败或中止的进程。还提供 BI 产品的集成功能,支持工作流消息、电子邮件甚至语义层的导入导出。
3.商务智能工具。1)运营报表。2)业务绩效管理 BPM。旨在优化业务战略的执行。绩效度量和带正反馈回路是关键的要素。绩效度量和带正反馈回路是关键的要素。3)描述性自助分析。为前台提供,指导运营决策。P307-310
◼ 运营报表:业务用户直接从交易系统、应用程序或数据仓库生成报表。数据检索和报表工具,有时称为即席查询工具,允许用户编写自己需要的报表或创建供他人使用的报表。业务运营报表中的需求通常与业务查询报告的需求不同。生产报表跨越了数据仓库/商务智能的边界,它经常直接查询交易系统,产生诸如发票或银行对账单之类的操作项。传统的商务智能工具可以很好地展现表格、饼图、折线图、面积图、条形图、直方图、K 线图等一些数据可视化方法。P309
◼ 在线分析处理 OLAP:多维分析查询提供快速性能的方法。常见操作有切片、切块、向下/向上钻取、向上卷积、透视。三种经典 OLAP 实现方法如下:关系型联机分析处理 ROLAP。多维矩阵型联机分析处理 MOLAP。混合型联机分析处理 HOLAP。P311
◼ 一些有用的方法:
1.驱动需求的原型。数据剖析有助于原型设计,降低风险。状态评估有助于集成可行性和工作范围的评估。演示数据。数据虚拟技术。数据探查。源系统评估。
2.自助式商务智能。基本交付形式。根据用户权限提供。按标准计划推送。在门户中执行报表提取数据。社区。
3.可查询的审计数据。所有结构和流程都应能创建和存储审计数据。能进行细粒度的跟踪和报告。提升用户信心。可快速定位问题。P311-312。
◼ 就绪评估/风险评估:从先决条件清单开始,业务支持,与战略保持一致。
1)明确数据敏感性和安全性约束。
2)选择工具。
3)保障资源安全。
4)创建抽取过程以评估和接收源数据。P312-313
◼ 版本路线图:逐步建设。要考虑实现的最后状态。P313
◼ 组织与文件变革:始终保持一致的业务重点是项目成功的关键。了解企业的价值链是理解业务环境的好方法。要确保数据仓库团队与业务部门团队保持一致。P312-313
◼ 成功的关键:
1)业务倡议。是否有合适的管理层支持?
2)业务目标和范围。是否有确切的业务需要、业务目标和工作范围?
3)业务资源。是否有专家?参与度如何?
4)业务准备情况。业务合作是否准备好这是长期的增量交付项目?目标组织内的平均知识水平或技能差距有多大?
5)愿景一致。IT 战略对业务愿景的支持程度如何?P313-314
◼ 数据仓库/商务智能治理的考量因素:治理流程应降低风险,而不是减少任务的执行。最关键的功能是那些管理业务运营的发现或改进区域,以及确保数据仓库本身质量稳定的功能。
1.业务接受度。
2.客户/用户满意度。
3.服务水平协议 SLA。
4.报表策略。P314
◼ 业务接受度:一个关键的成功因素是业务对数据的接受程度,包括可理解的数据、具有可验证的质量、具有可证明的数据血缘关系。要考虑:
1)概念数据模型。组核心信息?关键的业务概念?如何相互关联?
2)数据质量反馈循环。如何识别和修正问题数据?如何了解问题是怎么产生的?怎样对解决问题负责?对数据仓库的数据集成过程中引起的问题进行补救的过程是什么?
3)端到端元数据。架构如何支持集成的端到端元数据流?是否理解上下文环境的意义?数据消费者如何回答诸如“这个报表的含义是什么”或“这个指标是什么意思”等基本的问题?
4)端到端可验证数据血缘。业务用户公开访问的项目是否能以自动化的、可自维护的方式追溯到源系统?所有数据是否都记录在案?P315
◼ 报表策略要解决:
1)安全访问。确保只有获得授权的用户才能访问敏感数据。
2)描述用户交互、报告、检查或查看其数据的访问机制。
3)用户社区类型和使用它的适当工具。
4)报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质。
5)通过图形化输出发挥可视化功能的潜力。
6)及时性和性能之间的权衡。P316
◼ 度量指标:
1.使用指标。包括注册用户数、连接用户数或并发用户数。
2.主题域覆盖率。衡量每个部门访问仓库的程度 3.响应时间和性能指标。指标的后续跟进工作是验证和服务级别调整。P316
第1章 数据管理
第2章 数据处理伦理
第3章 数据治理
第4章 数据架构
第5章 数据建模和设计
第6章 数据存储和操作
第7章 数据安全
第8章 数据集成和互操作
第9章 文件和内容管理
第10章 参考数据和主数据
第11章 数据仓库和数据智能
第12章 元数据管理
第13章 数据质量
第14章 大数据与数据科学
第15章 数据管理成熟度评估
第16章 数据管理组织与角色期望
第17章 数据管理和组织变革管理