【数据仓库与数据挖掘基础】第一章 概论/基础知识

发布于:2025-03-12 ⋅ 阅读:(16) ⋅ 点赞:(0)

知识点复习:事务(关于事务的一些知识点可以点这里)

一、数据仓库的一些基本的知识

1. 从数据库到数据仓库

1.1 数据库用于事务处理

1.1.1 定义:

事务处理是指对数据库中数据的操作,这些操作通常包括插入、更新、删除和查询等。事务处理的核心是确保数据的一致性和完整性。

  • 事务的定义:事务是数据库操作的基本单位,包含一组逻辑上相关的操作。事务要么全部成功,要么全部失败。
  • ACID特性
    • 原子性(Atomicity):事务中的所有操作要么全部完成,要么全部不执行。
    • 一致性(Consistency):事务执行前后,数据库的状态必须保持一致。
    • 隔离性(Isolation):并发执行的事务之间相互独立。
    • 持久性(Durability):一旦事务提交,其结果是永久性的。
1.1.2 事务处理的操作示例
  • 插入:向用户表中添加新用户。
  • 更新:修改用户的电子邮件地址。
  • 删除:从用户表中删除某个用户。
  • 查询:获取所有用户的信息。

1.2 数据仓库

1.2.1 定义:

数据仓库是一个集成的、面向主题的数据存储系统,通常是由多个数据源(包括多个数据库)整合而成的。它的主要目的是支持决策分析和业务智能。

  • 数据仓库的组成:数据仓库中的数据可以来自多个不同的数据库、外部数据源、文件等。这些数据经过清洗、转换和整合后,存储在数据仓库中,以便进行分析和查询。

1.3 数据仓库用于决策分析

1.3.1 定义:

决策是指在面对多个选择时,选择最优方案的过程。它涉及分析信息、评估选项和选择行动方案。

1.3.2 大白话理解“决策”:
  • 决策就像是选择:想象你在餐厅里,菜单上有很多菜。你需要根据自己的口味、预算和健康考虑来选择你要点的菜。这个选择的过程就是决策。
  • 决策的目的:帮助你在复杂的情况下做出明智的选择,以达到最佳结果。
1.3.3 决策在干什么?
  • 分析信息:收集和分析相关数据,了解当前的情况。
  • 评估选项:考虑不同的选择和它们的潜在结果。
  • 选择方案:根据分析结果选择最合适的行动方案。
1.3.4 决策做的事情有哪些?
  • 制定战略:例如,企业决定进入新市场或推出新产品。
  • 资源分配:决定如何分配预算、人员和其他资源。
  • 风险管理:评估潜在风险并制定应对策略。
1.3.5 决策分析的过程

  1. 数据收集:从多个数据源收集相关数据。
  2. 数据整合:将收集到的数据进行清洗和整合,确保数据的一致性。
  3. 数据分析:使用分析工具和技术(如OLAP、数据挖掘)对数据进行深入分析。
  4. 决策制定:根据分析结果制定业务决策。

1.3.6 大白话理解:决策分析就像是企业的“智囊团”,通过分析历史数据和市场趋势,帮助企业找到最佳的行动方案。

2. 数据库与数据仓库的对比

2.1 数据库与数据仓库的关系
  • 数据库:主要用于日常事务处理,强调数据的实时性和一致性。
  • 数据仓库:主要用于决策分析,强调数据的历史性和多维分析。
2.2 数据库与数据仓库的对比
特性 数据库 数据仓库
主要目标 事务处理 决策分析
数据特征 当前、实时数据 历史、汇总数据
数据模型 规范化 多维、去规范化
数据更新 频繁 相对少
查询类型 简单、快速 复杂、耗时
用户类型 操作人员 管理者、分析师
数据量
响应时间 毫秒级 秒到分钟级
并发用户 高并发 低并发

二、OLTP与OLAP

1. OLTP(联机事务处理)

1.1 定义

OLTP(Online Transaction Processing)是支持大量并发事务的实时信息处理系统,主要用于日常业务操作。

1.2 特点

  • 高并发性:支持多个用户同时进行事务处理。
  • 实时性:即时响应用户请求,确保数据的实时更新。
  • 数据更新频繁:数据经常被插入、更新和删除。

1.3 大白话理解

OLTP就像是一个繁忙的银行柜台,客户在这里进行存款、取款等操作,系统需要快速处理每一笔交易。

2. OLAP(联机分析处理)

2.1 定义

OLAP(Online Analytical Processing)是支持复杂分析查询的数据处理系统,主要用于决策支持和数据分析。

2.2 特点

  • 多维分析:支持从多个维度对数据进行分析,提供灵活的数据透视。
  • 复杂查询:支持复杂的聚合和切片操作,处理大规模历史数据。
  • 数据更新相对少:主要用于读取和分析,更新频率较低。

2.3 大白话理解

OLAP就像是一个企业的分析师,通过分析历史数据和趋势,帮助管理层做出战略决策。

3. OLTP与OLAP的关系与区别

特性 OLTP OLAP
主要目标 事务处理 数据分析
数据特征 当前、细粒度 历史、汇总
数据模型 规范化 多维、去规范化
数据更新 频繁 相对少
查询类型 简单、快速 复杂、耗时
用户类型 操作人员 管理者、分析师
数据量
响应时间 毫秒级 秒到分钟级
并发用户 高并发 低并发

三、数据仓库的数据字典与元数据

1. 数据字典

1.1 定义

数据字典是数据库中所有对象(如表、视图、索引等)的定义和属性的集合。

1.2 特征

  • 描述性:提供关于数据结构的信息,如字段名称、数据类型、约束条件等。
  • 管理性:帮助数据库管理员管理和维护数据库对象。

1.3 大白话理解

数据字典就像是一本数据库的“说明书”,告诉你每个数据表和字段的用途和特性。

2. 元数据

2.1 定义:

元数据是描述数据的数据。它提供了关于数据的上下文和意义,帮助用户理解数据的结构、来源和使用方式。

2.2 特征

  • 结构化:描述数据的结构、格式和内容。
  • 上下文:提供数据的来源、创建时间、使用规则等信息。

2.3 大白话理解

  • 元数据就像是数据的“说明书”:就像你买的电子产品会附带说明书,告诉你如何使用、功能是什么,元数据则告诉你数据的来源、格式、含义等信息。
  • 提供上下文:元数据帮助你理解数据的背景,比如数据是从哪里来的、是什么类型的、如何使用等。

四、数据仓库的定义和特点

1. 数据仓库的定义

数据仓库是一个集成的、面向主题的、相对稳定的数据集合,用于支持管理决策。它整合了来自不同数据源的数据,提供统一的数据视图。

2. 数据仓库的特点

  • 面向主题:围绕特定业务主题组织数据,如销售、财务等。
  • 数据集成:整合多个异构数据源,提供一致性数据视图。
  • 时间维度:包含历史数据,支持时间序列分析。
  • 不可变性:数据一旦加载,通常不会被修改。

3.数据仓库是多个数据库的集合吗?

是的,数据仓库通常是由多个数据源(包括多个数据库)整合而成的,目的是提供一个统一的数据视图。

4.数据仓库里的数据是实时的吗?

数据仓库中的数据主要是历史数据,通常是经过定期更新的。数据仓库不强调实时性,而是关注数据的整合和分析。数据通常是从操作数据库(OLTP)中提取、清洗和加载(ETL)到数据仓库中。


五、数据挖掘的兴起

1. 数据挖掘的定义

数据挖掘是从大量数据中提取有用信息和知识的过程,通常涉及模式识别、统计分析和机器学习等技术。

2. 数据挖掘的特点

  • 自动化:通过算法自动发现数据中的模式和规律。
  • 多学科交叉:结合统计学、机器学习、数据库技术等多个领域。
  • 应用广泛:在市场分析、客户关系管理、欺诈检测等领域有广泛应用。

3.数据挖掘使用的常见技术:

  • 统计分析:使用统计方法分析数据,发现数据中的模式和趋势。
  • 机器学习
    • 监督学习:通过标记数据训练模型(如分类、回归)。
    • 无监督学习:从未标记数据中发现模式(如聚类)。
  • 神经网络:模拟人脑神经元的工作方式,处理复杂的数据模式。
  • 决策树:通过树状结构进行决策分析,易于理解和解释。
  • 关联规则学习:发现数据中变量之间的关系(如购物篮分析)。
  • 时间序列分析:分析时间序列数据,预测未来趋势。
  • 文本挖掘:从文本数据中提取有用信息,分析文本内容。

六、数据挖掘与OLAP的比较

1. 大白话理解:

  • OLAP(联机分析处理)

    • 目的:主要用于多维数据分析,帮助用户快速查询和生成报表。
    • 数据处理:OLAP关注的是对历史数据的分析,通常是通过复杂的查询来获取数据的汇总和趋势。
    • 用户交互:用户可以通过图形界面进行交互式分析,快速获取所需信息。
  • 数据挖掘

    • 目的:从大量数据中自动发现隐含的模式和知识,通常用于预测和分类。
    • 数据处理:数据挖掘关注的是从数据中提取知识,使用算法和模型来发现数据中的规律。
    • 用户交互:数据挖掘通常是自动化的,用户需要理解模型的输出,而不是直接与数据交互。
  • OLAP就像是一个数据分析师,帮助你快速找到你想要的信息,比如“去年销售额是多少?”。
  • 数据挖掘就像是一个侦探,在大量数据中寻找隐藏的线索,比如“哪些客户更可能购买我们的新产品?”。

2. 数据挖掘与OLAP的比较表

特性 OLAP 数据挖掘
主要目标 数据分析 知识发现
数据处理 多维分析 模式识别
查询类型 复杂查询 自动化分析
数据更新 相对少 频繁
用户类型 管理者、分析师 数据科学家、分析师
应用场景 报表生成、趋势分析 市场分析、客户细分

七、数据挖掘与统计学的比较

1. 数据挖掘与统计学的相似点

  • 数据分析:两者都涉及对数据的分析和模式识别。
  • 使用统计方法:都使用统计方法来分析数据。

2. 数据挖掘与统计学的区别

  • 数据规模:数据挖掘通常处理更大规模和更复杂的数据集,而统计学通常处理较小的数据集。
  • 目标:数据挖掘更关注从数据中自动发现模式,而统计学更关注数据的推断和假设检验。

3. 数据挖掘与统计学的联系

  • 数据挖掘可以视为统计学的一个应用领域,利用统计学的方法和技术来分析大数据。

八、智能技术的简述

智能技术是指利用计算机科学、人工智能和数据分析等技术,自动化地处理和分析数据,以支持决策和优化业务流程。智能技术的应用包括机器学习、自然语言处理、计算机视觉等。


九、数据仓库与商务智能的关系

1. 数据仓库与商务智能的关系

  • 数据仓库:是商务智能的基础,提供整合的数据源。
  • 商务智能(BI):利用数据仓库中的数据,通过分析和可视化工具帮助企业做出更好的决策。

2. 数据仓库与商务智能的发展

  • 随着数据量的增加和分析需求的提升,数据仓库和商务智能技术不断发展,帮助企业实现数据驱动的决策。

十、数据挖掘与人工智能的关系

1. 数据挖掘与人工智能

  • 数据挖掘:从数据中提取知识和模式,通常使用机器学习和统计分析技术。
  • 人工智能:是模拟人类智能的技术,数据挖掘是实现人工智能的一部分,通过分析数据来训练智能模型。

十一、总结

  • 数据仓库数据挖掘是现代数据管理和分析的重要组成部分,前者用于支持决策分析,后者用于从数据中提取知识。
  • OLTPOLAP分别用于事务处理和数据分析,二者在数据处理和分析中扮演着不同的角色。
  • 数据字典元数据提供了关于数据的描述和上下文信息,帮助管理和理解数据。
  • 智能技术商务智能人工智能的结合推动了数据分析和决策支持的进步。

十二、书本课后习题:(自用)

1. 从数据库发展到数据仓库的原因及本质差别

(1)原因

  • 数据量增加:随着企业数据量的激增,传统数据库难以有效处理和分析这些数据。
  • 分析需求变化:企业需要从数据中提取更深层次的洞察,而不仅仅是处理日常事务。
  • 数据整合:企业的数据来源多样,数据仓库能够整合来自不同系统的数据,提供统一视图。

(2)本质差别

  • 目的
    • 数据库:主要用于日常事务处理(如插入、更新、删除)。
    • 数据仓库:主要用于决策支持和数据分析。
  • 数据特征
    • 数据库:实时数据,强调数据的完整性和一致性。
    • 数据仓库:历史数据,强调数据的整合和分析。

2. OLTP与OLAP的主要区别

特性 OLTP(联机事务处理) OLAP(联机分析处理)
主要目标 事务处理 数据分析
数据特征 当前、实时数据 历史、汇总数据
数据模型 规范化 多维、去规范化
数据更新 频繁 相对少
查询类型 简单、快速 复杂、耗时
用户类型 操作人员 管理者、分析师

3. 为什么要研究元数据?

  • 理解数据:元数据提供关于数据的描述,帮助用户理解数据的来源、结构和含义。
  • 数据管理:元数据有助于数据的管理和维护,确保数据的一致性和准确性。
  • 提高效率:通过元数据,用户可以快速找到所需的数据,减少搜索时间。

4. 数据仓库与大数据的关系

  • 数据仓库:是一个结构化的数据存储系统,主要用于支持决策分析,通常处理的是经过清洗和整合的数据。
  • 大数据:指的是体量大、类型多、处理速度快的数据集合,通常包括结构化、半结构化和非结构化数据。
  • 关系:数据仓库可以被视为大数据的一部分,企业可以将大数据整合到数据仓库中进行分析和决策支持。

5. 为什么数据挖掘要从机器学习中分离出来?

  • 目标不同:数据挖掘的主要目标是从数据中发现模式和知识,而机器学习的目标是通过数据训练模型进行预测。
  • 应用场景:数据挖掘通常用于分析历史数据,发现潜在的趋势和规律,而机器学习更关注模型的构建和优化。
  • 技术方法:虽然两者有交集,但数据挖掘使用的技术和方法更广泛,包括统计分析、模式识别等。

6. 统计学与机器学习的区别和联系

  • 区别
    • 目的:统计学主要关注数据的推断和假设检验,而机器学习关注通过数据训练模型进行预测。
    • 数据规模:统计学通常处理较小的数据集,而机器学习可以处理大规模数据。
  • 联系
    • 方法论:两者都使用数学和统计方法来分析数据。
    • 应用:机器学习中的许多算法(如回归分析、决策树)源于统计学。

7. 数据挖掘应用于数据库与数据仓库的不同

  • 数据库

    • 数据挖掘通常用于实时数据,关注当前事务和操作。
    • 主要用于发现数据中的即时模式和趋势。
  • 数据仓库

    • 数据挖掘主要用于历史数据,关注长期趋势和模式。
    • 主要用于支持决策分析和业务智能。

8. 基于数据仓库的决策支持系统与传统决策支持系统的区别

特性 基于数据仓库的决策支持系统 传统决策支持系统
数据来源 整合多个数据源 通常依赖单一数据源
数据处理 处理历史数据,支持复杂分析 处理实时数据,分析较简单
用户交互 提供多维分析和报表生成 交互性较低,功能有限
数据更新 定期更新,强调数据整合 实时更新,强调数据一致性

9. 人工智能与商务智能在智能方面的共同点

  • 数据驱动:两者都依赖于数据分析来支持决策和优化业务流程。
  • 自动化:都利用技术自动化处理数据,减少人工干预。
  • 决策支持:都旨在帮助企业做出更明智的决策,提高效率和竞争力。