空间数据挖掘 期末复习

发布于:2025-06-19 ⋅ 阅读:(13) ⋅ 点赞:(0)

第一章 绪论

从数据中发现知识(KDD):指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示几个步骤。

空间数据挖掘(Spatial DataMining,SDM),或称从空间数据库中发现知识(Knowledge Discovery from Spatial Databases),  是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征。

为什么要进行KDD

1、解决数据爆炸与信息匮乏的矛盾:

海量数据中蕴含的、能够直接用于决策或理解的有价值信息和知识却相对匮乏,KDD从海量数据中提取出真正有用的、可理解的、可操作的知识。

2、揭示隐藏的模式和关系:

数据中往往隐藏着人类难以直接观察或想象的复杂模式、趋势、关联规则和异常情况,KDD 利用数据挖掘等算法技术,能够自动或半自动地发现这些隐藏的、有价值的知识,揭示数据背后的规律和洞察。

3、支持智能决策:

基于从数据中发现的知识(如预测模型、分类规则、聚类结果),企业、组织和个人可以做出更明智、更数据驱动的决策。

4、将数据转化为竞争优势和价值:

KDD 是将原始数据转化为实际商业价值、科学发现或社会效益的关键过程。它帮助企业发现新的市场机会、优化流程、降低成本、提升服务质量、开发新产品,从而获得竞争优势。

5、自动化知识提取过程:

面对海量数据,依靠人工手动分析来寻找模式和知识是低效、耗时、甚至不可能完成的。

KDD 提供了一个系统化、自动化的流程框架(包括数据预处理、转换、挖掘、评估、解释),使得从大数据中高效、大规模地提取知识成为可能。

KDD的应用领域

  1. 遥感影像智能解译: 运用 聚类、分类算法 从海量卫星/航拍影像中 自动发现 土地覆盖类型、植被变化趋势、灾害损毁区域等 隐藏知识

  2. 地理文本信息挖掘: 利用 自然语言处理技术 分析社交媒体、新闻等文本,挖掘 带有地理位置的情绪热点分布、突发事件的空间位置及传播规律等 隐含信息

  3. 城市移动模式发现: 通过 轨迹挖掘算法 分析手机信令、出租车 GPS 等数据,揭示 人群活动规律、城市功能区划分、交通拥堵成因等 潜在模式

  4. 城市环境关联分析: 应用 关联规则挖掘、时空分析技术,整合多源传感器数据,发现 空气污染与交通流量、工业布局之间的 隐藏关联,溯源污染。

  5. 设施使用规律洞察: 基于 频繁模式挖掘、预测模型,分析共享单车、充电桩等物联网数据,预测 需求高峰、优化 设施布局,提升服务效率。

 KDD的研究进展:KDD已经从学术研究走向工业级应用,成为企业决策、智慧城市、医疗健康等领域的核心技术。目前的研究的重点是提高原先数据挖掘算法在空间数据库的执行效率,开发新的模型与算法以及挖掘结果表达的研究。

第二章 SDM的理论技术体系

数据质量的多维度量:精确度、完整度、一致性、现时性、可信度、附加价值、可访问性

空缺值处理方法

  • 忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
  • 人工填写空缺值:工作量大,可行性低
  • 使用一个全局变量填充空缺值:比如使用unknown-∞
  • 使用属性的平均值填充空缺值
  • 使用与给定元组属同一类的所有样本的平均值
  • 使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法

分箱平滑:首先排序数据,并将他们分到等深的箱中,然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等。

数据集成:将多个数据源中的数据整合到一个一致的存储中。

数据集成的作用

1、构建统一数据视图:通过模式转换、数据清洗解决命名冲突、格式差异、单位不统一等问题,形成标准化数据集。

2、提升数据质量与一致性:在集成过程中清洗冗余、修正错误、补全缺失值,确保后续数据挖掘以及分析结果可靠

数据变换相关名词

1、平滑:去除数据中的噪声 (分箱、聚类、回归)
2、 聚集:汇总,数据立方体的构建
3、 数据概化:沿概念分层向上汇总
4、 规范化:将数据按比例缩放,使之落入一个小的特定区间
最小-最大规范化、z-score规范化、小数定标规范化
5、 属性构造:通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度

 

分层聚类:建立聚类的层次结构,存储在多层索引树中。有聚合型(agglomerative)和分裂型(divisive)两类。
聚合法最初将每个数据点作为一个单独的聚类,然后迭代合并,直到最后的聚类中包含所有的数据点。它也被称为自下而上的方法。分裂聚类遵循自上而下的流程,从一个拥有所有数据点的单一聚类开始,迭代地将该聚类分割成更小的聚类,直到每个聚类包含一个数据点。

数据离散化: 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。

概念分层:通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据。

第四章 空间关联规则挖掘技术

关联规则挖掘:发现大量数据中项集之间有趣的关联

支持度和置信度计算

频繁项集:如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集。

Apriori算法示例(连接C、剪枝L的概念)

如何提高Apriori算法效率

1、基于hash表的项集计数 将每个项集通过相应的hash函数映射到hash表中的不同的桶中,这样可以通过将桶中的项集技术跟最小支持计数相比较先淘汰一部分项集。

2、事务压缩(压缩进一步迭代的事务数):不包含任何k-项集的事务不可能包含任何(k+1)-项集,这种事务在下一步的计算中可以加上标记或删除。

3、选样(在给定数据的一个子集挖掘):选择原始数据的一个样本,在这个样本上用Apriori算法挖掘频繁模式。通过牺牲精确度来减少算法开销,为了提高效率,样本大小应该以可以放在内存中为宜,可以适当降低最小支持度来减少遗漏的频繁模式。可以通过一次全局扫描来验证从样本中发现的模式,通过第二此全局扫描来找到遗漏的模式。

4、动态项集计数:在扫描的不同点添加候选项集,这样,如果一个候选项集已经满足最少支持度,则在可以直接将它添加到频繁项集,而不必在这次扫描的以后对比中继续计算。

FP树 

多层关联规则挖掘:是一种在具有层次结构的数据中发现跨不同抽象层级项之间关联规则的方法。"多层"指数据项具有明确的层级划分,通常由领域知识构建的树状分类体系。方法:受控的层交叉单项过滤策略、检查冗余的多层关联规则。

对强关联规则的批评(有计算题)

元规则:是指导关联规则生成的高层规则模板,通过预定义规则结构和约束条件,缩小搜索空间,提升挖掘效率。年龄(X,青年) ∧ 购买(X,手机) → 购买(X,耳机)

空间谓词:空间谓词是描述地理对象间空间关系的逻辑条件,用于构建空间关联规则或查询。相邻(城市A, 城市B) → 经济合作(A,B)

习题6.6

第五章 空间聚类挖掘技术

聚类:聚类是根据某个相似性准则对模式集进行自动分组,达到组内差异最小、组间差异最大的过程。其中每个分组称之为“类别”,也叫“簇”(cluster)。由于根据模式间的相似性与差异性进行自动归类,聚类被看作是一种非监督学习过程,因此也被称为“非监督分类”。

聚类挖掘的要求

  1. 可伸缩性:能够适应大数据集。

  2. 多类型属性支持:兼容数值、分类、序数等混合数据类型。

  3. 任意形状发现:突破球状簇限制(欧氏/曼哈顿距离易导致偏差)。

  4. 参数依赖最小化:减少人工输入(如簇数),避免结果敏感性问题。

  5. 噪声鲁棒性:容忍离群点、缺失值等噪声干扰。

  6. 顺序不敏感:输入数据顺序变化不影响聚类结果。

  7. 高维处理能力:克服维数灾难(高维稀疏数据挑战)。

  8. 约束聚类支持:融合用户定义约束(如业务规则)优化分组。

  9. 可解释性:结果需关联语义,满足应用场景需求。

 K-Means聚类算法

BIRCH、CF-树(P301)

 密度聚类(P306)

第六章 空间分类和空间趋势项分析

区分分类VS.预测:
分类:预测分类标号(或离散值);根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据。
预测:建立连续函数值模型,比如预测空缺值。

区分有监督VS.无监督

有指导的学习(用于分类):模型的学习在被告知每个训练样本属于哪个类的“指导”下进行;新数据使用训练数据集中得到的规则进行分类
无指导的学习(用于聚类):每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的;通过一系列的度量、观察来建立数据中的类编号或进行聚类

过拟合概念

贝叶斯分类(P218 例8.1 计算,P228 例8.4 P251 习题8.7)

装袋法Bagging
Boosting

The k-Nearest Neighbor Algorithm

大数据的特点

大数据的分析流程

遥感图像特征提取方法

遥感指数的概念

文本数据挖掘

文本数据挖掘面临的挑战

信息要素类型

地理编码

元数据

网页数据采集方法


网站公告

今日签到

点亮在社区的每一天
去签到