作者:禅与计算机程序设计艺术
1.简介
频繁项集(frequent itemsets)及关联规则(association rules)是最常用的两个数据挖掘方法。频繁项集挖掘旨在发现某些事务中出现频繁地同时发生的物品集合,而关联规则挖掘则是根据这些频繁项集所产生的规则发现潜在的模式或关系。
关联规则是一种比较复杂的方法,它由if-then结构组成。前提(if)是某种事务的发生,而后件(then)则是另一种事务的发生。例如,“买了一本书”作为前提,那么“可能喜欢这本书”就是它的后件。
关联规则的挖掘可以分为基于内置算法和自主开发的算法两种。基于内置算法通常都可以达到不错的效果,但是缺点是只能处理静态数据,不能实时更新;而自主开发的算法则可以在动态环境下做到实时的反馈,但往往计算量较大。因此,选择适合的算法非常重要。
2.基本概念术语说明
2.1 Frequent Itemset(项集频率)
对于事务序列S中的每一个事务t,计算其子集中的元素组成的集合C,并记录其中每个元素是否为频繁项集。频繁项集集是指在事务序列中出现次数超过一定阈值的项集。
2.2 Association Rules(关联规则)
2.2.1 支持度
对于一个频繁项集c和事务t,定义其支持度support(c->t)=|t的子集和c相同的个数|/|S|。即在事务序列S中至少出现了c这个频繁项集的概率。
2.2.2 置信度
对于一个频繁项集c和事务t&#