关联规则
啤酒与尿布的故事:
在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻的父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,将尿布和啤酒放在一起,因此,明显增加了销售额。
兴趣度度量
1、兴趣度度量的概念
挖掘出的模式(规律的表示形式)的简洁性、确定性和实用性即为兴趣度度量。
2、兴趣度度量的必要性
大量的数据 –> 挖掘出大量的规则 –> 规则一小部分是用户感兴趣的 –> 有必要进行兴趣度度量
3、兴趣度度量方法
简洁性度量:模式的便于人理解的度量
确定性度量:模式的可信性
方法:对于关联规则,确定性度量使用置信度。
设A和B为项目集合,A与B关联的规则A–>B的置信度定义为:
置信度(A–>B)= 同时包含A和B的元组数/包含A的元组数
举例:对某计算机商店购买物品的相关情况进行挖掘,得到一个置信度为85%的关联规则:
buys(X,”computer”) –> buys(X,”printer”)
意味着买计算机的顾客85%也买打印机。A的元组数为买计算机的事务数(顾客数),同时包含A和B的元组数为买计算机同时又买打印机的事务数(顾客数)。
实用性度量:模式的有用性
方法:对于关联规则,实用性度量使用支持度。
设A和B为项目集合,A与B关联的规则A”B的支持度定义为:
支持度(A–>B)= 同时包含A和B的元组数/元组总数
举例:对某计算机商店购买物品的相关情况进行挖掘,得到一个支持度为30%的关联规则:
buys(X,”computer”) –> buys(X,”printer”)
意味着该计算机商店的所有顾客的30%同时购买了计算机和打印机。元组总数为购买计算机或购买打印机的事务数(顾客数),同时包含A和B的元组数为买计算机同时又买打印机的事务数(顾客数)。