<< 数据分析 K-Means聚类数据分析决策树 >>

数据分析关联规则

令 I = i₁, i₂, ..., i_n 是一组n 个二进制属性称为项。让 D = t₁, t₂, ..., t_m 是一组称为数据库。 D 中的每个交易都有一个唯一的交易 ID，并包含 I 中项目的一个子集。规则被定义为 X ⇒ Y 形式的蕴涵，其中 X, Y ⊆ I 和 X ∩ Y = ∅。

项目集（对于短项目集）X 和 Y 被称为规则的前件（左侧或 LHS）和后件（右侧或 RHS）。

为了说明这些概念，我们使用超市领域的一个小例子。项目集是 I = {牛奶，面包，黄油，啤酒}，包含项目的小型数据库如下表所示。

项目

牛奶、面包

面包、黄油

啤酒

牛奶、面包、黄油

面包、黄油

超市的示例规则可以是 {milk, bread} ⇒ {butter} 意味着如果购买了牛奶和面包，顾客也会购买黄油。为了从所有可能规则的集合中选择感兴趣的规则，可以使用对重要性和兴趣的各种度量的约束。最著名的约束是支持度和置信度的最小阈值。

项集 X 的支持度 supp(X) 定义为包含该项集的数据集中事务的比例。在表 1 的示例数据库中，项目集 {milk, bread} 的支持率为 2/5 = 0.4，因为它出现在所有事务的 40% 中（5 个事务中有 2 个）。查找频繁项集可以看作是对无监督学习问题的简化。

规则的置信度定义为 conf(X ⇒ Y ) = supp(X ∪ Y )/supp(X)。例如，规则 {milk, bread} ⇒ {butter} 在表 1 的数据库中的置信度为 0.2/0.4 = 0.5，这意味着对于 50% 的包含牛奶和面包的交易，该规则是正确的。置信度可以解释为概率 P(Y|X) 的估计，即在这些交易也包含 LHS 的情况下，在交易中找到规则的 RHS 的概率。

在位于 bda/part3/apriori.R 的脚本中，可以找到实现 apriori 算法 的代码。

# Load the library for doing association rules
# install.packages(’arules’) 
library(arules)  
# Data preprocessing 
data("AdultUCI") 
AdultUCI[1:2,]  
AdultUCI[["fnlwgt"]] <- null 
AdultUCI[["education-num"]] <- null  
AdultUCI[[ "age"]] <-ordered(cut(AdultUCI[[ "age"]], c(15,25,45,65,100)), 
   labels = c("Young", "Middle-aged", "Senior", "Old")) 
AdultUCI[[ "hours-per-week"]] <-ordered(cut(AdultUCI[[ "hours-per-week"]], 
   c(0,25,40,60,168)), labels = c("Part-time", "Full-time", "Over-time", "Workaholic")) 
AdultUCI[[ "capital-gain"]] <-ordered(cut(AdultUCI[[ "capital-gain"]], 
   c(-Inf,0,median(AdultUCI[[ "capital-gain"]][AdultUCI[[ "capitalgain"]]>0]),Inf)), 
   labels = c("None", "Low", "High")) 
AdultUCI[[ "capital-loss"]] <-ordered(cut(AdultUCI[[ "capital-loss"]], 
   c(-Inf,0, median(AdultUCI[[ "capital-loss"]][AdultUCI[[ "capitalloss"]]>0]),Inf)), 
   labels = c("none", "low", "high"))

为了使用 apriori 算法生成规则，我们需要创建一个交易矩阵。以下代码显示了如何在 R 中执行此操作。

# Convert the data into a transactions format
Adult <-as(AdultUCI, "transactions") 
Adult 
# transactions in sparse format with 
# 48842 transactions (rows) and 
# 115 items (columns)  
summary(Adult)  
# Plot frequent item-sets 
itemFrequencyPlot(Adult, support = 0.1, cex.names = 0.8)  
# generate rules 
min_support = 0.01 
confidence = 0.6 
rules <-apriori(Adult, parameter = list(support = min_support, confidence = confidence))
rules 
inspect(rules[100:110, ]) 
# lhs                             rhs                      support     confidence  lift
# {occupation = Farming-fishing} => {sex = Male}        0.02856148  0.9362416   1.4005486
# {occupation = Farming-fishing} => {race = White}      0.02831579  0.9281879   1.0855456
# {occupation = Farming-fishing} => {native-country     0.02671881  0.8758389   0.9759474
                                       = United-States}

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< 数据分析 K-Means聚类数据分析决策树 >>

昵称：邮箱：

数据分析 关联规则

数据分析关联规则