数据挖掘算法之Apriori算法应用实例

数据挖掘算法之Apriori算法应⽤实例
版权声明:本⽂为博主原创⽂章,未经博主允许不得转载。
⽬录
Apriori算法
预备知识
⽀持度:⽀持的程度,⼀个项集的⽀持度被定义为数据集中包含的该项集的记录所占的⽐例。
公式1  support({A,B})= num A∩B/W  = PA∩B
置信度:A出现时B是否⼀定出现,若出现概率是多少⼤?即A→B。
公式2  confidence(A→B)= support({A,B})/ support({A})= P(B/A)
1  Apriori算法思想
基本思想是:⾸先出所有的频集(频集是指从项集中按照预定义的最⼩⽀持度⽽筛选出来的,当项集
中的各项⼤于或等于最⼩⽀持度时,即被筛选出来,构成频繁项集。),这些项集出现的频繁性⾄少应和预定义的最⼩⽀持度⼀样。由频集产⽣强关联规则,这些规则应满⾜最⼩⽀持度和最⼩可信度。使⽤第1步(是1.2中的a的第⼀步。)到的频集产⽣期望的规则,产⽣只包含集合的项的所有规则,其中每⼀条规则的右部只有⼀项,这⾥采⽤的是中规则的定义。这些规则⼀旦被⽣成,⼤于⽤户给定的最⼩可信度的规则才被留下来。为了⽣成所有频集,使⽤了递推的⽅法。
2.  Apriori算法流程
董家渡天主堂a) 出所有频繁项集,过程由连接步和剪枝步互相融合,获得最⼤频繁项集Lk。具体⽅法:
1) 对给定的最⼩⽀持度阀值,分别对1项候选集C1,剔除⼩于改阀值的项集得到1项频繁
集L1;
2) L1⾃⾝连接产⽣2项候选集C2,保留C2中满⾜约束条件的项集得到2项集L2;
3) L2与L1连接产⽣3项候选集C3,保留C3中满⾜约束条件的项集L3;
4) 循环下去,得到最⼤频繁项集Lk。
b)由频繁项集产⽣强关联规则,获得满⾜最⼩置信度阀值频繁项集,因此挖掘出了强关联规则。
3  Apriori算法应⽤实例
表1  ⼯艺相关参数项⽬集
B设备参数C设备参数设备参数(4)
注1:每⾏为⼀个事务,⾏中的每个元素为⼀个项。由⼀个或多个项组成的⼀个整体叫做项集。
注2:各设备发⽣异常时表中信息为空(不填)。
注3:“1”表⽰A设备正常;“2”代表B设备正常;“3”代表C设备正常;“4”代表D设备正常;“5”代表质量等级为甲
级;“6”代表质量等级为⼄级;“7”代表质量等级为丙级。
3.1发现频繁项集过程
图1  发现频繁项集过程(最⼩⽀持度取0.2)
对于寻关联规则来说,频繁1项集L1没有⽤处,因为L1中的每个集合仅有⼀个数据项,⾄少有两个
亨利数据项才能⽣成A→B这样的关联规则。
频繁2项集L2,挖掘过程见表2(取置信度为0.7)。
表2
L2项
→2→2
→1→1
→5
→1→1
→6
→1→1
→5→5
→2→2
农业科技通讯→6
L2⽀持度关联规则置信度最终关联关系
L2⽀持度关联规则置信度最终关联关系
→2→2
根管测量仪
→5→5
→3→3
→5→5
→4→4
频繁3项集L3,挖掘过程见表3(  两后件关联关系且取置信度为0.7)。
表3
L3
→2,5
→1,5→1,5
→1,2→1,2
→2,6
→1,6
→1,2→1,2
→3,5
→1,5→1,5
→1,3→1,3
→4,5
→1,5→1,5
→1,4→1,4
→4,5→4,5
→2,5→2,5
→2,4→2,4
频繁4项集L4,挖掘过程见表4(  三后件关联关系且取置信度为0.7)。
表4
L3
→2,3,5
→1,3,5→1,3,5
→1,2,5→1,2,5
→1,2,3→1,2,3
→2,4,5
→1,4,5→1,4,5
表4(续)
L3⽀持度关联规则置信度最终关联关系
→1,2,5→1,2,5
→1,2,4→1,2,4
→3,4,5
→1,4,5→1,4,5
招股说明书→1,3,5→1,3,5
陈峰伟
→1,3,4→1,3,4
→3.4,5→3.4,5
→2,4,5→2,4,5
→2,3,5→2,3,5
→2,3,4→2,3,4
上⾯的计算可以看出,产品质量等级与⼯艺的相关数据存在关联规则,关联规则由上述表中给出。显然,当某个设备发⽣波动或异常时,产品质量会相应的降低甚⾄不合格,且通过关联关系,我们可以寻出与产品质量强相关的⼯艺参数并加以监控,从⽽达到异常⼯艺的精准定位,进⽽提⾼产品质量。

本文发布于:2024-09-22 19:18:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68459.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:项集   关联   规则   设备   算法   参数   置信度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议