机器学习之潜在狄利克雷分配(LDA)吉布斯抽样及python实现

机器学习之潜在狄利克雷分配(LDA )吉布斯抽样及python 实现
LDA
LDA 是基于贝叶斯学习的话题模型,是⽂本集合的⽣成概率模型,其中假设⽂本的话题分布式的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。
LDA模型是含有隐变量的概率图模型。本章节使⽤吉布斯抽样⽅法,下⼀章节使⽤变分EM算法
本章节内容参考李航博⼠的《统计学习⽅法》1.狄利克雷分布1. 多项分布
1)在多项式之前先说说两点分布(Bernoulli分布)
两点分布就是指⼀次随机试验,⽐如随机扔硬币,结果只有两种0和1,代表结果为正的概率:
2)再介绍⼀下⼆项分布(多重Bernouli分布)
表⽰n次伯努利实验的结果,⽐如仍次硬币,其表达式为:
其中,代表结果为1的概率,表⽰正⾯结果次数。3)最后说说多项分布
⼆项分布是结果只有两种,多项分布是结果有多种,⽐如掷骰⼦。
假设重复进⾏次独⽴随机试验,每次实验结果有种,第种结果出现的概率为,第种结果 出现的次数为,第种结果出现的次数为,则:
其中,,称随机变量服从参数为的多项分布, 可以记做。2. 狄利克雷分布
p P (X =1)=p ;P (X =0)=1−p
n P (X =1k ,X =0n −k )=p (1−(k n
)k p )n −k
p k n k i p i i n i i n i P (X =n ,X =n ,X =n ,...,X =n )
112233k k =p p p ...p (n 1n )1n 1(n 2n −n 1)2n 2(n 3n −n −n 12)3n 3
(n k n −n −n −...−n 12k −1
卷绕电池)k
n k =...p p p ...p (n 1n )(n 2n −n 1)(n 3n −n −n 12)(n k n −n −n −...−n 12k −1
)1n 12n 23n 3
k
n k =...p p p ...p n !(n −n )!11n !n !(n −n −n )!212(n −n )!1n !(n −n −n −n )!3123(n −n −n )!12n !(n −n −n −...−n )!k 12k −1(n −n −n −...−n )!
12k −11n 12n 23n 3
k
n k =p p p ...p n !n !n !...n !123k n !
1n 12n 23n 3
k n k =p n !∏i =1k i n !
i =1∏k
i
n i
p ≥i 0,i =1,,k ,p =∑i =1k i 1,n =∑i =1k
i n X (n ,p )Dir (α)
多元连续随机变量的概率密度函数为:
其中,称随机变量服从参数的狄利克雷分布。
多项式分布和狄利克雷分布的概率函数形式上式⼀致的。
始终是伽马函数,定义为:
具有性质
当是⾃然对数时,有
则狄利克雷的密度函数就可以写作:
⼜有密度函数的性质:
可得:
θ=(θ,θ,...,θ)12k p (θ∣α)=θΓ(α)∏i =1k
i Γ(α)
∑k =1k
i k =1∏k
i
α−1
i θ=∑k =1k
耳机防尘塞i 1,θ≥i 0,α=(α,α,...,α),α>12k i 0,i =1,2,...,k θαΓ(s )Γ(s )=x e dx ,s >∫0∞
s −1−x 0
Γ(s +1)=s Γ(s )
s Γ(s +1)=s !
B(α)=Γ(α)
∑k =1k
i Γ(α)
∏i =1k
i p (θ∣α)=θB(α)1k =1∏
k
i
高频预热机α−1
i p (θ∣α)dθ=∫θdθ=∫B(α)1k =1∏k i α−1i θdθ=B(α)1∫k =1∏
k
i α−1
i 1
B(α)=θ∫
k =1∏
k
i
α−1i
3. 共轭先验
概念:如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布(conjugate distributions), 先验分布称为共轭先验(conjugate prior)。
狄利克雷分布就是多项分布的共轭先验。
设是有个元素组成的集合。随机变量服从上的多项分布,其中为样本中出现的次数,其中为出现的概率。
将样本数据表⽰为,⽬标是计算在样本数据给定的条件下参数的后验概率:
假设随机变量服从狄利克雷分布,其中是参数,则的先验分布为:
依据d-separate:
根据贝叶斯规则,在给定样本数据和参数的条件下,的后验概率分布是:
上式上下同时消去,上边得到, 下边得到,所以可得:
瓦斯抽放系统2. LDA 模型
w ={w ,w ,...,w }12k k X w n ={n ,n ,...,n }12k n i w i θ={θ,θ,...,θ}12k θi w i D θp (D ∣θ)=
θθ...θ=
1n 12n 2
k
n k θi =1∏
k
i
n i
θp (θ∣α)αθp (θ∣α)=θ=Γ(α)∏i =1k
i Γ(α)
∑k =1k
i k =1∏k
i α−1
i θ=B(α)1k =1∏
k
i α−1
i Dir (θ∣α),α>i 0
p (D ∣θ,α)=p (D ∣θ)
D αθp (θ∣D ,α)=p (D ,α)
p (θ,D ,α)
=
p (D ,α)p (D ∣θ,α)p (θ,α)
=p (D ∣α)p (D ∣θ)p (θ∣α)=θθdθ
B(α)
1∏k =1k
i n i i
α−1
i θθB(α)1∏k =1k i n i i
α−1i 1/B(α)θ∏k =1k
i
α+n −1
i i θdθ=∫∏k =1k
i仿真海枣树
α+n −1
i i B(α+n )p (θ∣D ,α)=θ=B(α+n )1k =1∏
k
i α+n −1
i i Dir (θ∣α+n )
1. 模型定义
LDA使⽤三个集合⼀是单词集合
其中是第个单词,是单词的个数;⼆是⽂本集合
其中是第个⽂本, 是⽂本的个数,⽂本,其中是⽂本的第个单词;三是话题集合
其中是第个话题,
是话题个数。
依据上图(实⼼节点表⽰观测变量,空⼼节点表⽰隐变量)先看上⾯那⼀⽀:
话题由⼀个单词的条件概率分布决定,分布服从多项分布,其参数为, 是⼀个维向量,所以是⼀个矩阵;参数⼜服从狄利克雷分布,其超参数是,其为⼀个维向量。再看下⾯这⼀⽀:
⽂本由⼀个话题的条件概率分布决定,分布服从多项分布,其参数为为, 是⼀个维向量,是⼀个的矩阵;参数服从狄利克雷分布,其超参数为, 是⼀个为向量。
2. ⽣成过程
LDA的⽂本⽣成算法1)对于话题:
⽣成多项分布的参数,作为话题单词的分布;
2. 对于⽂本KaTeX parse error: Undefined control sequence: \matbbf at position 1: \m a t b b f  w _m:
⽣成多项分布的参数,作为⽂本话题分布;3. 对于⽂本的单词:
⽣成话题,⽣成单词3. LDA 模型的吉布斯抽样算法
W ={w ,w ,...,w }
12V w v v V D ={w ,w ,...,w }
12M w m m M w =m (w ,...,w ,...,w )m 1mn mNm w mn w m n Z ={z ,z ,...,z }
12K z k k K z k p (w ∣z )k p (w ∣z )k φk φk V φK ∗V φk βV w m p (z ∣w )m p (z ∣w )m θm θm K θM ∗
K θm ααK z k φ Dir (β)k p (w ∣z )k θ Dir (α)m p (z ∣w )m w m w mn z  Mult (θ)mn m w  Mult (φ)
mn z mn
1. 先求解其中是第个话题的计数。
在初始时是服从分布,在更新的过程中由于样本的加⼊,其分布会逐渐改变,相当于其超参数在不停的调整。
2. 再求解其中是第个主题的计数。
3. 最后求解:
下⾯⽤collapsed Gibbs Sampling ⽅法:
其实,LDA并没有在三个参数中都进⾏抽样,应为只要得到了,其实就可以直接根据得到, 所以⽤了收缩的吉布斯抽样(collapsed Gibbs sampling)⽅法,基本想法是:
θ(假设其它变量都已知,想当于coordina )
m p (θ∣α,z ,w ,φ,β)m =p (θ∣α,z )
m =
p (α,z )p (α,z ∣θ)p (θ)
m m =p (α,z )/p (α)
p (z ∣θ)p (θ∣α)m m ⋉p (z ∣θ)p (θ∣α)m m =θ∗θB(α)1k =1∏K mk α−1k k =1∏
K
mk n mk
=Dir (α+n )
熔断器底座
m n m m θm Dir (α)φ
p (φ∣α,z ,w ,β,θ)k =p (φ∣w ,β)k =
p (w ,β)p (w ,β∣φ)p (φ)
k k =p (w ,β)/p (β)
p (w ∣φ)p (φ∣β)k k ⋉p (w ∣φ)p (φ∣β)k k =φ∗φB(φ)1v =1∏V kv β−1v v =1∏
V
kv n v
k =Dir (β+n )
k n m k z =mv k p (z =mv k ∣w ,φ,θ)⋉mv k m p (z =mv k ∣θ)p (w ∣φ,z =m mv k mv k )=θφmk k ,w mv
z z θandφ

本文发布于:2024-09-23 03:13:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/166616.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分布   参数   话题
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议