数据挖掘领域十大经典算法

算法数学原理可参考:

EM算法的目标是找出有隐性变量的概率模型的最大可能性解,包括两个步骤:由E步和M步组成,它是通过迭代地最大化完整数据的对数似然函数Lc( X;Θ )的期望来最大化不完整数据的对数似然函数,其中:

Lc(X;Θ) =log p(X,Y |Θ) ; 假设在算法第t次迭代后Θ 获得的估计记为Θ(t ) ,则在(t+1)次迭代时, E-步:计算完整数据的对数似然函数的期望,记为: Q(Θ |Θ (t) ) = E{Lc(Θ;Z)|X;Θ(t) }; M-步:通过最大化Q(Θ |Θ(t) ) 来获得新的Θ 。

通过交替使用这两个步骤,EM算法逐步改进模型的参数,使参数和训练样本的似然概率逐渐增大,最后终止于一个极大点。直观地理解EM算法,它也可被看作为一个逐次逼近算法:事先并不知道模型的参数,可以随机的选择一套参数或者事先粗略地给定某个初始参数λ0 ,确定出对应于这组参数的最可能的状态,计算每个训练样本的可能结果的概率,在当前的状态下再由样本对参数修正,重新估计参数λ ,并在新的参数下重新确定模型的状态,这样,通过多次的迭代,循环直至某个收敛条件满足为止,,就可以使得模型的参数逐渐逼近真实参数。 EM算法的主要目的是提供一个简单的迭代算法计算后验密度函数,它的最大优点是简单和稳定,但容易陷入局部最优。

松树亭亭玉立的耸立在周围小草小花的中间,

数据挖掘领域十大经典算法

相关文章:

你感兴趣的文章:

标签云: