深层置信网的快速学习方法（Deep Learning）

来自这篇论文：A fast learning algorithm for deep belief nets

转自：

Geoffrey E.Hinton and Simon Osindero

摘要:使用互补先验消除explainingaway现象（互补先验:在具有双向的链式结构中,某数据推出的结果(后验)在反向时为其提供的先验概率就叫互补先验，explaining away）complementaryprior可以用来分层学习directed belief networks。由此导出一个算法，此算法用来初始化一个过程的权值，此过程使用contrastive version of the wake-sleep algorithm来fine-tunes the weights.fine-tunes之后，得到一个具有3层隐藏层的网络,这个网络是一个关于手写数字与它的标签的联合分布的生成模型。这个生成模型在对数字分类方面比最好的判别学习算法的效果都要好。the low-dimensional manifolds on which the digits lie are modelled by long ravines in the free-energy landscape of the top-level associative memory and it is easy to explore these ravines by using the directed connections to display what the associative memory has in mind(谁能告诉我这是神马意思？？？)

1 introduction

由于在给定数据的情况下很难推出隐藏层的条件分布(推不出条件分布就不行？这个条件分布对模型的学习这很重要吗？),所以很难学习densely-connect,directed belief nets.有很多方法来近似逼近真正的条件分布,但是效果不太好,特别是对于最深层的隐藏层的时候,因为它们的先验概率被认为是独立的。很多的学习方法要求参数一起学习,这在参数增长时将耗费大量的时间.

作者提出了一个最上层为一个无向联想存储器的模型.其它的隐藏层形成的是一个有向无循环图(如下图),可以将联想存储器中的表示转为可视化(比如转为像素,图片等等).

2 complementary

explaining away 现象导致有向置信网很难推理,隐层的后验分布很难处理,除非在混合模型或者线性且含有高斯噪声模型中.MCMC方法可以通过抽样估计后验概率(how do?)。变分法可以用来估计更难以处理的后验分布而且它能提高训练数据对数概率的下界.值得庆幸的是:这个学习方法(指的是变分法?)即使在对隐藏层状态推理错误的情况下,仍然能提高下界值.如果能找到一种方法消除explaining away现象就好了,即使是模型的隐藏层和显层高度相关的情况下.

logistic belief net由随机二值节点组成,当网络生成数据时,节点取值为1的概率是：

j是与节点i直接相连的父节点。如果LBN只有一个隐藏层，那么隐藏层的先验分布就是可分解的，因为模型在生成数据时，它们的二值状态是独立选取的（在隐藏层选取节点，是独立的。所以先验可以写成各自的组合形式）。非独立的后验分布（因为是多因一果）由data（上面所讲的生成的data？）的似然函数（即：P（h|v））得到。在第一层隐藏层可以通过使用另外一层隐藏层产生与似然函数中反相关的互补先验的方法消除explaining away（想用在生成过程方向上V1对h0的先验（此先验与v0对h0的先验反相关(为什么反相关呢？因为：V1是由h0得到的，h0->v11,h0->v12,……，h0->vij,所以可以由此反向得到v0i与h0j的相关性（1） ) ）消除explaining away现象）。所以，当我们把先验和似然函数相乘后，得到的后验分布也是可以分解的（因为似然函数也成为了可分解的了，至于是不是用complementary prior替换p(h|v)，我还不确定），并不是所有的互补先验都能很容易看出来，但是下图中的无限logistic belief net的例子中，每一层都有complementary prior。

使用tied weights构造互补先验就像是使用一些技巧使得有向网络模型变成无向网络模型（原模型就是bottom-up而没有up-bottom，即没有可以重现V0的步骤，而tied weights就是指up-bottom方向上的weights），所以我们可以得到通过逐步将下层的weights untying from高层的weights的方法学习模型（这里要untying的weights是指W’还是W？）。

2.1 an infinite directed model with tied weights

可以通过从无限深的隐藏层选取一个随机构型开始生成数据(根据注释知,所谓的无限还是有限的,在到达平稳分布之前迭代一定次数之后选取构型) .然后执行自顶向下的过程,从祖先节点向下传递.每层的节点状态都是从其上层激活状态的父节点作为输入的伯努利分布中选取的.和有向网不同的是,我们可以通过从在给定显层数据情况下隐层的真正后验分布中抽样,然后通过权值矩阵的转置反推每个隐藏层的后验分布(先从P(h|v)=p(h)*p(v|h)/p(v)抽样，即得到v_i0，然后再通过W‘计算得到h0，因子分布？？？？） .v_i0是可见单元i能被激活的概率，如果可见变量是由隐层单元抽样后得到的（即在重构数据中单元i能被激活的概率，概率？？？）。计算V1的后验分布p(v1|h0)，和重构数据的过程是一样的，所以v_i1是以概率v_i0的概率从伯努利分布中抽样。

v1与h_j0之间的关系是通过v_i0联系起来的，因为v_i0是given h_j0时的期望。

3 RBM&&CD

华贵的衣服穿在心肠污浊的人身上，显得更丑恶。

相关文章：

你感兴趣的文章：

标签云：