u012422742的专栏 - 编程开发

说起对深度学习的了解，是在今年10月份看了Stanford University的计算机科学家Andrew Y. Ng教授在Google的一个演讲视频开始的，看了之后还以为就是以前所说的artificial neutral network(人工神经网络)，这个东西在本世纪初就逐渐越来越少人研究了，特别是在support vector machine(SVM, 支持向量机)以其较强的分类能力和泛化能力出现之后，国内高校更没什么人在搞这个，这从高校的一些课题和基金项目就可以看出来，这种东西怎么又突然有人讲了呢？怀着一丝疑问，我查阅了一些相关的报道，不查不要紧，一查才知道这东西现在是多火。

首先看到的报道是在今年夏季，Google的技术人员Jeff Dean和Stanford University的Andrew Y. Ng把1.6万台电脑连在一起，使其能够自我训练，对2万个不同物体的1400万张图片进行辨识。尽管准确率较低，只有15.8%，但该系统的表现比之前最先进的系统都要好70%。另一则类似的报道是Google把从YouTube随机挑选的1000万张200 x 200像素的图输入其系统，让计算机寻找图像中一再重复出现的特征，从而对含有这种特征的物体进行识别，令我感到最神奇的是，在开始分析数据前，并不需要向系统输入任何诸如“脸、肢体、猫的长相是什么样子”这类信息。一旦系统发现了重复出现的图像信息，计算机就创建出“图像地图”，该地图稍后会帮助系统自动检测与前述图像信息类似的物体（关于这部分的报道，可以参见我原来9月份的一篇博文）。原来以为无监督学习是用在clustering上的，现在在classification上，无监督学习也能如此，确实令我感慨。

再接着，看到了今年10月份在天津的一次计算会议上，微软首席科学家Richard F. Rashid在上面演讲关于语音识别的时候，演示了其使用深度学习技术(他的原话是:deep neural network，深度神经网络，属于深度学习的一种)来提高语音识别准确率的效果()，相比目前最先进的基于Hidden Markov Model的技术，其准确率提升了大约30%(If you use that to take it much more data than had previously been able to be used with the hidden markov models, so that one change that particular break through increased recognition rates by approximately thirty percent)。然而，在7分35秒的时候，我也抑制不住地“哇”起来，原来，那个系统在进行语音识别的同时，还进行了识别，把英文翻译成了中文，不仅如此，它还学习了Richard的发音和腔调，用中文把翻译的结果念了出来，博得现场一片掌声。虽然仔细一看，有些中文还是没有实时翻译过来，发出中文声音也需要在原说话人发音之后大约2秒左右，但这已经是非常之牛，想想国内语音识别的先驱科大讯飞，目前还真是无法望其项背。

这种即将对我们的未来产生巨大改变的技术，到底是一种什么神秘的东西，其中的原理又到底什么，带着这种探索与求知的欲望，我开始利用工作之余的时间进行学习了解。

国内来说，应该是在今年和去年才在开始受到关注，然而，早在2006年，国外就已经开始这方面的深入研究，并取得了一定的阶段性成果，追根溯源，这还是基于神经网络的启发(还好本科时毕业论文就是神经网络用在字符之别，对神经网络还有点基础，当时也整理了一些资料，以后再整理汇总放上来吧)。在2006年前，神经网络尝试训练深度的架构都不是很成功，训练一个深度有监督前馈神经网络趋向于产生坏的结果(也即在训练和测试中误差的收敛性不好)，然后将其变浅为1个或2个隐层。2006年，University of Toronto的Geoffrey E. Hinton教授(一查他的背景才知道他原来是19世纪数学家George Boole的玄孙，George Boole在逻辑领域的工作构成了现代数码计算机的基础，难道天分这东西还真是得遗传-_-)在Deep Belief Networks(DBN，深度信念网)这方面有了革命性的突破，引发了国外在方面的研究热潮。在其引领之下，有了这三篇重要的论文：

2006年的A fast learning algorithm for deep belief nets.( Hinton, G. E., Osindero, S. and Teh)

2007年的Greedy Layer-Wise Training of Deep Networks(Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle)

2007年的Efficient Learning of Sparse Representations with an Energy-Based Model(Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun)

在这三篇论文中以下主要原理被发现：

1. 无监督学习的结果表示被用于(预)训练每一层；

2. 在一个时间里的一个层次的无监督训练，接着之前训练的层次。在每一层学习到的结果表示作为下一层的输入；

3. 用监督训练来调整所有层(加上一个或者更多的用于产生预测的附加层)；

当前，国外在这方面的研究就是三分天下的局面，University of Toronto的Geoffrey E. Hinton与微软合作，Stanford University的Andrew Y. Ng和Google合作，以及New York University的计算机科学家Yann LeCun和Rob Fergus。国内方面百度的于凯是这方面的先行者；上个月和一个高校老师交流时，提到企鹅也在招人搞这个，据说是在做索引结构方面也能有一个质的飞跃，一篇文章提取特征后就剩一个20维的向量，也还不确定是否真能如此神，另外这个老师还提到可以用来做detection，因为目前adaboost确实是在训练上很花时间，自己之前在家搞了个手表的训练，也花了一周时间，而深度学习在特征选择方面还是挺有优势的，不过之前看Andrew教授的视频，提到未监督学习用在做detection上还是没有什么突破，不知道这里做检测效果会怎样；学术界现在在这块就是在与时间赛跑，谁先跑出个成果谁就是第一个吃螃蟹的(做人脸的山世光也对于凯在这方面的report挺看重)。下面就先附上一些个人觉得比较重要的相关论文，其中部分还未细读，有些因为放在springlink或者sciencedirect上无法下载，待有时间再请人找找后深入学习。

Learning multiple layers of representation, 2007.

这篇论文，篇幅短小，适合初学者理解DBNs，特别是非数学专业的。

Deep machine learning – a new frontier in artificial intelligence research, 2010.

深度学习的入门材料。

Learning deep architecture for AI, 2009.

深度学习的经典论文，可以当作深度学习的学习材料。

To recognize shapes, first learn to generate images, 2006.

多伦多大学的内部讲义。目前还没找到。

A fast learning algorithm for deep belief nets, 2006.

Hinton关于DBNs的开山之作，也就是前面提到的引领性的文章。在这篇论文中，作者详细阐述了DBNs的方方面面，论证了其和一组层叠的RBMs的等价性，然后引出DBNs的学习算法。(这篇还真得好好看几遍)

Reducing the dimensionality of data with neural networks, 2006.

未读，据说是Science上的大作，可算作一个里程碑，标志着深度学习总算有了高效的可行的算法。

A practical guide to training restricted boltzmann machines, 2010.

也有伤心的，既有令人兴奋的，也有令人灰心的，

相关文章：

你感兴趣的文章：

标签云：