深度学习笔记1(卷积神经网络)

在看完了UFLDL教程之后，决定趁热打铁，继续深度学习的学习，主要想讲点卷积神经网络，卷积神经网络是深度学习的模型之一，还有其它如AutoEncoding、Deep Belief Network、Restricted Boltzmann Machine和sparse coding等。

在UFLDL教程中提到了针对大型图像的处理，使用卷积和池化的概念。原因主要对于全连接网络，需要的参数就有很多。比如对于一副1000*1000的图像，hidden layer也为1000000个神经元，那么需要学习的参数就是10^12，这样从计算的角度来说，将会变得非常耗时；此外全连接，将会忽略掉图像内部的拓扑结构。因此我们采用部分连接网络，这就是卷积神经网络的要点之一—局部感受野，卷积神经网络还有两个卖点，就是权值共享和时空亚采样。

局部感受野

每个隐含单元仅仅只能连接输入单元的一部分。例如，每个隐含单元仅仅连接输入图像的一小片相邻区域。比如我们每个隐含单元只与10*10的区域相连接，那么我们参数的个数就变为了10^8，降低了10000倍，这样训练起来就没有那么费力了。这一思想主要受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）,此外图像的像素也是局部时空相关的。

如下图所示，左边就是全连接网络，每个隐藏神经元与每个像素进行连接。右边就是部分连接网络，每个隐神经元只与一部分区域相连接。

权值共享

部分连接以后，参数降低了很多，但是感觉参数还是有很多，怎么办呢？我们进行权值共享，权值共享的意思是每个隐神经元连接的100个参数都是相同，那么训练参数就降低到110*10=100个了。参数真的是极大的简化了啊！这个思想主要来源于：自然图像有其固有特性，也就是说，图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。

如果隐神经元与其连接的100个输入单元具有相同的100个参数，那么就相当于是一个10*10的模板在原始的输入图像上做卷积(当然需要加上一个偏置参数b)，这样相当于得到一个新的图像，新图像的大小为(1000-100+1)*(1000-100+1),因此也得名卷积神经网络。这样的10*10的模板，我们也把它称为一个卷积核。此外只用一个卷积核提取得到的特征往往是不充分的，只能算作是一种类型的特征(比如某个方向的边缘)，如果我们要提取其它方向的边缘，那就多弄几个卷积核呗，这样就变成了多卷积核了。假设有k个卷积核，那么可训练的参数的个数就变为了k*10*10。注意没有包含偏置参数。每个卷积核得到一副特征图像也被称为一个Feature Map。

卷积的过程也被称为特征提取的过程，通常该层用Cx来标记，其中C是convolution的意思，x表示是第几层。

时空亚采样

降低图像的分辨率，可以减少输出对于变形和扭曲的敏感性。此外，在通过卷积获得了特征 (features) 之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax 分类器，但这样做面临计算量的挑战。例如：对于一个 96X96 像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 (96 8 + 1) * (96 8 + 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例(example) 都会得到一个 892 * 400 = 3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。

池化的过程通常也被称为特征映射的过程，通常该层用Sx表示，S就是sumsampling的意思，x表示第几层。

多层卷积网络—典型的例子

下面我们用一个典型的数字识别系统LeNet-5来讲解挫等卷积网络。以下是其leNet-5多层网络的示意图，总共包含了7层，不包含输入层。

输入原始图像的大小是32*32，卷积层用Cx表示，亚采样层用Sx表示，全连接层用Fx表示，x表示第x层。

C1层是卷积层，用了6个卷积核，这样就得到了6个feature map，其中每个卷积核的大小为5*5，用每个卷积核与原始的输入图像进行卷积，这样feature map的大小为(32-5+1)* (32-5+1)= 28*28，所需要的参数的个数为(5*5+1)*6= 156(其中5*5为卷积模板参数，1为偏置参数)，连接数为(5*5+1)*28*28*6=122304(其中28*28为卷积后图像的大小)。

自己变得跟水晶一般透明，

相关文章：

你感兴趣的文章：

标签云：