NOTE:NEURAL NETWORKS

NEURAL NETWORKS

The note for reading chapters 5 of pattern recognition and machine learning .

提起机器学习的种种方法时,有两种算法大家都耳熟能详,一种叫做神经网络,一种叫做支持向量机(SVM)。本文主要是围绕神经网络来讨论,但在一开始,不得不提及一下SVM。在对SVM和神经网络学习的过程中,我认为二者存在某些特别的关联,即二者都是通过一种自反馈的方法去得到最终的答案。SVM本质上是解决一个凸函数的优化问题,对于这个凸函数,使用了迭代的方法进行求解,而在这个过程中,每一步迭代都在更新其权重,最后收敛,得到权重值。而神经网络也是相类似的,只是因为神经网络缺少SVM那样严密的数学基础,但因此神经网络可以解决非凸问题,并通过一些自反馈的机制去得到这个模型中需要的种种权重。下面让我们站在前人的肩膀上,一窥究竟

Feed-forward Network Function

首先,让我们来定义一个非线性的回归或者分类问题。 其中表示基函数。

接下来,介绍一下基本的神经网络模型,又称single-hidden-layer network,我们可以通过一系列的转换函数来描述。

nonlinear activation function: 一般为sigmoidal function,如logistic sigmoid,‘tanh’function,并且表示神经网络中的中间输入

上面从input到output中间的叫做隐藏单元(hidden unit)。 把上面所有的结合起来,写成一个总公式就是:这个式子被叫做前向传播。 当然,这里的神经网络模型层数非常少,这是因为经典的神经网络层数增加带来计算量的增加非常大。回到这个模型,如果将其画出来如下:

这个图与机器学习中的图模型是完全不同的,因为每一个节点不表示一个确定的变量,每一个连线也不具备概率等含义。 为了简化上面的公式,我们可认为两个激励函数的不同会得出不同的权重,这个是神经网络训练的一个重要的特征。 如果隐藏单元中的activation function是线性的,那么我们可以找到一个没有隐藏单元的网络与之等价。 如果隐藏单元的数量比输入或者输出变量的个数少,那么说明神经网络中transformation从输入到输出的变化不是最好的线性变换most general possible linear transform,因为在隐藏单元处发生降维,从而丢失了信息。

接下来,我们介绍一个同样一般的神经网络模型,其中包括skip-layer connection,如下图:

通常,选择一个足够小的第一层权重,可以使得single-hidden-layer network模仿skip-layer connection,在实际生成模型时,这是一个比较好的方法。这也从侧面说明了神经网络可以使稀疏的,因为前向传播的限制,产生的图一定是没有回路的,所以输入输出之间的函数是确定的,故,我们可以用下面的式子来表示神经网络中每一个单元的计算公式: 这里求和范围是之前与之相联的所有单元。

Weight-spase symmetries

神经网络模型和贝叶斯网络模型相比有一个特点,贝叶斯模型对于任何一个映射函数,其输入输出是确定的其图模型结构往往是通过某些特定的先验知识构造的,哪些节点之间有关系往往是确定的,而神经网络模型不同,两层之间往往是全连接的,如果两个节点之间没有关系,如上面所说的skip-layer connection,是通过权重值来体现的,这意味着神经网络是一个黑盒子,并不需要足够的先验知识去构造模型。 当我们使用’tanh’ function作为activation function的时候,如果我们改变某一个隐藏单元的所有参数(权重和偏差)的符号(+/-),那么由于’tanh’是奇函数,在整个神经网络中其从输入到输出的映射是不变的。所以存在两个不同的权重向量得到同一个神经网络模型。也就是说,对于一个有M个隐藏单元的神经网络,存在M个这样的(‘sign-flip’symmetries)正负等价,即对于任意给定的权重向量,存在个等价的权重向量。

Network Training

前面我们讨论了神经网络的泛化模型,现在我们来看几个实际的例子。 以曲线拟合为例,讨论对于一个回归问题,给定的训练集,输入向量为,最小化错误率函数: 这里我们假设t符合高斯分布,同时t也是神经网络模型中的输出。 ,可以计算他的似然函数: 求对数,得到其对数似然: 对数似然可以用来计算参数。在神经网络模型中,我们计算的机理在于最小化误差函数,而不是最大似然,虽然二者在数学上可以看作是等价的。因为最大似然和最小二乘(形式跟对数似然几乎一样)是等价的,只不过丢弃了后面两个常量。 通过最小化. K是我们要求解的目标变量的数量。 在这个例子中,我们可以认为我们的输出激励函数是一个恒等式,即,并且错误率函数满足下面的性质: 这个性质可以用于讨论错误率的后向传播。

这种精神使人能在旅行中和大自然更加接近,

NOTE:NEURAL NETWORKS

相关文章:

你感兴趣的文章:

标签云: