正则化参数如何确定,正则化的通俗解释

正则化参数如何确定,正则化的通俗解释详细介绍

本文目录一览：正则化参数如何确定

我画的参数，想要去的话，应该在它的系统程序里面好好找一找，根据自己的情况来设定个靠谱
正则化的参数，确定的话，还是有很多的方式的，而最重要的就是符合这个机器本身的一个规律
正则化参数如何确定？郑智化参数的话，你可以按照你的使用需求来确定你的这个参数

求助用L曲线法确定正则化参数

求助用L曲线法确定正则化参数
最佳答案
正则化(regularization)，是指在线性代数理论中，不适定问题通常是由一组线性代数方程定义的，而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。
求解不适定问题的普遍方法是:用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。通常的正则化方法有基于变分原理的Tikhonov 正则化、各种迭代方法以及其它的一些改进方法,这些方法都是求解不适定问题的有效方法,在各类反问题的研究中被广泛采用,并得到深入研究。
正则化:Normalization，代数几何中的一个概念。

正则化详解

机器学习模型需要拥有很好地泛化能力来适应训练集中没有出现过的新样本。在机器学习应用时，我们经常会遇到过度拟合(over-fitting)的问题，可能会导致训练出来的模型效果很差。接下来，我们将谈论的正则化(regularization)技术，它可以改善或者减少过度拟合问题，以使学习算法更好实现。
机器学习中一个重要的话题便是模型的泛化能力，泛化能力强的模型才是好模型，对于训练好的模型，若在训练集表现差，不必说在测试集表现同样会很差，这可能是欠拟合（under fitting）导致；若模型在训练集表现非常好，却在测试集上差强人意，则这便是过拟合（over fitting）导致的，过拟合与欠拟合也可以用 Bias 与 Variance 的角度来解释，欠拟合会导致高 Bias ，过拟合会导致高 Variance ，所以模型需要在 Bias 与 Variance 之间做出一个权衡。
使用简单的模型去拟合复杂数据时，会导致模型很难拟合数据的真实分布，这时模型便欠拟合了，或者说有很大的 Bias， Bias 即为模型的期望输出与其真实输出之间的差异；有时为了得到比较精确的模型而过度拟合训练数据，或者模型复杂度过高时，可能连训练数据的噪音也拟合了，导致模型在训练集上效果非常好，但泛化性能却很差，这时模型便过拟合了，或者说有很大的 Variance，这时模型在不同训练集上得到的模型波动比较大， Variance 刻画了不同训练集得到的模型的输出与这些模型期望输出的差异。
举例：

Bias反映的是模型的期望与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。
我们通过公式来直观了解一下，文字没有数学符号解释的清楚：
用图形解释方差与偏差：

举一个例子，一次打靶实验，目标是为了打到10环，但是实际上只打到了7环，那么这里面的Error就是3。具体分析打到7环的原因，可能有两方面：一是瞄准出了问题，比如实际上射击瞄准的是9环而不是10环；二是枪本身的稳定性有问题，虽然瞄准的是9环，但是只打到了7环。那么在上面一次射击实验中，Bias就是1,反应的是模型期望与真实目标的差距，而在这次试验中，由于Variance所带来的误差就是2，即虽然瞄准的是9环，但由于本身模型缺乏稳定性，造成了实际结果与模型期望之间的差距。
简单的模型会有一个较大的偏差和较小的方差，复杂的模型偏差较小方差较大。

解决欠拟合的方法： 1、增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间; 2、尝试非线性模型，比如核SVM 、决策树、DNN等模型; 3、如果有正则项可以较小正则项参数; 4、Boosting ,Boosting 往往会有较小的 Bias，比如 Gradient Boosting 等. 解决过拟合的方法： 1、交叉检验，通过交叉检验得到较优的模型参数; 2、特征选择，减少特征数或使用较少的特征组合，对于按区间离散化的特征，增大划分的区间; 3、正则化，常用的有 L1、L2 正则。而且 L1正则还可以自动进行特征选择; 4、如果有正则项则可以考虑增大正则项参数; 5、增加训练数据可以有限的避免过拟合; 6、Bagging ,将多个弱学习器Bagging 一下效果会好很多，比如随机森林等. DNN中常见的方法： 1、早停策略。本质上是交叉验证策略，选择合适的训练次数，避免训练的网络过度拟合训练数据。 2、集成学习策略。而DNN可以用Bagging的思路来正则化。首先我们要对原始的m个训练样本进行有放回随机采样，构建N组m个样本的数据集，然后分别用这N组数据集去训练我们的DNN。即采用我们的前向传播算法和反向传播算法得到N个DNN模型的W,b参数组合，最后对N个DNN模型的输出用加权平均法或者投票法决定最终输出。不过用集成学习Bagging的方法有一个问题，就是我们的DNN模型本来就比较复杂，参数很多。现在又变成了N个DNN模型，这样参数又增加了N倍，从而导致训练这样的网络要花更加多的时间和空间。因此一般N的个数不能太多，比如5-10个就可以了。 3、DropOut策略。所谓的Dropout指的是在用前向传播算法和反向传播算法训练DNN模型时，一批数据迭代时，随机的从全连接DNN网络中去掉一部分隐藏层的神经元。　在对训练集中的一批数据进行训练时，我们随机去掉一部分隐藏层的神经元，并用去掉隐藏层的神经元的网络来拟合我们的一批训练数据。使用基于dropout的正则化比基于bagging的正则化简单，这显而易见，当然天下没有免费的午餐，由于dropout会将原始数据分批迭代，因此原始数据集最好较大，否则模型可能会欠拟合。
正则化的目的是限制参数过多或者过大，避免模型更加复杂。例如，使用多项式模型，如果使用 10 阶多项式，模型可能过于复杂，容易发生过拟合。因此需要在目标函数添加一些额外的惩罚项，即正则项。添加惩罚项可看成是对损失函数中的某些参数做一些限制，根据惩罚项的不同可分为：L0范数惩罚、L1范数惩罚（参数稀疏性惩罚）、L2范数惩罚（权重衰减惩罚）。 L0范数惩罚：为了防止过拟合，我们可以将其高阶部分的权重 w 限制为 0，这样，就相当于从高阶的形式转换为低阶。为了达到这一目的，最直观的方法就是限制 w 的个数，但是这类条件属于 NP-hard 问题，求解非常困难。因此机器学习中经常使用L1、L2正则化。L1正则化项也称为Lasso，L2正则化参数也称为Ridge。 L1范数：权值向量w中各个元素的绝对值之和，L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。 L2范数：权值向量w中各个元素的平方和然后再求平方根，L2正则化可以防止模型过拟合；一定程度上，L1也可以防止过拟合。
上面我们得到了带约束的优化问题A2，在实际的求解中，带约束的优化问题往往较难求解，大多都是转化为无约束优化问题去求解。接下来自然而然的我们采用拉格朗日乘子法将约束转化到目标函数上去，也就将约束优化问题A2转化为一个无约束的优化问题。那么这个无约束优化问题的形式是什么样的呢？这里直接先把最终的结论摆上来：
稀疏性对很多机器学习建模问题来说是非常重要的，也是非常好的一个性质。既然有很多系数等于0了，那么说明与之对应的输入是没有用了，这些输入就可以舍去，相当于起到了降维和feature selection的作用。特殊要说明的是用L1正则化来降维和PCA降维是不同的，可以理解为L1正则化是用了数据的标签来做的，而PCA无需数据的标签。所以L1正则化实际上是带有监督学习性质的降维方法。
拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是抗扰动能力强。
λ可以控制L图形的大小，λ越小，L的图形越大（上图中的黑色方框和圆）；λ越大，L的图形越小，最后求得代价函数最值时各参数也会变得很小。从另一方面看，由公式5可以看到，λ越大，θj衰减得越快。
机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？机器学习防止欠拟合、过拟合方法
【学界】有约束转无约束，拉格朗日松弛观点下的L1正则化稀疏性探讨
斯坦福机器学习课程第三周 (4)正则化：解决过拟合问题
拉格朗日乘子法如何理解？
机器学习中正则化项L1和L2的直观理解

正则项浅析

知识预备：范数 http://blog.csdn.net/shijing_0214/article/details/51757564
我们经常会听到正则项这个概念，通过查阅资料并且结合自己的理解对正则项做了一个简单的总结，首先，从问题出发：（1）正则项存在的意义是什么，为什么要使用正则项？正则项是如何防止过拟合的？（2）有哪几种正则项，如何表示，它们的相同点和不同点是什么？（3）不同正则项的使用场景是什么，如何选取正则项呢？下面就来一一的进行分析吧~~~~
先引入问题：就拿斯坦福机器学习课程的例子来说，通过房子的面积来预测房价，建立回归方程来拟合样本数据

（一）为什么要使用正则项？其实正则项是对参数的控制。那么为什么要控制参数呢，控制参数有什么好处呢？（1）实现参数的稀疏，这样可以简化模型，避免过拟合。在一个模型中重要的特征并不是很多，如果考虑所有的特征都是有作用的，那么就会对训练集进行充分的拟合，导致在测试集的表现并不是很好，所以我们需要稀疏参数，简化模型。（2）尽可能保证参数小一些，这又是为啥呢？因为越是复杂的模型，它会对所有的样本点进行拟合，如果在这里包含异常的样本，就会在小区间内产生很大的波动，不同于平均水平的高点或者低点，这样的话，会导致其导数很大，我们知道在多项式导数中，只有参数非常大的时候，才会产生较大的导数，所以模型越复杂，参数值也就越大。为了避免这种过度的拟合，需要控制参数值的大小。
（二）正则项的分类正则项有三种：L0、L1、L2
L0正则化的值是模型参数中非零参数的个数。 L1正则化表示各个参数绝对值之和。 L2正则化标识各个参数的平方的和的开方值。
1、L0正则化保证参数稀疏化来防止过拟合，可以用非零参数，来进行特征选择。但是L0正则化不好求，因此采用L1正则化。L1正则化是L0正则化的最优凸近似，比L0容易求解，并且可以实现稀疏的效果。
2、L1正则化 L1正则化也叫lasso，它往往是替代L0正则化来防止过拟合的。为啥用L1范数，因为L1范数就是各个参数的绝对值相加，我们已知，参数的值的大小和模型的复杂度是成正比的，因此复杂模型，L1范数就会大，导致损失函数大。下面定量的分析：在原始的代价函数后面加上一个L1正则化项，即所有权重w的绝对值的和，乘以λ/n。如下：
?同样计算导数得：
上式中sgn(w)表示w的符号。那么权重w的更新规则为：?
现在来观察正则求导项，可知当w为正时，更新后的w变小；当w为负时，更新后的w变大。因此它的效果就是让w往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。另外，上面没有提到一个问题，当w为0时怎么办？当w等于0时，|w|是不可导的，所以我们只能按照原始的未经正则化的方法去更新w，这就相当于去掉η λ sgn(w)/n这一项，所以我们可以规定sgn(0)=0，这样就把w=0的情况也统一进来了。
3、L2正则化 L2正则化也是防止过拟合的，原因和L1一样一样的，就是形式不同。L2范数是各参数的平方和再求平方根。对于L2的每个元素都很小，但是不会为0，只是接近0，参数越小说明模型越简单，也就越不容易产生过拟合。L2正则化也叫做“岭回归”。
来让我们看看具体的例子，对于房屋价格预测我们可能有上百种特征，与刚刚所讲的多项式例子不同，我们并不知道哪些是高阶多项式的项。所以，如果我们有一百个特征，我们并不知道如何选择关联度更好的参数，如何缩小参数的数目等等。因此在正则化里，我们要做的事情，就是把减小我们的代价函数（例子中是线性回归的代价函数）所有的参数值，因为我们并不知道是哪一个或哪几个要去缩小。因此，我们需要修改代价函数，在这后面添加一项，就像我们在方括号里的这项。当我们添加一个额外的正则化项的时候，我们收缩了每个参数。
为什么加了一项就让参数尽量小呢，因为只要你想让J最小，那么θ肯定尽可能的去小。
注意：这里我们没有去惩罚 θ0，实践中只会有较小的差异
λ 要做的就是控制惩罚项与均方差之间的平衡关系。 λ越大说明，参数被打压得越厉害，θ值也就越小
现在进行定量的分析：
L2正则化就是在代价函数后面再加上一个正则化项：
C0代表原始的代价函数，后面那一项就是L2正则化项，它是这样来的：所有参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，1/2经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整。L2正则化项是怎么避免overfitting的呢？我们推导一下看看，先求导：
在不使用L2正则化时，求导结果中w前系数为1，现在w前面系数为 1-ηλ/n ，因为η、λ、n都是正的，在样本量充足的时候，1-ηλ/n小于1，它的效果是减小w，这也就是权重衰减的由来。当然考虑到后面的导数项，w最终的值可能增大也可能减小。
（三）lasso回归和ridge回归下面我们来看两个对比图（1）lasso 注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可微的。机器学习的任务就是要通过一些方法（比如梯度下降）求出损失函数的最小值。考虑二维的情况，即只有两个权值w1和w2，此时L=|w1|+|w2|，对于梯度下降法，求解J的过程可以画出等值线，同时L1正则化的函数L也可以在w1w2的二维平面上画出来。如下图：
在图中，当J等值线与L首次相交的地方就是最优解。上图中J与L在L的一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L函数有很多突出的角（二维情况下四个，多维情况下更多），J与这些角接触的机率会远大于与L其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。
（2）ridge 同理，假设有如下带L2正则化的损失函数，同样可以画出他们在二维平面上的图形，如下：
图2 L2正则化二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J与L相交时使得w1或w2等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。
总结：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下，选择Lasso比较合适，因为它能自动选择特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用Ridge也许更合适。
参考文章： http://blog.csdn.net/vividonly/article/details/50723852 http://blog.sina.com.cn/s/blog_8267db980102wryn.html http://www.mamicode.com/info-detail-517504.html http://www.2cto.com/kf/201609/545625.html http://blog.csdn.net/zouxy09/article/details/24971995/

L1、L2正则化知识详解

正则化是一种回归的形式，它将系数估计（coefficient estimate）朝零的方向进行约束、调整或缩小。也就是说，正则化可以在学习过程中降低模型复杂度和不稳定程度，从而避免过拟合的危险。

如果随机变量的概率密度函数分布为:

还有涉及极大似然估计、概率论相关的先验和后验相关概率，为了控制篇幅，本文就不详细介绍， wiki百科和百度百科都讲得很清楚。
正则化通过降低模型的复杂性，达到避免过拟合的问题。正则化是如何解决过拟合的问题的呢？从网上找了很多相关文章，下面列举两个主流的解释方式。

如果发生过拟合，参数θ一般是比较大的值，加入惩罚项后，只要控制λ的大小，当λ很大时，θ1到θn就会很小，即达到了约束数量庞大的特征的目的。
原因二：从贝叶斯的角度来分析，正则化是为模型参数估计增加一个先验知识，先验知识会引导损失函数最小值过程朝着约束方向迭代。 L1正则是拉普拉斯先验，L2是高斯先验。整个最优化问题可以看做是一个最大后验估计，其中正则化项对应后验估计中的先验信息，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计。给定训练数据, 贝叶斯方法通过最大化后验概率估计参数θ：

下面我们从最大后验估计(MAP)的方式，推导下加入L1和L2惩罚项的Lasso和岭回归的公式。首先我们看下最小二乘公式的推导（公式推导截图来自知乎大神）

为了帮助理解，我们来看一个直观的例子：假定x仅有两个属性，于是无论岭回归还是Lasso接触的w都只有两个分量，即w1,w2，我们将其作为两个坐标轴，然后在图中绘制出两个式子的第一项的”等值线”，即在(w1,w2)空间中平方误差项取值相同的点的连线。再分别绘制出L1范数和L2范数的等值线，即在(w1,w2)空间中L1范数取值相同的点的连线，以及L2范数取值相同的点的连线(如下图所示)。
岭回归与Lasso的解都要在平方误差项与正则化项之间折中，即出现在图中平方误差项等值线与正则化项等值线相交处。而由上图可以看出，采用L1范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轴上，即w1或w2为0，而在采用L2范数时，两者的交点常出现在某个象限中，即w1或w2均非0。
这说明了岭回归的一个明显缺点：模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0，但永不达到 0。也就是说，最终的模型会包含所有的预测因子。但是，在 Lasso 中，如果将调整因子 λ 调整得足够大，L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此，Lasso 可以进行变量选择，产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中，于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型；换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。

正则化项L1和L2的直观理解及L1不可导处理

正则化（Regularization）

机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作 ?1-norm 和 ?2-norm ，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2范数。

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。下图是Python中Lasso回归的损失函数，式中加号后面一项α||w||1即为L1正则化项。

下图是Python中Ridge回归的损失函数，式中加号后面一项α||w||22即为L2正则化项。

一般回归分析中回归w表示特征的系数，从上式可以看到正则化项是对系数做了处理（限制）。 L1正则化和L2正则化的说明如下：

L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为||w||1

L2正则化是指权值向量w中各个元素的平方和然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号），通常表示为||w||2

一般都会在正则化项之前添加一个系数，Python中用α表示，一些文章也用λ表示。这个系数需要用户指定。

那添加L1和L2正则化有什么用？下面是L1正则化和L2正则化的作用，这些表述可以在很多文章中找到。

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择

L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

稀疏模型与特征选择

上面提到L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。为什么要生成一个稀疏矩阵？

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0.

通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

L1和L2正则化的直观理解

这部分内容将解释为什么L1正则化可以产生稀疏模型（L1是怎么让系数等于零的），以及为什么L2正则化可以防止过拟合。

L1正则化和特征选择

假设有如下带L1正则化的损失函数：

J=J0+α∑w|w|(1)

其中J0是原始的损失函数，加号后面的一项是L1正则化项，α是正则化系数。注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可微的。机器学习的任务就是要通过一些方法（比如梯度下降）求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时，相当于对J0做了一个约束。令L=α∑w|w|，则J=J0+L，此时我们的任务变成在L约束下求出J0取最小值的解。考虑二维的情况，即只有两个权值w1和w2，此时L=|w1|+|w2|对于梯度下降法，求解J0的过程可以画出等值线，同时L1正则化的函数L也可以在w1w2的二维平面上画出来。如下图：

图1? L1正则化

阅读更多 >>> GTX960参数是多少

图中等值线是J0的等值线，黑色方形是L函数的图形。在图中，当J0等值线与L图形首次相交的地方就是最优解。上图中J0与L在L的一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L函数有很多『突出的角』（二维情况下四个，多维情况下更多），J0与这些角接触的机率会远大于与L其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。

而正则化前面的系数α，可以控制L图形的大小。α越小，L的图形越大（上图中的黑色方框）；α越大，L的图形就越小，可以小到黑色方框只超出原点范围一点点，这是最优点的值(w1,w2)=(0,w)中的w可以取到很小的值。

类似，假设有如下带L2正则化的损失函数：

J=J0+α∑ww2(2)

同样可以画出他们在二维平面上的图形，如下：

图2? L2正则化

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。

L2正则化和过拟合

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』。

那为什么L2正则化可以获得值很小的参数？

以线性回归中的梯度下降法为例。假设要求的参数为θ，hθ(x)是我们的假设函数，那么线性回归的代价函数如下：

J(θ)=12m∑i=1m(hθ(x(i))?y(i))(3)

那么在梯度下降法中，最终用于迭代计算参数θ的迭代式为：

θj:=θj?α1m∑i=1m(hθ(x(i))?y(i))x(i)j(4)

其中α是learning rate. 上式是没有添加L2正则化项的迭代公式，如果在原始代价函数之后添加L2正则化，则迭代公式会变成下面的样子：

θj:=θj(1?αλm)?α1m∑i=1m(hθ(x(i))?y(i))x(i)j(5)

其中 λ就是正则化参数。从上式可以看到，与未添加L2正则化的迭代公式相比，每一次迭代，θj都要先乘以一个小于1的因子，从而使得θj不断减小，因此总得来看，θ是不断减小的。

最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释，当L1的正则化系数很小时，得到的最优解会很小，可以达到和L2正则化类似的效果。

正则化参数的选择

L1正则化参数

通常越大的λ可以让代价函数在参数为0时取到最小值。下面是一个简单的例子，这个例子来自 Quora上的问答。为了方便叙述，一些符号跟这篇帖子的符号保持一致。

假设有如下带L1正则化项的代价函数：

F(x)=f(x)+λ||x||1

其中x是要估计的参数，相当于上文中提到的w以及θ. 注意到L1正则化在某些位置是不可导的，当λ足够大时可以使得F(x)在x=0时取到最小值。如下图：

图3 L1正则化参数的选择

分别取λ=0.5和λ=2，可以看到越大的λ越容易使F(x)在x=0时取到最小值。

L2正则化参数

从公式5可以看到，λ越大，θj衰减得越快。另一个理解可以参考图2，λ越大，L2圆的半径越小，最后求得代价函数最值时各参数也会变得很小。

Reference

过拟合的解释：

https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss2.html

正则化的解释：

https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss1.html

正则化的解释：

http://blog.csdn.net/u012162613/article/details/44261657

正则化的数学解释（一些图来源于这里）：

http://blog.csdn.net/zouxy09/article/details/24971995

原文参考：blog.csdn.net/jinping_shi/article/details/52433975

https://www.zhihu.com/question/38426074

正则化的通俗解释

正则化的通俗解释就是给平面不可约代数曲线以某种形式的全纯参数表示。
正则化(regularization)，是指在线性代数理论中，不适定问题通常是由一组线性代数方程定义的，而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。正则化：代数几何中的一个概念。
形式
反问题有两种形式。最普遍的形式是已知系统和输出求输入，另一种系统未知的情况通常也被视为反问题。许多反问题很难被解决，但是其他反问题却很容易得到答案。显然，易于解决的问题不会比很难解决的问题更能引起人们的兴趣，我们直接解决它们就可以了。那些很难被解决的问题则被称为不适定的。
用途
求解不适定问题的普遍方法是：用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解，这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。通常的正则化方法有基于变分原理的Tikhonov 正则化、各种迭代方法以及其它的一些改进方法，在各类反问题的研究中被广泛采用，并得到深入研究。

频率域重磁异常滤波

在频率域中浅部地质体引起的异常较深部地质体引起的异常要尖锐得多。一个尖锐的异常其幅值从异常中心向外快速下降，以具有较强的高频成分为特征；而宽缓异常从中心向外是缓慢的衰减，具有集中于低频端的谱。异常频谱特征的这种差异，提供了分离浅部场和深部场的可能性。频率域重磁异常滤波的作用在于利用重磁异常的频谱特征，区分区域异常与局部异常，即分离叠加异常。目前有许多种滤波方法，这里介绍几种常用的滤波方法。
（一）维纳滤波与匹配滤波
维纳滤波与匹配滤波方法是根据不同埋深的场源在对数功率谱上的不同特征来构制滤波器，通过滤波达到分离区域场与局部场的目的。
1.维纳滤波器
最小均方差滤波也称为维纳滤波，其基本思路是：设计一个滤波器，使其输出与希望输出之间的均方差为最小。
设I（x）为输入信号，F（x）为I（x）滤波后的输出函数，E（x）为期望输出，ε为总均方误差，则有
勘探重力学与地磁学
相应的滤波器为最小均方差滤波器。
具体应用时常做一些假定，如设有用信号是由深部场源引起，干扰信号是由浅部场源引起。并设SI（ω）为I（x）的频谱，SE（ω）为E（x）的频谱，在频率域中根据巴什瓦等式可将上式写成
勘探重力学与地磁学
设深部场源、浅部场源的埋深分别为h1和h2（h1＞h2)，ω为角频率，将整个场向下延拓h2，使浅源成为干扰。异常其振幅谱为B，令深源异常的频谱服从下列关系：
勘探重力学与地磁学
则求ε极小公式可改写为
勘探重力学与地磁学
为求频率响应?（ω），用［?（ω）＋λG（ω）］代替?（ω），代入上式。这里λ为任意数，G（ω）为ω的函数，其性质同?（ω），求使时?（ω）值，即
勘探重力学与地磁学
由于G（ω）的任意性，最后得到
勘探重力学与地磁学
故有
勘探重力学与地磁学
式中：。
对（10-184）式积分，选择合适的脉冲响应使ε最小（即求积分式右边的泛函的极值），经过变换得到Wiener-Hopf积分方程。对其作傅里叶变换，并假定信号s（x）与干扰n（x）彼此不相干。经推导可以得到特殊形式的维纳滤波器：
勘探重力学与地磁学
为了求出|S（ω）和|N（ω）|，不妨假设
勘探重力学与地磁学
勘探重力学与地磁学
即有用信号及干扰信号（或称区域场及局部场）分别由埋深为h1和h2（h1＞h2)的地质体所引起，l为浅部场源下延深度。上式中A，B为物性参数；H（ω）是维纳滤波器的频率响应；S（ω）为有用信号s（x)（即区域场）的频谱；N（ω）为干扰信号n（x)（即局部场）的频谱。
在高频端（10-187）式可近似写为
勘探重力学与地磁学
当地质体形态相近时，有
F1（ω）＝F2（ω）
由此可得分离区域场的频率响应
勘探重力学与地磁学
式中的A，B，h1，h2四个值由实测数据的对数功率谱曲线上求得。
根据实测数据的对数功率谱曲线lnE（ω)，取低频段斜率绝对值较大的直线段作为深部场源的反映，并切这段直线的纵轴截距为A2，斜率一半的负数为h1，中高频段斜率较小的直线段为浅部场源的反映，并用其截距求出B2，用斜率一半的负数求h2。如图10-20所示。
2.匹配滤波器
如果令S（ω）与N（ω）相同相位（深度不同但水平位置重合的地质体其相位可以相同)，则由（10-185）可以得到另一种形式的特殊滤波器：
图10-20 对数功率谱曲线
勘探重力学与地磁学
即有分离场的频率响应
勘探重力学与地磁学
从（10-186）式可以看出，为实施匹配滤波必须先求得h1、h2和等值。这些值可以从径向平均对数功率谱求得。从（10-186），（10-187）式出发，则应有
勘探重力学与地磁学
在实际工作中，可以用ω＝0时的E（0）值A2对E（ω）作规格化处理。若记作En（ω），则
勘探重力学与地磁学
当ω很大时，，则
勘探重力学与地磁学
这表明在lnEn（ω）～ω曲线的高频段的拟合直线斜率为-2h2，而直线的截距为。
而当ω很小时，由（10-191）式可得
勘探重力学与地磁学
lnEn（ω)＝-2h1ω （10-193）
因此在lnEn（ω）～ω曲线的低频段的拟合直线斜率为-2h1。同时由于ω＝0时，lnEn（ω）＝0，即此拟合曲线与纵轴的交点相当于坐标原点。这就表明两条拟合直线与纵轴交点之间的距离就是。由此可见，从径向平均对数功率谱曲线上可以取得为实施匹配滤波所需要的参数。应该指出，对重力异常，为确定上述参数，首先需要进行一次垂向一阶导数的运算，然后再作出径向平均对数功率谱曲线，确定上述参数。匹配滤波应用于磁异常的解释时，其应用条件为：①深浅源场既要同相位，又要不相干；②场源应近似于球体与下延很大棒状体叠加的情况（管志宁、安玉林，1984)。
3.实现步骤
（1）利用傅里叶变换，由实测异常求频谱。
（2）由傅里叶变换的实部和虚部求对数功率谱lnE（ω）。
E（ω）＝Re2（ω）＋Im2（ω）
（3）根据对数功率谱曲线lnE（ω）～ω，求h1，h2，B/A等参数，构制匹配滤波因子。
（4）将实测异常频谱乘以相应滤波因子，得到浅源场（或深源场）的频谱。
（5）反傅里叶变换得到分离的浅源场与深源场。
（二）消除高频干扰的正则化方法
在A.H.吉洪诺夫的《不适定问题的解法》一书，涉及了研究解决迅速形成“具有理想低通滤波特性和较强适应能力”的滤波因子问题。并将所构成的滤波因子称为正则化稳定因子。基于该书的理论，结合磁异常的特点安玉林等提出了正则化稳定因子（安玉林、管志宁，1985)。现给出一种正则化稳定因子：
勘探重力学与地磁学
式中：β≥2；f0为要消除的高频干扰信号的最小频率（波数)，等于其最大水平尺度的倒数；；λx，λy为基波波长；频率（波数），，。
上列正则化稳定因子经理论模型检验和实际资料处理，效果较好。经实践证明，正则化参数α可直接取2≤α≤3，如取
勘探重力学与地磁学
即可直接滤除高频干扰。
正则化稳定因子中，参数f0与λ0具有重要意义，它们表明要消除的局部磁异常的尺度。这两个参数可以直接从原始磁异常剖面图或平面等值线图上量取，这是该方法易于应用的主要原因。图10-21是原始观测场ΔZ的剖面曲线图，ΔZ曲线即包含有区域场③，又包含大小不同的局部异常①，②。如果要消除所有局部异常，则选取。如果仅消除局部异常②，则选，被保留的部分将作为区域磁异常。
当欲被分离的场即不是高频，也不是低频，而是中频时，则可采用带通滤波器。设计带通滤波器的方法之一，是将低通滤波器与高通滤波器串联，其频率响应等于低通与高通滤波器频率响应的乘积。
图10-21 ΔZ剖面曲线图
已知低通滤波器的频率响应为H1（f)，则高通滤波器的频率响应H2（f）为：H2（f）＝1-H1（f）。这里给出正则化带通滤波因子为
其中
勘探重力学与地磁学
式中：f1是欲分离出的场的最小波数，近似等于最大水平尺寸λ1的倒数1/λ1；f2是欲滤除的干扰场的最小波数，近似等于最大水平尺寸λ2的倒数1/λ2。λ1，λ2可以从叠加场平面等值线图上量出，一般可取α1＝α2＝2.5。
若取β1＝β2≥2，则频率特征曲线有理想带通滤波器频率特征（图10-22)。若取β1＝β2＜2，则f1，f2处频率特征曲线变缓。若β1≠β2，则曲线不对称。
图10-22 带通正则化滤波因子曲线图

正则化处理

过拟合本质上是模型太过复杂，复杂到消弱了模型的泛化能力。由于训练数据时有限的，因此总可以通过增加参数的的方式来提升模型的复杂度，降低训练误差。可正如你学习的领域越专精，可应用的范围可能越窄，则在模型训练中就是指过拟合。
如图所示的红色曲线就是过拟合。
正则化是用于抑制过拟合方法的统称，通过动态调整模型参数的取值来降低模型的复杂度。这是因为当一些参数的取值足够小时，参数对应的属性对结果的影响微乎其微，这在实质上去除了非相关属性的影响。
在线性回归里，最常见的正则化方式就是在损失函数中添加正则化项，而添加的正则化项往往是待估计参数的 p- 范数。将均方误差和参数的范数之和作为一个整体来进行约束优化，相当于额外添加了一重关于参数的限制条件，避免大量参数同时出现较大的取值。由于正则化的作用通常是让参数估计值的幅度下降，因此在统计学中它也被称为系数收缩方法。

w1，w2都是模型的参数，要优化的目标参数。蓝色的圆圈表示没有经过限制的损失函数在寻找最小值过程中，w的不断迭代（随最小二乘法，最终目的还是使损失函数最小）变化情况，表示的方法是等高线，z轴的值就是 E(w)。
那个红色边框包含的区域，其实就是解空间，只能在这个缩小了的空间中，寻找使得目标函数最小的w1，w2。左边图是岭回归，是由于采用了L2范数正则化项的缘故，要求两个参数的平方和小于某个固定的参数，所以是圆形。右边的LASSO，是由于采用了L1范数作为正则化项，要求两个参数的绝对值之和小于某个固定值，所以解空间是方形。
图中蓝色和红色的交点就是最优参数解，交点出现的位子取决于边界的情况，岭回归的边界是曲线，误差等值线可以在任意位置和边界相切。LASSO边界是直线，因此切点最可能出现在方形的顶点上，这就意味着某个参数的取值为0。岭回归：衰减不同属性的权重，让所有属性向圆心收拢。 LASSO ：直接将某些属性的权重降为0，是对属性的过滤筛选。
当属性的数目远远大于样本的数目的高纬度统计问题，并且不少属性间还存在着相关性时，建议使用LASSO回归来属性的数目。LASSO回归会让很多属性的系数变成0，保留一些系数较大的属性，这个时候系数的取值会对结果又较大影响，因此需要对属性的取值范围进行调整，比如标准化。
当样本数远大于属性数时，岭回归更快，岭回归不会删除属性，会对属性的取值范围进行压缩，特征值小的特征向量会被压缩的很厉害，因此要求属性的取值范围差不多，这样系数差不多，压缩更有意义。
参考资料：王天一，机器学习40讲。

关于使用最小二乘法后“正则化”的问题？？

正则化，不用像上面2楼,3楼说的那样烦，3楼对"归一化"的理解显得比较肤浅.
其实，α=0.19,β=0.72,
α正则化α*就是指：α在α+β中占的比例：
α* = α/(α+β) = 0.19 / (0.19+0.72) = 0.21
β正则化β*就是指：β在α+β中占的比例：
β* = β/(α+β) = 0.72 / (0.19+0.72) = 0.79
就这么简单~~~ 🙂
α*+β* =1是因为:
α*+β*=α/(α+β) +β/(α+β)=(α+β)/(α+β)=1
证明完毕~~~1
这是一种运算方法。。意思就是要定下这种规律。
α*=0.21是用0.19加上β=0.72的那个最后的0.02所以得到了0.21
β*=0.7是把最后的那0.02给了前面的α
其实2、3楼的回答一样，没看出谁比谁简单，谁比谁烦琐。
关键是要搞清怎样去正则化。即使换个题目也懂得如何去正则化，或者说归一化。而3楼的做法没能体现出来。换个题目的话，恐怕只能先知道答案，后去“猜”正则化的过程。
“归一” 就是把总值归到1。这才是正则化的精髓。3楼的做法把“归一”当作结论去证明，而正确的思路应该是把 “归一”当作一个突破口去解决问题，不需要去证明的。
我也在研究这个，你可以参考下这篇文献：
orthogonal
least
squares
learing
algorithm
for
radial
basis
function
networks
作者：s.chen
求算过程很复杂，不知有没有编程高手能把这个算法写出来哈
“正则化”, Normalization, 也称作归一化。这个概念和最小二乘法之间并无必然联系，而是一个独立的概念。
α=0.19,β=0.72
α+β=0.19 + 0.72 = 0.91
现在这个0.91不等于1。为此要把这个0.91 归到1。即把 0.91 扩大K倍后使之成为1。而 α 和 β 也就自然按比例协同变化。
α* = Kα = (1/0.91) × 0.19 = 0.21
β* = Kβ = (1/0.91) × 0.72 = 0.79

← 上一篇: practice发音,practice英语怎么读下一篇: 学生个人网站模板,6个免费PPT模板网站！→

正则化参数如何确定,正则化的通俗解释

正则化参数如何确定,正则化的通俗解释详细介绍

相关文章：

文章数据信息: