ice110956的专栏

偏差与方差(bias and variance)

在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数得到图3.

我们可以看出来, 六次函数完美地拟合了六个点,误差为0.但是,当我们用这样的拟合模型来进行预测的时候,效果反而不好.

通过观察我们发现,二次的模型也许能够更好地拟合这些样本分布.

虽然1,3图都不能很好地拟合真实分布,但是他们的问题是很不一样的.

我们暂且称图1的问题为偏差(bias),图3的问题为方差(variance).

一般误差与经验误差

我们来定义如下几个概念:

1.一般误差:

指的是,我们使用拟合的模型,在任意样本下,得到的误差.也就是模型的真实误差,也称一般误差.

2.经验误差:

指的是训练样本的误差,也就是上图中拟合函数对于这几个点的误差.因为这些误差是基于训练样本的,也就是基于已知经验的,称为经验误差.

在机器学习中,我们当然希望拟合的模型能够在更大的集合上有最小的误差.

也就是说,机器学习的目标是,最小化一般误差.

可惜的是,最小化一般误差是NP难题.

于是一般的解决方法就是转而最小化经验误差(ERM).现在许多的机器学习方法也都是基于ERM的.比如概率学的最大释然原则,神经网络等等.

正如上面三幅图所描述的,第三幅图的经验误差是最小的(=0),但是其效果不见得是最好的.也就是说,用经验误差来代替一般误差貌似不是最优的.

ERM介绍(Empirical risk minimization)

下面用数学语言来描述一般误差(General Risk),经验误差(EmpiricalRisk)的关系.看看用ER来代替GR有多大的可行性.

ERM合理性

首先是两个引理:

1.联合概率:A1,Ak表示非独立的随机变量,他们的联合概率有如下性质:

2.切比雪夫不等式:

Z1,Zm表示m个独立同分布(i.i.d)的随机变量,他们的均值表示为

,而原分布的均值未知.

根据大数定理,样本均值收敛于一个以原分布均值为中心的高斯分布,随着m的不断增加,高斯分布的方差减小.

得到上述不等式,也就是切比雪夫不等式.

语言描述,就是:已知样本的均值与原分布均值的误差存在上限.

接着开始我们的证明

现在有n个拟合函数,记为H={h1,h2,…..hn};假设现在的H表示所有一次函数的集合.

ERM的做法是在这n个中,选择一个经验风险最小的h.

切比雪夫不等式的均值换成经验误差(ER)与一般误差(GR),就得到如下结论:

也就是,H中的任意拟合的经验误差都是其一般误差的较好估计,(注意不是最好的一般误差,是任意拟合自己的一般误差).

这个结论直观地来理解就是,训练样本是一般样本的一个子集,满足一般样本的分布. ER存在关于GR的一个上限.

继续来解读这个不等式.

变化不等式,得到:

,其中

K=|H|,也就是拟合函数的VC维.具体什么是VC维,可以进一步去了解,这里不赘述.现在我们简单地理解为拟合函数的维数.

上面证明归纳为:ER与GR的区别存在上限,这个区别随着m的增加而减小.

M也称为样本复杂度.

这个证明的另一种解释就是,想要ERM的误差在一定的范围,训练样本的个数m必须满足一定的大小要求.

上面表明任意拟合函数GR与ER之间的关系;而ERM选择经验风险最小的拟合.继续证明这种选择的正确性.

这个公式很重要,其中h^表示根据ERM原则,选择的有最小ER的h.

h*表示H中一般误差最小的h,也就是我们不解决NP难题之外的最好选择.

:最小经验误差的一般误差

:最小经验误差的经验误差

:最小一般误差的经验误差

:最小一般误差的一般误差

第一个不等式来至与切比雪夫不等式;

第二个来自于h^是我们选择的最小经验误差的拟合函数.

第三个不等式同样来至于切比雪夫不等式.

上面不等式给定了ERM选择与最优选择,他们的一般误差的差异最多不超过2r.

当然,上述的证明还有许多没写出来的,比如我们还要证明所有的经验误差与一般误差区别都很小的概率很大,即一致收敛.

OK,终于证明了.总结一下ERM合理性:

1.经验误差存在上限,是其一般误差的比较好的估计,不会超过r

2.选择最小经验误差的拟合函数,其与最佳一般误差函数的差异不会超过2r

ERM的局限性

整理一些最后的式子,得到:

假设另一个拟合集合H’;

简单的类比:H’表示六次函数集合,H表示线性函数集合.那么用H’代替H时

1.第一项肯定减小,(因为H是H’的子集,只可能减小); 误差(bias)

2.第二项的K肯定增加(k是VC维,可以简单看做集合的维数). 方差(variance)

那么用H’代替H(用高VC维函数,代替低VC维)时,结果不确定.

画出如下的图形:

歌里唱的是“你离开我,就是旅行的意义”,

ice110956的专栏

相关文章:

你感兴趣的文章:

标签云: