AdaBoost中利用Haar特征进行人脸识别算法分析与总结2

上一篇连接：1. 弱分类器

在确定了训练子窗口中的矩形特征数量和特征值后，需要对每一个特征f ，训练一个弱分类器h(x,f,p,O) 。

在CSDN里编辑公式太困难了，所以这里和公式有关的都用截图了。

特别说明：在前期准备训练样本的时候，需要将样本归一化和灰度化到20*20的大小，这样每个样本的都是灰度图像并且样本的大小一致，保证了每一个Haar特征（描述的是特征的位置）都在每一个样本中出现。

2. 训练强分类器

在训练强分类器中，T表示的是强分类器中包含的弱分类器的个数。当然，如果是采用级联分类器，这里的强分类器中的弱分类器的个数可能会比较少，多个强分类器在级联起来。

在c(2)步骤中，“每个特征f”指的是在20*20大小的训练样本中所有的可能出现的矩形特征，大概要有80,000中，所有的这些都要进行计算。也就是要计算80,000个左右的弱分类器，在选择性能好的分类器。

训练强分类器的步骤如图：

3. 再次介绍弱分类器以及为什么可以使用Haar特征进行分类

对于本算法中的矩形特征来说，弱分类器的特征值f(x)就是矩形特征的特征值。由于在训练的时候，选择的训练样本集的尺寸等于检测子窗口的尺寸，检测子窗口的尺寸决定了矩形特征的数量，所以训练样本集中的每个样本的特征相同且数量相同，而且一个特征对一个样本有一个固定的特征值。

对于理想的像素值随机分布的图像来说，同一个矩形特征对不同图像的特征值的平均值应该趋于一个定值k。这个情况，也应该发生在非人脸样本上，但是由于非人脸样本不一定是像素随机的图像，因此上述判断会有一个较大的偏差。

对每一个特征，计算其对所有的一类样本(人脸或者非人脸)的特征值的平均值，最后得到所有特征对所有一类样本的平均值分布。

下图显示了20×20 子窗口里面的全部78,460 个矩形特征对全部2,706个人脸样本和4,381 个非人脸样本6的特征值平均数的分布图。由分布看出，特征的绝大部分的特征值平均值都是分布在0 前后的范围内。出乎意料的是，人脸样本与非人脸样本的分布曲线差别并不大，，不过注意到特征值大于或者小于某个值后，分布曲线出现了一致性差别，这说明了绝大部分特征对于识别人脸和非人脸的能力是很微小的，但是存在一些特征及相应的阈值，可以有效地区分人脸样本与非人脸样本。

为了更好地说明问题，我们从78,460 个矩形特征中随机抽取了两个特征A和B，这两个特征遍历了2,706 个人脸样本和4,381 个非人脸样本，计算了每张图像对应的特征值，最后将特征值进行了从小到大的排序，并按照这个新的顺序表绘制了分布图如下所示：

可以看出，矩形特征A在人脸样本和非人脸样本中的特征值的分布很相似，所以区分人脸和非人脸的能力很差。

下面看矩形特征B在人脸样本和非人脸样本中特征值的分布：

可以看出，矩形特征B的特征值分布，尤其是0点的位置，在人脸样本和非人脸样本中差别比较大，所以可以更好的实现对人脸分类。

由上述的分析，阈值q 的含义就清晰可见了。而方向指示符p 用以改变不等号的方向。

一个弱学习器（一个特征）的要求仅仅是：它能够以稍低于50%的错误率来区分人脸和非人脸图像，因此上面提到只能在某个概率范围内准确地进行区分就已经完全足够。按照这个要求，可以把所有错误率低于50%的矩形特征都找到（适当地选择阈值，对于固定的训练集，几乎所有的矩形特征都可以满足上述要求）。每轮训练，将选取当轮中的最佳弱分类器（在算法中，迭代T 次即是选择T 个最佳弱分类器），最后将每轮得到的最佳弱分类器按照一定方法提升（Boosting）为强分类器

4 弱分类器的训练及选取

训练一个弱分类器（特征f）就是在当前权重分布的情况下，确定f 的最优阈值，使得这个弱分类器（特征f）对所有训练样本的分类误差最低。选取一个最佳弱分类器就是选择那个对所有训练样本的分类误差在所有弱分类器中最低的那个弱分类器（特征）。

对于每个特征 f，计算所有训练样本的特征值，并将其排序。通过扫描一遍排好序的特征值，可以为这个特征确定一个最优的阈值，从而训练成一个弱分类器。具体来说，对排好序的表中的每个元素，计算下面四个值：

5. 强分类器

注意，这里所说的T=200个弱分类器，指的是非级联的强分类器。若果是用级联的强分类器，则每个强分类器的弱分类器的个数会相对较少。

未经一番寒彻骨，焉得梅花扑鼻香

相关文章：

你感兴趣的文章：

标签云：