Coursera机器学习:Noise and Error

。错误加权Algorithmic Error Measure以指纹识别为例:

目标函数识别指纹以区分合法身份与非法身份,这里的错误是0/1错误。一种是false reject叫错误拒绝,即本来合法的识别成了非法;另一种叫false accept叫错误接受,即本来非法的识别成了合法。

想象一个应用场景,一家超市通过指纹鉴别会员,如果是会员就给一定折扣。如果某个会员被错误拒绝了,他很可能因为没有享受到本该拥有的权益而愤怒并拒绝再来这家超市,而超市将失去一个稳定的客源;如果某个普通顾客被错误接受了,超市给了他一些折扣,并无太大损失,这名顾客可能因为占了小便宜而经常光顾这家超市。所以,false reject与false accept在这里有不同的cost,它们对超市造成的损失不同,所以我们需要给他们加上不同的权重,以便学习算法在选择近似函数时对错误地衡量有所偏重:

同理,CIA的绝密资料库只能向有权限的人敞开,如果通过指纹核实人员身份,false accept的代价就变得非常大,这意味着一个没有权限的人接触到了国家机密!不能忍啊,于是工程师给false accept加了一个巨大的权重,训练时如果出现false accept,这个备选函数基本是要被毙掉了。

而如果是false reject,无所谓啦,:-)。

加权分类模型(Weighted Classification)

依然是借助CIA 身份验证的例子来说明什么是weighted classification,于是它的错误计算就变成:

给这个特殊的E-in换个名字:

W上标代表weighted。

数学家们想了个办法来改造数据,以体现权重的影响:

比如false accept( 将-1识别成+1 )权重为1000,我们将训练数据中所有标记为-1的点复制1000次,如果近似函数在这些点上犯错,将会有1000倍的惩罚。这样问题就被转化为无权重问题:

并且我们已经知道Pokect算法可以解决无权重问题。

其实在应用中我们也不会真的把某些数据复制1000次,我们只需在计算Error时,将权重高的数据被拜访的概率提高1000倍即可,这与复制是等效的。不过,如果你是遍历整个测试集(不是抽样)来计算错误,就没必要修改拜访概率了,只需给相应的错误乘上它们的权重再相加并除以N即可。到现在为止,我们拓展了VC Bound,它在多元分类问题上同样成立!

Summary

关于Machine Learning更多讨论与交流,,敬请关注本博客和新浪微博songzi_tea.

真凉爽啊!青山绿水映入我的眼中,景色怡人啊!

Coursera机器学习:Noise and Error

相关文章:

你感兴趣的文章:

标签云: