机器学习第五讲：Generative Learning Algorithm (A)

引言

前面几讲，我们主要探讨了如何对 p(y|x; 为 sigmoid 函数。这一讲我们要讨论另外一类完全不同的学习算法。

在介绍这类算法之前，我们先来看一个简单的分类问题，比如我们想要设计一个算法区分大象。基于这两种动物的某些特征，前面介绍的算法比如 logistic regression 会试着在这两类样本之间找到一条直线，这条直线可以称之为决策边界，用来区分大象和狗，对于一个新来的测试样本，可以根据该样本落在决策边界的哪一边来决定新输入的测试样本是大象还是狗。

我们还可以从另外一个角度考虑，我们不去寻找这样一条决策边界，我们可以尝试建立一个模型分别描述这两种动物，因为狗有狗的样子，大象有大象的样子，如果建立的模型可以精确地描述这两类动物，并且将彼此之间的不同点区分开来，那么对于新输入的测试样本，我们可以看测试样本与哪类动物的描述更加接近，进而可以判断与某类动物的描述越接近，则该测试样本属于该类的概率就越大。

通常，直接求表示一个样本是狗(0)或者大象(1)，那么 p(x|y=0) 给出的是狗这一类的特征分布，，p(x|y=1) 给出的是大象这一类的特征分布。

一旦得到了 p(y) (也称为先验概率)和 p(x|y),利用贝叶斯准则，可以算出的后验概率：

旅行，其实是需要具有一些流浪精神的，

相关文章：

你感兴趣的文章：

标签云：