1、模型的三要素:
2、泛化:
训练集要和测试集分开
3、模型选择:
4、过拟合:
a)表现:训练误差很小,测试误差很大
b)解决的方案:对评测函数增加一个正则项;交叉验证选择模型参数
c)过拟合,方差
5、高维空间
a)维度越高越难泛化,因为维度越高
b)可以通过降维来提高效果
6、特征工程
a)自动化的特征选择:选收集全量的特征,然后计算每个特征与分类的信息增益来选择特征
b)特征工程是和领域相关的,,也是最花时间的部分
7、更多的数据胜过更聪明的算法
a)包括更多的样例和更多的特征
b)非常不同的算法会产生类似的边界
8、模型集成:
a)通过重采样随机生成若干个不同的训练集,在每个集合上生成一个分类器,然后用投票的方式讲结果合并。此方法比较有效,原因是在轻度增加偏置的同时极大的降低了方差
喜欢真实的人,要做真实的人,所以从来不会想要刻意模仿任何人。