Spark MLlib系列(一)：入门介绍

个人认为当前1.2版本的最大的改进应该是发布了称为spark.ml的机器学习工具包，支持了pipeline的学习模式，即多个算法可以用不同参数以流水线的形式运行。在工业界的机器学习应用部署过程中，pipeline的工作模式是很常见的。新的ML工具包使用Spark的SchemaRDD来表示机器学习的数据集合，提供了Spark SQL直接访问的接口。此外，在机器学习的算法方面，增加了两个基于树的方法，，随机森林和梯度增强树。还有貌似性能上有优化，看过一篇DataBricks的ppt，据说1.2版本的算法在性能上比1.1版本平均快了3倍

却又小到连一粒嫉妒的沙石也不能容纳

相关文章：

你感兴趣的文章：

标签云：