大数据:互联网大规模数据挖掘与分布式处理

大数据权威著作全新升级版,第1版畅销40000册

编辑推荐

本书源自作者在斯坦福大学教授的"海量数据挖掘"(CS246: Mining Massive Datasets)课程,第1版上市以来受到读者广泛欢迎和认可。这个新版本在上一版基础上新增三章内容,分别涵盖社会网络图挖掘、降维和大规模机器学习,同时也更新了第1版的部分内容。众所周知,移动互联网、社交媒体、电子商务和各种传感器的运用产生了超大数据集,挖掘这些数据可以提炼出有用的信息。本书以大数据环境下的数据挖掘和机器学习为重点,全面介绍了实践中行之有效的数据处理算法,是在校学生和相关从业人员的必备读物。主要内容包括:分布式文件系统以及MapReduce工具;相似性搜索;数据流处理以及针对易丢失数据等特殊情况的专用处理算法;搜索引擎技术,如谷歌的PageRank;频繁项集挖掘;大规模高维数据集的聚类算法;Web应用中的关键问题–广告管理和推荐系统;社会网络图挖掘;降维处理,如SVD分解和CUR分解;大规模机器学习。本书配套网站提供了英文版初稿及相关资料的链接:。

内容简介

本书由斯坦福大学"Web挖掘"课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。

作译者

Jure Leskovec斯坦福大学计算机科学系助理教授,研究方向是大型社交和信息网络的数据挖掘。他的研究成果获得了很多奖项,如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship,还获得了很多最佳论文奖,同时也被《纽约时报》《华尔街日报》《华盛顿邮报》《麻省理工科技评论》《连线》、NBC、BBC等流行的社会媒体刊载。他还创建了斯坦福网络分析平台(SNAP,)。Twitter账号是@jure。Anand Rajaraman数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman的职业生涯非常成功:1996年创办Junglee公司,两年后被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司于2011年被沃尔玛集团收购,Rajaraman被聘为沃尔玛负责全球电子商务业务的高级副总裁。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。Twitter账号是@anand_raj。Jeffrey David Ullman美国国家工程院院士,计算机科学家。早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD创新奖、高德纳奖、冯诺依曼奖等多项科研大奖;他是"龙书"《编译原理》、数据库名著《数据库系统实现》等多部经典著作的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人Sergey Brin;本书第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。王斌博士,中国科学院信息工程研究所研究员,博士生导师,研究方向为信息检索、自然语言处理与数据挖掘。主持国家973、863、国家自然科学基金、国际合作基金、部委及企业合作等课题近30项,发表学术论文130余篇,领导研制的多个系统上线使用,曾获得国家科技进步二等奖和北京市科学技术奖二等奖各一项。现为中国中文信息学会理事,信息检索、社会媒体处理、浯言与知识计算等多个专业委员会委员,(中文信息学报》编委,中国计算机学会高级会员及中文信患处理专业委员会委员。多次担任SIGIR、ACL、CIKM等会议的程序委员会委员。《信息检索导论》《机器学习实战》《Mahout实战》等书的译者。自2006年开始在中国科学院大学讲授《现代信息检索》研究生课程,迄今选课人数已超过1500人。2001年开始招收研究生,迄今培养博士、硕士研究生近40名。

译者序

很高兴本书的第2版能和读者见面,和第1版相比,这一版增加了第10、11、12章。第10章介绍了近年来十分流行的社会网络分析技术,第11章对高维数据空间的降维技术进行了阐述,第12章则介绍了大规模数据下的机器学习方法。除此之外,这一版第2章也对第1版的内容进行了扩充,主要增加了对MapReduce算法的复杂度分析理论。除了内容的变化,本书的作者也从原来的两位增加到三位,在学术界(特别是社交网络挖掘领域)如日中天的斯坦福大学年轻帅哥Jure Leskovec博士,也加入到本书的作者行列。  本书第1版出版之后,获得了不少读者的积极反馈,这些反馈也在第2版中有所体现。需要指出的是,本书是一本面向大数据挖掘的技术而非概念性图书,需要反复研读认真实践才能真正理解。还有,本书主要基于MapReduce框架来介绍分布式挖掘算法的实现。目前大数据包罗万象、实现框架众多,数据挖掘并不是唯一关键技术,MapReduce也不是唯一可选框架。读者可以通过阅读其他书籍进行补充。  我曾于2009年翻译了《信息检索导论》一书。在我的理解体系下,信息检索是一门跨众多学科领域的研究方向,其主要的应用形式包括搜索、推荐和挖掘三种。如果说先前翻译的《信息检索导论》注重信息检索的基本理论和搜索应用,那么本书则关注了推荐和挖掘应用。在这个意义上说,这两本书可以互为补充。这也是我选择本书进行翻译的原因之一。另一个原因在于本书集中关注大数据处理这个极具研究和应用前景的话题,一想到它可以为很多人带来帮助就让我欣慰不已。  本书主要以Web上的数据为对象介绍大规模情况下的数据挖掘。除了传统的聚类、频繁项发现及链接分析等内容外,它还介绍了数据流挖掘、互联网广告、推荐系统、社会网络分析及分布式机器学习等近年来被广泛关注的话题。特别地,本书专门介绍了支持大规模数据挖掘的分布式文件系统及MapReduce分布式计算框架。和《信息检索导论》相比,本书在理论上虽然可能不如前者深入,但是它在简明扼要阐明基本原理的基础上,更侧重大数据环境下的实际算法实现。具体地,本书给出了在面对大规模数据时基于MapReduce框架的多个算法实现。换句话说,它的算法可以在大数据环境下真正"落地",这无疑给想要或致力于大数据挖掘的读者带来理解和实现上的巨大裨益。  虽然我的很多学生都对本书内容有较深的理解,但是为了保持翻译风格的一致性并对本书翻译负全部责任,在出版社的建议下我还是与前一本书一样选择了自己独立翻译。感谢复旦大学黄萱菁教授、中科院自动化所赵军研究员、中科院软件所孙乐研究员、中科院研究生院何苯博士等人对本书第1版及第2版提出的建设性意见和建议。对他们的无私帮助,,我表示由衷的感谢。感谢图灵公司的武卫东、傅志红、李松峰、岳新欣等人为本书付出的努力,感谢人民邮电出版社杨海玲女士的大力引荐。通过翻译,我也认识了图灵公司及图灵社区的众多朋友,并从他们身上学到了很多宝贵的东西。感谢对我译书给予支持和鼓励的李锦涛研究员、孟丹研究员、郭莉研究员、刘群研究员、贺劲博士、虎嵩林博士等领导、朋友和同事。感谢我的学生们作为最早的读者给予的建议和意见,其中李佩佳、叶邦宇、洪洁等提出了许多十分宝贵的意见。感谢我的家人,他们总是无怨无悔地给我最大的支持和包容,让我能够全身心投入到工作和翻译当中。由于翻译基本在业余时间尤其是晚间完成,因此晚睡便成了家常便饭。我的儿子心心知道我要翻译便会按时睡觉不再打扰我,这让我感到欣慰并给我力量。翻译过程中,我和原书作者Jeffrey David Ullman进行了邮件交流,澄清了理解上的一些误区,并更正了原书中一些错误。我的翻译也得到了对方的热情鼓励。  因本人各方面水平有限,现有译文中肯定存在许多不足。希望读者能够和我联系,提出疑问和勘误,以便能够不断改进本书质量。来信请联系wbxjj2008@gmail.com,本书勘误会及时公布在图灵社区网站上。原书的初稿电子版等信息也可以从网站下载。  王斌

媒体评论

人总是珍惜未得到的,而遗忘了所拥有的

大数据:互联网大规模数据挖掘与分布式处理

相关文章:

你感兴趣的文章:

标签云: