long1657的专栏 - 编程开发

如图1-1所示。本体系主要由三大部分组成，其中,Crawler和MapReduce Flow部分完成离线工作，Retrieval Interface部分完成在线工作。Crawler部分主要负责爬取网页并抽取其中的信息；MapReduce Flow部分是整个系统的重点，主要负责对上一部搜索的信息进行预处理，为后面的查询做好准备，其目标是根据源文件建立倒排表文件和索引词表文件，为此，本系统设计并实现了一系列 MapReduce并行算法；Web Retrieval部分主要负责为用户提供一个查询接口，这是整个系统中唯一的一个在线工作。

，游手好闲会使人心智生锈

相关文章：

你感兴趣的文章：

标签云：