long1657的专栏

如图1-1所示。本体系主要由三大部分组成,其中,Crawler和MapReduce Flow部分完成离线工作,Retrieval Interface部分完成在线工作。Crawler部分主要负责爬取网页并抽取其中的信息;MapReduce Flow部分是整个系统的重点,主要负责对上一部搜索的信息进行预处理,为后面的查询做好准备,其目标是根据源文件建立倒排表文件和索引词表文件,为此,本系统设计并实现了一系列 MapReduce并行算法;Web Retrieval部分主要负责为用户提供一个查询接口,这是整个系统中唯一的一个在线工作。

,游手好闲会使人心智生锈

long1657的专栏

相关文章:

你感兴趣的文章:

标签云: