Nutch Lucene 之 搜索引擎文本分析

0搜索引擎文本分析——网络爬虫处理互联网信息,从数量上看比例较大的是静态网页和动态的HTML页面。但整个网络上散落的各种格式化文本文件也非常重要。这部门文件包括了各种文章、各种产品文档等,对用户有很大的帮助。

1——非结构化文本概述

互联网上和企业网内有很多专业的文档资料,尤其在检索一些专业资料时,往往会在出现网页文档的同时出现一些DOC PDF PPT等格式的文档。非结构化的文本通常具有一定得格式,格式化的文件一般结构复杂,通常有多家厂商的不同系统生成,这些格式使得普通程序读取内容无从下手(如htmlParser)

2 ——HTML文档分析:

HTML网页需要分析处理后才能用于索引和检索的,HTML网页的分析处理工具主要完成网页格式文档的解析,过滤网页中显示格式控制元素和无意义信息。 —— HTMLParser工具包

3——PDF 文档分析:

它是国内使用率非常高的一种文档格式,这种文件格式把文字图像等多种信息集合在一个文档中,必须根据他的文档格式,提取基本的文本信息,才能用于检索。—— PDFBox工具包是一款免费的开源软件

4——Office 文档分析:

它是目前最流行的文档格式,几乎成为事实的文档标准,互联网上散落着大量的这样文档,几乎所有的搜索引擎都提供了这种格式文档的检索。但是,微软的文件格式不公开,并且不断的变化 —— POI工具包是Apache Jakarta 的一个项目。

Microsoft 的Office格式非常复杂,往往包含了各种文档属性信息、文档内的格式信息,有时候甚至包含了复合文档。文档属性信息主要包括文档的标题、主题、摘要、类别、关键词等;文档内部的格式信息包括了文档的字体、字号、表格、图标,其他OLE2的正文元素等。POI 提供了访问Office的API(HSSF HWPF HSLF)分别处理excel word powerpoint

5——XML 文档分析:

是一种较为 通用的文档格式,XML是可扩展标记语言(eXtensible MarkU盘Language),是一种简单的数据存储语言,使用系列简单的标记描述数据,广泛用于数据交换领域 —— JDOM工具包,功能强大,使用灵活方便,可以非常方便的完成XML的解释和读取操作,能够帮助开发者快速实现XML应用程序。

6 —— 下面是文本索引的建立的简单过程

插入篇 —— 驾驶证更换:户口迁出后,驾驶证更换应该在迁入地更换《机动车驾驶证申领和使用规定》(公安部第123号令)第四十九条规定:机动车驾驶人户籍迁出原车辆管理所管辖区的,应当向迁入地车辆管理所申请换证。申请时应当填写申请表,,并提交第四十八条规定的证明、凭证:(一)机动车驾驶人的身份证明;(二)机动车驾驶证;(三)县级或者部队团级以上医疗机构出具的有关身体条件的证明。属于申请残疾人专用小型自动挡载客汽车的,应当提交经省级卫生主管部门指定的专门医疗机构出具的有关身体条件的证明。

一是到期的驾驶证、彩色照片1寸三张及有效身份证及身份证的复印件一份;二是进行身体检查;三是审核换证;四是领取新证。

对人性的弱点有清醒的认识,

Nutch Lucene 之 搜索引擎文本分析

相关文章:

你感兴趣的文章:

标签云: