走向资深架构师的旅程

本文转自 !E5B7AB2851A4C9D2!499.entry?wa=wsignin1.0

由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:

1. 基于Lucene自己进行封装实现站内搜索。工作量及扩展性都较大,不采用。

2. 调用Google、Baidu的API实现站内搜索。同第三方搜索引擎绑定太死,无法满足后期业务扩展需要,暂时不采用。

3. 基于Compass+Lucene实现站内搜索。适合于对数据库驱动的应用数据进行索引,尤其是替代传统的like ‘%expression%’来实现对varchar或clob等字段的索引,对于实现站内搜索是一种值得采纳的方案。但在分布式处理、接口封装上尚需要自己进行一定程度的封装,暂时不采用。

4. 基于Solr实现站内搜索。封装及扩展性较好,提供了较为完备的解决方案,因此在门户社区中采用此方案,后期加入Compass方案。

1、 Solr简介

Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。

2、 Tomcat下Solr安装配置由于Solr基于java开发,因此Solr在windows及Linux都能较好部署使用,但由于Solr提供了一些用于测试及管理、维护较为方便的shell脚本,因此在生产部署时候建议安装在Linux上,测试时候可以在windows使用。

下面以Linux下安装配置Solr进行说明,windows与此类似。wget unzip apache-tomcat-6.0.16.zipmv apache-tomcat-6.0.16 /opt/tomcatchmod 755 /opt/tomcat/bin/*wget solr/1.2/apache-solr-1.2.0.tgztar zxvf apache-solr-1.2.0.tgzSolr的安装配置最为麻烦的是对solr.solr.home的理解和配置,主要有三种

基于当前路径的方式 cp apache-solr-1.2.0/dist/apache-solr-1.2.0.war /opt/tomcat/webapps/solr.warmkdir /opt/solr-tomcatcp -r apache-solr-1.2.0/example/solr/ /opt/solr-tomcat/cd /opt/solr-tomcat/opt/tomcat/bin/startup.sh由于在此种情况下(没有设定solr.solr.home环境变量或JNDI的情况下),Solr查找./solr,因此在启动时候需要切换到/opt/solr-tomcat

基于环境变量solr.solr.home在当前用户的环境变量中(.bash_profile)或在/opt/tomcat/catalina.sh中添加如下环境变量export JAVA_OPTS="$JAVA_OPTS -Dsolr.solr.home=/opt/solr-tomcat/solr"基于JNDI配置 mkdir –p /opt/tomcat/conf/Catalina/localhosttouch /opt/tomcat/conf/Catalina/localhost/solr.xml ,内容如下:

Xml代码

访问solr管理界面 :port/solr

3、 Solr原理 Solr对外提供标准的http接口来实现对数据的索引的增加、删除、修改、查询。在 Solr 中,用户通过向部署在servlet 容器中的 Solr Web 应用程序发送 HTTP 请求来启动索引和搜索。Solr 接受请求,确定要使用的适当SolrRequestHandler,然后处理请求。通过 HTTP 以同样的方式返回响应。默认配置返回Solr 的标准 XML 响应,也可以配置Solr 的备用响应格式。可以向 Solr 索引 servlet 传递四个不同的索引请求:add/update 允许向 Solr 添加文档或更新文档。直到提交后才能搜索到这些添加和更新。commit 告诉 Solr,应该使上次提交以来所做的所有更改都可以搜索到。optimize 重构 Lucene 的文件以改进搜索性能。索引完成后执行一下优化通常比较好。如果更新比较频繁,则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。delete 可以通过 id 或查询来指定。按 id 删除将删除具有指定 id 的文档;按查询删除将删除查询返回的所有文档。 一个典型的Add请求报文

Xml代码

一个典型的搜索结果报文:

Xml代码

关于solr的详细使用说明,请参考solr/FrontPage4、 Solr测试使用 Solr的安装包包含了相关的测试样例,路径在apache-solr-1.2.0/example/exampledocs1. 使用shell脚本(curl)测试Solr的操作:cd apache-solr-1.2.0/example/exampledocsvi post.sh,根据tomcat的ip、port修改URL变量的值URL=http://localhost:8080/solr/update./post.sh *.xml # 2. 使用Solr的java 包测试Solr的操作:查看帮助:java -jar post.jar –help提交测试数据:java -Durl=http://localhost:8080/solr/update -Ddata=files -jar post.jar *.xml下面以增加索引字段liangchuan、url为例,说明一下Solr中索引命令的使用1) 修改solr的schema,配置需要索引字段的说明:vi /opt/solr-tomcat/solr/conf/schema.xml ,在<fields>中增加如下内容

怕仍是不能。于是他们比任何人都看的清楚,又比任何人都看的不确切。

走向资深架构师的旅程

相关文章:

你感兴趣的文章:

标签云: