在DedeCMS中建立采摘点

fieldset{padding:10px;}

在DedeCMS中建立采集点

转载请标明是引用于 http://blog.csdn.net/chenyujing5678

欢迎拍砖!

我们能采用中英网的生活综合为例来讲解。中英网的链接是:http://life.uker.net/other/

我们准备把下面的文章摘录下来:

1、新建采集点

采集->采集点管理->添加采集点->普通文章

2、完成采集第一步 网址索引:2、1 添加节点名称,目标页面编码可以从源代码中查看

如下图,我们的页面编码是gb2321。

2、2 引用网址

它是我们建立采集点后的效果的测试网页,一般选择一个文章页的网址。

我们以点开

这篇文章为例,它的网址是: http://life.uker.net/other/136566.html

2、3 来源属性

它是我们得到文章列表的网址,这里我们可以有三种选项:批量生成列表网址、手工指定列表网址、从RSS中获取。

如下图所示,如果选择批量生成列表网址,那么我们会把下面的[1] 2 3 4 5 6 …..所有的列表都抓下来;

而如果选择手工指定,那么只能抓取一个列表,这里我们选择手工指定第一个列表。

所以我们的网址是:http://life.uker.net/other/index.html(如下图所示)

注意:有些人就说他们的第一个列表的网址怎么是: http://life.uker.net/other/(如下图)

那么我们该用哪个网址呢?怎么得到那个网址呢?

答案是肯定的,得选择http://life.uker.net/other/index.html网址。

如果大家有兴趣可以依次把列表2、列表3、、、、、的网址都找出来对比:

http://life.uker.net/other/index_1.html

http://life.uker.net/other/index_2.html

http://life.uker.net/other/index_3.html

http://life.uker.net/other/index_4.html

、、、、、、

这么看来,当然我们的第一个列表是http://life.uker.net/other/index.html了。

2、4 文章网址匹配规则

我们找开第一个列表(http://life.uker.net/other/index.html)的源代码来查看。

(1)通过在代码中查找第一篇文章标题:

我们定位到下图,所以区域开始的HTML是<ul class="other">

(2)通过在代码中查找最后一篇文章标题:

我们定位到下图,所以区域开始的HTML是</li></ul>

这样我们得到如下结果:

3、完成采集第二步 内容配置:

我们只关心两个方面:文章标题与文章内容。

3、1 文章标题

我们点开一篇文章,查看源码,在里面查找标题的地方,这时我们以第一篇文章为便来说明。

从上图所示,标题是 "英国留学生如何去警察局注册",在源码中的位置有三个:

上图的第一个是在title里面,它应该当之无愧是标题,可是大家注意红色圈部分,它含有中英网的字眼,这要出现在我们的网站上肯定不合适;

第二个地方出现在<h2>里,是我们选择的地方。(在做过SEO的网站中,文章标题一般放在<h1>或<h2>里面),

当然有人会问在这个文章里会不会出现第二个<h2>呢? 我也不明白原因,有知道的网友可以告诉我一下。

第三个地方在<h3>里面,没有<h2>来得好。

所以我们的文章标题匹配规则就是 <h2>[内容]</h2>

3、2 过滤规则:

我们选择把超链接去掉

3、3 匹配规则:

这是文章内容的匹配规则,

我们从源代码中查找内容的第一行文字: 英国留学新生开学报道之后,学校通常会安排1-2天的时间让警方到学校办理学生

找到了两个地方:

比较两个地方,我们不选择在meta里的内容,因为它是定义描述及关键字的地方,不是内容,所以我们从第二张图入手,

得到内容的开始标志是:<div class="bianzhean">

查找内容结尾的标志同理。。。。。。

得到结尾标志是 :

<div class="nextxx" id="nextxx">

这里大家一定要记住,不能写成

 <div class="nextxx"

不然抓取文件时会使DedeCMS死掉,我试过了。

这样我们得到的结果如下图:

4、保存采集点后可以去采集了

而是他们在同伴们都睡着的时候,一步步艰辛地向上攀爬的。

在DedeCMS中建立采摘点

相关文章:

你感兴趣的文章:

标签云: