在DedeCMS中建立采摘点

fieldset{padding:10px;}

在DedeCMS中建立采集点

转载请标明是引用于 http://blog.csdn.net/chenyujing5678

欢迎拍砖!

我们能采用中英网的生活综合为例来讲解。中英网的链接是：http://life.uker.net/other/

我们准备把下面的文章摘录下来：

1、新建采集点

采集->采集点管理->添加采集点->普通文章

2、完成采集第一步网址索引：2、1 添加节点名称，目标页面编码可以从源代码中查看

如下图，我们的页面编码是gb2321。

2、2 引用网址

它是我们建立采集点后的效果的测试网页，一般选择一个文章页的网址。

我们以点开

这篇文章为例，它的网址是： http://life.uker.net/other/136566.html

2、3 来源属性

它是我们得到文章列表的网址，这里我们可以有三种选项：批量生成列表网址、手工指定列表网址、从RSS中获取。

如下图所示，如果选择批量生成列表网址，那么我们会把下面的[1] 2 3 4 5 6 …..所有的列表都抓下来；

而如果选择手工指定，那么只能抓取一个列表，这里我们选择手工指定第一个列表。

所以我们的网址是：http://life.uker.net/other/index.html（如下图所示）

注意：有些人就说他们的第一个列表的网址怎么是： http://life.uker.net/other/（如下图）

那么我们该用哪个网址呢？怎么得到那个网址呢？

答案是肯定的，得选择http://life.uker.net/other/index.html网址。

如果大家有兴趣可以依次把列表2、列表3、、、、、的网址都找出来对比：

http://life.uker.net/other/index_1.html

http://life.uker.net/other/index_2.html

http://life.uker.net/other/index_3.html

http://life.uker.net/other/index_4.html

、、、、、、

这么看来，当然我们的第一个列表是http://life.uker.net/other/index.html了。

2、4 文章网址匹配规则

我们找开第一个列表（http://life.uker.net/other/index.html）的源代码来查看。

（1）通过在代码中查找第一篇文章标题：

我们定位到下图，所以区域开始的HTML是<ul class="other">

（2）通过在代码中查找最后一篇文章标题：

我们定位到下图，所以区域开始的HTML是</li></ul>

这样我们得到如下结果：

3、完成采集第二步内容配置：

我们只关心两个方面：文章标题与文章内容。

3、1 文章标题

我们点开一篇文章，查看源码，在里面查找标题的地方，这时我们以第一篇文章为便来说明。

从上图所示，标题是 "英国留学生如何去警察局注册"，在源码中的位置有三个：

上图的第一个是在title里面，它应该当之无愧是标题，可是大家注意红色圈部分，它含有中英网的字眼，这要出现在我们的网站上肯定不合适；

第二个地方出现在<h2>里，是我们选择的地方。（在做过SEO的网站中，文章标题一般放在<h1>或<h2>里面），

当然有人会问在这个文章里会不会出现第二个<h2>呢？我也不明白原因，有知道的网友可以告诉我一下。

第三个地方在<h3>里面，没有<h2>来得好。

所以我们的文章标题匹配规则就是 <h2>[内容]</h2>

3、2 过滤规则：

我们选择把超链接去掉

3、3 匹配规则：

这是文章内容的匹配规则，

我们从源代码中查找内容的第一行文字：英国留学新生开学报道之后，学校通常会安排1-2天的时间让警方到学校办理学生

找到了两个地方：

比较两个地方，我们不选择在meta里的内容，因为它是定义描述及关键字的地方，不是内容，所以我们从第二张图入手，

得到内容的开始标志是：<div class="bianzhean">

查找内容结尾的标志同理。。。。。。

得到结尾标志是：

<div class="nextxx" id="nextxx">

这里大家一定要记住，不能写成

 <div class="nextxx"

不然抓取文件时会使DedeCMS死掉，我试过了。

这样我们得到的结果如下图：

4、保存采集点后可以去采集了

而是他们在同伴们都睡着的时候，一步步艰辛地向上攀爬的。

相关文章：

你感兴趣的文章：

标签云：