一,设置采集内容:
我们这里测试的连接是:
http://www.dedecms.com/web-art/htmlbase/HTML/20060721/30194.html
填写成以下的设置:

测试网址就找个文章的网址就可以了。
而分页就比较特殊。
DEDE的论坛里已经有了很详细的采集分页内容的教程。
大家可以看:
dedecms4采集分页文章演示(视频)http://bbs.dedecms.com/read.php?tid=21931
------------------------------------- http://hi.baidu.com/4410828 ----------------------------------------
二,内容字段的设置:
到了这步,是比较多变化和有些难度的。
其实采集就是分析html页面的结构来获取所需的内容。
所以先需要你对html代码有一定的认识!
接下来,我们基本都是通过查看html页面的代码来操作的。(在浏览器里查看该网页的源文件)
文章标题:

这里的设置就是获取<title>和</title>之间的所有内容。
而且设置为自动过滤了“- 织梦内容管理系统”这段内容。
这样一个文章的标题采集就完成。
文章内容:
文章作者:

这里就是分析html代码后,得知作者是出现在以上开始和介绍代码之间的。
所以就能获取文章的作者信息了。
如果有作者连接要过滤等,也可以参看这里的过滤规则:
[dede应用教程第一波]采集过滤http://bbs.dedecms.com/read.php?tid=20022
------------------------------------- http://hi.baidu.com/4410828 ----------------------------------------
剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的。
最重要还是需要大家起码能看懂目标页面的html代码的大概组成。
到这里,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。
------------------------------------- http://hi.baidu.com/4410828 ----------------------------------------
marco608
2008.04.22
http://hi.baidu.com/4410828
版权所有,转载请说明出处。保留一切法律容许范围内的追究权力。

这里获取的页面里的文章内容。
根据网站和网页结构的不同,获取位置也不相同的。
所以就必须你先会看懂html代码。知道文章的内容是存放在哪里代码之间。
而这其中,也可能需要过滤掉一些本身文章内容存在的广告的。
可以参看这里的过滤规则,很全面的。
RSS订阅






收 藏
推 荐