投递文章投递文章 投稿指南投稿指南 RSS订阅RSS订阅

DEDECMS完整采集教程:采集规则篇

来源:DEDE论坛 发布时间:2008-05-18 收藏 投稿 字体:【

一,设置采集内容:

我们这里测试的连接是:

http://www.dedecms.com/web-art/htmlbase/HTML/20060721/30194.html

填写成以下的设置:

测试网址就找个文章的网址就可以了。

而分页就比较特殊。

DEDE的论坛里已经有了很详细的采集分页内容的教程。

大家可以看:

dedecms4采集分页文章演示(视频)http://bbs.dedecms.com/read.php?tid=21931

------------------------------------- http://hi.baidu.com/4410828 ----------------------------------------

二,内容字段的设置:

到了这步,是比较多变化和有些难度的。

其实采集就是分析html页面的结构来获取所需的内容。

所以先需要你对html代码有一定的认识!

接下来,我们基本都是通过查看html页面的代码来操作的。(在浏览器里查看该网页的源文件)

文章标题:

这里的设置就是获取<title>和</title>之间的所有内容。

而且设置为自动过滤了“- 织梦内容管理系统”这段内容。

这样一个文章的标题采集就完成。

文章内容:

文章作者:

这里就是分析html代码后,得知作者是出现在以上开始和介绍代码之间的。

所以就能获取文章的作者信息了。

如果有作者连接要过滤等,也可以参看这里的过滤规则:

[dede应用教程第一波]采集过滤http://bbs.dedecms.com/read.php?tid=20022

------------------------------------- http://hi.baidu.com/4410828 ----------------------------------------

剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的。

最重要还是需要大家起码能看懂目标页面的html代码的大概组成。

到这里,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。

------------------------------------- http://hi.baidu.com/4410828 ----------------------------------------

marco608

2008.04.22

http://hi.baidu.com/4410828

版权所有,转载请说明出处。保留一切法律容许范围内的追究权力。

这里获取的页面里的文章内容。

根据网站和网页结构的不同,获取位置也不相同的。

所以就必须你先会看懂html代码。知道文章的内容是存放在哪里代码之间。

而这其中,也可能需要过滤掉一些本身文章内容存在的广告的。

可以参看这里的过滤规则,很全面的。

最新5条评论 查看所有评论
评论内容:请自觉遵守互联网相关政策法规。
用户名: 密码: 匿名 注册
热门文章
随机推荐
About iTtang - 联系方法  - 专题列表 - 友情链接  -  高级搜索   -  帮助中心  -