淘特cms
当前位置:淘特CMS->帮助中心->采集教程
TOTACMS教程系列:采集的使用说明
  • 作者:本站
  • 日期:2007/8/8 22:13:22
  • 出处:淘特CMS
  • 点击:

一、第一步建立新任务
以下是每项参数的具体说明
 任务名称:设置采集任务的名称以便于记忆
 任务描述:设置采集任务的简要描述
 采集地址:设置采集的网页地址,此处输入正确地址后可以在第二步最下方看到系统读取此地址并显示效果。(例:http://www.tot.name)
 设置编码:设置采集原网址所使用的编码,方法是打开你要采集的那张网页,在浏览器中"右键"-"查看源文件",查找关于“charset=”的设置,将其编码复制到这里就可以。(常见的有:UTF-8,ISO-8859-1,GBK,GB2312)
 是否需要登录:设置采集的网页是否需要登录后才能采集.根据需要选择“是”或“否”
 设置登录需要的参数:如果需要登录则需要进行以下登录的设置。
 登录地址:采集原网站中登录的入口地址
 登录提交地址:采集原网站中登录的提交地址,此地址就是当你打开其登录页面时,查看源文件后,找到登录FORM表单的“action=”的后台URL地址并复制到此。
 发送的数据: 当你打开其登录页面时,查看源文件后,找到需要填写的字段的名称,多个以&分隔;例:username=test&password=test
 登录失败信息: 当登录失败时对方网站提示的错误信息,一般选择两三个代表性的文件即可。
 采集到(哪个栏目):“点击右边+号”选择你要采集的文章保存到哪个栏目;
 注:采集的文章默认绑定的文章模板ID为1,即系统自带的那个模板,假如你添加了自己的文章模板,并希望采集到的文章自动套用模板的话,首先在后台-文章模板管理-找到你所添加的模板对应的ID(不是栏目ID哦,而是前面的id),然后在打开inc/config.asp或者在后台-系统管理-修改配置参数,找到:GatherInfo(0)=1将=号后的1修改为你所添加的那个文章模板id即可。

二、第二步设置采集规则
起始地址:设置采集的网页地址
列表起始标记:设置采集网页中某一段文章列表的开始部分,即设置从哪里开始采集,注意此标记在其源文件中一定要唯一出现,否则系统将不知道该从哪个位置开始采集。
列表结束标记: 设置采集网页中某一段文章列表的结束部分,即设置从采集到哪里,注意此标记在其源文件中一定要唯一出现,否则系统将不知道该从哪个位置开始采集。
列表中链接设置:有两种,默认为系统自动,如果你采集的原地址中其链接采用相对链接的形式,你可以使用"相对地址转绝对地址"

将相对链接中的:比如源网页中采用./2007的形式,此处则可以设置为./
替换为绝对地址:比如文章的实际地址为http://news.tot.name/2007/20071235665.htm,则此处可以设置为:http://news.tot.name/
过滤字符:设置不希望出现的字符,系统会自动过虑。
分页设置:设置分页,假如对方网页中分页采用如下的形式:http://www.tot.name/list.asp?page=1,那么此处可以设置:(例:http://www.tot.name/list.asp?page=$NUM$
采集页数范围:设置采集的起始页数

三、第三步设置数据提取规则
解析方式:解析源文件(此方式将读取文章的HTML代码)解析页面数据(即去除所有HTML源代码后的数据)
标题起始标记:设置文章标题的起始部分,如采集目标文章页面中文章标题附近的源代码如下:
<div class="art_title">缺货不用怕 独显宽屏配置不到5000</div>,则此处设置为<div class="art_title">;注意此标记在其源文件中一定要唯一出现,否则系统将不知道该从哪个位置开始采集。
标题结束标记:设置文章标题的结束部分,如上例,则设置为:</div>;注意此标记在其源文件中一定要唯一出现,否则系统将不知道该从哪个位置开始采集。
新闻内容起始标记:设置文章内容的起始部分,注意此标记在其源文件中一定要唯一出现,否则系统将不知道该从哪个位置开始采集。
新闻内容结束标记:设置文章内容的结束部分,注意此标记在其源文件中一定要唯一出现,否则系统将不知道该从哪个位置开始采集。

最新评论
用 户:
内 容:
验证码: