一、规则设置-基本设置页

1、说明

[基本设置页]包括采集规则中关于采集顺序、数量、标题范围等内容的设置,见图示;


 

 

2、网址编码

通常用于访问网页的网址都需要经过HTTP编码才能正常访问,此项用于特殊的不需要对URL进行HTTP编码才能访问的网址,见图示:


注:2.6.1版后,如果网页编码选择为UTF8,那么网址进行HTTP编码时会将参数先转为UTF8编码字符。

 

3、压缩网页

采集使用了gzip等压缩模式的网站时,使用本项可提高采集速度,见图示:


4、启用缓存

一些网站使用了缓存技术来进行提高访问速度,采集这类网站需要启用缓存功能,见图示:


本功能为2.4版新增。

 

5、GET/POST混合模式

在访问网页时,将同时使用GET方式和POST方式提交参数,见图示:

 

6、启用SSL

在访问网址时,强制使用SSL安全连接。

当网站以重定向等隐藏方式使用HTTPS网址时,可勾选本项强制使用SSL安全连接访问网页;对于显式的HTTPS网址,无须启用本项,系统会自动使用SSL安全连接。

 

注:非HTTPS网址启用本项会影响访问速度

 

7、网页编码

自动识别可判断大部分网站的编码,但有些网站的网页编码指示代码与实际网页编码不符,造成自动识别误判错误,可在此处做准确设置,见图示:


 

8、采集页包含HTTP头信息

ET采集3.0.18版新增,启用本功能时,采集文章各网页将会在网页源码前加上HTTP响应头信息,选项见图示:

HTTP响应头信息见图示:


 

9、采集顺序

采集顺序用于控制ET采集文章列表时的方向,通常网页上的文章列表是按时间倒序排列的,因此默认顺序为‘自下向上’,见图示:


勾选随机乱序时,将不按顺序,而是从列表随机采集文章。

 

10、采集条目数量

用于控制ET每次从文章列表页采集文章条目的数量,见图示:


 

全部:选择全部则采集符合采集设置的该列表页全部条目,不限数量;

 

数量:设置数量,则每次仅按顺序采集规定数量的文章条目;

 

11、访问延时

用于设置采集一篇文章时每一次访问网页的间隔时间,可延缓对文章分页、文件下载的采集频率,避免访问过快被对象站点拒绝,见图示:


 

12、标题字数

用于设置采集的文章条目标题字数范围,仅字数符合的文章条目被采集,见图示:


 

13、有效网址HTML属性名

[有效网址HTML属性名]为必填项,用以指定在网页源代码中,什么HTML属性参数的值为网址,系统会据此判断并自动修正相对网址为完整网址,见图示:


 

默认的包含有效网址的HTML标记属性名包括href 、src 、data、value等,多个属性参数名请以换行分隔;

 

14、网址修正例外

[网址修正例外]为选填项,用以在进行网址自动修正补全时,指定包含以下字符串的网址将不会被自动修正,见图示:


 

常见不需要修正的链接如:用于表示邮箱地址的"mailto:"、用于运行脚本命令的"javascript: "等;

字符串不区分大小写,多项请以换行分隔;

本项功能作用于HTML标签中的链接参数,即"有效网址HTML属性名"所影响的链接,以及选择了"作为下载文件"属性的数据项的值。