一、采集页设置页简介

1、说明

我们通过采集文章网页源代码来获取所需要的数据项,而数据项可能位于不同的网页中,因此我们需要在采集页和数据项之间建立关联;同时,我们总是依次从一个采集页源代码中获取另一个采集页的网址,所以我们在[采集页设置页]为不同的采集页建立上下关系;有时候,通过采集列表获取的文章网址并不是该文章的真实网址,而需要转向一次或多次才能获得包含数据项的正确网页,这同样需要在[采集页设置页]进行设置来实现这种网址转向,[采集页设置页]见图示1:


(图示1)

 

对一个采集页进行属性编辑后,需要点击图示1第7部分的保存按钮对其进行保存;

 

 

二、采集页列表

1、说明

此处用于显示并增删采集页,第一级采集页即通过采集配置窗口中[列表设置页]中[文章网址合成]规则获取的文章网址指向的网页,见图示2:


(图示2)

 

点击下方的加号按钮可以新增采集页,当点选最后一个采集页时,可以点击减号按钮删除该采集页;

采集页至少需要一个,第一级的采集页不能被删除,删除采集页时,只能从下向上依次删除;

点击某个采集页时,可以在右侧的编辑区对其各项属性进行设置编辑;

当执行采集工作时,各级页面的访问顺序从上到下,下级页面的网址通过当前采集页面的[下级页面网址规则]与[下级页面网址合成]生成;

 

 

三、采集页属性编辑区

1、采集页名称

此处用于对采集页的名称进行编辑,见图示3:


(图示3)

 

 

 

2、采集页与数据项关联

此处设置采集页所属的数据项,见图示4:


(图示4)

 

使用左箭头指示的选取按钮,可以从[待选数据项]列表的数据项中选择应从本采集页中获取数据的数据项;

使用右箭头指示的取消按钮,可以从[本页采集数据项]列表的数据项中取消不从本采集页中获取数据的数据项;

数据项只能属于一个采集页,但不是必须属于某个采集页,未和采集页关联的数据项将不被采集、不被发布,设置为固定值的数据项也必须和某个采集页关联;

 

 

3、页面转向

当一个采集规则存在多个采集页时,除最下层的采集页外,其他采集页必须填写页面转向规则,使ET能按此规则依次访问各个采集页,页面转向规则包括[下级页面网址]和[下级页面网址合成],见图示5:


(图示5)

 

页面转向的设置在“四、下级页面网址规则”和“五、下级页面网址合成”部分详细讲述;

 

 

 

四、下级页面网址规则

1、说明

当采集页有下级采集页时,[下级页面网址规则]为必填项,结合[下级页面网址合成]用于获取访问下级采集页的网址,见图示6:


(图示6)

点击 图标,可以对[下级页面网址规则]进行测试;

 

2、标记区

[下级页面网址规则]有5个可用标记,见图示6;

 

1、页面地址

标记代码为<%fileid%>,为必用项,用于获取网页源码中访问下级采集页的网址的特征字符串,将被用在[下级页面网址合成]处确定下一级采集页的网址,[页面地址]标记在规则中仅可使用一次,并不可和其他标记连接;

 

2、变量标记

标记代码为<%var%>,用于表示源码中不需要采集的、连续的、零到任意数量的不确定字符串,[变量标记]标记在规则中可以多次使用,不可和其他标记连接;

[变量标记]使用次数越多,会导致采集工作效率越低;

 

3、辅助地址标记

[辅助地址]标记共有3个,标记代码分别为<%itemdata1%><%itemdata2%><%itemdata3%>,用途和[页面地址]标记一致,3个[辅助地址]标记在规则中仅可各自使用一次,不可和其他标记连接,用法见图示6-2:


(图示6-2)

 

关于标记更多说明见相关主题 ET内部运算标记注解

 

 

五、下级页面网址合成

1、说明

[下级页面网址合成]使用[下级页面网址规则]中获取的[页面地址]和[辅助参数]合成完整采集页网址,留空时则直接使用[下级页面网址规则]中获取的[页面地址]为采集页完整网址,见图示7:


(图示7)

 

本项的下级页面网址可以为相对当前采集页网址的相对链接和完整链接,如 “../../page-<%fileid%>.htm”、 “/news/page-<%fileid%>.htm”、 “page-<%fileid%>.htm”、“http://xxx.xxx.com/news/page-<%fileid%>.htm” 等;

点击 图标,可以对[下级页面网址合成]进行测试;

 

2、标记区

[下级页面网址合成]中可使用4个标记,见图示7;

 

1、页面地址

标记代码为<%fileid%>,为必用项,用于表示页面网址中的特征字符串,对应[下级页面网址规则]中的[页面地址]标记,用于引用其值;

 

2、辅助地址标记

[辅助地址标记]共有3个,标记代码分别为<%itemdata1%><%itemdata2%><%itemdata3%>,对应[下级页面网址规则]中的3个[辅助地址]标记,用于引用其值,使用见图示6-2;

 

 

六、参考范例

我们以采集规则范例“百度知道 - 奥林巴斯”为例,来说明采集页的设置,见图示8:


(图示8)

 

在本采集规则中,包含所需数据项的采集页面有两个,一个是由文章列表中获取网址的默认第一级采集页面[内容页],一个是从[内容页]中获取网址的第二级采集页面[用户信息页]

第一步,在采集页列表栏中点选[内容页],此时右侧采集页属性编辑区进入[内容页]属性编辑状态,见图示8;

 

第二步,[内容页]中包含了我们需要采集的数据项[标题]、[正文]、[最佳答案]、[其他答案],所以,我们在采集页与数据项关联区,将这四个数据项选取到[本页采集数据项]列表中,此时,[待选数据项]列表还剩两个数据项[缩略图]和[用户积分],结果见图示8;

 

第三步,我们必须通过[内容页]才能获取转向到[用户信息页]的网址,因此,我们需要填写[下级页面网址规则]栏和[下级页面网址合成]栏,填写过程可参考ET帮助文档 设置篇-采集配置-列表设置第四部分列表分析规则第五部分文章网址合成 ,结果见图示8;

 

第四步,点击[保存]按钮保存对[内容页]的属性设置;

 

第五步,在采集页列表栏中点选[用户信息页],此时右侧采集页属性编辑区进入[用户信息页]属性编辑状态,见图示9:

 


(图示9)

 

第六步,[用户信息页]中包含了我们需要采集的数据项[用户积分],所以,我们在采集页与数据项关联区,将这个数据项选取到[本页采集数据项]列表中,此时,[待选数据项]列表还剩一个未使用的预设数据项[缩略图],结果见图示9;

第七步,[用户信息页]没有下级采集页,因此,不需要填写页面转向规则,点击[保存]按钮保存对[用户信息页]的属性设置,至此,本采集规则采集页配置完成;

 

其他需设置二级采集页的网站如淘宝请参看采集规则多采集页范例组中的规则;

 

相关主题

1、数据项采集处理顺序

2、ET内部运算标记注解