如何只采集列表页面的内容
有时候,我们只需要采集一些列表页面的内容,例如我们想采集百度的某个关键词搜索结果,而我们只需要 标题、网址或简介等内容。又或者我们想采集的是一个短信栏目,它的列表页上就包含了我们需要的短信内容。
一、
如果我们希望列表上的每一条内容都单独发布,那么如下配置采集规则:
1、按正常的采集配置列表设置中的列表网址、自动列表、列表区域;
2、列表分析规则,如果采集的内容不需要网址,就用 文章地址标记任意采集一个字符串;如果在标题、网址之外我们还需要采集其他内容,例如简介,我们可以利用缩略图标记来采集它;
3、文章网址合成,这里随便填一个访问速度快的网址,本地站点的网址也可以;
4.1、在ET3中,可以使用指定模式调用列表数据;
4.2、在ET2中,可以利用数据整理将列表数据赋值给某个数据项。数据整理中有[列表数据]标记,可以引用从列表中获取的标题、文章网址、缩略图等数据。因此,我们可以新建数据项,在它们对应的数据整理中引用 标题、文章网址、缩略图等数据,将它们分解或合并为我们要发布的内容,下面三图示范将缩略图数据赋值给正文数据项。
(1、正文数据项的采集规则填任意文字)
(2、在正文的数据整理中使用列表数据标记)
(3、使用参数标记或变量标记,将正文数据项的内容替换为列表的缩略图内容)
5、其他同一般采集规则;
6、发布规则中,我们应注意数据项名称和发布参数名的正确对应;
这样,就可以将列表中的内容,逐条采集,逐一发布了。
二、
如果我们需要采集的内容一次性发布,那么如下配置采集规则:
1、列表网址,随便填一个访问速度很快的网页,或者填一个本地txt文件地址;
2、自动列表、列表区域不用设置;
3、列表分析,针对列表网址所填的地址的内容设置一个简单的规则,要使用文章地址标记,文章地址标记的分析结果可以是任意内容,因为它不会被使用,但这个分析规则必须有效,最好文章地址标记只匹配一个结果(如果有多个结果,可以在采集配置-基本设置里设置采集条目数量为1条);
4、文章网址合成,在这里填上你要采集的列表页网址;
5、用正文数据项和其他数据项采集列表中的每条内容即可,可以全部包括,也可以选择匹配多条;
6、如果有多个列表网址,可以用正文分页来设置采集;
7、其他配置同一般采集规则;
这样配置后,整个列表会作为一篇文章发布。