基础图例-如何采集回复
在采集文章时,我们常常需要采集如回复、评论以及类似格式的信息,比如论坛帖子的回复、新闻的评论。
它们的特点是,在同一个页面上呈现多条相同格式的内容。
采集回复,分为两种情况,一种是直接使用 【正文】数据项采集,另一种是新建数据项采集。
一、直接使用正文数据项采集
这种方式,适合于正文(即主题)与回复的代码格式相同,例如绝大部分论坛。
通常我们只需要勾选 正文的选项【匹配多条】即可。
1、图一是discuz!x论坛的一种用【正文】数据项同时采集主题和回复的设置。
2、图二是另一种discuz!x论坛的用【正文】数据项同时采集主题和回复的设置。
3、图三是百度贴吧用【正文】数据项同时采集主题和回复的设置。
下图是测试结果,可以看到采集的由ET分隔符分隔的多条回复信息,在实际发布回复时,会自动去掉ET分隔符。
4、发布的设置
如果有使用独立的回复接口网址,那么在发布配置中开启,【回复关联参数名】留空,回复信息将逐一向【回复接口】提交,完成回复的添加;
如果没有开启独立的回复,那么回复信息将和正文一起提交给【发布接口】。
需要注意的是,要同时采集回复,那么【正文】数据项的【数据项采集规则】必须兼容正文和回复的格式。
由于回复通常有多页,所以以上图示勾选了【有分页】选项,并设置了【数据分页】(数据分页的设置请见相关文章。)
二、使用独立数据项采集回复
这种方式适合 正文与回复代码格式不同的情况,比如新闻的评论。
1、在采集配置中新建回复数据项,做好相关设置,能正确采集到回帖内容。
2、在发布配置-发布项中新建一个参数,用于从采集规则中的回复数据项获取采集结果。
3、在发布配置-基本设置中,设置回复关联参数,为第2步新建的参数名。
设置完成。
用户可根据采集目标的情况,选择适合的方式采集回复信息。