客服帮助 -基础实例-采集页的使用-起点小说采集案例-ET采集官方网站-自在工坊 EditorTools全自动无人值守采集软件

在采集起点小说文章时，我们发现，文章网页的源代码文件里找不到正文文字，它是用一个JS脚本文件显示的正文，如图1：

（图1）

访问这个js文件，可以看到其中包含了文章正文，如图2：

（图2）

在不同的网页，包含我们所要采集的不同数据，它的结构如图3：

（图3）

要采集这类网站，我们需要用到ET的采集页功能，如图4：

（图4）

图4里的内容页，即从列表页获取的文章网址指向的网页，对于多数网站，我们所要采集的数据都在这个页面里。

具体操作如下：

第一步，设置内容页的访问下级规则

内容页的下级页面，也就是我们包含我们要采集正文的脚本网页，这里的“下级页面网址规则”和“下级页面网址合成”就用于从内容页访问脚本网页，如图5：

（图5）

设置这里时，请多用小榔头测试按钮确保采集的下级网址正确；并不要忘记，在“本页采集数据项”栏里选择要从本页采集的数据项；

第二步，新建采集页

点“+”号按钮，新建一个采集页，改名为“正文脚本页”，并保存，如图6：

（图6）

因为正文脚本页没有下级网页了，所以不需要设置它的下级页面网址；同时，记得在“本页采集数据项”栏里选择“正文”数据项，告诉ET，从本页采集正文数据。

至此采集页配置已经完成，其他设置和采集普通网页完全一样；唯一注意，正文数据项是从“正文脚本页”里采集的，设置它的数据采集规则时不要弄错了目标网页了，如图7：

（图7）

用户在采集淘宝等使用脚本显示内容的网站，或者用iframe框架包含其他页面的网站，以及需要从页面中的链接访问其他网页采集信息的，都可以使用采集页功能。