一、伪原创设置页简介

1、说明

当前版本为用户提供的伪原创模块包含高速同义词替换、段落乱序等功能,见图示1:


(图示1)

 

 

设置了伪原创后,必须在采集规则的数据项属性中选择启用“进行伪原创”,伪原创功能才会被执行(见 采集配置-数据项设置 );

 

二、替换词表

1、说明

词表替换功能,用户可以填写或导入词库,见图示1;

 

每个词条用换行分隔,词条格式为:

1、旧词=新词 , 用新词替换旧词;

2、旧词=新词1=新词2……=新词N , 从多个新词中随机选择1个替换旧词;

 

每一个词条末尾的空格会被自动过滤;

词条前,即旧词的首部空格会保留生效,词中和“=”号内的空格会保留生效;

如果用户需要在新词末尾使用空格,可以用以下格式 “旧词=新词 =”,即在末尾加上一个“=”号。

 

词条使用数 用于指定进行伪原创词条替换时从词表中选择使用多少词条,使用的词条是随机选择的;本项为0时表示不限制词条数量,将使用整个词表中所有词条,见图示:

 

三、段落乱序

1、说明

用于将数据项内容中的段落随机,以达到混乱段落顺序,和原文区别的目的,见图示:

分段的依据为HTML标签"<p>"、"<br>"分段,如果采集的数据项内容不包含此类html标签,用户可以使用数据项-数据整理功能为内容加上这些标签;

本功能在词表替换之后执行。

 

段落乱序强度 强度范围从0到10,数值越低,乱序程度越小,0为不使用段落乱序;数据项内容字数少于30字时不使用段落乱序。