网站标题过滤器
概述
程序可以通过识别网站标题内容,根据用户设置的规则,去决定采集到的数据是否需要存储;
什么是网页标题?
网页标题,也就是指网站的HTMl源码中,"title"标签对应的值。浏览器顶部上显示的也是当前网站的标题,搜索引擎返回的结果中,也会显示网站的标题。
运用场景
-
需求:要求仅存储标题中带有“男装”、“女装”、“童装”等文字的网站地址(满足一个条件即可);
-
需求:要求仅存储标题中不包含“学院”两个字的网站;
界面
3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【网页标题】,如图:
使用建议
如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影响效率!当前过滤器对效率的影响程度为:高
配置说明
【启用状态】:分为“开启”与“关闭”。 只有选择了“启用”,该过滤器才会在方案中生效!
【判断类型】:分为“包含”与”不含“两种。 如果选择包含,则采集结果必须要满足标题中包含规则值中的某一项内容,才会被存储,否则会被过滤;如果选择不包含,则采集结果必须满足标题中不含规则值中的所有内容,才会被存储;
【规则值】:则是设置标题中包含或者不包含哪些文字。比如:“男装”、”女装“、”童装“;
规则值需要自行添加配置。可以一个或者多个。可以点击新增
,然后输入需要的值,然后回车键
或者点击空白地方
实现添加,然后点击保存按钮
即可保存配置!
备注:创建了过滤器后,就可以在任务引擎参数配置中,指定选择使用我们创建的过滤方案了。
示例:
本次以只采集特定实体行业有关内容为例,想要采集生态板、电源线插头等行业的数据,则配置如下:
启用状态: 开启
判断类型: 包含
规则值: "生态板"和"电源线"和"插头"
别忘了点击“保存”按钮!