网站标题过滤器

概述

程序可以通过识别网站标题内容，根据用户设置的规则，去决定采集到的数据是否需要存储；

什么是网页标题？

网页标题，也就是指网站的HTMl源码中，"title"标签对应的值。浏览器顶部上显示的也是当前网站的标题，搜索引擎返回的结果中，也会显示网站的标题。

3.0.4版本后，过滤器已经不是独立存在了，已经集成到了过滤方案中，所以我们可以在过滤方案中配置。功能导航：软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【网页标题】，如图：

Alt text

使用建议

如非必要，不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作，消耗更多的时间从而影响效率！当前过滤器对效率的影响程度为：高

【启用状态】：分为“开启”与“关闭”。只有选择了“启用”，该过滤器才会在方案中生效！

【判断类型】：分为“包含”与”不含“两种。如果选择包含，则采集结果必须要满足标题中包含规则值中的某一项内容，才会被存储，否则会被过滤；如果选择不包含，则采集结果必须满足标题中不含规则值中的所有内容，才会被存储；

【规则值】：则是设置标题中包含或者不包含哪些文字。比如：“男装”、”女装“、”童装“；

规则值需要自行添加配置。可以一个或者多个。可以点击新增，然后输入需要的值，然后回车键或者点击空白地方实现添加，然后点击保存按钮即可保存配置！

备注：创建了过滤器后，就可以在任务引擎参数配置中，指定选择使用我们创建的过滤方案了。

示例：

本次以只采集特定实体行业有关内容为例，想要采集生态板、电源线插头等行业的数据，则配置如下：

启用状态: 开启

判断类型: 包含

规则值: "生态板"和"电源线"和"插头"

别忘了点击“保存”按钮！