跳到主要内容

域名值过滤器

概述

信息

域名值,也就是域名的文本。比如百度的域名值,就是: "www.baidu.com" 域名值过滤,主要用来针对域名后缀或前缀进行过滤。 可验证域名结果的前缀后缀或包含的字符串,程序可以通过识别域名值,以及用户设置的规则,去决定采集到的数据是否需要存储;

备注,“域名值过滤器”与“子域名前缀过滤器”功能不同,但都有共同点。“域名值过滤器”更为灵活。

运用场景

  • 想要过滤掉一些大型网站的所有域名?(域名值不包含 .csdn.cn .baidu.com .bilibili.com
  • 只想采集非政府网站或者非学校网站?(域名值不包含.edu.cn.gov.cn)
  • 只想采集某个国家的域名?比如日本(域名值里面包含.jp)。
  • 只想采集博客或者论坛类型的网站?(域名值一般包含blog.bbs.)

界面

3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【域名内容】,如图:

域名值过滤器

使用建议

如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影响效率!当前过滤器对效率的影响程度为:低

配置说明

【启用状态】:分为“开启”与“关闭”。 只有选择了“启用”,该过滤器才会在方案中生效!

【判断类型】:分为“包含”与”不含“两种。 如果选择包含,则采集结果必须要满足域名内容中包含规则值中的某一项内容,才会被存储,否则会被过滤;如果选择不包含,则采集结果必须满足域名内容中不含规则值中的所有内容,才会被存储;

【规则值】:则是设置域名文本中包含或者不包含哪些字符。比如:“.gov.cn”、”.edu.cn“、”.jp“;

规则值需要自行添加配置。可以一个或者多个。可以点击新增,然后输入需要的值,然后回车键或者点击空白地方实现添加,然后点击保存按钮即可保存配置!

如果需要录入的规则值比较多,也可以点击"批量编辑"按钮,复制粘贴数据;

经验分享

每个过滤值的前面,建议包含"." 原因如下:

".gov.cn"可以过滤xxx.gov.cn,但不会过滤 xxxgov.cn;

但是 如果不包含".", 比如填写"gov.cn" 那么会过滤xxx.gov.cn ,但也会过滤 xxxgov.cn

示例说明

这里以"不存储政府网站以及相关学校网站"需求为例:

判断类型: 不含;

规则值: ".edu.cn"".gov.cn"