过滤方案与过滤器简介
一. 过滤方案是什么?
过滤方案,就是集合了多个自定义过滤器,形成的一套用于筛选数据结果的方案!
二. 过滤器是什么?
过滤器,是形成过滤方案的最小单位。过滤器根据判断的数据源的不同,功能也不同,但都是为了针对数据进行筛选而存在。
三、运用场景
比如,可能会有这样一些需求:
1:要求仅存储顶级域名,又或者仅存储顶级域名以及二级域名;
2:要求仅存储标题中带有“茶叶”文字的网站地址,或者是存存储标题中不包含“翻译”文字的网站地址;
3:要求仅存储能正常访问打开的网站(HTTP状态码为200),又或者仅存储无法正常访问(无法解析的域名)的网站数据;
4:要求仅存储,网页内容中包含"女装、童装、男装"的网站数据,又或者存存储网页内容中不包括"新闻"的网站数据;
5:要求仅存储国外网站(服务器归属地不属于中国的),或者是仅存储服务器归属地为日本的网站,又或者仅存储中国大陆、以及香港和台湾的数据;
6:要求仅存储域名前缀以"blog、bbs"等开头的网站;
7:要求仅存储域名中包含".jp"与".co"的网站数据,又或者是仅存储域名中不包含"gov.cn"的网站数据;
8:要求仅存储网页内容语言为中文的站点,又或者仅存储语言为日语的站点;
9:要求仅存储使用某个开源CMS程序的网站(可以用网页内容过滤器,设置该CMS程序的特征做判断);
.....
那么,要实现上面的需求,就需要用到MSRAY-PLUS的过滤器功能了。
**注意:如果在任务中使用了过滤引擎,会一定程度上降低运行效率,过滤条件越苛刻,采集结果越少。
二、过滤方案管理
1. 界面一览
2. 导入过滤方案
导入前,请先复制好过滤方案的文本内容。然后点击“导入过滤方案”按钮,粘贴进去,点“立即导入”即可。
3. 导出过滤方案
您可以将您拥有的过滤方案,导出进行备份,或者分享给其他用户。点击“导出”按钮,然后复制即可。
4. 过滤方案表分享
msray-plus团队已经根据大量需求,制作好了一部分过滤方案规则,用户可以直接复制你内容并导入到自己的软件中。
获取过滤方案规则表,可以点击查看《过滤方案分享》。
5. 新增过滤方案
新增方案,需要自定义每个过滤器的规则信息。每个过滤器的底部注意事项中,我们都给出了设置文档说明,用户可直接点击打开对应的过滤器说明文档!
点击“保存配置”后,将新增或更新您的过滤方案信息。
默认方案名称为新增规则的编号,可以点击“改名称“按钮,自行设置进行备注。
三、过滤器与重复过滤功能的区别
过滤器,与重复过滤不同。重复过滤是系统内置的,仅仅是为了剔除重复数据;
而过滤引擎是可以自定义配置,根据多个维度,对抓取到的结果进行筛选的引擎。
比如只想要顶级域名的结果,只存储网址对那个IP属于某个国家的结果,比如不想采集后缀为edu,gov的域名,那么都可以使用过滤引擎来实现。目前内置了8个维度的过滤功能。