网站访问状态过滤器
概述
程序可以通过判断网站访问状态码,根据用户设置的规则,去决定采集到的数据是否需要存储;
什么是网站访问状态?
网站访问状态,俗称HTTP状态码。比如常见的"200"表示访问成功,"404"表示访问失败页面没找到 "404"表示无权访问等等;
使用建议
如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影响效率!当前过滤器对效率的影响程度为:高
运用场景
- 需求:保障采集到的每条数据,都是可正常访问的;
- 需求:想要采集活跃域名,但是已经无法访问,甚至已 经过期的域名去抢注;
界面
3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【访问状态】,如图:
通用HTTP状态码表
以下是一些常用的通用HTTP状态码,这些HTTP状态码属于通用级别。
状态码 | 类 型 | 描述 |
---|---|---|
200 | 常规 | 请求成功(OK) |
301 | 常规 | 永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替(Moved Permanently) |
302 | 常规 | 临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI(Found) |
401 | 常规 | 请求要求用户的身份认证(Unauthorized) |
403 | 常规 | 服务器理解请求客户端的请求,但是拒绝执行此请求(Forbidden) |
404 | 常规 | 服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面(Not Found) |
502 | 常规 | 作为网关或者代理工作的服务器尝试执行请求时,从远程服务器接收到了一个无效的响应(Bad Gateway) |
503 | 常规 | 由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中(Service Unavailabl) |
-1 | 常规 | 网络请求超时(Client.Timeout) |
自定义HTTP状态码表
以下是msray-plus软件自定义的HTTP状态码,都是代表的网站无法正常访问,但无法访问的原因不同,状态码也不同。
状态码 | 类 型 | 描述 |
---|---|---|
-1 | 系统 | 网络请求超时(Client.Timeout) |
-2 | 系统 | 无法解析的域名(no such host) |
-3 | 系统 | 解析错误(解析过程中的临时错误) |
-4 | 系统 | 通讯失败(closed by the remote host) |
-5 | 系统 | 目标机器拒绝访问(connectex: No connection could be made because the target machine actively refused it.) |
-6 | 系统 | 接收数据失败(EOF) |
-7 | 系统 | 重定向次数太多 |
-8 | 系统 | 建立链接失败 (connectex: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond.) |
配置说明
【启用状态】:分为“开启”与“关闭”。 只有选择了“启用”,该过滤器才会在方案中生效!
【判断类型】:分为“包含”与”不含“两种。 如果选择包含,则采集结果必须要满足http状态码中包含规则值中的某一项内容,才会被存储,否则会被过滤;如果选择不包含,则采集结果必须满足http状态码不含规则值中的所有内容,才会被存储;
【规则值】:则是设置http状态码包含或者不包含哪些状态。比如:200、404、403;
规则值需要自行添加配置。可以一个或者多个。可以点击新增
,然后输入需要的值,然后回车键
或者点击空白地方
实现添加,然后点击保存按钮
即可保存配置!
备注:创建了过滤器后,就可以在任务引擎参数配置中,指定选择使用我们创建的过滤方案了。
示例
本次以只采集保障可以正常访问的网址为例:
判断类型: 包含
规则值: 200
别忘了点击“保存”按钮!