پرش به مطلب اصلی

网站访问状态过滤器

概述

程序可以通过判断网站访问状态码,根据用户设置的规则,去决定采集到的数据是否需要存储;

什么是网站访问状态?

网站访问状态,俗称HTTP状态码。比如常见的"200"表示访问成功,"404"表示访问失败页面没找到 "404"表示无权访问等等;

使用建议

如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影响效率!当前过滤器对效率的影响程度为:高

运用场景

  • 需求:保障采集到的每条数据,都是可正常访问的;
  • 需求:想要采集活跃域名,但是已经无法访问,甚至已经过期的域名去抢注;

界面

3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【访问状态】,如图:

访问状态过滤器

通用HTTP状态码表

以下是一些常用的通用HTTP状态码,这些HTTP状态码属于通用级别。

状态码类 型描述
  200  常规请求成功(OK)
  301  常规永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替(Moved Permanently)
  302  常规临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI(Found)
  401  常规请求要求用户的身份认证(Unauthorized)
  403  常规服务器理解请求客户端的请求,但是拒绝执行此请求(Forbidden)
  404  常规服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面(Not Found)
  502  常规作为网关或者代理工作的服务器尝试执行请求时,从远程服务器接收到了一个无效的响应(Bad Gateway)
  503  常规由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中(Service Unavailabl)
  -1  常规网络请求超时(Client.Timeout)

自定义HTTP状态码表

以下是msray-plus软件自定义的HTTP状态码,都是代表的网站无法正常访问,但无法访问的原因不同,状态码也不同。

状态码类 型描述
  -1  系统网络请求超时(Client.Timeout)
  -2  系统无法解析的域名(no such host)
  -3  系统解析错误(解析过程中的临时错误)
  -4  系统通讯失败(closed by the remote host)
  -5  系统目标机器拒绝访问(connectex: No connection could be made because the target machine actively refused it.)
  -6  系统接收数据失败(EOF)
  -7  系统重定向次数太多
  -8  系统建立链接失败 (connectex: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond.)

配置说明

【启用状态】:分为“开启”与“关闭”。 只有选择了“启用”,该过滤器才会在方案中生效!

【判断类型】:分为“包含”与”不含“两种。 如果选择包含,则采集结果必须要满足http状态码中包含规则值中的某一项内容,才会被存储,否则会被过滤;如果选择不包含,则采集结果必须满足http状态码不含规则值中的所有内容,才会被存储;

【规则值】:则是设置http状态码包含或者不包含哪些状态。比如:200、404、403;

规则值需要自行添加配置。可以一个或者多个。可以点击新增,然后输入需要的值,然后回车键或者点击空白地方实现添加,然后点击保存按钮即可保存配置!

备注:创建了过滤器后,就可以在任务引擎参数配置中,指定选择使用我们创建的过滤方案了。

示例

本次以只采集保障可以正常访问的网址为例:

判断类型: 包含

规则值: 200

别忘了点击“保存”按钮!