网站访问状态过滤器
概述
程序可以通过判断网站访问状态码,根据用户设置的规则,去决定采集到的数据是否需要存储;
什么是网站访问状态?
网站访问状态,俗称HTTP状态码。比如常见的"200"表示访问成功,"404"表示访问失败页面没找到 "404"表示无权访问等等;
使用建议
如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影响效率!当前过滤器对效率的影响程度为:高
运用场景
- 需求:保障采集到的每条数据,都是可正常访问的;
- 需求:想要采集活跃域名,但是已经无法访问,甚至已经过期的域名去抢注;
界面
3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【访问状态】,如图:
通用HTTP状态码表
以下是一些常用的通用HTTP状态码,这些HTTP状态码属于通用级别。
状态码 | 类 型 | 描述 |
---|---|---|
200 | 常规 | 请求成功(OK) |
301 | 常规 | 永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替(Moved Permanently) |
302 | 常规 | 临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI(Found) |
401 | 常规 | 请求要求用户的身份认证(Unauthorized) |
403 | 常规 | 服务器理解请求客户端的请求,但是拒绝执行此请求(Forbidden) |
404 | 常规 | 服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面(Not Found) |
502 |