扫描与筛选任务引擎
一、引擎简介
概述
扫描与筛选任务引擎,是3.0.4版本后新研发上线的新任务引擎,同时,也提供了配套的“域名字典生成器”。核心功能为:针对“种子文件”中的数据,进行批量处理。主要用于基于域名字典,批量探测存活域名或其他域名情况。以及针对大量目标进行批量筛选出符合自定义过滤条件的结果。
可获取每个目标的多维数据,包括:IP地址、服务器IP归属地、标题、描述/核心正文、HTTP状态码(包括特 色无法访问的自定义状态码)、网页内容语言编码等。
可根据目标的多维数据,进行过滤筛选;可自定义过滤方案的参数包括:域名的级别(比如只要顶级域名)、网站访问状态码(比如要求能正常访问)、子域名的前缀(比如限制子域名前缀必须是bbs、blog、down等)、服务器IP归属区域(比如只要非中国大陆网站数据)、域名的包含字符(比如要求域名中包含"clother")、网页标题(比如必须包含"公司","网络科技")、网页描述、网页内容语言(比如仅要中文内容网站)等过滤。
我们针对网站无法正常访问的情况,做了特色处理与状态码标志定义(具体可参考《网站访问状态过滤器》章节)。不但可以提取出可以正常访问的域名数据,也可以提取出无法解析的域名数据,然后进一步处理后可用于域名抢注等。
特性:
1. 支持多任务独立运行、独立导出与管理;
2. 支持实时显示进度、结果数、重复数、被过滤数、执行中任务、已完成任务条数等等;
3. 支持自定义并发执行协程数,也可以理解为线程数;
4. 支持自定义选择 过滤器方案;
5. 支持自定义数据存储字段;
6. 支持自动存储进度,也支持清除进度与采集的数据然后进行重新采集;
7. 同时支持前端与后端实时查看运行日志。
8. 支持webhook,将采集结果数据实时推送到外部自定义API地址;
9. 支持自定义导出字段(可多选)、导出文件格式;
10. 支持自定义是否使用全局防重复功能,可防止与其他任务引擎的结果重复;
11. 支持自定义网络异常自动重试次数;
12. 支持自定义网络请求超时时间;
13. 支持自定义网络代理,避免有些国外网站限制海外用户IP才能访问使用;
14. 支持自定义任务备注;
二、任务界面说明
1. 编辑任务界面
参数的配置说明,可以查看后文中的《任务参数配置》章节
2. 任务列表信息界面
注意,可点击红色的文字按钮-“清除”,清除指定任务的进度与结果数据:
3. 任务详情信息界面
主要显示的是任务的更多资料信息,方便分析任务的执行情况。
4. 任务结果导出界面
具体请查看后文中的《导出说明》
三、运用场景例子
- 我想获取全球所有5位数的com域名,能正常访问的域名数据有哪些;
- 我想获取全球所有6位数的指定后缀的域名例如cn,没有使用的域名数据(没法正常访问)有哪些;
- 我有100多万个域名数据,请帮我筛选出其中网页内容语言为中文的网站,以及语言为英文的网站又有哪些;
- 我有100多万个域名数据,请帮我筛选出其中与服装行业有关的网站有哪些;
- 我有100多万个域名数据,请帮我筛选出网站服务器在海外的网站有哪些;
- 我想生成所有以数字组成,长度为5的指定域名后缀的域名字典;