پرش به مطلب اصلی

扫描与筛选任务引擎

一、引擎简介

概述

扫描与筛选任务引擎,是3.0.4版本后新研发上线的新任务引擎,同时,也提供了配套的“域名字典生成器”。核心功能为:针对“种子文件”中的数据,进行批量处理。主要用于基于域名字典,批量探测存活域名或其他域名情况。以及针对大量目标进行批量筛选出符合自定义过滤条件的结果。

可获取每个目标的多维数据,包括:IP地址、服务器IP归属地、标题、描述/核心正文、HTTP状态码(包括特色无法访问的自定义状态码)、网页内容语言编码等。

可根据目标的多维数据,进行过滤筛选;可自定义过滤方案的参数包括:域名的级别(比如只要顶级域名)、网站访问状态码(比如要求能正常访问)、子域名的前缀(比如限制子域名前缀必须是bbs、blog、down等)、服务器IP归属区域(比如只要非中国大陆网站数据)、域名的包含字符(比如要求域名中包含"clother")、网页标题(比如必须包含"公司","网络科技")、网页描述、网页内容语言(比如仅要中文内容网站)等过滤。

我们针对网站无法正常访问的情况,做了特色处理与状态码标志定义(具体可参考《网站访问状态过滤器》章节)。不但可以提取出可以正常访问的域名数据,也可以提取出无法解析的域名数据,然后进一步处理后可用于域名抢注等。

特性:
1. 支持多任务独立运行、独立导出与管理;
2. 支持实时显示进度、结果数、重复数、被过滤数、执行中任务、已完成任务条数等等;
3. 支持自定义并发执行协程数,也可以理解为线程数;
4. 支持自定义选择过滤器方案;
5. 支持自定义数据存储字段;
6. 支持自动存储进度,也支持清除进度与采集的数据然后进行重新采集;
7. 同时支持前端与后端实时查看运行日志。
8. 支持webhook,将采集结果数据实时推送到外部自定义API地址;
9. 支持自定义导出字段(可多选)、导出文件格式;
10. 支持自定义是否使用全局防重复功能,可防止与其他任务引擎的结果重复;
11. 支持自定义网络异常自动重试次数;
12. 支持自定义网络请求超时时间;
13. 支持自定义网络代理,避免有些国外网站限制海外用户IP才能访问使用;
14. 支持自定义任务备注;

二、任务界面说明

1. 编辑任务界面

扫描筛选引擎任务界面 扫描筛选引擎任务界面

参数的配置说明,可以查看后文中的《任务参数配置》章节

2. 任务列表信息界面

任务列表信息界面

注意,可点击红色的文字按钮-“清除”,清除指定任务的进度与结果数据:

3. 任务详情信息界面

任务详情信息界面

主要显示的是任务的更多资料信息,方便分析任务的执行情况。

4. 任务结果导出界面

具体请查看后文中的《导出说明》

三、运用场景例子

  1. 我想获取全球所有5位数的com域名,能正常访问的域名数据有哪些;
  2. 我想获取全球所有6位数的指定后缀的域名例如cn,没有使用的域名数据(没法正常访问)有哪些;
  3. 我有100多万个域名数据,请帮我筛选出其中网页内容语言为中文的网站,以及语言为英文的网站又有哪些;
  4. 我有100多万个域名数据,请帮我筛选出其中与服装行业有关的网站有哪些;
  5. 我有100多万个域名数据,请帮我筛选出网站服务器在海外的网站有哪些;
  6. 我想生成所有以数字组成,长度为5的指定域名后缀的域名字典;

四 : 任务参数配置

1. 任务名称

任务名称主要作为任务的标识,不会对任务数据造成影响,可随意填写。

2. 种子文件地址配置说明

(1):可使用辅助功能生成字典-"域名字典生成器",生成“自定义域名数据字典种子文件”。参考下文中的《域名字典辅助工具说明》

(2):可自行编辑录入大量外部域名/网址数据到txt文件,然后在任务参数配置中,使用上传功能或手工复制文件到软件根目录下的"seed/scan_task"中然后选择使用。如图:

选择文件

以上文件列表,就是已经位于软件根目录下的"seed/scan_task"中的文件;

3. 线程/协程数

任务的线程数,就是任务引擎能够同时执行任务处理逻辑的并发数。就像一个人搬砖,就是一个线程;10个人一起搬砖,就是10个线程。

但是需要注意的是,线程数并不是越多越好!! 就像一个小工地(一台电脑)只能容纳10台挖掘机(线程)工作,但是设置了50个线程(50个挖掘机),导致反而施展不开,还不如5个线程(5个挖掘机)的工作效率高!

线程数的设置,具体要根据自己的机器配置来决定。一般可以设置为100-500个线程。如果系统资源占用较少,这可以提高设置的值。自行观察进行调整即可。

4. 存储字段列表

需要存储域名对应的哪些信息,就勾选哪些。不过,如果过滤器方案里面开启了某些条件,也会导致被动勾选对应的存储字段。比如过滤器里面设置了按标题过滤功能,则存储字段也会被动的采集存储域名对应的标题信息。

效率最高的存储字段:域名、网址、状态码 (仅勾选这3个中的任意一种或全部勾选) 前面提到的这3个字段,对任务效率影响不大。

如果开启了存储IP归属地,则还会对每个结果的域名,解析归属地,降低效率;

如果开启了标题、描述、语言参数,则还会对每个结果进行HTTP访问操作,然后解析处理,降低效率;

5. 过滤方案

要实现针对数据的筛选过滤功能,我们必须要选择使用自己设定的过滤方案(需要提前创建好过滤方案)! 过滤方案的创建与设置,可以参考《过滤器是什么?》

备注:在《过滤方案分享》文档中,还有很多常用的过滤器方案分享哦, 可点击打开查看复制规则,导入到自己软件中!

6. 请求超时时间

单位为秒。软件HTTP客户端,每次访问目标网站的超时时间。超过设定的X秒,则表示网络访问异常,导致部分数据提取失败。建议设置为3-10秒范围内。

7. 最大重试次数

如果软件内置HTTP客户端,访问目标失败了,则还会进行多次尝试!具体重试几次,取决于用户设定的"最大重试次数"的值。

8. WEBHOOK地址

WEBHOOK功能接口,可实现采集结果的实时推送服务。每当任务采集到结果,就会自动以http形式发送采集结果的详细信息到设置的WEBHOOK地址,类似于支付接口等系统的异步通知的概念。

备注说明

根据此接口,我们可以做自定义扩展开发,比如把采集到的数据,存储到数据库中,又或者是自动导入到其他第三方软件中。

详细的数据推送格式与数据接收接口开发例子,请等待上线接口说明文档和DEMO。

9. 是否全局防重复

msray-plus具有多个任务引擎,包括"搜索任务引擎"、"外链任务引擎"、"扫描与筛选任务引擎",每个引擎都可以采集到域名网址等数据。如果想要每个引擎之间的数据,都不会重复,则可以开启"全局防重复"参数选项!

开启后,同一个域名,仅会存储一次,之后会自动过滤。

10. 网络代理

支持自定义网络代理,避免有些国外网站限制海外用户IP才能访问使用。

11. 任务备注

任务备注仅用于标识任务的附加信息,可以自定义一些备注,用于识别记忆,与其他任务进行区分。

五 : 域名字典辅助工具说明

主要用于生成指定组合的所有域名或网址数据!也可以用于生成某个域名的所有可能存在的子域名前缀字典。

域名字典生成器

(1)[字符选项]: 域名的主体内容,由拿些组合构成;比如 baidu.com。 域名主体就是"baidu",仅由字母构成;

(2)[字符长度]: 也就是待生成的域名主体长度。比如 baidu.com, 域名长度就是"baidu"对应的长度,为5。

(3)[分批大小]: 如果域名长度较高,可能生成的字典文件很大,比如超过1G,那么我们可以每X行数据,形成一个单独的文件方便使用;

(4)[内容模板]: 自定义待生成的模板,用"%s"代替随机组合的主体域名内容。主要用于生成指定后缀的域名,比如生成com网址,则模板为"http://%s.com"; 比如生成cn网址,则模板为"http://%s.cn"; 比如我想生成com域名,不想要网址格式,那么模板为:"%s.com";

六:清除进度与数据操作说明

有时候,我们需要调整参数后重新开始任务的采集,但是任务已经运行过了,已经自动保存了进度,如果直接停止后重新运行,会漏掉已经采集过的数据! 这时候,我们就可点击"清除"按钮,实现任务的采集进度以及结果、相关统计信息的重新初始化!按钮位置如图:

清除任务进度

七:停止与删除任务说明

点击停止任务按钮,会通知主程序停止运行该任务,需要耐心等待全部协程退出后,任务才能完全停止。 点击停止按钮后,任务状态会自动变为“停止中”。当协程全部退出后,任务状态会自动变为已停止!

八:导出结果说明

导出信息,支持自定义需要导出的字段。支持多选! 支持导出为txt或者csv等格式!

与此同时,还支持自定义分段导出!自定义导出的开始行与结束行!

Alt text

Alt text

Alt text

导出完成后,会提示导出文件的路径,以及导出的数据量信息。