扫描与筛选任务引擎

一、引擎简介

概述

扫描与筛选任务引擎，是3.0.4版本后新研发上线的新任务引擎，同时，也提供了配套的“域名字典生成器”。核心功能为：针对“种子文件”中的数据，进行批量处理。主要用于基于域名字典，批量探测存活域名或其他域名情况。以及针对大量目标进行批量筛选出符合自定义过滤条件的结果。

可获取每个目标的多维数据，包括：IP地址、服务器IP归属地、标题、描述/核心正文、HTTP状态码(包括特色无法访问的自定义状态码)、网页内容语言编码等。

可根据目标的多维数据，进行过滤筛选；可自定义过滤方案的参数包括：域名的级别(比如只要顶级域名)、网站访问状态码(比如要求能正常访问)、子域名的前缀(比如限制子域名前缀必须是bbs、blog、down等)、服务器IP归属区域(比如只要非中国大陆网站数据)、域名的包含字符(比如要求域名中包含"clother")、网页标题(比如必须包含"公司","网络科技")、网页描述、网页内容语言(比如仅要中文内容网站)等过滤。

我们针对网站无法正常访问的情况，做了特色处理与状态码标志定义(具体可参考《网站访问状态过滤器》章节)。不但可以提取出可以正常访问的域名数据，也可以提取出无法解析的域名数据，然后进一步处理后可用于域名抢注等。

特性：
支持多任务独立运行、独立导出与管理;
支持实时显示进度、结果数、重复数、被过滤数、执行中任务、已完成任务条数等等；
支持自定义并发执行协程数，也可以理解为线程数；
支持自定义选择过滤器方案;
支持自定义数据存储字段；
支持自动存储进度，也支持清除进度与采集的数据然后进行重新采集；
同时支持前端与后端实时查看运行日志。
支持webhook，将采集结果数据实时推送到外部自定义API地址；
支持自定义导出字段(可多选)、导出文件格式；
支持自定义是否使用全局防重复功能，可防止与其他任务引擎的结果重复;  
支持自定义网络异常自动重试次数；
支持自定义网络请求超时时间；
支持自定义网络代理，避免有些国外网站限制海外用户IP才能访问使用；
支持自定义任务备注；

二、任务界面说明

1. 编辑任务界面

扫描筛选引擎任务界面

参数的配置说明，可以查看后文中的《任务参数配置》章节

2. 任务列表信息界面

任务列表信息界面

注意，可点击红色的文字按钮-“清除”，清除指定任务的进度与结果数据：

3. 任务详情信息界面

任务详情信息界面

主要显示的是任务的更多资料信息，方便分析任务的执行情况。

4. 任务结果导出界面

具体请查看后文中的《导出说明》

三、运用场景例子

我想获取全球所有5位数的com域名，能正常访问的域名数据有哪些；
我想获取全球所有6位数的指定后缀的域名例如cn，没有使用的域名数据(没法正常访问)有哪些；
我有100多万个域名数据，请帮我筛选出其中网页内容语言为中文的网站，以及语言为英文的网站又有哪些；
我有100多万个域名数据，请帮我筛选出其中与服装行业有关的网站有哪些；
我有100多万个域名数据，请帮我筛选出网站服务器在海外的网站有哪些；
我想生成所有以数字组成，长度为5的指定域名后缀的域名字典；

四 : 任务参数配置

1. 任务名称

任务名称主要作为任务的标识，不会对任务数据造成影响，可随意填写。

2. 种子文件地址配置说明

（1）：可使用辅助功能生成字典-"域名字典生成器"，生成“自定义域名数据字典种子文件”。参考下文中的《域名字典辅助工具说明》

（2）：可自行编辑录入大量外部域名/网址数据到txt文件，然后在任务参数配置中，使用上传功能或手工复制文件到软件根目录下的"seed/scan_task"中然后选择使用。如图：

选择文件

以上文件列表，就是已经位于软件根目录下的"seed/scan_task"中的文件；

3. 线程/协程数

任务的线程数，就是任务引擎能够同时执行任务处理逻辑的并发数。就像一个人搬砖，就是一个线程；10个人一起搬砖，就是10个线程。

但是需要注意的是，线程数并不是越多越好!! 就像一个小工地(一台电脑)只能容纳10台挖掘机(线程)工作，但是设置了50个线程(50个挖掘机)，导致反而施展不开，还不如5个线程(5个挖掘机)的工作效率高！

线程数的设置，具体要根据自己的机器配置来决定。一般可以设置为100-500个线程。如果系统资源占用较少，这可以提高设置的值。自行观察进行调整即可。

4. 存储字段列表

需要存储域名对应的哪些信息，就勾选哪些。不过，如果过滤器方案里面开启了某些条件，也会导致被动勾选对应的存储字段。比如过滤器里面设置了按标题过滤功能，则存储字段也会被动的采集存储域名对应的标题信息。

效率最高的存储字段：域名、网址、状态码（仅勾选这3个中的任意一种或全部勾选）前面提到的这3个字段，对任务效率影响不大。

如果开启了存储IP归属地，则还会对每个结果的域名，解析归属地，降低效率；

如果开启了标题、描述、语言参数，则还会对每个结果进行HTTP访问操作，然后解析处理，降低效率；

5. 过滤方案

要实现针对数据的筛选过滤功能，我们必须要选择使用自己设定的过滤方案（需要提前创建好过滤方案）！过滤方案的创建与设置，可以参考《过滤器是什么？》

备注：在《过滤方案分享》文档中，还有很多常用的过滤器方案分享哦, 可点击打开查看复制规则，导入到自己软件中！

6. 请求超时时间

单位为秒。软件HTTP客户端，每次访问目标网站的超时时间。超过设定的X秒，则表示网络访问异常，导致部分数据提取失败。建议设置为3-10秒范围内。

7. 最大重试次数

如果软件内置HTTP客户端，访问目标失败了，则还会进行多次尝试！具体重试几次，取决于用户设定的"最大重试次数"的值。

8. WEBHOOK地址

WEBHOOK功能接口，可实现采集结果的实时推送服务。每当任务采集到结果，就会自动以http形式发送采集结果的详细信息到设置的WEBHOOK地址，类似于支付接口等系统的异步通知的概念。

备注说明

根据此接口，我们可以做自定义扩展开发，比如把采集到的数据，存储到数据库中，又或者是自动导入到其他第三方软件中。

详细的数据推送格式与数据接收接口开发例子，请等待上线接口说明文档和DEMO。

9. 是否全局防重复

msray-plus具有多个任务引擎，包括"搜索任务引擎"、"外链任务引擎"、"扫描与筛选任务引擎"，每个引擎都可以采集到域名网址等数据。如果想要每个引擎之间的数据，都不会重复，则可以开启"全局防重复"参数选项！

开启后，同一个域名，仅会存储一次，之后会自动过滤。

10. 网络代理

支持自定义网络代理，避免有些国外网站限制海外用户IP才能访问使用。

11. 任务备注

任务备注仅用于标识任务的附加信息，可以自定义一些备注，用于识别记忆，与其他任务进行区分。

五 : 域名字典辅助工具说明

主要用于生成指定组合的所有域名或网址数据！也可以用于生成某个域名的所有可能存在的子域名前缀字典。

域名字典生成器

（1）[字符选项]：域名的主体内容，由拿些组合构成；比如 baidu.com。域名主体就是"baidu"，仅由字母构成；

（2）[字符长度]：也就是待生成的域名主体长度。比如 baidu.com，域名长度就是"baidu"对应的长度，为5。

（3）[分批大小]：如果域名长度较高，可能生成的字典文件很大，比如超过1G，那么我们可以每X行数据，形成一个单独的文件方便使用；

（4）[内容模板]：自定义待生成的模板，用"%s"代替随机组合的主体域名内容。主要用于生成指定后缀的域名，比如生成com网址，则模板为"http://%s.com"; 比如生成cn网址，则模板为"http://%s.cn"；比如我想生成com域名，不想要网址格式，那么模板为："%s.com";

六：清除进度与数据操作说明

有时候，我们需要调整参数后重新开始任务的采集，但是任务已经运行过了，已经自动保存了进度，如果直接停止后重新运行，会漏掉已经采集过的数据！这时候，我们就可点击"清除"按钮，实现任务的采集进度以及结果、相关统计信息的重新初始化！按钮位置如图：

清除任务进度

七：停止与删除任务说明

点击停止任务按钮，会通知主程序停止运行该任务，需要耐心等待全部协程退出后，任务才能完全停止。点击停止按钮后，任务状态会自动变为“停止中”。当协程全部退出后，任务状态会自动变为已停止！

八：导出结果说明

导出信息，支持自定义需要导出的字段。支持多选！支持导出为txt或者csv等格式！

与此同时，还支持自定义分段导出！自定义导出的开始行与结束行！

Alt text

导出完成后，会提示导出文件的路径，以及导出的数据量信息。

一、引擎简介​

二、任务界面说明​

1. 编辑任务界面​

2. 任务列表信息界面​

3. 任务详情信息界面​

4. 任务结果导出界面​

三、运用场景例子​

四 : 任务参数配置​

1. 任务名称​

2. 种子文件地址配置说明​

3. 线程/协程数​

4. 存储字段列表​

5. 过滤方案​

6. 请求超时时间​

7. 最大重试次数​

8. WEBHOOK地址​

9. 是否全局防重复​

10. 网络代理​

11. 任务备注​

五 : 域名字典辅助工具说明​

六：清除进度与数据操作说明​

七：停止与删除任务说明​

八：导出结果说明​