外链爬虫任务引擎
一、概述
核心功能通俗概括:导入一批域名/网址为基础,采集获得更多的域名/网址;给定一个txt文件(种子文件),里面一行一个url(网址)或域名,外链爬虫任务即可批量并发的把文件中的所有URL进行模拟访问,然后收集外链资源(与当前模拟访问的网站非同域名不一样的其他域名链接),类似搜索引擎蜘蛛的原理,属于无限采集。当然,您也可以理解为"友情链接"采集。
MSRAY-PLUS可从用户提供的url种子地址,源源不断的自动爬取全网网站数据(无限爬取),并进行结构化数据存储与自定义过滤处理。
软件还可以自动去除重复记录,以及根据用户启用的过滤器,把需要过滤的数据剔除。之后,软件会实时存储采集结果到文件中,并支持自定义导出excel或者txt文件、自定义导出的字段、自定义导出的数据采集时间范围等。
概述
一个网站,可能存在0个或多个外链域名。为了防止部分网站无外链导致软件内置蜘蛛无内容可爬,建议种子文件的内容大于1万条数据(越多越好,无压力支持导入百万种子数据)。如果种子文件比较大,建议手工复制到主程序目录下的"seed/external_task"目录下。复制后,即可直接在软件界面选择本地文件。
特性:
1. 支持自定义线程数;
2. 支持自动去重复;
3. 支持自定义过滤器规则;
4. 支持自定义存储字段;
5. 支持自定义存储字段、导出字段、导出文件格式;
6. 支持失败自动重试;
7. 支持无限采集;
9. 支持存储进度;
10. 支持实时显示进度、结果数、重复数、被过滤数、执行中任务、已完成任务条数等等;
11. 支持自定义时间(一小时为单位)自动分割采集结果;
12. 支持自定义每次采集的备注信息(可按备注导出结果);
13. 同时支持前端与后端实时查看运行日志。
14. 支持webhook,将采集结果数据实时推送到外部自定义API地址;
15. 支持自定义扩展种子的条件(顶级域名、国内网站、国外网站)。