搜索任务引擎
一、概述
什么是msray-plus的搜索任务引擎?
核心功能通俗概括:导入一批要采集的关键词,获得一个或多个搜索引擎返回的搜索结果的格式化数据;
给定一个txt文件,里面一行一个关键词。搜索任务即可批量并发的把文件中的所有关键词都利用一个或多个搜索引擎检索结果。
检索到结果后,软件还可以自动去除重复记录,以及根据用户启用的过滤器,把需要过滤的数据剔除。之后,软件会实时存储采集结果到文件中,并支持自定义导出excel或者txt文件、自定义导出的字段、自定义导出的数据采集时间范围等。
比如,要通过百度引擎,采集“msray”、“chatgpt”、"golang"等等多个词的相关的搜索结果资料,则新建一个txt,按行录入上述3个需要搜索的关键词。
这个txt文件,就是我们所说的搜索引擎任务的"种子文件"。
特性:
1. 多搜索引擎并发搜索、各个搜索引擎都支持自定义不同的线程数;
2. 支持自动去重复;
3. 支持自定义过滤器规则;
4. 支持自定义存储字段;
5. 支持自定义导出字段与文件格式;
6. 支持失败自重试;
7. 支持采集相关词并自动拓展成为种子词,实现无限采集;
8. 支持从采集结果中提取网页关键词拓展到种子词队列,实 现无限采集,并支持自定义扩展线程数;
9. 支持存储进度,以及存储已采集完成关键词数据;
10. 实时显示每个搜索引擎的采集池进度、结果数、重复数、被过滤数等等;
11. 支持自定义时间(一小时为单位)自动分割采集结果;
12. 支持自定义每次采集的数据备注;
13. 同时支持前端与后端实时查看运行日志,显示每条结果是否重复、是否被过滤等。
二、视频一览
机器配置:内存为16G,CPU为:i5-11400 @2.60GHZ 宽带为家庭宽带300M。