更新日志
本文档并非实时更新,实时最新版本请查看交流群或telegram频道。
msray-plus v3.0.4(2024-08-26)
- 全新扫描与筛选任务引擎上线!全新的引擎操作界面、全新的抓取手法、优化后的导出功能、更多描述请查阅在线文档(https://doc.msray.cn/msray-plus/task/scan);
- 新增辅助工具-域名字典生成工具,支持自动分批烟雨自定义模板,主要用于扫描任务引擎。
- 重写过滤器管理模块。支持自定义多个过滤方案;支持一键导出与导入方案规则!
- 外链任务引擎,支持自定义选择任务使用的过滤方案编号;同时,针对任务参数设置前端界面进行优化,降低上手使用难度。
- 搜索任务引擎,支持自定义选择任务使用的过滤方案编号;同时,针对任务参数设置前端界面进行优化,降低上手使用难度。
- 联系信息采集任务引擎,提升采集数据精准度与数量。
- 外链任务引擎,修改任务核心逻辑,仅当结果满足过滤条件,才会继续作为自*动拓展种子文件数据进行后续采集;防止站群陷阱;
- 搜索任务引擎,存储参数列表新增"所属引擎"、"关键词"等选项
- 重复过滤系统,新增支持引擎级。即可选择全局重复过滤,也可以按引擎类型独立判断重复。
- 搜索任务引擎,可在“扩展词库”界面,动态查看到自动扩展出的关键词列表(实时更新)。
- 优化网页描述内容智能抓取算法,针对网页meta信息中不存在描述字段的网页,可智能提取正文内容作为描述;
msray-plus 3.0.3 (2024-07-08)
- 必应(bing)引擎突破,可多线程持续稳定采集数据,无需代理!
- 修复百度电脑版引擎(老版本突破方案已失效,已使用新方案突破)!
- 修复爬虫任务、搜索任务、联系任务引擎进度恢复存在的BUG;
- 修改软件核心文件存放路径(由操作系统用户默认目录改为软件主程序根目录);
- 修复联系信息采集任务引擎,whois辅助查询配置更新问题;
- 外链任务引擎-显示自定义选项“是否自动把扩展词添加到种子文件”;
- 系统配置文件config.yaml支持软件内修改(重启软件生效);
- 所有任务引擎,选择种子文件后支持实时提示已载入进度信息;
- 所有任务引擎,新增单独清除当前任务使用的种子文件进度功能;
- 搜索任务数据显示优化;
- 修复客户端-搜索任务之引擎信息页面无法向下滚动问题;
- 客户端-修改部分参数名称;
msray-plus 3.0.3(2024-07-08)
- 修复爬虫任务、搜索任务、联系任务引擎进度恢复存在的BUG;
- 修改软件核心文件存放路径(由操作系统用户默认目录改为软件主程序根目录);
- 修复联系信息采集任务引擎,whois辅助查询配置更新问题;
- 外链任务引擎-显示自定义选项“是否自动把扩展词添加到种子文件”;
- 系统配置文件config.yaml支持软件内修改(重启软件生效);
- 所有任务引擎,选择种子文件后支持实时提示已载入进度信息;
- 所有任务引擎,新增单独清除当前任务使用的种子文件进度功能;
- 搜索任务数据显示优化;
- 修复客户端-搜索任务之引擎信息页面无法向下滚动问题;
- 客户端-修改部分参数名称;
msray-plus 3.0.2(2024-06-25)
-
某些时候长期网络异常导致授权异常的问题优化;
-
命令行日志,支持不同级别按不同颜色区分显示,支持自定义级别,如debug,info,warn,error(可修改config.yaml实现自定义);
-
命令行日志,支持实时存储到文件中。默认存放于后端程序根目录下的logs目录下(可修改config.yaml实现自定义)。
-
联系信息采集任务引擎-引擎核心逻辑优化;
-
联系信息采集任务引擎-更多采集数据指标信息支持与前端实时展示;
-
联系信息采集任务引擎-更多采集结果数量信息支持与前端实时展示;
-
联系信息采集任务引擎-修复导出特定数据某些行内容为空导致的空行问题;
-
联系信息采集任务引擎-修复有效结果数计算逻辑,新增无效数据二次识别自动过滤。
-
联系信息采集任务引擎-进度存储功能以及种子文件内容全部执行完成,任务自动停止;
-
联系信息采集任务引擎-支持全自动重复过滤(同一个邮箱或qq、微信等内容,仅会存储一条最早的记录);
-
优化爬虫任务引擎,引擎核心逻辑优化;
-
优化爬虫任务引擎,增加自定义选项”是否自动把扩展词添加到种子文件“。该选项如果开启,会在停止 任务并且初始种子文件数据已经全部载入后,把扩展出来的未使用的种子数据,自动写入到用户设定的原始虫子文件中。
-
优化爬虫任务引擎,增加自定义选择”扩展限制设置“。该选项拥有3个方案,可根据需求设定为”仅顶级域名扩展“、”仅国内域名扩展“、”仅海外域名扩展“。如果开启了”仅顶级域名扩展“,则蜘蛛仅会把采集结果中的顶级域名作为扩展种子数据进行循环扩展采集。
-
优化爬虫任务引擎,更多采集数据指标信息支持与前端实时展示;
15.优化搜索任务引擎,引擎核心逻辑优化,高并发下的性能与资源占用优化; 16.优化搜索任务引擎,更多采集数据指标信息实时展示(可实时查看种子文件进度、执行中、已完成任务数量); 17.优化搜索任务引擎,每个引擎池任务执行完毕后,命令行会输出"all tasks have been completed!",方便观察状态。
msray-plus v3.0.1 (2024-05-28)
备注:下载压缩包后,解压查看“使用说明-必看.txt”。
- 优化前端界面提示;
- 最新版本检测与提示功能优化;
- 搜索任务引擎-》新增谷歌官网引擎(google)
- 搜索任务引擎-》新增雅虎引擎(yahoo)
- 搜索任务引擎-》新增搜狗引擎(sougou)
- 修复搜索引擎任务进度存储相关BUG,并支持点击清除按钮清除进度信息;
- 优化协程池,同步提交种子任务改为异步提交,增加任务并发执行效率,并增加已采集关键词存储功能,支持每个搜索引擎单独存储已采集关键词数据;
msray-plus v3.0.0 【2024-04-29】
1:系统核心运行逻辑重写与优化;
2:系统核心功能模块优化(性能与效率提升);
3:远程相关接口采用多服务器节点自动切换,最大化避免网络问题;
4:系统授权算法与初始运行逻辑升级,无需用户录入设备信息,仅需首次运行填写CDKEY(激活码);
5:前端界面综合优化;针对后端通讯网络异常情况,前端界面实时消息提示;
6:重写实时日志显示功能,采用websocket实时通讯,可单独窗口查看!
7:代理配置模块重写。同时支持3种代理导入模式(隧道代理、平台api代理、本地txt代理),支持自动更新,以及自定义频率!支持在线测试代理可用性!
8:采集结果WEBHOOK推送功能升级;
9:IP数据库会在每次运行软件的时候自动从远程更新;
10:去除sqlite数据库底层依赖;
11:过滤方案模块, 新增自定义子域名名称功能。可完美应对大量出现泛域名的情况。可自定义允许存储的子域名前缀,不允许的不存储。如"blog,bbs,api,user,news"等等;
12:搜索引擎任务 - 核心逻辑优化,重写任务进度恢复功能。针对每一个不同的搜索引擎,都会有一个独立的进度存储数据功能,对于同一个种子文件,每次执行自动恢复进度;
13:搜索引擎任务 - 核心逻辑优化,可实时显示开启的每个搜索引擎对应显示种子词进度、剩余可用词、扩展词等数据;
14:搜索引擎任务 - 优化网络请求库,支持自动重试与完美模拟设备信息
15:搜索引擎任务 - 修复yandex引擎
16:搜索引擎任务 - 修复与优化神马引擎
17:搜索引擎任务 - 修复与优化startpage引擎
18:搜索引擎任务 - 新增重试功能:针对采集失败的关键词,将会在所有初始关键词采集完毕后,额外自动重试一次;
19:爬虫引擎任务 - 核心逻辑优化,可实时显示种子数据进度、剩余可用、扩展数量等数据;
20:爬虫引擎任务 - 任务停止时可自动将扩展出的种子数据,添加到初始种子文件的末尾!
21:爬虫引擎任务 - 核心逻辑优化,重写任务进度恢复功能;
22:爬虫引擎任务 - 支持通过过滤器,自定义允许的二级域名前缀,高速高效防止垃圾泛解析站群
23:结果存储核心模块升级,每个引擎自定义初始化日志模块实例,提升性能;
24:系统外部核心文件,将支持远程自动下载;
25:解决中文安装路径导致软件无法运行的异常问题(分词功能数据核心文件,将自动存储到电脑的用户目录);
26:系 统默认相关文件路径优化;
27:系统核心配置文件优化;
28:修复导出结果功能,在网络异常情况下会一直显示“导出中”的BUG修复
msray-plus 2.1.7.1 【2023-11-05】
修复导出txt换行问题;当前版本(2.1.7.1),为2.1.7版本的修正补丁。
1):可以通过解压"msray-agent.zip",得到"msray-agent.exe",覆盖存在问题的2.1.7版本安装目录下的resources目录中的"msray-agent.exe"。然后重新运行即可。
2):如果当前存在的版本不是2.1.7,则需要重新安装软件(解压缩后运行msray-plus Setup 2.1.7.exe文件)。
msray-plus 2.1.7 【2023-11-04】
- 修复百度引擎升级导致的问题;
- 优化网络请求导致的突发性内存占用大的问题;
- 优化网页主体内容文本提取功能;
msray-plus 2.1.6 【2023-10-30】
- 新增语言识别功能,可存储采集结果的语言编码(语言编码表可在语言过滤器界面查看在线文档,比如"cmn"为中文,"eng"为英语);
- 新增语言过滤规则,可基于语言编码,在任务中自动对结果进行过滤处理;
- 新增授时间刷新功能,可查看软 件首页的文字按钮(在软件首页显示授权时间位置的后面);
- 新增自动授权刷新检测功能,针对快到期并且已经续费的用户,软件无需重新启动与手工刷新,系统自动处理,防止任务中断;
- 修复部分网页编码导致存储的标题、描述乱码问题。
- 优化软件启动界面,起飞吧(同时可防止未完全启动成功的时候点击菜单导致的使用问题);
- 优化过滤器管理界面,并且每个过滤器,都有查看文档的快捷按钮;
- 适配部分低配机器偶尔出现白屏的情况,自动重载;如果是渲染进程异常,则自动重启;
- 优化导出功能;
- 更新内置IP数据库文件;
备注:语言编码,请查看系统语言编码表!比如cmn表示中文,jpn表示日语,eng表示英语,deu表示德语;
msray-plus 2.1.5 【2023-09-17】
- 搜索任务引擎,添加实时显示剩余种子数量功能(不同搜索引擎都可单独统计查看);
- 爬虫任务引擎,添加实时显示剩余种子数量功能;
- 优化搜索任务引擎的自动网页关键词扩展功能,扩展效率提升10+倍;
- 内部优化算法,减少长时间运行导致的内存占用;
- 部分默认参数值优化调整;
- 站群识别算法升级(同时支持同域名站群检测 + 不同域名的2+级子域名站群检测)
- 修复过滤器之网页内容过滤功能;
- 修复任务参数之存储选项只勾选"IP区域"而不勾选"IP"时引发的问题;
- 初始化结果数据校验算法升级,防止大文件校验慢甚至卡住的问题;
- 大文件(数据 量较大)导出结果时,新增提醒,并且不限制超时时间;
msray-plus 2.1.4 【2023-09-06】
1:新增百度移动引擎(可无需代理突破反爬验证,但需要手工抓取一次cookie,详情查看文档:https://www.msray.net/doc/engine/baidu_mobile.html); 2: 新增yandex搜索引擎模块(俄罗斯引擎,全球知名主流引擎)。 3:界面优化与前端BUG修复,兼容分辨率低的机器; 4: IP数据库更新; 5:新增到期提醒,到期时间小于7天的,在软件主界面会弹出一条会自动关闭的消息提示; 6: 爬虫任务引擎优化,升级描述信息提取算法,即使网页不存在描述,系统也可自动分析提取摘要。 7:谷歌引擎新增支持自定义网页搜索结果语言! 8:联系任务引擎升级,解决乱码问题,优化facebook以及twitter提取,并新增whatsapp个人账号与whatsapp群组账号识别功能;
msray-plus 2.1.3 【2023-08-12】
- 新增国际知名搜索引擎duckduckgo,已实现反爬基础突破,可无需IP代理采集!
- 授权续费后,无需重启软件,续费后可点击任何一个任务引擎的开始按钮,都将自动刷新授权到期时间。
- 任务默认配置参数优化;
备注:duckduckgo引擎本身需要翻墙才能访问,测试线程数为1-10之间,无需 代理。如需高速采集线程数增加则建议搭配隧道代理使用。
msray-plus 2.1.2 【2023-08-06】
- 新增神马搜索引擎模块,已突破反爬机制无需IP代理,可多线程持续抓取,效率不错哦!
- 可通过修改系统配置文件,实现存储保留每次采集搜索引擎的结果的HtmL源码文件;
- 批量导入代理功能优化;
- 软件界面优化;
- 爬虫任务,新增参数”种子数据拓展规则“,可选”仅国内“、”仅海外“、”无限制“。(如果采集海外站点,则建议此选项设置为仅海外)
- 去除部分引擎(如google)的自定义线程数限制。
msray-plus 2.1.1 【2023-07-23】
1:过滤功能模块升级与修复;
msray-plus 2.1.0 【2023-07-20】
- 搜索任务引擎模块核心升级优化,修复相关异常;
- 系统相关默认参数优化;
- 代理管理模块优化升级,支持分页管理查看,防止数据量较多时候的卡顿;
- 爬虫任务引擎模块核心优化;
- 垃圾泛二级域名过滤算法升级!并且支持自定义算法级别(基础、标准、严格、超严格);
- 同时支持单机 与集群防重复,支持多设备共用一个重复判断数据库(需额外运行新增的重复判断核心服务端程序)
msray-plus 2.0.2 【2023-6-19】
- 新增谷歌引擎模块;
- 优化搜索任务组件核心;
- 界面优化,可放大与恢复软件窗口;
- 联系任务导出选项相关优化;
msray-plus 2.0.1【2023-06-16】
- 软件内,可开启与关闭实时程序运行日志显示;
- 新增联系任务引擎(加强与优化版);
- 软件初始化逻辑优化,授权后直接进入主界面,无需点击任何按钮;
- 程序核心优化;
msray-plus 2.0.0【2023-06-10】
- 系统架构核心重写;
- 软件前端升级,运行带界面;
- 运行流程优化,仅需双击exe即可运行,无任何其他步骤!
- 无需redis环境,无需安装三方依赖!内部实现相关算法,替代了redis。
- 升级内部网络请求模块;
- 搜索任务引擎,重写已采集关键词判断算法;
- 搜索任务引擎,重写已采集数据数量统计算法;
- 搜索任务引擎,重写线程池模型,每个搜索引擎单独一个线程池并且相互独立;
- 搜索任务引擎,升级网页关键词自动扩展算法;
- 搜索任务引擎,升级存储模块,减少存储空间占用;
- 外链爬虫引擎,重写线程池控制模型;
- 重写百度引擎模块[无需代理][可多线程][可持续采集];
- 重写bing引擎模块[无需代理][可多线程][可持续采集];
- 新增startpage引擎模块;
- 新增日本引擎模块[无需代理][可多线程][可持续采集]; .........
备注:本版本为msray-plus 2.0.0的单机版的测试版;
msray-plus 1.5.1【2023-04-27】
- 百度电脑版引擎大升级;
msray-plus 1.5.0【2023-04-12】
- 联系任务引擎,将新增标题存储选项;
- 百度电脑版引擎升级;
- 新增百度精准版引擎,结果准确性百分百。无需代理;
msray-plus 1.4.9 【2022-11-25】
- 爬虫任务前端,新增同IP站点查询选项自定义功能;
- 前端页面优化;
msray-plus 1.4.8【2022-11-17】
- 搜索任务,支持百度定制搜索类型。支持网页/资讯类型。默认为网页;
- 爬虫任务,升级同IP站点扩展功能,增加效率;
msray-plus 1.4.7【2022-10-28】
- 联系信息采集引擎,采集的手机号与电话号码结果数据相互独立。方便导入外部软件识别与处理。
- 联系信息采集引擎,单字段数据导出,解决空行问题;
msray-plus 1.4.6 【2022-09-29】
- 新增搜狗搜索引擎, 无需代理可持续稳定采集!
- 优化google引擎,可直接使用,无需手工配置cse_tok(自动化获取)。
- 优化代理功能模块;
msray-plus 1.4.5 【2022-09-17】
-
联系信息采集引擎,导出功能优化。可自定义导出某字段的单条数据或者多条数据。比如一个网站包含两个邮箱联系方式,则可以指只导出一条邮箱(方便外部软件识别)
-
联系信息采集引擎,前端显示优化,优化进度条功能,可实时查看进度;
msray-plus 1.4.4 【2022-09-15】
- 修复qwant引擎在特定情况下可能产生的运行异常问题;
- 支持本地选择种子文件,无需上传。无压力支持千万级数据导入!主要适用于大文件种子文件的选择(同时支持爬虫任务、搜索引擎任务、联系信息抓取任务)。
- 联系信息采集任务引擎与前端升级,新增任务进度条显示,成功采集条数显示等;
- 去除排队机制,所有任务支持并发执行;
- 自动检测,如果没有在config.yaml中配置google引擎的cse_tok参数值,则google引擎不会启动(该值的有效期一般为1天左右);
msray-plus 1.4.3 【2022-09-13】
- 新版google引擎优化!
- 法国搜索引擎(QWANT)优化;
注意,如果需要使用google引擎,需要先获取cse_tok参数的值,然后写入到config.yaml配置文件中的engine-googleCseToken节点参数下,否则google会采集失败。
获取cse_tok参数值的方法: 1):使用chrome或者firefox浏览器访问 https://cse.google.com/cse?cx=b0bcb1b09813012d8 2): 打开chrome开发者工具(快捷键F12或者鼠标在页面上右键单机,选择“检查”); 3): 随便输入一个搜索词,然后在开发者工具中,查看网络请求(network选项卡界面); 4): 找到路径为“/v1?rsz=20”开头的网络请求,在右侧切换到payload界面,即可查看到"cse_tok"参数的值;
具体可查看根目录下面的help-cse.png图片。
msray-plus 1.4.2 【2022-09-08】
- 重写谷歌采集引擎模块,对反爬机制做了突破,仅需少量HTTP代理,即可稳定持续采集!
- 新增法国搜索引擎(QWANT);
- 新增设备网络类型检测功能,可识别是否需要翻墙,实现部分国外搜索引擎的智能化初始代理条件判定;
- 优化联系方式抓取任务的结果格式自动清洗功能。
- 优化大数据导出到服务器的提示信息;
msray-plus 1.4.1 【2022-8-30】
- 优化百度地址转码逻辑;
- 优化软件后台的前端界面;
- 新增联系信息采集任务功能模块!
联系信息采集模块,支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容;
电话/手机号兼容多种格式,包括但不限于手机号,400电话号码,以及如000-000-0000,020-0000-000等格式; 邮箱兼容多种格式,并且支持穿插空格形式的邮箱内容! facebook账号同时兼容ID格式与账号名格式!
支持自动保存采集进度,可停止后下次接着采集; 同时支持自定义导出字段内容与自定义导出格式; 同时支持导出结果文件下载到本地,以及导出保存到服务器目录;
msray-plus 1.4.0 【2022-8-15】
- 去除agent数据库信息。直接由txt载入到内存中;
- 更改logger日志信息组件;
- IP数据库更新;
- 配置文件更新;
- 爬虫(外链)引擎任务队列引擎,改用自研队列组件代替了redis相关操作;
- 爬虫(外链)引擎任务种子数据存储引擎,改用自研方案代替了redis相关存储;
- 任务数量统计算法重写与升级,基于内存存储任务结果数量,然后定时更新同步到数据库,提升效率并减少了大量磁盘IO操作;
- 数据重复判断引擎,改用自研布隆过滤器加强版实现,取代redis相关操作,性能与资源占用大量提升;
- 入库算法更新,循环单次入库,改为批量入库,减少大量磁盘IO操作;
- 新增任务对应的被方案过滤结果数量、被重复过滤数量显示;
- 已采集关键词判断逻辑优化;
- 命令行提示信息优化,授权信息格式化后显示在顶部,方便识别与查找;
- 优化任务执行队列,修复部分情况下导致任务排队中需要重启的问题;
- 重写关键词拓展引擎,改为按需拓展。无需指定线程数!当可用种子关键词不足时,自动触发。防止关键词拓展速度大于消费速度导致的资源浪费与性能降低;
优化程序算法,减少大量redis操作,避免redis占用与并发瓶颈引发的问题。