跳到主要内容

67 篇博文 含有标签「msray-plus」

msray-plus

查看所有标签

msray-plus v3.2.0 发布!

· 阅读需 2 分钟
admin
msray project team
    1. 软件界面全面升级;
    1. 搜索任务引擎核心重构,同时支持无头浏览器与数据包模式(当前版本数据包模式暂未开通,后续放出);
    1. 全部主流搜索引擎采集算法重写,可无需代理持续稳定采集(包括谷歌);
    1. 软件初始化核心远程文件下载逻辑优化,极大减少初始化时间;
    1. 不在受到"软件路径不能包含中文字符"的限制;
    1. 搜索任务引擎,支持一次选择多个搜索引擎,取消多任务创建模式;
    1. 支持实时结果数据预览(最新100条)
    1. 支持自定义修改端口。在软件设置内修改端口并重启软件后,需要同步更改客户端默认节点的配置端口。

windows版本下载地址:

香港线路: http://res.msray.net/release/msray-plus/windows/3.2.0.zip     (含客户端+服务端)
大陆线路: http://www.uemit.cn/release/msray-plus/windows/3.2.0.zip (含客户端+服务端)

下个版本预告:

  1. 支持按采集结果生成时间过滤导出结果数据,比如仅导出指定时间之后或之前的采集数据!
  2. 搜索任务,展示相关词扩展的统计信息;
  3. 搜索任务,展示相关词数据,并支持导出;
  4. 外链引擎任务界面优化以及核心优化;

msray-plus v3.1.3 发布!

· 阅读需 1 分钟
admin
msray project team
  • 百度引擎日常维护修复;
  • 备注1:如果无需使用百度引擎,则可以不更新;
  • 备注2:谷歌引擎由于官方的大更新,暂时无法正常使用。预计下一个版本重构更新恢复。

windows版本下载地址:

香港线路: http://res.msray.net/release/msray-plus/windows/3.1.3.zip     (含客户端+服务端)
大陆线路: http://www.uemit.cn/release/msray-plus/windows/3.1.3.zip (含客户端+服务端)

linux版本下载地址:

香港线路: http://res.msray.net/release/msray-plus/linux/3.1.3.zip    (含客户端+服务端)
大陆线路: http://www.uemit.cn/release/msray-plus/linux/3.1.3.zip (含客户端+服务端)

香港线路: http://res.msray.net/release/msray-plus/linux/msray-agent-313.zip (仅含服务端)
大陆线路: http://www.uemit.cn/release/msray-plus/linux/msray-agent-313.zip (仅含服务端)

msray-plus 3.1.2 发布

· 阅读需 1 分钟
admin
msray project team
1:  搜索引擎任务模块核心逻辑升级;
2:搜索引擎 - 百度引擎升级;
3:修复"外链爬虫任务-种子数据扩展规则"修改无效的问题;
4:修复"外链爬虫任务-防站群检测级别"修改无效的问题;

msray-plus 3.1.1 发布

· 阅读需 1 分钟
admin
msray project team
1: 百度引擎维护与修复,结果数据是否属于竞价广告识别算法更新;
2:任务自动停止触发逻辑优化,当检测到长期无可用关键词后,仅日志提示,不再自动停止。

msray-plus 3.1.0 发布

· 阅读需 3 分钟
admin
msray project team
1:全新客户端上线!支持管理本机msray-agent节点,也支持远程管理其他服务器上的msray-agent节点(跨平台)。同时,非本地节点会在首次运行后,自动在config.yaml中生成随机密码,用于客户端链接安全验证。
2:核心程序已同时支持windows系统以及linux系统,之后每次升级都会同时发布!
3:新增认证密码功能,对于非本地客户端远程管理,需要输入正确的验证密码才能管理。
4:授权检测算法升级。避免用户在使用中,由于网络异常导致的授权异常提示。
5:搜索任务,支持搜索引擎多选!每个选择的搜索引擎,都会独立生成一个任务,每个任务的参数与添加任务配置的信息一致,仅调用的引擎不同。
6:核心资源文件服务器启用香港+大陆双节点,避免部分海外服务器初始化下载核心文件速度慢的问题。
7:百度引擎优化升级;
8: 谷歌引擎升级,且默认线程数为10。无代理情况下可采集几分钟,之后需要代理IP否则会出安全验证;

9:修复任务配置参数,当相关词存储状态为“不存储”时候导致无法正常运行的问题;
10:修复修改任务配置导致的部分统计数据异常;
11:优化删除任务逻辑,同时删除任务对应的种子文件副本;
12: 优化多并发读写情况下可能产生的锁表问题
13:解决自定义导出,开始行数不为1的情况下的导出异常问题;
14:导出结果逻辑优化,每次导出的结果,不再覆盖历史导出的数据结果文件。每次导出的文件名以任务ID+时间数字组成。
15:种子文件选择优化,不再显示文件名带有"lock"字符串的其他任务种子文件副本信息。

msray-plus 3.0.9 发布

· 阅读需 6 分钟
admin
msray project team
总结:搜索任务引擎模块大升级、搜索引擎接口更新与突破、外链任务引擎新增全新泛解析站群检测算法、其他综合优化;

【系统】
0:日志系统升级,效率更高,资源占用更小;
1:修复特定情况下,部分服务器长期运行可能会触发的异常奔溃问题;
2:新增防报错异常退出逻辑,并支持自动记录原因;
3:多引擎导出功能可选参数新增 "根网址",同时优化默认导出参数的选中状态;

【搜索任务引擎模块】
3: 优化百度引擎, 已持续突破安全验证!! 新增识别竞价广告、网站名称、排名;
4:优化谷歌引擎,支持自定义返回结果数量(比如每页100条)!新增识别竞价广告、网站名称、排名;
5:优化必应引擎,已持续突破安全验证!! 新增识别竞价广告、网站名称、排名;
6:优化StartPage引擎,本版本首次实现突破安全验证!! 新增识别排名;

7:支持创建多个搜索任务,可同时运行,可独立管理配置、查看实时数据、独立导出等。同时,每个搜索任务仅可选择一种搜索引擎;
8:新增存储字段: 是否竞价广告、网站排名,网站名称等;
9:新增存储搜索引擎返回结果页面HTML源码功能,可自定义开启;
10:新增自动停止任务功能,当指定连续X秒持续无种子词任务,则自动停止任务。
11:自动重试功能升级,当请求失败或者出现异常情况,程序会自动延迟重试。支持自定义次数。并且支持从采集关键词失败的页码开始尝试,而不是重新开始;
12:新增采集与存储相关词功能,软件可以同时抓取搜索引擎结果页面上显示的相关词(支持关联来源词),并存储为文件(可在导出界面进行导出!)。同时,也可以在导出界面上预览前1000条相关关键词数据。
13:新增重复判断类型。目前支持6种类型!分别可基于全局、引擎模块、任务级来进行识别;
14:原左侧菜单中的引擎设置,已经移到搜索任务界面的顶部;同时显示模块级重复过滤数据库信息;

【外链爬虫引擎模块】
15:外链爬虫任务核心优化。在创建任务后,自动复制一个对应的种子文件(新种子文件名为原始种子文件名加lock以及任务ID)。
主要用于防止停止任务后,自动扩展出的数据丢失,而原始种子数据已经全部加载完成导致全部跳过,任务处于睡眠状态的情况;
任务运行后,新扩展出的种子数据,会自动更新到新种子文件中,即使停止任务,下次也还可以接着运行(自带进度恢复)

16:支持创建多个任务,支持同时运行,可独立管理配置、查看实时数据、独立导出等;
17:新增全新算法的域名数据泛解析检测与识别过滤功能,可自定义检测算法的严格级别!
18:进度记录与恢复算法更新;
19:新增支持自动把扩展种子数据追加到种子文件对应的任务副本中,避免软件退出或重启导致的扩展数据丢失情况;

20:自行重写网络请求库,不再使用第三方库,长期运行的性能大量提升,资源占用降低;
21:新增自动停止任务功能,当指定连续X秒持续无种子词任务,则自动停止任务。
22:新增重复判断类型。目前支持4种类型!分别可基于全局、引擎模块、任务级来进行识别;
23:新增支持自定义代理,防止部分网站需要海外线路才能访问;
24:外链爬虫任务统计数据计算方案优化;
25:修复任务修改(更换种子文件)引发的异常问题
27:修复删除任务后,软件界面显示获取任务失败的提示 ;
28:优化前端,防止任务统计数据较大(如结果数)后导致显示错位;

msray-plus 3.0.8 发布

· 阅读需 2 分钟
admin
msray project team
备注:需要使用扫描与筛选任务的用户必须升级,避免老版本存在的BUG。
数据迁移说明: 把msray-agent/msray-agent.exe覆盖老版本文件,同时client文件夹整体替换即可。

1:修复扫描与筛选任务;
2:过滤方案不在强制依赖任务配置里面所选择的保存字段。对于过滤方案必须依赖的数据,无论是否勾选存储字段,都会自动获取(比如过滤器开启了归属区域判断,则IP与归属地存储无论是否勾选,实际结果都会自动存储该数据)!
3:联系任务引擎,新增自定义参数USER_AGENT(可自定义设备模拟,比如自定义模拟电脑或手机访问)。解决部分网站需要手机访问才能正常展示的问题。

msray-plus 3.0.7 发布

· 阅读需 1 分钟
admin
msray project team
备注:强烈建议升级,避免老版本存在的BUG。
数据迁移说明: 把msray-agent/msray-agent.exe覆盖老版本文件,同时client文件夹整体替换即可。

1. 联系信息引擎大升级!(支持多任务、匹配逻辑算法优化、匹配结果精准度优化、识别率优化、数据统计优化);
2. 外链爬虫任务大升级!(支持多任务、数据统计优化、线程池重构);
3. 过滤方案规则格式优化,避免版本冲突,导入外部规则可自动转换;
4. 修复过滤方案,判断类型为不包含时候失效的BUG;
5. 软件界面升级;

msray-plus 3.0.6 发布

· 阅读需 1 分钟
admin
msray project team
1. 结果搜索引擎任务,点击清除数据后的显示问题;
2. 极速修复百度电脑版引擎;

msray-plus 3.0.5 发布

· 阅读需 1 分钟
admin
msray project team
1. 修复选择过滤方案不生效的问题;
2. 过滤方案列表页面优化(改为倒序排列,最新增加的规则显示在最前)
3. 扫描与筛选任务页面优化(改为倒序排列,最新增加的规则显示在最前)
4. 爬虫任务引擎,新增同IP站点查询辅助模块,可在参数配置中自定义开启。

msray-plus 3.0.4 发布

· 阅读需 3 分钟
admin
msray project team
全新扫描与筛选任务引擎上线!全新的引擎操作界面、全新的抓取手法、优化后的导出功能、更多描述请查阅在线文档(https://doc.msray.cn/msray-plus/task/scan);
新增辅助工具-域名字典生成工具,支持自动分批烟雨自定义模板,主要用于扫描任务引擎。
重写过滤器管理模块。支持自定义多个过滤方案;支持一键导出与导入方案规则!
外链任务引擎,支持自定义选择任务使用的过滤方案编号;同时,针对任务参数设置前端界面进行优化,降低上手使用难度。
搜索任务引擎,支持自定义选择任务使用的过滤方案编号;同时,针对任务参数设置前端界面进行优化,降低上手使用难度。
联系信息采集任务引擎,提升采集数据精准度与数量。
外链任务引擎,修改任务核心逻辑,仅当结果满足过滤条件,才会继续作为自*动拓展种子文件数据进行后续采集;防止站群陷阱;
搜索任务引擎,存储参数列表新增"所属引擎"、"关键词"等选项
重复过滤系统,新增支持引擎级。即可选择全局重复过滤,也可以按引擎类型独立判断重复。
搜索任务引擎,可在“扩展词库”界面,动态查看到自动扩展出的关键词列表(实时更新)。
优化网页描述内容智能抓取算法,针对网页meta信息中不存在描述字段的网页,可智能提取正文内容作为描述;

msray-plus 3.0.3 发布

· 阅读需 2 分钟
admin
msray project team
必应(bing)引擎突破,可多线程持续稳定采集数据,无需代理!
修复百度电脑版引擎(老版本突破方案已失效,已使用新方案突破)!
修复爬虫任务、搜索任务、联系任务引擎进度恢复存在的BUG;
修改软件核心文件存放路径(由操作系统用户默认目录改为软件主程序根目录);
修复联系信息采集任务引擎,whois辅助查询配置更新问题;
外链任务引擎-显示自定义选项“是否自动把扩展词添加到种子文件”;
系统配置文件config.yaml支持软件内修改(重启软件生效);
所有任务引擎,选择种子文件后支持实时提示已载入进度信息;
所有任务引擎,新增单独清除当前任务使用的种子文件进度功能;
搜索任务数据显示优化;
修复客户端-搜索任务之引擎信息页面无法向下滚动问题;
客户端-修改部分参数名称;

msray-plus 3.0.2 发布

· 阅读需 4 分钟
admin
msray project team
某些时候长期网络异常导致授权异常的问题优化;

命令行日志,支持不同级别按不同颜色区分显示,支持自定义级别,如debug,info,warn,error(可修改config.yaml实现自定义);

命令行日志,支持实时存储到文件中。默认存放于后端程序根目录下的logs目录下(可修改config.yaml实现自定义)。

联系信息采集任务引擎-引擎核心逻辑优化;

联系信息采集任务引擎-更多采集数据指标信息支持与前端实时展示;

联系信息采集任务引擎-更多采集结果数量信息支持与前端实时展示;

联系信息采集任务引擎-修复导出特定数据某些行内容为空导致的空行问题;

联系信息采集任务引擎-修复有效结果数计算逻辑,新增无效数据二次识别自动过滤。

联系信息采集任务引擎-进度存储功能以及种子文件内容全部执行完成,任务自动停止;

联系信息采集任务引擎-支持全自动重复过滤(同一个邮箱或qq、微信等内容,仅会存储一条最早的记录);

优化爬虫任务引擎,引擎核心逻辑优化;

优化爬虫任务引擎,增加自定义选项”是否自动把扩展词添加到种子文件“。该选项如果开启,会在停止任务并且初始种子文件数据已经全部载入后,把扩展出来的未使用的种子数据,自动写入到用户设定的原始虫子文件中。

优化爬虫任务引擎,增加自定义选择”扩展限制设置“。该选项拥有3个方案,可根据需求设定为”仅顶级域名扩展“、”仅国内域名扩展“、”仅海外域名扩展“。如果开启了”仅顶级域名扩展“,则蜘蛛仅会把采集结果中的顶级域名作为扩展种子数据进行循环扩展采集。

优化爬虫任务引擎,更多采集数据指标信息支持与前端实时展示;

优化搜索任务引擎,引擎核心逻辑优化,高并发下的性能与资源占用优化;

优化搜索任务引擎,更多采集数据指标信息实时展示(可实时查看种子文件进度、执行中、已完成任务数量);

优化搜索任务引擎,每个引擎池任务执行完毕后,命令行会输出"all tasks have been completed!",方便观察状态。

msray-plus 3.0.1 发布

· 阅读需 1 分钟
admin
msray project team
优化前端界面提示;
最新版本检测与提示功能优化;
搜索任务引擎-》新增谷歌官网引擎(google)
搜索任务引擎-》新增雅虎引擎(yahoo)
搜索任务引擎-》新增搜狗引擎(sougou)
修复搜索引擎任务进度存储相关BUG,并支持点击清除按钮清除进度信息;
优化协程池,同步提交种子任务改为异步提交,增加任务并发执行效率,并增加已采集关键词存储功能,支持每个搜索引擎单独存储已采集关键词数据;

msray-plus 3.0.0 发布

· 阅读需 5 分钟
admin
msray project team
1:系统核心运行逻辑重写与优化;
2:系统核心功能模块优化(性能与效率提升);
3:远程相关接口采用多服务器节点自动切换,最大化避免网络问题;
4:系统授权算法与初始运行逻辑升级,无需用户录入设备信息,仅需首次运行填写CDKEY(激活码);
5:前端界面综合优化;针对后端通讯网络异常情况,前端界面实时消息提示;
6:重写实时日志显示功能,采用websocket实时通讯,可单独窗口查看!
7:代理配置模块重写。同时支持3种代理导入模式(隧道代理、平台api代理、本地txt代理),支持自动更新,以及自定义频率!支持在线测试代理可用性!
8:采集结果WEBHOOK推送功能升级;
9:IP数据库会在每次运行软件的时候自动从远程更新;
10:去除sqlite数据库底层依赖;

11:过滤方案模块, 新增自定义子域名名称功能。可完美应对大量出现泛域名的情况。可自定义允许存储的子域名前缀,不允许的不存储。如"blog,bbs,api,user,news"等等;

12:搜索引擎任务 - 核心逻辑优化,重写任务进度恢复功能。针对每一个不同的搜索引擎,都会有一个独立的进度存储数据功能,对于同一个种子文件,每次执行自动恢复进度;
13:搜索引擎任务 - 核心逻辑优化,可实时显示开启的每个搜索引擎对应显示种子词进度、剩余可用词、扩展词等数据;
14:搜索引擎任务 - 优化网络请求库,支持自动重试与完美模拟设备信息
15:搜索引擎任务 - 修复yandex引擎
16:搜索引擎任务 - 修复与优化神马引擎
17:搜索引擎任务 - 修复与优化startpage引擎
18:搜索引擎任务 - 新增重试功能:针对采集失败的关键词,将会在所有初始关键词采集完毕后,额外自动重试一次;

19:爬虫引擎任务 - 核心逻辑优化,可实时显示种子数据进度、剩余可用、扩展数量等数据;
20:爬虫引擎任务 - 任务停止时可自动将扩展出的种子数据,添加到初始种子文件的末尾!
21:爬虫引擎任务 - 核心逻辑优化,重写任务进度恢复功能;
22:爬虫引擎任务 - 支持通过过滤器,自定义允许的二级域名前缀,高速高效防止垃圾泛解析站群

23:结果存储核心模块升级,每个引擎自定义初始化日志模块实例,提升性能;
24:系统外部核心文件,将支持远程自动下载;
25:解决中文安装路径导致软件无法运行的异常问题(分词功能数据核心文件,将自动存储到电脑的用户目录);
26:系统默认相关文件路径优化;
27:系统核心配置文件优化;
28:修复导出结果功能,在网络异常情况下会一直显示“导出中”的BUG修复

msray-plus 2.1.7.1 发布

· 阅读需 1 分钟
admin
msray project team
1):可以通过解压"msray-agent.zip",得到"msray-agent.exe",覆盖存在问题的2.1.7版本安装目录下的resources目录中的"msray-agent.exe"。然后重新运行即可。

2):如果当前存在的版本不是2.1.7,则需要重新安装软件(解压缩后运行msray-plus Setup 2.1.7.exe文件)。

msray-plus 2.1.7 发布

· 阅读需 1 分钟
admin
msray project team
修复百度引擎升级导致的问题;
优化网络请求导致的突发性内存占用大的问题;
优化网页主体内容文本提取功能;

msray-plus 2.1.6 发布

· 阅读需 2 分钟
admin
msray project team
新增语言识别功能,可存储采集结果的语言编码(语言编码表可在语言过滤器界面查看在线文档,比如"cmn"为中文,"eng"为英语);
新增语言过滤规则,可基于语言编码,在任务中自动对结果进行过滤处理;
新增授时间刷新功能,可查看软件首页的文字按钮(在软件首页显示授权时间位置的后面);
新增自动授权刷新检测功能,针对快到期并且已经续费的用户,软件无需重新启动与手工刷新,系统自动处理,防止任务中断;
修复部分网页编码导致存储的标题、描述乱码问题。
优化软件启动界面,起飞吧(同时可防止未完全启动成功的时候点击菜单导致的使用问题);
优化过滤器管理界面,并且每个过滤器,都有查看文档的快捷按钮;
适配部分低配机器偶尔出现白屏的情况,自动重载;如果是渲染进程异常,则自动重启;
优化导出功能;
更新内置IP数据库文件;
备注:语言编码,请查看系统语言编码表!比如cmn表示中文,jpn表示日语,eng表示英语,deu表示德语;

msray-plus 2.1.5 发布

· 阅读需 2 分钟
admin
msray project team
搜索任务引擎,添加实时显示剩余种子数量功能(不同搜索引擎都可单独统计查看);
爬虫任务引擎,添加实时显示剩余种子数量功能;
优化搜索任务引擎的自动网页关键词扩展功能,扩展效率提升10+倍;
内部优化算法,减少长时间运行导致的内存占用;
部分默认参数值优化调整;
站群识别算法升级(同时支持同域名站群检测 + 不同域名的2+级子域名站群检测)
修复过滤器之网页内容过滤功能;
修复任务参数之存储选项只勾选"IP区域"而不勾选"IP"时引发的问题;
初始化结果数据校验算法升级,防止大文件校验慢甚至卡住的问题;
大文件(数据量较大)导出结果时,新增提醒,并且不限制超时时间;

msray-plus 2.1.4 发布

· 阅读需 2 分钟
admin
msray project team
1:新增百度移动引擎(可无需代理突破反爬验证,但需要手工抓取一次cookie,详情查看文档:https://www.msray.net/doc/engine/baidu_mobile.html); 
2: 新增yandex搜索引擎模块(俄罗斯引擎,全球知名主流引擎)。
3:界面优化与前端BUG修复,兼容分辨率低的机器;
4: IP数据库更新;
5:新增到期提醒,到期时间小于7天的,在软件主界面会弹出一条会自动关闭的消息提示;
6: 爬虫任务引擎优化,升级描述信息提取算法,即使网页不存在描述,系统也可自动分析提取摘要。
7:谷歌引擎新增支持自定义网页搜索结果语言!
8:联系任务引擎升级,解决乱码问题,优化facebook以及twitter提取,并新增whatsapp个人账号与whatsapp群组账号识别功能;