跳到主要内容

msray-plus 2.1.7 发布

· 阅读需 1 分钟
admin
msray project team
修复百度引擎升级导致的问题;
优化网络请求导致的突发性内存占用大的问题;
优化网页主体内容文本提取功能;

msray-plus 2.1.6 发布

· 阅读需 2 分钟
admin
msray project team
新增语言识别功能,可存储采集结果的语言编码(语言编码表可在语言过滤器界面查看在线文档,比如"cmn"为中文,"eng"为英语);
新增语言过滤规则,可基于语言编码,在任务中自动对结果进行过滤处理;
新增授时间刷新功能,可查看软件首页的文字按钮(在软件首页显示授权时间位置的后面);
新增自动授权刷新检测功能,针对快到期并且已经续费的用户,软件无需重新启动与手工刷新,系统自动处理,防止任务中断;
修复部分网页编码导致存储的标题、描述乱码问题。
优化软件启动界面,起飞吧(同时可防止未完全启动成功的时候点击菜单导致的使用问题);
优化过滤器管理界面,并且每个过滤器,都有查看文档的快捷按钮;
适配部分低配机器偶尔出现白屏的情况,自动重载;如果是渲染进程异常,则自动重启;
优化导出功能;
更新内置IP数据库文件;
备注:语言编码,请查看系统语言编码表!比如cmn表示中文,jpn表示日语,eng表示英语,deu表示德语;

msray-plus 2.1.5 发布

· 阅读需 2 分钟
admin
msray project team
搜索任务引擎,添加实时显示剩余种子数量功能(不同搜索引擎都可单独统计查看);
爬虫任务引擎,添加实时显示剩余种子数量功能;
优化搜索任务引擎的自动网页关键词扩展功能,扩展效率提升10+倍;
内部优化算法,减少长时间运行导致的内存占用;
部分默认参数值优化调整;
站群识别算法升级(同时支持同域名站群检测 + 不同域名的2+级子域名站群检测)
修复过滤器之网页内容过滤功能;
修复任务参数之存储选项只勾选"IP区域"而不勾选"IP"时引发的问题;
初始化结果数据校验算法升级,防止大文件校验慢甚至卡住的问题;
大文件(数据量较大)导出结果时,新增提醒,并且不限制超时时间;

msray-plus 2.1.4 发布

· 阅读需 2 分钟
admin
msray project team
1:新增百度移动引擎(可无需代理突破反爬验证,但需要手工抓取一次cookie,详情查看文档:https://www.msray.net/doc/engine/baidu_mobile.html); 
2: 新增yandex搜索引擎模块(俄罗斯引擎,全球知名主流引擎)。
3:界面优化与前端BUG修复,兼容分辨率低的机器;
4: IP数据库更新;
5:新增到期提醒,到期时间小于7天的,在软件主界面会弹出一条会自动关闭的消息提示;
6: 爬虫任务引擎优化,升级描述信息提取算法,即使网页不存在描述,系统也可自动分析提取摘要。
7:谷歌引擎新增支持自定义网页搜索结果语言!
8:联系任务引擎升级,解决乱码问题,优化facebook以及twitter提取,并新增whatsapp个人账号与whatsapp群组账号识别功能;

msray-plus 2.1.3 发布

· 阅读需 1 分钟
admin
msray project team
新增国际知名搜索引擎duckduckgo,已实现反爬基础突破,可无需IP代理采集!
授权续费后,无需重启软件,续费后可点击任何一个任务引擎的开始按钮,都将自动刷新授权到期时间。
任务默认配置参数优化;
备注:duckduckgo引擎本身需要翻墙才能访问,测试线程数为1-10之间,无需代理。如需高速采集线程数增加则建议搭配隧道代理使用。

msray-plus 2.1.2 发布

· 阅读需 1 分钟
admin
msray project team
新增神马搜索引擎模块,已突破反爬机制无需IP代理,可多线程持续抓取,效率不错哦!
可通过修改系统配置文件,实现存储保留每次采集搜索引擎的结果的HtmL源码文件;
批量导入代理功能优化;
软件界面优化;
爬虫任务,新增参数”种子数据拓展规则“,可选”仅国内“、”仅海外“、”无限制“。(如果采集海外站点,则建议此选项设置为仅海外)
去除部分引擎(如google)的自定义线程数限制。

msray-plus 2.1.0 发布

· 阅读需 1 分钟
admin
msray project team
搜索任务引擎模块核心升级优化,修复相关异常;
系统相关默认参数优化;
代理管理模块优化升级,支持分页管理查看,防止数据量较多时候的卡顿;
爬虫任务引擎模块核心优化;
垃圾泛二级域名过滤算法升级!并且支持自定义算法级别(基础、标准、严格、超严格);
同时支持单机与集群防重复,支持多设备共用一个重复判断数据库(需额外运行新增的重复判断核心服务端程序)

msray-plus 2.0.2 发布

· 阅读需 1 分钟
admin
msray project team
新增谷歌引擎模块;
优化搜索任务组件核心;
界面优化,可放大与恢复软件窗口;
联系任务导出选项相关优化;

msray-plus 2.0.1 发布

· 阅读需 1 分钟
admin
msray project team
软件内,可开启与关闭实时程序运行日志显示;
新增联系任务引擎(加强与优化版);
软件初始化逻辑优化,授权后直接进入主界面,无需点击任何按钮;
程序核心优化;

msray-plus 2.0.0 发布

· 阅读需 2 分钟
admin
msray project team
系统架构核心重写;
软件前端升级,运行带界面;
运行流程优化,仅需双击exe即可运行,无任何其他步骤!
无需redis环境,无需安装三方依赖!内部实现相关算法,替代了redis。
升级内部网络请求模块;
搜索任务引擎,重写已采集关键词判断算法;
搜索任务引擎,重写已采集数据数量统计算法;
搜索任务引擎,重写线程池模型,每个搜索引擎单独一个线程池并且相互独立;
搜索任务引擎,升级网页关键词自动扩展算法;
搜索任务引擎,升级存储模块,减少存储空间占用;
外链爬虫引擎,重写线程池控制模型;
重写百度引擎模块[无需代理][可多线程][可持续采集];
重写bing引擎模块[无需代理][可多线程][可持续采集];
新增startpage引擎模块;
新增日本引擎模块[无需代理][可多线程][可持续采集]; .........
备注:本版本为msray-plus 2.0.0的单机版的测试版;

msray-plus 1.5.0 发布

· 阅读需 1 分钟
admin
msray project team
联系任务引擎,将新增标题存储选项;
百度电脑版引擎升级;
新增百度精准版引擎,结果准确性百分百。无需代理;

msray-plus 1.4.5 发布

· 阅读需 1 分钟
admin
msray project team
联系信息采集引擎,导出功能优化。可自定义导出某字段的单条数据或者多条数据。比如一个网站包含两个邮箱联系方式,则可以指只导出一条邮箱(方便外部软件识别)

联系信息采集引擎,前端显示优化,优化进度条功能,可实时查看进度;

msray-plus 1.4.8 发布

· 阅读需 1 分钟
admin
msray project team
搜索任务,支持百度定制搜索类型。支持网页/资讯类型。默认为网页;
爬虫任务,升级同IP站点扩展功能,增加效率;

msray-plus 1.4.7 发布

· 阅读需 1 分钟
admin
msray project team
联系信息采集引擎,采集的手机号与电话号码结果数据相互独立。方便导入外部软件识别与处理。
联系信息采集引擎,单字段数据导出,解决空行问题;

msray-plus 1.4.6 发布

· 阅读需 1 分钟
admin
msray project team
新增搜狗搜索引擎, 无需代理可持续稳定采集!
优化google引擎,可直接使用,无需手工配置cse_tok(自动化获取)。
优化代理功能模块;

msray-plus 1.4.5 发布

· 阅读需 1 分钟
admin
msray project team
联系信息采集引擎,导出功能优化。可自定义导出某字段的单条数据或者多条数据。比如一个网站包含两个邮箱联系方式,则可以指只导出一条邮箱(方便外部软件识别)

联系信息采集引擎,前端显示优化,优化进度条功能,可实时查看进度;

msray-plus 1.4.4 发布

· 阅读需 1 分钟
admin
msray project team
修复qwant引擎在特定情况下可能产生的运行异常问题;
支持本地选择种子文件,无需上传。无压力支持千万级数据导入!主要适用于大文件种子文件的选择(同时支持爬虫任务、搜索引擎任务、联系信息抓取任务)。
联系信息采集任务引擎与前端升级,新增任务进度条显示,成功采集条数显示等;
去除排队机制,所有任务支持并发执行;
自动检测,如果没有在config.yaml中配置google引擎的cse_tok参数值,则google引擎不会启动(该值的有效期一般为1天左右);

msray-plus 1.4.3 发布

· 阅读需 1 分钟
admin
msray project team
新版google引擎优化!
法国搜索引擎(QWANT)优化;
注意,如果需要使用google引擎,需要先获取cse_tok参数的值,然后写入到config.yaml配置文件中的engine-googleCseToken节点参数下,否则google会采集失败。

获取cse_tok参数值的方法: 1):使用chrome或者firefox浏览器访问 https://cse.google.com/cse?cx=b0bcb1b09813012d8 2): 打开chrome开发者工具(快捷键F12或者鼠标在页面上右键单机,选择“检查”); 3): 随便输入一个搜索词,然后在开发者工具中,查看网络请求(network选项卡界面); 4): 找到路径为“/v1?rsz=20”开头的网络请求,在右侧切换到payload界面,即可查看到"cse_tok"参数的值;

具体可查看根目录下面的help-cse.png图片。