跳到主要内容

软件相关概念与引擎介绍

种子文件是什么?

种子文件,可以理解为数据源。软件采集到的结果,都是根据种子文件中的内容,扩展出来的。
软件的3大任务引擎,都需要先设置种子文件,并且每个任务引擎对应的种子文件的内容格式要求也不同!必须要对号入座,不要把种子文件的内容格式搞错了。

搜索任务的种子文件是什么?

搜索任务引擎的种子文件,就是即将使用多个搜索引擎去采集数据的关键词列表。要求是“关键词”,格式为一行一个;如:

生态板  
电源线
插头
wordpress模板
外链爬虫任务引擎的种子文件是什么?

外链爬虫任务引擎的种子文件,内容要求是“域名”或“网址”,格式为一行一个;如:

www.msray.net
http://www.msray.cn
www.uemit.cn
扫描与筛选任务引擎的种子文件是什么?

扫描与筛选任务引擎的种子文件,内容要求是“域名”或“网址”,格式为一行一个;

www.msray.net
http://www.msray.cn
www.uemit.cn
联系信息采集任务引擎的种子文件是什么?

联系信息采集任务引擎的种子文件,内容要求是“域名”或“网址”,格式为一行一个;

www.msray.net
http://www.msray.cn
www.uemit.cn
示例种子文件路径,位于软件根目录下的seed文件夹内:
联系信息采集任务示例种子文件: seed/contact_task
搜索引擎任务示例种子文件:seed/search_task
爬虫引擎任务示例种子文件:seed/external_task

网址是什么?

网址,其实是由协议 + 域名 + 路径参数等组成,也可以叫做"url", 如:

http://www.xxx.com
http://xxx.com
https://xxx.com
http://www.xxx.com/1.html
http://xxx.com/1.html
https://xxx.com/1.html
https://xxx.com/news.php?id=1

域名是什么?

域名,可以理解为不带协议的网址。格式如:

www.xxx.com
xxx.com
xxx.org
xxx.xxx.com
xxx.xxx.xxx.com

根网址是什么?

根网址,属于网址,但不是所有网址都是根网址。可以理解为不带路径参数的网址(网址首页地址),如:

http://www.xxx.com
http://xxx.com
https://xxx.com
https://xxx.org

Webhook(数据推送)是什么?

Webhook是一个API概念,webhoo是一种web回调或者http的push API。 Webhook作为一个轻量的事件处理应用,正变得越来越有用。

具体的说,webhook 是应用给其它应用提供实时信息的一种方式。信息一产生,Webhook在数据产生时立即发送数据和把它发送给已经注册的应用这就意味着你能实时得到数据。

不像传统的 APIs 方式,你需要用轮询的方式来获得尽可能实时的数据。这一点使得 webhook 不管是在发送端还是接收端都非常高效。

Webhook有时也被称为反向API,因为他提供了API规则,你需要设计要使用的API。Webhook将向你的应用发起http请求,典型的是post请求,应用程序由请求驱动。