跳到主要内容

使用msray-search收集国内学校网站数据集

简介

现在有这样一个需求,需要对收集的大量网站数据打标签。以识别学校网站为例,我们借助AI机器学习技术,可以通过训练模型的方法实现该需求。

而无论是采用哪种模型算法或工具,我们都需要先有数据集用于训练!这里,msray-search就可以派上用场了。

搜索引擎高级语法

以下是几个可以用于收集国内学校网站地址的百度高级语法示例:

1. 使用site语法

语法格式:site:edu.cn
这个语法可以限定搜索范围为所有以.edu.cn结尾的网站,通常这些网站是国内教育机构的官方网站。
示例:学校介绍 site:edu.cn
这样可以找到包含“学校介绍”内容的教育机构网站。

2. 结合inurl语法

语法格式:inurl:edu.cn
通过限定URL中包含edu.cn,可以找到与教育机构相关的网页。
示例:学校官网 inurl:edu.cn
这样可以找到URL中包含edu.cn且内容与“学校官网”相关的网页。

3. 使用intitle语法

语法格式:intitle:学校名称
限定网页标题中包含“学校名称”,可以更精准地找到学校的官方网站。
示例:intitle:北京大学
这样可以找到标题中包含“北京大学”的网页,通常是其官方网站或相关介绍页面。

4. 综合使用多个语法

语法格式:关键词 site:edu.cn inurl:特定内容
通过组合多个语法,可以更精确地定位目标网站。
示例:招生信息 site:edu.cn inurl:admission
这样可以找到教育机构网站中与“招生信息”相关的页面。

注意事项

域名后缀:国内学校网站通常以.edu.cn结尾,但也有部分学校可能使用其他后缀(如.com.cn等),可以根据需要调整搜索语法。
关键词选择:除了“学校官网”“招生信息”等常见关键词,还可以根据具体需求选择其他关键词,如“学校简介”“校园地图”等。
通过以上语法,可以高效地收集国内学校的网站地址。

使用msray-search提交搜索任务

1. 构造我们需要的关键词

大学 site:edu.cn
学院 site:edu.cn
inurl:edu.cn
intitle:学校简介

2. 批量导入关键词提交任务

我们把上面构造好的关键词复制,粘贴录入到搜索关键词列表,然后选择搜索引擎,如“百度”。然后点击提交任务按钮即可。如图:

alt text

我们可以把同一批关键词,分别使用百度,谷歌等多个引擎去搜索,获取更多的结果。

提交任务后,我们点击执行记录,等待几秒就可以陆续看见执行日志信息了,如图:

alt text

查看与导出结果

采集任务结束后,我们可以在添加任务界面上看见剩余任务数为0。表示已经没有需要执行的任务了。

然后我们点菜单中的结果图标(第3个),即可查看采集结果,如图:

alt text

在这个界面,可以看见我们在很短的时间内,已经采集到了5336条关于学校的网站结果,还不算每个网站的内页哦!

通过构造更多的关键词,就可以获取更多的结果了。

接下来,我们可以点击顶部的导出按钮,把采集到的结果导出为txt或者csv(根据自己的需要选择需要的字段)。如图:

alt text

点击立即导出按钮,结果如图:

alt text

我们查看软件安装目录下的export/20250205213056.csv文件,结果如图:

alt text

训练模型

有了大量学校网址后,我们就可以根据自己的需求与模型功能,对数据格式进行微调后使用了!