网页内容所属语言过滤器
概述
什么是网页所属语言?
网页中的内容,一般有大量的文本信息,而文本可能是某种语言文字。msray-plus可以自动识别到网页中的主体文本内容,然后根据规则自动判断出主体内容是哪一种语言。
注意,程序识别语言的结果为语言的编码,比如cmn代表中文,jpn代表日语。可查询本文的对照表。
运用场景
- 需求实例1:仅采集英文网站。
- 需求实例1:仅采集日语网站。
- 需求实例2:仅采集非中文网站。
使用建议
如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影响效率!当前过滤器对效率的影响程度为:高
界面
3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【网页语言】,如图:

配置说明
【启用状态】:分为“开启”与“关闭”。 只有选择了“启用”,该过滤器才会在方案中生效!
【判断类型】:分为“包含”与”不含“两种。 如果选择包含,则采集结果必须要满足网页语言属于规则值中的某一项内容,才会被存储,否则会被过滤;如果选择不包含,则采集结果必须满足网页语言不属于规则值中的所有内容,才会被存储;
【规则值】:则是设置网页语言中属于或者不属于哪些语言编码。比如:“cmn”、”jpn“;语言编码的对照表,可以查看下文。
规则值需要自行添加配置。可以一个或者多个。可以点击新增,然后输入需要的值,然后回车键或者点击空白地方实现添加,然后点击保存按钮即可保存配置!
备注:创建了过滤器后,就可以在任务引擎参数配置中,指定选择使用我们创建的过滤方案了。
注意
部分网站的文本内容可能太少,主要由图片等构成,这可能一定程度上导致识别网页语言的准确性非百分百!
语言编码对照表
| ISO-639-3 语言代码 | 名称 | Script | Speakers |
|---|---|---|---|
| und | unknown language(未知) | ||
| cmn | Mandarin Chinese(中文) | Han | 885000000 |
| spa | Spanish(西班牙语) | Latin | 332000000 |
| eng | English(英文) | Latin | 322000000 |
| rus | Russian(俄语) | Cyrillic | 288000000 |
| arb | Standard Arabic(阿拉伯语) | Arabic | 280000000 |
| ben | Bengali(孟加拉语) | Bengali | 196000000 |
| hin | Hindi(印地语) | Devanagari | 182000000 |
| por | Portuguese(葡萄牙语) | Latin | 182000000 |
| ind | Indonesian(印度尼西亚语) | Latin | 140000000 |
| jpn | Japanese(日语) | Hiragana, Katakana, and Han | 125000000 |
| fra | French(法语) | Latin | 124000000 |
| deu | German(德语) | Latin | 121000000 |
| jav | Javanese(爪哇语) | Latin | 75500800 |
| kor | Korean(韩语) | Hangul | 75000000 |
| tel | Telugu(泰卢固语) | Telugu | 73000000 |
| vie | Vietnamese(越南语) | Latin | 66897000 |
| mar | Marathi(马拉地语) | Devanagari | 64783000 |
| ita | Italian(意大利语) | Latin | 63000000 |
| tam | Tamil(泰米尔语) | Tamil | 62000000 |
| tur | Turkish(土耳其语) | Latin | 59000000 |
| urd | Urdu(乌尔都语) | Arabic | 54000000 |
| guj | Gujarati(古吉拉特语) | Gujarati | 44000000 |
| pol | Polish(波兰语) | Latin | 44000000 |
| ukr | Ukrainia(乌克兰语) | Cyrillic | 41000000 |
| mai | Maithili(迈蒂利语) | Devanagari | 34700000 |
| mal | Malayalam(马拉雅拉姆语) | Malayalam | 34014000 |
| kan | Kannada(卡纳达语) | Kannada | 33663000 |
| mya | Burmese(缅甸语) | Myanmar | 31000000 |
| ori | Oriya (macrolanguage)(乌兹别克语) | Oriya | 31000000 |
| gax | Borana-Arsi-Guji Oromo(奥罗莫) | Latin | 30000000 |
| swh | Swahili (individual language)(斯瓦希里语) | Latin | 30000000 |
| sun | Sundanese(巽他语) | Latin | 27000000 |
| ron | Romanian(罗马尼亚语) | Latin | 26000000 |
| pan | Panjabi(旁遮普语) | Gurmukhi | 25700000 |
| bho | Bhojpuri(比哈尔语) | Devanagari | 25000000 |
| amh | Amharic(阿姆哈拉语) | Ethiopic | 23000000 |
| fuc | Pulaar(普拉尔语) | Latin | 22000000 |
| hau | Hausa(豪萨语) | Latin | 22000000 |
| bos | Bosnian(波斯尼亚语) | Latin | 21000000 |
| bos | Bosnian(波斯尼亚语) | Cyrillic | 21000000 |
| hrv | Croatian(克罗地亚语) | Latin | 21000000 |
| nld | Dutch(荷兰语) | Latin | 21000000 |
| srp | Serbian(塞尔维亚语) | Latin | 21000000 |
| srp | Serbian(塞尔维亚语) | Cyrillic | 21000000 |
| tha | Thai(泰语) | Thai | 21000000 |
| ckb | Central Kurdish(库尔德语) | Latin | 20000000 |
| yor | Yoruba(约鲁巴语) | Latin | 20000000 |
| uzn | Northern Uzbek(北乌兹别克语) | Latin | 18386000 |
| uzn | Northern Uzbek(北乌兹别克语) | Cyrillic | 18386000 |
| ibo | Igbo(伊博语) | Latin | 17000000 |
| nep | Nepali (macrolanguage)(尼泊尔语) | Devanagari | 16200000 |
| ceb | Cebuano(宿务语) | Latin | 15230000 |
| skr | Seraiki(和塞拉基语) | Arabic | 15020000 |
| tgl | Tagalog(他加禄语) | Latin | 14850000 |
| hun | Hungarian(匈牙利语) | Latin | 14500000 |
| azj | North Azerbaijani(北阿塞拜疆语) | Latin | 13869000 |
| azj | North Azerbaijani(北阿塞拜疆语) | Cyrillic | 13869000 |
| sin | Sinhala(僧伽罗语) | Sinhala | 13218000 |
| ell | Modern Greek (1453-)(现代希腊语) | Greek | 12258540 |
| ces | Czech(捷克语) | Latin | 12000000 |
| mag | Magahi(摩揭陀语) | Devanagari | 10821000 |
| bel | Belarusian(白俄罗斯语) | Cyrillic | 10200000 |
| plt | Plateau Malagasy(马达加斯加语) | Latin | 10156900 |
| mad | Madurese(马都拉语) | Latin | 10000000 |
| nya | Nyanja(尼昂加语) | Latin | 10000000 |
| qug | Chimborazo Highland Quichua(奇楚亚语) | Latin | 10000000 |
| kin | Kinyarwanda(卢旺达语) | Latin | 9306800 |
| zul | Zulu(祖鲁语) | Latin | 9140000 |
| bul | Bulgarian(保加利亚语) | Cyrillic | 9000000 |
| swe | Swedish(瑞典语) | Latin | 9000000 |
| lin | Lingala(林格拉语) | Latin | 8400000 |
| som | Somali(索马里) | Latin | 8335000 |
| hms | Southern Qiandong Miao(黔东苗族) | Latin | 8200000 |
| ilo | Iloko(伊洛卡诺语) | Latin | 8000000 |
| kaz | Kazakh(哈萨克语) | Cyrillic | 8000000 |
| uig | Uighur(维吾尔语) | Latin | 7464000 |
| uig | Uighur(维吾尔语) | Arabic | 7464000 |
| hat | Haitian(海地语) | Latin | 7382000 |
| khm | Central Khmer(高棉语) | Khmer | 7063200 |
| aka | Akan(阿卡语) | Latin | 7000000 |
| aka | Akan(阿卡语) | Latin | 7000000 |
| hil | Hiligaynon(希利盖农语) | Latin | 7000000 |
| pes | Iranian Persian(伊朗波斯语) | Arabic | 7000000 |
| sna | Shona(绍纳语) | Latin | 7000000 |
| tat | Tatar(鞑靼语) | Cyrillic | 7000000 |
| xho | Xhosa(科萨语) | Latin | 6858000 |
| hye | Armenian(亚美尼亚语) | Armenian | 6836000 |
| min | Minangkabau(米南加保) | Latin | 6500000 |
| afr | Afrikaans(南非荷兰语) | Latin | 6365000 |
| lua | Luba-Lulua | Latin | 6300000 |
| sat | Santali(桑塔利语) | Ol_Chiki | 6218900 |
| bod | Tibetan(藏语) | Tibetan | 6150000 |
| tir | Tigrinya(提格里尼亚语) | Ethiopic | 6060000 |
| fin | Finnish(芬兰语) | Latin | 6000000 |
| run | Rundi(塔塔尔语) | Latin | 6000000 |
| slk | Slovak(斯洛伐克语) | Latin | 5606000 |
| tuk | Turkmen(土库曼语) | Latin | 5397500 |
| tuk | Turkmen(土库曼语) | Cyrillic | 5397500 |
| dan | Danish(丹麦语) | Latin | 5292000 |
| als | Tosk Albanian(阿尔巴尼亚语) | Latin | 5000000 |
| nob | Norwegian Bokmål(挪威语) | Latin | 5000000 |
| suk | Sukuma(苏库马语) | Latin | 5000000 |
| sag | Sango(桑戈语) | Latin | 4900000 |
| nno | Norwegian Nynors(新挪威语) | Latin | 4700000 |
| heb | Hebrew(希伯来语) | Hebrew | 4612000 |
| mos | Mossi(莫西语) | Latin | 4600000 |
| tgk | Tajik(塔吉克语) | Cyrillic | 4380000 |
| cat | Catalan(加泰罗尼亚语) | Latin | 4353000 |
| sot | Southern Sotho(南索托语) | Latin | 4197000 |
| kat | Georgian(格鲁吉亚语) | Georgian | 4103000 |
| bcl | Central Bikol(塞尔维亚-克罗地亚语) | Latin | 4000000 |
| glg | Galician(加利西亚语) | Latin | 4000000 |
| lit | Lithuanian(立陶宛语) | Latin | 4000000 |
| lao | Lao(老挝语) | Lao | 4000000 |
| umb | Umbundu(姆邦杜语) | Latin | 4000000 |
| tsn | Tswana(茨瓦纳语) | Latin | 3932000 |
| nso | Pedi | Latin | 3851000 |
| ban | Balinese(巴厘语) | Latin | 3800000 |
| bug | Buginese(巴厘语) | Latin | 3500000 |
| knc | Central Kanuri(翁布里亚语) | Latin | 3500000 |
| ibb | Ibibio(伊比比奥语) | Latin | 3186000 |
| lug | Ganda(干达语) | Latin | 3015980 |
| ace | Achinese(亚齐语) | Latin | 3000000 |
| bam | Bambara(班巴拉语) | Latin | 3000000 |
| kmb | Kimbundu(金邦杜语) | Latin | 3000000 |
| lun | Lunda(隆达语) | Latin | 3000000 |
| tzm | Central Atlas Tamazigh(塔马齐格特语) | Latin | 3000000 |
| war | Waray (Philippines)(菲律宾语) | Latin | 3000000 |
| ydd | Eastern Yiddis(第绪语) | Hebrew | 3000000 |
| wol | Wolof(沃洛夫语) | Latin | 2700000 |
| kir | Kirghiz(吉尔吉斯语) | Cyrillic | 2631420 |
| nds | Low German(低地德语) | Latin | 2600000 |
| mkd | Macedonian(马其顿语) | Cyrillic | 2500000 |
| vmw | Makhuwa(马库阿语) | Latin | 2500000 |
| ewe | Ewe(埃维语) | Latin | 2477600 |
| khk | Halh Mongolian(蒙古语) | Cyrillic | 2330000 |
| slv | Slovenian(斯洛维尼亚语) | Latin | 2218000 |
| ayr | Central Aymara(艾玛拉语) | Latin | 2200000 |
| bem | Bemba (Zambia)(赞比亚语) | Latin | 2150000 |
| emk | Eastern Maninkakan(翁布里亚语) | Latin | 2140300 |
| bci | Baoulé | Latin | 2130000 |
| epo | Esperanto(世界语) | Latin | 2000000 |
| pam | Pampanga(邦板牙语) | Latin | 2000000 |
| tiv | Tiv(提夫人) | Latin | 2000000 |
| tpi | Tok Pisin(皮金语) | Latin | 2000000 |
| ssw | Swati(斯威士语) | Latin | 1670000 |
| nyn | Nyankole(尼扬科勒语) | Latin | 1643193 |
| iii | Sichuan Yi(四川彝族) | Yi | 1600000 |
| yao | Yao(姚语) | Latin | 1597000 |
| lav | Latvian(拉脱维亚语) | Latin | 1550000 |
| quz | Cusco Quechua(库斯科克丘亚语) | Latin | 1500000 |
示例
本次以只采集非中文网站为例:
判断类型: 不含
规则值: cmn
别忘了点击“保存”按钮!