网页内容所属语言过滤器
概述
什么是网页所属语言?
网页中的内容,一般有大量的文本信息,而文本可能是某种语言文字。msray-plus可以自动识别到网页中的主体文本内容,然后根据规则自动判断出主体内容是哪一种语言。
注意,程序识别语言的结果为语言的编码,比如cmn
代表中文,jpn
代表日语。可查询本文的对照表。
运用场景
- 需求实例1:仅采集英文网站。
- 需求实例1:仅采集日语网站。
- 需求实例2:仅采集非中文网站。
使用建议
如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影 响效率!当前过滤器对效率的影响程度为:高
界面
3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【网页语言】,如图:
配置说明
【启用状态】:分为“开启”与“关闭”。 只有选择了“启用”,该过滤器才会在方案中生效!
【判断类型】:分为“包含”与”不含“两种。 如果选择包含,则采集结果必须要满足网页语言属于规则值中的某一项内容,才会被存储,否则会被过滤;如果选择不包含,则采集结果必须满足网页语言不属于规则值中的所有内容,才会被存储;
【规则值】:则是设置网页语言中属于或者不属于哪些语言编码。比如:“cmn”、”jpn“;语言编码的对照表,可以查看下文。
规则值需要自行添加配置。可以一个或者多个。可以点击新增
,然后输入需要的值,然后回车键
或者点击空白地方
实现添加,然后点击保存按钮
即可保存配置!
备注:创建了过滤器后,就可以在任务引擎参数配置中,指定选择使用我们创建的过滤方案了。
注意
部分网站的文本内容可能太少,主要由图片等构成,这可能一定程度上导致识别网页语言的准确性非百分百!
语言编码对照表
ISO-639-3 语言代码 | 名称 | Script | Speakers |
---|---|---|---|
und | unknown language(未知) | ||
cmn | Mandarin Chinese(中文) | Han | 885000000 |
spa | Spanish(西班牙语) | Latin | 332000000 |
eng | English(英文) | Latin | 322000000 |
rus | Russian(俄语) | Cyrillic | 288000000 |
arb | Standard Arabic(阿拉伯语) | Arabic | 280000000 |
ben | Bengali(孟加拉语) | Bengali | 196000000 |
hin | Hindi(印地语) | Devanagari | 182000000 |
por | Portuguese(葡萄牙语) | Latin | 182000000 |
ind | Indonesian(印度尼西亚语) | Latin | 140000000 |
jpn | Japanese(日语) | Hiragana, Katakana, and Han | 125000000 |
fra | French(法语) | Latin | 124000000 |
deu | German(德语) | Latin | 121000000 |
jav | Javanese(爪哇语) | Latin | 75500800 |
kor | Korean(韩语) | Hangul | 75000000 |
tel | Telugu(泰卢固语) | Telugu | 73000000 |
vie | Vietnamese(越南语) | Latin | 66897000 |
mar | Marathi(马拉地语) | Devanagari | 64783000 |
ita | Italian(意大利语) | Latin | 63000000 |
tam | Tamil(泰米尔语) | Tamil | 62000000 |
tur | Turkish(土耳其语) | Latin | 59000000 |
urd | Urdu(乌尔都语) | Arabic | 54000000 |
guj | Gujarati(古吉拉特语) | Gujarati | 44000000 |
pol | Polish(波兰语) | Latin | 44000000 |
ukr | Ukrainia(乌克兰语) | Cyrillic | 41000000 |
mai | Maithili(迈蒂利语) | Devanagari | 34700000 |
mal | Malayalam(马拉雅拉姆语) | Malayalam | 34014000 |
kan | Kannada(卡纳达语) | Kannada | 33663000 |
mya | Burmese(缅甸语) | Myanmar | 31000000 |
ori | Oriya (macrolanguage)(乌兹别克语) | Oriya | 31000000 |
gax | Borana-Arsi-Guji Oromo(奥罗莫) | Latin | 30000000 |
swh | Swahili (individual language)(斯瓦希里语) | Latin | 30000000 |
sun | Sundanese(巽他语) | Latin | 27000000 |
ron | Romanian(罗马尼亚语) | Latin | 26000000 |
pan | Panjabi(旁遮普语) | Gurmukhi | 25700000 |
bho | Bhojpuri(比哈尔语) | Devanagari | 25000000 |
amh | Amharic(阿姆哈拉语) | Ethiopic | 23000000 |
fuc | Pulaar(普拉尔语) | Latin | 22000000 |
hau | Hausa(豪萨语) | Latin | 22000000 |
bos | Bosnian(波斯尼亚语) | Latin | 21000000 |
bos | Bosnian(波斯尼亚语) | Cyrillic | 21000000 |
hrv | Croatian(克罗地亚语) | Latin | 21000000 |
nld | Dutch(荷兰语) | Latin | 21000000 |
srp | Serbian(塞尔维亚语) | Latin | 21000000 |
srp | Serbian(塞尔维亚语) | Cyrillic | 21000000 |
tha | Thai(泰语) | Thai | 21000000 |
ckb | Central Kurdish(库尔德语) | Latin | 20000000 |
yor | Yoruba(约鲁巴语) | Latin | 20000000 |
uzn | Northern Uzbek(北乌兹别克语) | Latin | 18386000 |
uzn | Northern Uzbek(北乌兹别克语) | Cyrillic | 18386000 |
ibo | Igbo(伊博语) | Latin | 17000000 |
nep | Nepali (macrolanguage)(尼泊尔语) | Devanagari | 16200000 |
ceb | Cebuano(宿务语) | Latin | 15230000 |
skr | Seraiki(和塞拉基语) | Arabic | 15020000 |
tgl | Tagalog(他加禄语) | Latin | 14850000 |
hun | Hungarian(匈牙利语) | Latin | 14500000 |
azj | North Azerbaijani(北阿塞拜疆语) | Latin | 13869000 |
azj | North Azerbaijani(北阿塞拜疆语) | Cyrillic | 13869000 |
sin | Sinhala(僧伽罗语) | Sinhala | 13218000 |
ell | Modern Greek (1453-)(现代希腊语) | Greek | 12258540 |
ces | Czech(捷克语) | Latin | 12000000 |
mag | Magahi(摩揭陀语) | Devanagari | 10821000 |
bel | Belarusian(白俄罗斯语) | Cyrillic | 10200000 |
plt | Plateau Malagasy(马达加斯加语) | Latin | 10156900 |
mad | Madurese(马都拉语) | Latin | 10000000 |
nya | Nyanja(尼昂加语) | Latin | 10000000 |
qug | Chimborazo Highland Quichua(奇楚亚语) | Latin | 10000000 |
kin | Kinyarwanda(卢旺达语) | Latin | 9306800 |
zul | Zulu(祖鲁语) | Latin | 9140000 |
bul | Bulgarian(保加利亚语) | Cyrillic | 9000000 |
swe | Swedish(瑞典语) | Latin | 9000000 |
lin | Lingala(林格拉语) | Latin | 8400000 |
som | Somali(索马里) | Latin | 8335000 |
hms | Southern Qiandong Miao(黔东苗族) | Latin | 8200000 |
ilo | Iloko(伊洛卡诺语) | Latin | 8000000 |
kaz | Kazakh(哈萨克语) | Cyrillic | 8000000 |
uig | Uighur(维吾尔语) | Latin | 7464000 |
uig | Uighur(维吾尔语) | Arabic | 7464000 |
hat | Haitian(海地语) | Latin | 7382000 |
khm | Central Khmer(高棉语) | Khmer | 7063200 |
aka | Akan(阿卡语) | Latin | 7000000 |
aka | Akan(阿卡语) | Latin | 7000000 |
hil | Hiligaynon(希利盖农语) | Latin | 7000000 |
pes | Iranian Persian(伊朗波斯语) | Arabic | 7000000 |
sna | Shona(绍纳语) | Latin | 7000000 |
tat | Tatar(鞑靼语) | Cyrillic | 7000000 |
xho | Xhosa(科萨语) | Latin | 6858000 |
hye | Armenian(亚美尼亚语) | Armenian | 6836000 |
min | Minangkabau(米南加保) | Latin | 6500000 |
afr | Afrikaans(南非荷兰语) | Latin | 6365000 |
lua | Luba-Lulua | Latin | 6300000 |
sat | Santali(桑塔利语) | Ol_Chiki | 6218900 |
bod | Tibetan(藏语) | Tibetan | 6150000 |
tir | Tigrinya(提格里尼亚语) | Ethiopic | 6060000 |
fin | Finnish(芬兰语) | Latin | 6000000 |
run | Rundi(塔塔尔语) | Latin | 6000000 |
slk | Slovak(斯洛伐克语) | Latin | 5606000 |
tuk | Turkmen(土库曼语) | Latin | 5397500 |
tuk | Turkmen(土库曼语) | Cyrillic | 5397500 |
dan | Danish(丹麦语) | Latin | 5292000 |
als | Tosk Albanian(阿尔巴尼亚语) | Latin | 5000000 |
nob | Norwegian Bokmål(挪威语) | Latin | 5000000 |
suk | Sukuma(苏库马语) | Latin | 5000000 |
sag | Sango(桑戈语) | Latin | 4900000 |
nno | Norwegian Nynors(新挪威语) | Latin | 4700000 |
heb | Hebrew( 希伯来语) | Hebrew | 4612000 |
mos | Mossi(莫西语) | Latin | 4600000 |
tgk | Tajik(塔吉克语) | Cyrillic | 4380000 |
cat | Catalan(加泰罗尼亚语) | Latin | 4353000 |
sot | Southern Sotho(南索托语) | Latin | 4197000 |
kat | Georgian(格鲁吉亚语) | Georgian | 4103000 |
bcl | Central Bikol(塞尔维亚-克罗地亚语) | Latin | 4000000 |
glg | Galician(加利西亚语) | Latin | 4000000 |
lit | Lithuanian(立陶宛语) | Latin | 4000000 |
lao | Lao(老挝语) | Lao | 4000000 |
umb | Umbundu(姆邦杜语) | Latin | 4000000 |
tsn | Tswana(茨瓦纳语) | Latin | 3932000 |
nso | Pedi | Latin | 3851000 |
ban | Balinese(巴厘语) | Latin | 3800000 |
bug | Buginese(巴厘语) | Latin | 3500000 |
knc | Central Kanuri(翁布里亚语) | Latin | 3500000 |
ibb | Ibibio(伊比比奥语) | Latin | 3186000 |
lug | Ganda(干达语) | Latin | 3015980 |
ace | Achinese(亚齐语) | Latin | 3000000 |
bam | Bambara(班巴拉语) | Latin | 3000000 |
kmb | Kimbundu(金邦杜语) | Latin | 3000000 |
lun | Lunda(隆达语) | Latin | 3000000 |
tzm | Central Atlas Tamazigh(塔马齐格特语) | Latin | 3000000 |
war | Waray (Philippines)(菲律宾语) | Latin | 3000000 |
ydd | Eastern Yiddis(第绪语) | Hebrew | 3000000 |
wol | Wolof(沃洛夫语) | Latin | 2700000 |
kir | Kirghiz(吉尔吉斯语) | Cyrillic | 2631420 |
nds | Low German(低地德语) | Latin | 2600000 |
mkd | Macedonian(马其顿语) | Cyrillic | 2500000 |
vmw | Makhuwa(马库阿语) | Latin | 2500000 |
ewe | Ewe(埃维语) | Latin | 2477600 |
khk | Halh Mongolian(蒙古语) | Cyrillic | 2330000 |
slv | Slovenian(斯洛维尼亚语) | Latin | 2218000 |
ayr | Central Aymara(艾玛拉语) | Latin | 2200000 |
bem | Bemba (Zambia)(赞比亚语) | Latin | 2150000 |
emk | Eastern Maninkakan(翁布里亚语) | Latin | 2140300 |
bci | Baoulé | Latin | 2130000 |
epo | Esperanto(世界语) | Latin | 2000000 |
pam | Pampanga(邦板牙语) | Latin | 2000000 |
tiv | Tiv(提夫人) | Latin | 2000000 |
tpi | Tok Pisin(皮金语) | Latin | 2000000 |
ssw | Swati(斯威士语) | Latin | 1670000 |
nyn | Nyankole(尼扬科勒语) | Latin | 1643193 |
iii | Sichuan Yi(四川彝族) | Yi | 1600000 |
yao | Yao(姚语) | Latin | 1597000 |
lav | Latvian(拉脱维亚语) | Latin | 1550000 |
quz | Cusco Quechua(库斯科克丘亚语) | Latin | 1500000 |
示例
本次以只采集非中文网站为例:
判断类型: 不含
规则值: cmn
别忘了点击“保存”按钮!