پرش به مطلب اصلی

网页内容所属语言过滤器

概述

什么是网页所属语言?

网页中的内容,一般有大量的文本信息,而文本可能是某种语言文字。msray-plus可以自动识别到网页中的主体文本内容,然后根据规则自动判断出主体内容是哪一种语言。 注意,程序识别语言的结果为语言的编码,比如cmn代表中文,jpn代表日语。可查询本文的对照表。

运用场景

  • 需求实例1:仅采集英文网站。
  • 需求实例1:仅采集日语网站。
  • 需求实例2:仅采集非中文网站。
使用建议

如非必要,不建议使用任何过滤器。开启过滤器将针对每个结果进行判断操作,消耗更多的时间从而影响效率!当前过滤器对效率的影响程度为:高

界面

3.0.4版本后,过滤器已经不是独立存在了,已经集成到了过滤方案中,所以我们可以在过滤方案中配置。 功能导航: 软件菜单-》【过滤规则配置】-》【新增过滤方案】-》【网页语言】,如图:

网站语言过滤器

配置说明

【启用状态】:分为“开启”与“关闭”。 只有选择了“启用”,该过滤器才会在方案中生效!

【判断类型】:分为“包含”与”不含“两种。 如果选择包含,则采集结果必须要满足网页语言属于规则值中的某一项内容,才会被存储,否则会被过滤;如果选择不包含,则采集结果必须满足网页语言不属于规则值中的所有内容,才会被存储;

【规则值】:则是设置网页语言中属于或者不属于哪些语言编码。比如:“cmn”、”jpn“;语言编码的对照表,可以查看下文。

规则值需要自行添加配置。可以一个或者多个。可以点击新增,然后输入需要的值,然后回车键或者点击空白地方实现添加,然后点击保存按钮即可保存配置!

备注:创建了过滤器后,就可以在任务引擎参数配置中,指定选择使用我们创建的过滤方案了。

注意

部分网站的文本内容可能太少,主要由图片等构成,这可能一定程度上导致识别网页语言的准确性非百分百!

语言编码对照表

ISO-639-3 语言代码名称ScriptSpeakers
undunknown language(未知)
cmnMandarin Chinese(中文)Han885000000
spaSpanish(西班牙语)Latin332000000
engEnglish(英文)Latin322000000
rusRussian(俄语)Cyrillic288000000
arbStandard Arabic(阿拉伯语)Arabic280000000
benBengali(孟加拉语)Bengali196000000
hinHindi(印地语)Devanagari182000000
porPortuguese(葡萄牙语)Latin182000000
indIndonesian(印度尼西亚语)Latin140000000
jpnJapanese(日语)Hiragana, Katakana, and Han125000000
fraFrench(法语)Latin124000000
deuGerman(德语)Latin121000000
javJavanese(爪哇语)Latin75500800
korKorean(韩语)Hangul75000000
telTelugu(泰卢固语)Telugu73000000
vieVietnamese(越南语)Latin66897000
marMarathi(马拉地语)Devanagari64783000
itaItalian(意大利语)Latin63000000
tamTamil(泰米尔语)Tamil62000000
turTurkish(土耳其语)Latin59000000
urdUrdu(乌尔都语)Arabic54000000
gujGujarati(古吉拉特语)Gujarati44000000
polPolish(波兰语)Latin44000000
ukrUkrainia(乌克兰语)Cyrillic41000000
maiMaithili(迈蒂利语)Devanagari34700000
malMalayalam(马拉雅拉姆语)Malayalam34014000
kanKannada(卡纳达语)Kannada33663000
myaBurmese(缅甸语)Myanmar31000000
oriOriya (macrolanguage)(乌兹别克语)Oriya31000000
gaxBorana-Arsi-Guji Oromo(奥罗莫)Latin30000000
swhSwahili (individual language)(斯瓦希里语)Latin30000000
sunSundanese(巽他语)Latin27000000
ronRomanian(罗马尼亚语)Latin26000000
panPanjabi(旁遮普语)Gurmukhi25700000
bhoBhojpuri(比哈尔语)Devanagari25000000
amhAmharic(阿姆哈拉语)Ethiopic23000000
fucPulaar(普拉尔语)Latin22000000
hauHausa(豪萨语)Latin22000000
bosBosnian(波斯尼亚语)Latin21000000
bosBosnian(波斯尼亚语)Cyrillic21000000
hrvCroatian(克罗地亚语)Latin21000000
nldDutch(荷兰语)Latin21000000
srpSerbian(塞尔维亚语)Latin21000000
srpSerbian(塞尔维亚语)Cyrillic21000000
thaThai(泰语)Thai21000000
ckbCentral Kurdish(库尔德语)Latin20000000
yorYoruba(约鲁巴语)Latin20000000
uznNorthern Uzbek(北乌兹别克语)Latin18386000
uznNorthern Uzbek(北乌兹别克语)Cyrillic18386000
iboIgbo(伊博语)Latin17000000
nepNepali (macrolanguage)(尼泊尔语)Devanagari16200000
cebCebuano(宿务语)Latin15230000
skrSeraiki(和塞拉基语)Arabic15020000
tglTagalog(他加禄语)Latin14850000
hunHungarian(匈牙利语)Latin14500000
azjNorth Azerbaijani(北阿塞拜疆语)Latin13869000
azjNorth Azerbaijani(北阿塞拜疆语)Cyrillic13869000
sinSinhala(僧伽罗语)Sinhala13218000
ellModern Greek (1453-)(现代希腊语)Greek12258540
cesCzech(捷克语)Latin12000000
magMagahi(摩揭陀语)Devanagari10821000
belBelarusian(白俄罗斯语)Cyrillic10200000
pltPlateau Malagasy(马达加斯加语)Latin10156900
madMadurese(马都拉语)Latin10000000
nyaNyanja(尼昂加语)Latin10000000
qugChimborazo Highland Quichua(奇楚亚语)Latin10000000
kinKinyarwanda(卢旺达语)Latin9306800
zulZulu(祖鲁语)Latin9140000
bulBulgarian(保加利亚语)Cyrillic9000000
sweSwedish(瑞典语)Latin9000000
linLingala(林格拉语)Latin8400000
somSomali(索马里)Latin8335000
hmsSouthern Qiandong Miao(黔东苗族)Latin8200000
iloIloko(伊洛卡诺语)Latin8000000
kazKazakh(哈萨克语)Cyrillic8000000
uigUighur(维吾尔语)Latin7464000
uigUighur(维吾尔语)Arabic7464000
hatHaitian(海地语)Latin7382000
khmCentral Khmer(高棉语)Khmer7063200
akaAkan(阿卡语)Latin7000000
akaAkan(阿卡语)Latin7000000
hilHiligaynon(希利盖农语)Latin7000000
pesIranian Persian(伊朗波斯语)Arabic7000000
snaShona(绍纳语)Latin7000000
tatTatar(鞑靼语)Cyrillic7000000
xhoXhosa(科萨语)Latin6858000
hyeArmenian(亚美尼亚语)Armenian6836000
minMinangkabau(米南加保)Latin6500000
afrAfrikaans(南非荷兰语)Latin6365000
luaLuba-LuluaLatin6300000
satSantali(桑塔利语)Ol_Chiki6218900
bodTibetan(藏语)Tibetan6150000
tirTigrinya(提格里尼亚语)Ethiopic6060000
finFinnish(芬兰语)Latin6000000
runRundi(塔塔尔语)Latin6000000
slkSlovak(斯洛伐克语)Latin5606000
tukTurkmen(土库曼语)Latin5397500
tukTurkmen(土库曼语)Cyrillic5397500
danDanish(丹麦语)Latin5292000
alsTosk Albanian(阿尔巴尼亚语)Latin5000000
nobNorwegian Bokmål(挪威语)Latin5000000
sukSukuma(苏库马语)Latin5000000
sagSango(桑戈语)Latin4900000
nnoNorwegian Nynors(新挪威语)Latin4700000
hebHebrew(希伯来语)Hebrew4612000
mosMossi(莫西语)Latin4600000
tgkTajik(塔吉克语)Cyrillic4380000
catCatalan(加泰罗尼亚语)Latin4353000
sotSouthern Sotho(南索托语)Latin4197000
katGeorgian(格鲁吉亚语)Georgian4103000
bclCentral Bikol(塞尔维亚-克罗地亚语)Latin4000000
glgGalician(加利西亚语)Latin4000000
litLithuanian(立陶宛语)Latin4000000
laoLao(老挝语)Lao4000000
umbUmbundu(姆邦杜语)Latin4000000
tsnTswana(茨瓦纳语)Latin3932000
nsoPediLatin3851000
banBalinese(巴厘语)Latin3800000
bugBuginese(巴厘语)Latin3500000
kncCentral Kanuri(翁布里亚语)Latin3500000
ibbIbibio(伊比比奥语)Latin3186000
lugGanda(干达语)Latin3015980
aceAchinese(亚齐语)Latin3000000
bamBambara(班巴拉语)Latin3000000
kmbKimbundu(金邦杜语)Latin3000000
lunLunda(隆达语)Latin3000000
tzmCentral Atlas Tamazigh(塔马齐格特语)Latin3000000
warWaray (Philippines)(菲律宾语)Latin3000000
yddEastern Yiddis(第绪语)Hebrew3000000
wolWolof(沃洛夫语)Latin2700000
kirKirghiz(吉尔吉斯语)Cyrillic2631420
ndsLow German(低地德语)Latin2600000
mkdMacedonian(马其顿语)Cyrillic2500000
vmwMakhuwa(马库阿语)Latin2500000
eweEwe(埃维语)Latin2477600
khkHalh Mongolian(蒙古语)Cyrillic2330000
slvSlovenian(斯洛维尼亚语)Latin2218000
ayrCentral Aymara(艾玛拉语)Latin2200000
bemBemba (Zambia)(赞比亚语)Latin2150000
emkEastern Maninkakan(翁布里亚语)Latin2140300
bciBaouléLatin2130000
epoEsperanto(世界语)Latin2000000
pamPampanga(邦板牙语)Latin2000000
tivTiv(提夫人)Latin2000000
tpiTok Pisin(皮金语)Latin2000000
sswSwati(斯威士语)Latin1670000
nynNyankole(尼扬科勒语)Latin1643193
iiiSichuan Yi(四川彝族)Yi1600000
yaoYao(姚语)Latin1597000
lavLatvian(拉脱维亚语)Latin1550000
quzCusco Quechua(库斯科克丘亚语)Latin1500000

示例

本次以只采集非中文网站为例:

判断类型: 不含

规则值: cmn

别忘了点击“保存”按钮!