用python进行语言检测

最近正好碰到这个需求,总结一下用Python进行语言检测的方法。

1.用unicode编码检测

汉字、韩文、日文等都有对应的unicode字符集范围,只要用正则表达式匹配出来即可。

在判断的时候,往往需要去掉一些特殊字符,例如中英文标点符号。可以用下列方法去除:

# 方法一,自定义需要去掉的标点符号,注意这个字符串的首尾出现的[]不是标点符号'[]',而是正则表达式中的中括号,表示定义匹配的字符范围
remove_nota = u'[’·°–!"#$%&\'()*+,-./:;<=>?@,。?★、…【】()《》?“”‘’![\\]^_`{|}~]+'
sentence = '测试。,[].?'
print(re.sub(remove_nota, '', sentence))

# 方法二,只能去掉英文标点符号
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
print(sentence.translate(remove_punctuation_map))

输出:

测试
测试。,

还可以把数字也去掉:

# 方法一
sentence = re.sub('[0-9]', '', sentence).strip()

# 方法二
remove_digits = str.maketrans('', '', string.digits)
sentence = sentence.translate(remove_digits)

然后就可以进行语言检测了。

这里的思路是匹配句子的相应语言字符,然后替换掉,如果替换后字符串为空,表示这个句子是纯正的该语言(即不掺杂其它语言)。也可以用正则表达式查询出句子中属于该语言的字符

输出:

匹配英文用u"[a-zA-Z]"

中文用u"[\u4e00-\u9fa5]+"

韩文用u"[\uac00-\ud7ff]+"

日文用u"[\u30a0-\u30ff\u3040-\u309f]+" (包括平假名和片假名)

如果想只保留需要的内容,比如保留中英文及数字:

完整代码:

这里的judge_language函数实现的功能是:针对一个字符串,返回其所属语种,如果存在多种语言,则返回多种语种(只能检测出中日英韩)

测试一下效果:

输出:

因为s2中包括了汉字,所以输出结果中有zh。

2.用工具包检测

(1)langdetect

输出:

emmm...最后一句话识别的不准

(2)langid

输出:

两个包都把最后一句话识别成了英文,他们给出的结果都是ISO 639-1标准的语言代码。

再来看几个其他语言的例子:

输出:

法语没判断出来。langdetect的判断结果依旧比较离谱...

没事可以多玩玩这两个包,O(∩_∩)O哈哈~

参考资料:

https://blog.csdn.net/gatieme/article/details/43235791

https://blog.csdn.net/quiet_girl/article/details/79653037

Last updated

Was this helpful?