用python进行语言检测
最近正好碰到这个需求,总结一下用Python进行语言检测的方法。
1.用unicode编码检测
汉字、韩文、日文等都有对应的unicode字符集范围,只要用正则表达式匹配出来即可。
在判断的时候,往往需要去掉一些特殊字符,例如中英文标点符号。可以用下列方法去除:
# 方法一,自定义需要去掉的标点符号,注意这个字符串的首尾出现的[]不是标点符号'[]',而是正则表达式中的中括号,表示定义匹配的字符范围
remove_nota = u'[’·°–!"#$%&\'()*+,-./:;<=>?@,。?★、…【】()《》?“”‘’![\\]^_`{|}~]+'
sentence = '测试。,[].?'
print(re.sub(remove_nota, '', sentence))
# 方法二,只能去掉英文标点符号
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
print(sentence.translate(remove_punctuation_map))输出:
测试
测试。,还可以把数字也去掉:
# 方法一
sentence = re.sub('[0-9]', '', sentence).strip()
# 方法二
remove_digits = str.maketrans('', '', string.digits)
sentence = sentence.translate(remove_digits)然后就可以进行语言检测了。
这里的思路是匹配句子的相应语言字符,然后替换掉,如果替换后字符串为空,表示这个句子是纯正的该语言(即不掺杂其它语言)。也可以用正则表达式查询出句子中属于该语言的字符
输出:
匹配英文用u"[a-zA-Z]"
中文用u"[\u4e00-\u9fa5]+"
韩文用u"[\uac00-\ud7ff]+"
日文用u"[\u30a0-\u30ff\u3040-\u309f]+" (包括平假名和片假名)
如果想只保留需要的内容,比如保留中英文及数字:
完整代码:
这里的judge_language函数实现的功能是:针对一个字符串,返回其所属语种,如果存在多种语言,则返回多种语种(只能检测出中日英韩)
测试一下效果:
输出:
因为s2中包括了汉字,所以输出结果中有zh。
2.用工具包检测
(1)langdetect
输出:
emmm...最后一句话识别的不准
(2)langid
输出:
两个包都把最后一句话识别成了英文,他们给出的结果都是ISO 639-1标准的语言代码。
再来看几个其他语言的例子:
输出:
法语没判断出来。langdetect的判断结果依旧比较离谱...
没事可以多玩玩这两个包,O(∩_∩)O哈哈~
参考资料:
Last updated
Was this helpful?