分词
Last updated
Was this helpful?
Last updated
Was this helpful?
四个包
hanlp原理:
pkuseg:(CRF)
pyltp:
Thulac:
1.基于词典:基于字典、词库匹配的分词方法;(字符串匹配、机械分词法)
2.基于统计:基于词频度统计的分词方法;
3.基于规则:基于知识理解的分词方法。
来自< > 各个分词包用下来pyltp和pyhanlp最好
最长匹配算法(正向最长匹配,逆向最长匹配,双向最长匹配)
字典树:字符串就是一条路径,要查询一个单词,只需顺着这条路径从根节点往下走。如果能走到特殊标记的节点,则说明该字符串在集合中,否则说明不存在。
n元语法(词网,维特比算法)
隐马尔可夫模型(序列标注(中文分词、词性标注以及命名实体识别),{B,M,E,S})
马尔可夫假设作用于状态序列
初始状态概率向量、状态转移概率矩阵和发射概率矩阵 感知机分类与序列标注
条件随机场与序列标注