分词

四个包

hanlp原理：

https://github.com/NLP-LOVE/Introduction-NLP

pkuseg：（CRF）

https://arxiv.org/pdf/1906.11455.pdf

https://github.com/lancopku/pkuseg-python

pyltp：

https://pyltp.readthedocs.io/zh_CN/latest/api.html#id6

Thulac：

https://github.com/thunlp/THULAC-Python

1.基于词典：基于字典、词库匹配的分词方法；（字符串匹配、机械分词法）

2.基于统计：基于词频度统计的分词方法；

3.基于规则：基于知识理解的分词方法。

来自< https://blog.csdn.net/chengzheng_hit/article/details/54753361 > 各个分词包用下来pyltp和pyhanlp最好

最长匹配算法（正向最长匹配，逆向最长匹配，双向最长匹配）

字典树：字符串就是一条路径，要查询一个单词，只需顺着这条路径从根节点往下走。如果能走到特殊标记的节点，则说明该字符串在集合中，否则说明不存在。

n元语法（词网，维特比算法）

隐马尔可夫模型（序列标注（中文分词、词性标注以及命名实体识别），{B,M,E,S}）

马尔可夫假设作用于状态序列
初始状态概率向量、状态转移概率矩阵和发射概率矩阵感知机分类与序列标注

条件随机场与序列标注

Previous词典匹配 Next子表达式

Last updated 3 years ago