分词
四个包
hanlp原理:
https://github.com/NLP-LOVE/Introduction-NLP
pkuseg:(CRF)
https://arxiv.org/pdf/1906.11455.pdf
https://github.com/lancopku/pkuseg-python
pyltp:
https://pyltp.readthedocs.io/zh_CN/latest/api.html#id6
Thulac:
https://github.com/thunlp/THULAC-Python
1.基于词典:基于字典、词库匹配的分词方法;(字符串匹配、机械分词法)
2.基于统计:基于词频度统计的分词方法;
3.基于规则:基于知识理解的分词方法。
来自< https://blog.csdn.net/chengzheng_hit/article/details/54753361 > 各个分词包用下来pyltp和pyhanlp最好
最长匹配算法(正向最长匹配,逆向最长匹配,双向最长匹配)
字典树:字符串就是一条路径,要查询一个单词,只需顺着这条路径从根节点往下走。如果能走到特殊标记的节点,则说明该字符串在集合中,否则说明不存在。
n元语法(词网,维特比算法)
隐马尔可夫模型(序列标注(中文分词、词性标注以及命名实体识别),{B,M,E,S})
马尔可夫假设作用于状态序列
初始状态概率向量、状态转移概率矩阵和发射概率矩阵 感知机分类与序列标注
条件随机场与序列标注
Last updated
Was this helpful?