引言
“结巴”分词是一个Python 中文分词组件,参见https://github.com/fxsjy/jieba
可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。
本文包括以下内容:
1、jieba分词包的安装
2、jieba分词的使用教程
3、jieba分词的工作原理与工作流程
4、jieba分词所涉及到的HMM、TextRank、TF-IDF等算法介绍
由于原文图文较多, 不方便转载,但是又是好文章,仅转载了标题和简介,阅读请在原文网址阅读
作者:尘嚣看客
链接:https://www.jianshu.com/p/2cccb07d9a4e
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
发表评论 取消回复