jieba的主要功能
1.主要用于中文文本切词,如果碰到英文单词,也会以英文的默认形式切分
2.可以使用collections中的Counter对切词后的list进行一个topN操作获取最频繁词
3.提取关键词,提供了tf-idf和TextRank
# 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式
# jieba.cut(cutall=Flase, HMM=)
# HMM表示是否使用HMM模型识别未登录的词,默认为Flase
# 精确模式,能解决歧义,把文本精确的分词
# 动态增加和删除词典
jieba.del_word("最强") cut = jieba.cut(s)
print ','.join(cut)
我,喜欢,看,最强大脑
# TF-IDF
# jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
# –sentence 为待提取的文本
# –topK 为返回几个 TF*IDF 权重最大的关键词,默认值为 20
# –withWeight 为是否一并返回关键词权重值,默认值为 False
# –allowPOS 仅包括指定词性的词,默认值为空,即不筛选
# extract_tags方法是通过计算tf*idf返回关键词权重,其中 # tf为sentence中的词频
爱, v
北京, ns
天安门, ns