jieba的主要功能

1.主要用于中文文本切词，如果碰到英文单词，也会以英文的默认形式切分

2.可以使用collections中的Counter对切词后的list进行一个topN操作获取最频繁词

3.提取关键词，提供了tf-idf和TextRank

# 结巴分词分为三种模式：精确模式（默认）、全模式和搜索引擎模式

# jieba.cut(cutall=Flase, HMM=)

# HMM表示是否使用HMM模型识别未登录的词，默认为Flase

# 精确模式,能解决歧义，把文本精确的分词

# 动态增加和删除词典

jieba.del_word("最强") cut = jieba.cut(s)

print ','.join(cut)

# TF-IDF

# jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

# –sentence 为待提取的文本

# –topK 为返回几个 TF*IDF 权重最大的关键词，默认值为 20

# –withWeight 为是否一并返回关键词权重值，默认值为 False

# –allowPOS 仅包括指定词性的词，默认值为空，即不筛选

# extract_tags方法是通过计算tf*idf返回关键词权重，其中 # tf为sentence中的词频

爱, v

北京, ns

天安门, ns