jieba分词

jieba的主要功能

1.主要用于中文文本切词,如果碰到英文单词,也会以英文的默认形式切分

2.可以使用collections中的Counter对切词后的list进行一个topN操作获取最频繁词

3.提取关键词,提供了tf-idf和TextRank

# 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式 

# jieba.cut(cutall=Flase, HMM=) 

# HMM表示是否使用HMM模型识别未登录的词,默认为Flase 

# 精确模式,能解决歧义,把文本精确的分词

# 动态增加和删除词典 

 jieba.del_word("最强") cut = jieba.cut(s)

 print ','.join(cut)

 我,喜欢,看,最强大脑

# TF-IDF 

# jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) 

# –sentence 为待提取的文本 

# –topK 为返回几个 TF*IDF 权重最大的关键词,默认值为 20 

# –withWeight 为是否一并返回关键词权重值,默认值为 False 

# –allowPOS 仅包括指定词性的词,默认值为空,即不筛选 

# extract_tags方法是通过计算tf*idf返回关键词权重,其中 # tf为sentence中的词频

爱, v

北京, ns

天安门, ns

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Captcha Code