词频分析优化
前面我们用到的是jieba的关键词做词频分析。
但是关键词中有一些不太能体现问题的词,比如手机词频分析时:手机,很好,点赞等
无法从这些词中发现有价值的信息。因此需要从词频中把他们移除。
另外也需要对句子做一些预处理。
移除价值低的词语
我们的做法是自定义词库dict,将这些词的词频设为 0. 例如
手机 0 很好 0 赞 0
加载自定义词库的Code:
jieba.load_userdict("../analysis/jieba_dict.txt") # 自定义词典
import jieba.analyse
句子预处理
我们做了下面的预处理:去除文本中的中文符号,英文符号和数字
content = open(filename, 'rb').read()
content = content.decode("utf8")
# 去除文本中的中文符号和英文符号
content = re.sub("[\s+\.\!\:\/_,$%^*(+\"\']+|[+——!,。??、~@#¥%……&*()]+".decode("utf8"),
"".decode("utf8"), content)
# 去除数字
content = re.sub("\d+", "", content)
data = jieba.analyse.extract_tags(content, topK=TOPK, withWeight=True)
Github源码下载地址,点击这里