舆情分析 - 词频分析优化

Posted on By Vivian Sun

词频分析优化

前面我们用到的是jieba的关键词做词频分析。

但是关键词中有一些不太能体现问题的词,比如手机词频分析时:手机,很好,点赞等

无法从这些词中发现有价值的信息。因此需要从词频中把他们移除。

另外也需要对句子做一些预处理。

移除价值低的词语

我们的做法是自定义词库dict,将这些词的词频设为 0. 例如

手机 0 很好 0 赞 0

加载自定义词库的Code:

jieba.load_userdict("../analysis/jieba_dict.txt")  # 自定义词典
import jieba.analyse

句子预处理

我们做了下面的预处理:去除文本中的中文符号,英文符号和数字

    content = open(filename, 'rb').read()
    content = content.decode("utf8")
    # 去除文本中的中文符号和英文符号
    content = re.sub("[\s+\.\!\:\/_,$%^*(+\"\']+|[+——!,。??、~@#¥%……&*()]+".decode("utf8"),
                     "".decode("utf8"), content)
    # 去除数字
    content = re.sub("\d+", "", content)
    data = jieba.analyse.extract_tags(content, topK=TOPK, withWeight=True)

Github源码下载地址,点击这里