数说两会|1978年到2019年政府工作报告关键词盘点( 二 )

数说两会|1978年到2019年政府工作报告关键词盘点//www.jiangsulong.com//本文由热心网友[9615feasss] 投稿。来源是:澎湃新闻

数说两会|1978年到2019年政府工作报告关键词盘点

  有些词虽然在《政府工作报告》里出现频率相对较少,但是它们首次出现的时间点都反映了当年中国人关注的热点问题。

数说两会|1978年到2019年政府工作报告关键词盘点//www.jiangsulong.com//本文由热心网友[9615feasss] 投稿。来源是:澎湃新闻

数说两会|1978年到2019年政府工作报告关键词盘点

  分析方法:
1 本文所有原始文本材料来自中国政府网1978年至2019年政府工作报告。
2 本文使用jieba分词(https://github.com/fxsjy/jieba/)。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。
3 为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。
4 在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2019年政府工作报告文本。
5 涉及合并的词语:反腐包括了反腐倡廉、反腐败、腐败、反腐;城镇包括了城市、城镇;雾霾包括了PM2.5、雾霾。


推荐阅读