CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?( 二 )


CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
另外 , 非常明显 , 评论字段缺失了很多 。我查看了一下 , 认为是在这个网站观看过电影的人可以只打分 , 不写评论 。(有点像在猫眼上买了电影票 , 评论时候同样可以只打分 , 不写评论) 简单补齐它吧 , 直接删除还是会影响整体的评分的 。def data_cleaning(df): cols = df.columns for col in cols: if df[col].dtype == 'object': df[col].fillna('缺失数据', inplace = True) else: df[col].fillna(0, inplace = True) return(df)这样我们就补全了缺失值 。简单看一下平均分吧:
CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
看来这就是韩国观众的打分(9.07)比网民对《寄生虫》虫的评价(8.48)要高 。这与国内的情况也是相似的 , 同一部电影猫眼淘票票的分数普遍比豆瓣上要高 。毕竟真金白银去看电影的人 , 肯定会认为它是一部好片子才去看 。只要不像被《爱情公墓》一样诈骗 , 基本观众的分数不会太低 。后面想讲韩国网友的评论做一个词云 , 这样的话我们就需要先将评论中的韩文翻译成中文 。
翻译评论采用哪个翻译软件呢? 尝试了几个常见的翻译 , 发现结果都大同小异 。
CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
干脆采用了之前自己用过的有道翻译小接口 。def translate(text): url = 'http://fanyi.youdao.com/translate?&doctype=json&type=KR2ZH_CN&i='+ text requ_text = requests.get(url) json_text = requ_text.json data = http://news.hoteastday.com/a/json_text['translateResult'][0][0]['tgt'] time.sleep(2+random.random) print('翻译中') return data将评论列翻译 , 并新建一列用以做词云:ata['text_t'] = data.apply(lambda x :translate(x['text']), axis=1)运行结果:
CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
额 , 这个翻译一言难尽 , 不过大体意思还是可以看懂的 , 不太影响做词云 。接下来我们开始尝试做做图 。分析与可视化正常利用python分析电影评论都有一个环节是男女比例和评分比例 , 这次我们并没有获得相关数据 , 那么就用NAVER网站提供的结果图简单的讲一下吧 。
CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
观看人群的性别比例非常均衡 , 各占50% 。各年龄段均有分布 , 其中[20 , 30)的观看人群最多 。 为什么10-20岁的青少年观看这么少呢?后面词云部分会回答这个问题 。
CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
在上图普通网民的评价中 , 女性评分更高一些 。 随着年龄的增长 , 评分越低 , 难道是越是年龄大的人越看透了韩国的现状? 他们主要的欣赏点依次是“导演”、“??”、“故事”、“视觉效果”、“电影原声” 。(其中的“??”用翻译软件都是翻译成烟 , 难道是特效的意思?懂韩文的同学可以留言一下)
CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
至于看过电影的观众打分比普通网民会高 , 平均9.07分 , 而且男性比女性要略高 。 其他方面大体相似 , 就不讲了 。我们再看一下 , 韩国观众对电影《寄生虫》评论数量的时间走势 。


推荐阅读