CSDN■用Python爬取3万多条评论，看韩国人如何评价电影《寄生虫》？( 二 )

本文插图
另外，非常明显，评论字段缺失了很多。我查看了一下，认为是在这个网站观看过电影的人可以只打分，不写评论。（有点像在猫眼上买了电影票，评论时候同样可以只打分，不写评论）简单补齐它吧，直接删除还是会影响整体的评分的。def data_cleaning(df): cols = df.columns for col in cols: if df[col].dtype == 'object': df[col].fillna('缺失数据', inplace = True) else: df[col].fillna(0, inplace = True) return(df)这样我们就补全了缺失值。简单看一下平均分吧：

本文插图
看来这就是韩国观众的打分（9.07）比网民对《寄生虫》虫的评价（8.48）要高。这与国内的情况也是相似的，同一部电影猫眼淘票票的分数普遍比豆瓣上要高。毕竟真金白银去看电影的人，肯定会认为它是一部好片子才去看。只要不像被《爱情公墓》一样诈骗，基本观众的分数不会太低。后面想讲韩国网友的评论做一个词云，这样的话我们就需要先将评论中的韩文翻译成中文。
翻译评论采用哪个翻译软件呢？尝试了几个常见的翻译，发现结果都大同小异。

本文插图
干脆采用了之前自己用过的有道翻译小接口。def translate(text): url = 'http://fanyi.youdao.com/translate?&doctype=json&type=KR2ZH_CN&i='+ text requ_text = requests.get(url) json_text = requ_text.json data = http://news.hoteastday.com/a/json_text['translateResult'][0][0]['tgt'] time.sleep(2+random.random) print('翻译中') return data将评论列翻译，并新建一列用以做词云：ata['text_t'] = data.apply(lambda x :translate(x['text']), axis=1)运行结果：

本文插图
额，这个翻译一言难尽，不过大体意思还是可以看懂的，不太影响做词云。接下来我们开始尝试做做图。分析与可视化正常利用python分析电影评论都有一个环节是男女比例和评分比例，这次我们并没有获得相关数据，那么就用NAVER网站提供的结果图简单的讲一下吧。

本文插图
观看人群的性别比例非常均衡，各占50% 。各年龄段均有分布，其中[20 ， 30）的观看人群最多。为什么10-20岁的青少年观看这么少呢？后面词云部分会回答这个问题。

本文插图
在上图普通网民的评价中，女性评分更高一些。随着年龄的增长，评分越低，难道是越是年龄大的人越看透了韩国的现状？他们主要的欣赏点依次是“导演”、“??”、“故事”、“视觉效果”、“电影原声” 。（其中的“??”用翻译软件都是翻译成烟，难道是特效的意思？懂韩文的同学可以留言一下）

本文插图
至于看过电影的观众打分比普通网民会高，平均9.07分，而且男性比女性要略高。其他方面大体相似，就不讲了。我们再看一下，韩国观众对电影《寄生虫》评论数量的时间走势。

CSDN■用Python爬取3万多条评论，看韩国人如何评价电影《寄生虫》？( 二 )

推荐阅读

「约吗旅行」和中国第一滩是邻居！传说在此洗澡还能长命百岁，广东超美情侣山

她是赵丽颖替身，趁赵丽颖怀孕时疯狂接戏，如今30岁2人平起平坐

球蛋白高是怎么回事

青年|王者荣耀：李信神魔皮肤特效曝光，碎片商城更新！

梁洛施|曝梁洛施不学李靓蕾闹3个原因：得到钱感恩，为孩子考虑，有事业忙

孩子出现这5个行为，说明是在向你“求救”，可能已出现心理问题

小便频繁是怎么了？

[孩子]熊孩子又被卡头了！这次是这里

「视觉美学」却给她的腰开了窗，把T恤扎起穿巨撩人，上帝虽放弃了程潇的腿

小小白说军事5月12日全球军事：伊朗军舰遭自家导弹命中致19人死亡

劲炫|长安CS55是性价比之王？新劲炫表示不服

合并|中国人寿3日暴涨27%！合并传言威力大，国寿澄清传言不实！

英雄联盟|TheShy直播透露，就算退役也在LPL结束！肉鸡明年是最后一年！

肝脏不好有什么症状

台湾|台湾春晚太奇葩：劣迹艺人罗志祥受热捧林志玲日本老公压轴

新津科协嘿！你遇到麻烦了？

火龙果红心和白心区别是什么？

哺乳期奶结是什么症状？

本科在武汉华科读机械，和北京清华读，上海上交读机械，差距在哪里

老民警挺身而出解救轻生女孩