CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?
本文插图
作者 | 朱小五
责编 | 郭 芮 今天给大家带来一个关于电影的数据分析文章 。 别走啊 , 这次不是豆瓣 , 也不是猫眼——真的 , 今天分析的电影是韩国电影《寄生虫》 。它是由韩国导演奉俊昊自编自导的影片 , 一举拿下最佳影片、最佳导演、最佳原创剧本和最佳国际电影四座奥斯卡奖杯 , 创造历史成为奥斯卡史上首部非英语最佳影片 。这次带大家看看韩国人如何评价这部韩国电影的?【CSDN■用Python爬取3万多条评论,看韩国人如何评价电影《寄生虫》?】
获取数据数据从哪获取呢? 我们先打开韩国最大门户网站NAVER:
本文插图
找到??(电影)板块 , 搜索???(寄生虫)并打开:
本文插图
上面介绍部分跟猫眼专业版一样 , 各种评分、演职员表、评分男女比例、年龄分布 。在评论区部分 , 它其实有点像是豆瓣和猫眼的综合体 , 无论看没看过都可以评价打分 , 不过看过的会单独有个小标识 。我们下划到评论区 , 下图中可以看到 , 目前有36360条评价 , 我们想要获取的数据是黑框中的内容 。 包括每条留言的评论人昵称、评论时间、评分、评论内容以及这条评论得到的赞或踩 。下面开始爬取评论数据:
本文插图
利用requests和pyquery爬取数据 , 展示部分源码 , 完整见文末 。def main: data = http://news.hoteastday.com/a/ for i in range(1,200): #爬取多少页 url = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=161967&type=after&onlyActualPointYn=N&onlySpoilerPointYn=N&order=newest&page='+str(i) print('准备采集第{}页数据'.format(i)) html = restaurant(url) doc = pq(html) for i in range(0,10): print(i) dic = {} dic['star'] = doc('li:nth-child(' + str(i+1) +') > div.star_score > em').text dic['text'] = doc('#_filtered_ment_' + str(i)).text dic['datetime'] = doc('li:nth-child(' + str(i+1) +') > div.score_reple > dl > dt > em:nth-child(2)').text dic['name'] = doc('li:nth-child(' + str(i+1) +') > div.score_reple > dl > dt > em:nth-child(1) > a').text dic['zan'] = doc('li:nth-child(' + str(i+1) +') > div.btn_area > a._sympathyButton > strong').text dic['cai'] = doc('li:nth-child(' + str(i+1) +') > div.btn_area > a._notSympathyButton > strong').text data.append(dic) #time.sleep(random.random) pd.DataFrame(data).to_csv('寄生虫评论.csv',encoding="utf_8",index = False) return data运行结果:
本文插图
歪瑞古德! 这样我们就成功获取了韩国人评价韩国电影《寄生虫》的评论数据!
数据整理我们简单看一下数据:
本文插图
共35940条 , 比上文截图时候少了一点 , 这是因为我爬取和写这篇文章的时候有一点时间间隔 , 所以这个小问题请忽略 。
推荐阅读
- 科技小数据■Python培训完能够做数据分析类的工作吗?
- 「量子位」淘汰人工审核,自动给arXiv打分,船新论文评审Python程序
- Python@船新论文评审Python程序,淘汰人工审核,自动给arXiv打分
- 『科技小数据』Python培训完能够做数据分析类的工作吗?
- 「科技小数据」Python培训完能够做数据分析类的工作吗?
- CoFound智库@做金融的你还不知道吗?,Python已经全民热了
- CoFound智库@Python已经全民热了,做金融的你还不知道吗?
- 『姵来晓晓看娱乐』并存入mysql数据库,超详细,python3快速爬取房源信息
- Python■Python 炫技操作:条件语句的七种写法
- [迷神笔记]多进程,异步IO编程,一次说明白Python爬虫中多线程
