Python爬虫案例:爬取微信公众号文章( 二 )

 
接下来就是点击“登录”,然后人工完成扫码,可以利用while True检测登录是否成功,是否出现了下一页按钮,如果出现则跳出循环,点击“下一页”按钮并继续后面的代码,否则睡3秒后重复检测:
driver.find_element_by_name('top_login').click()while True:    try:        next_page = driver.find_element_by_id("sogou_next")        break    except:        time.sleep(3)next_page.click() 
效果如图:

Python爬虫案例:爬取微信公众号文章

文章插图
 
然后就是重新遍历文章了,由于不知道最后一页是第几页可以使用while循环反复调用解析页面的函数半点击“下一页”,如果不存在下一页则结束循环:
while True:    get_news()    try:        driver.find_element_by_id("sogou_next").click()    except:        break# 最后退出浏览器即可driver.quit() 
是不是少了点什么?对,就是数据存储,在爬下来数据之后和之前一样利用openpyxl存储到Excel中即可(如果不想用此模块的话也可以改用 csv 或者 pandas 保存表格文件):
Python爬虫案例:爬取微信公众号文章

文章插图




推荐阅读