接下来就是点击“登录”,然后人工完成扫码,可以利用while True检测登录是否成功,是否出现了下一页按钮,如果出现则跳出循环,点击“下一页”按钮并继续后面的代码,否则睡3秒后重复检测:
driver.find_element_by_name('top_login').click()while True: try: next_page = driver.find_element_by_id("sogou_next") break except: time.sleep(3)next_page.click()
效果如图:

文章插图
然后就是重新遍历文章了,由于不知道最后一页是第几页可以使用while循环反复调用解析页面的函数半点击“下一页”,如果不存在下一页则结束循环:
while True: get_news() try: driver.find_element_by_id("sogou_next").click() except: break# 最后退出浏览器即可driver.quit() 是不是少了点什么?对,就是数据存储,在爬下来数据之后和之前一样利用openpyxl存储到Excel中即可(如果不想用此模块的话也可以改用 csv 或者 pandas 保存表格文件):

文章插图
推荐阅读
- 一行代码让你的python运行速度提高100倍
- python之装饰器详解
- python如何使用HanLP,LTP,jieba中文分词库
- 任意图像转素描:Python分分钟实现
- Python接口自动化测试的实现
- python 如何使用HttpRunner做接口自动化测试
- 使用Python预测缺失值
- python语言-数据库查询数组转Dataframe格式
- php爬虫框架盘点
- 用Python抓取小说目录和全文
