『Python』Python爬虫笔记:爬取单个页面( 二 )
本文插图
使用burpsuite抓包也可以获取到POST数据包的内容
本文插图
一个请求包通常由请求头和请求主体构成 , 在这个请求包中 , 除了POST表单数据之外的数据都是请求头 。 这里面的数据主要用于和服务器交互 , 验证数据来源及登录凭证 。
首先就是蓝框标注的数据包类型为POST , 后一个参数为处理该请求的文件名 。 然后黄框下有几个属性在写爬虫时需要用到 , 首先是User-Agent代表访问设备信息和浏览器基本信息 。
Cookie , 这个属性下保存的信息可以相当于一个凭证 , 任何人拿到你在这个网站的cookie都可以在不知道你的账号密码的情况下进入登录状态 。
在Python中要实现网页访问功能有很多种方法 , 我比较喜欢使用requrests这个库 。
使用requests中的get方法完成get请求
本文插图
注:如果报了这种错误:
本文插图
则说明你的电脑中没有安装requests库 , 在命令行中使用pip install requests命令可进行安装 。
可以看到程序成功返回了网页源码 , 但是仔细看会发现使用Python获取到的源码中并没有包含我们想要的数据 。
这是因为该网站做了限制 , 只有登录后才可以看到数据 , 所以在请求时我们必须带上cookie才可以 。
本文插图
按下f12 , 点击network网络选项 , 找到主要请求的网页 , 将cookie后的内容全部复制下来 。
requests的get()方法允许我们传入一个header参数
本文插图
成功获取到目标数据
处理获取到的文本数据 接下来先理下思路:目的:提取所有数字并求和现已完成:获取到全部文本接下来要做的:
- 提取所有数值
- 将这些数值累加
BeautifulSoup属于外部库 , 需要在命令行中使用pip install BeautifulSoup4进行安装 。
引入方法:
from bs4 import BeautifulSoup re为正则表达式支持库 , Python自带 , 但是同样需要使用import引入 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 。
这是官方的解释 , 通俗点说就是它可以帮助你更方便的提取数据 。
正则表达式是用来匹配具有某种特征数据的模式 , 它定义了一些字符代表不同的数据 。
虽然普通人真正见到正则表达式本体的机会不多 , 但是肯定都用过 。
例如在注册一个网站时 , 会要求你填写邮箱和手机号 , 程序就是通过正则表达式首先判断你输入的邮箱和手机号格式是否正确 。
本文插图
正则表达式语法同样比较复杂 , 但是非常有效 , 非常建议学习 。
推荐看这篇文章了解正则表达式: 三十分钟入门正则表达式
理解这两个库的作用之后我们就可以开始使用它们了 。
首先使用BeautifulSoup对获取到的网页内容进行处理
推荐阅读
- [笔记本电脑]乙辰科技正式发布首款WiFi6新品:北斗II号分布式无线路由器
- 笔记本硬盘升级改造计划,三星原厂闪存加持的康佳K520 SSD怎么样
- 【小谦笔记】修复诸多崩溃问题,安卓11迎来开发者预览2.1版本
- [硬顶科技]潮夜绿色彩,十代酷睿处理器加持,颜值笔记本又推新款
- 「数评时代」大家可以来抄了,如何打造顶级笔记本?华硕ROG双屏旗舰给出作业
- #数评时代#大家可以来抄了,如何打造顶级笔记本?华硕ROG双屏旗舰给出作业
- 科技小数据■Python培训完能够做数据分析类的工作吗?
- 「」宏碁传奇14笔记本预售 价格太疯狂啦
- 原呵呵▲ZephyrusDuo15笔记本电脑:双屏炫酷,华硕ROG
- 超能网:技嘉推出新AORUSu002FAERO系列笔记本:分别针对高端电竞和专业创作市场
