『Python』Python爬虫笔记：爬取单个页面( 二 ) |网络爬虫|HTML|浏览器|

本文插图
使用burpsuite抓包也可以获取到POST数据包的内容

本文插图
一个请求包通常由请求头和请求主体构成，在这个请求包中，除了POST表单数据之外的数据都是请求头。这里面的数据主要用于和服务器交互，验证数据来源及登录凭证。
首先就是蓝框标注的数据包类型为POST ，后一个参数为处理该请求的文件名。然后黄框下有几个属性在写爬虫时需要用到，首先是User-Agent代表访问设备信息和浏览器基本信息。
Cookie ，这个属性下保存的信息可以相当于一个凭证，任何人拿到你在这个网站的cookie都可以在不知道你的账号密码的情况下进入登录状态。
在Python中要实现网页访问功能有很多种方法，我比较喜欢使用requrests这个库。
使用requests中的get方法完成get请求

本文插图
注：如果报了这种错误：

本文插图
则说明你的电脑中没有安装requests库，在命令行中使用pip install requests命令可进行安装。
可以看到程序成功返回了网页源码，但是仔细看会发现使用Python获取到的源码中并没有包含我们想要的数据。
这是因为该网站做了限制，只有登录后才可以看到数据，所以在请求时我们必须带上cookie才可以。

本文插图
按下f12 ，点击network网络选项，找到主要请求的网页，将cookie后的内容全部复制下来。
requests的get()方法允许我们传入一个header参数

本文插图
成功获取到目标数据
处理获取到的文本数据接下来先理下思路：目的：提取所有数字并求和现已完成：获取到全部文本接下来要做的：

提取所有数值
将这些数值累加

确实就是这么朴实无华，想要从这么长的文本中准确获取到数值，我们需要用到两个库：BeautifulSoup和re
BeautifulSoup属于外部库，需要在命令行中使用pip install BeautifulSoup4进行安装。
引入方法：
from bs4 import BeautifulSoup re为正则表达式支持库， Python自带，但是同样需要使用import引入
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。
这是官方的解释，通俗点说就是它可以帮助你更方便的提取数据。
正则表达式是用来匹配具有某种特征数据的模式，它定义了一些字符代表不同的数据。
虽然普通人真正见到正则表达式本体的机会不多，但是肯定都用过。
例如在注册一个网站时，会要求你填写邮箱和手机号，程序就是通过正则表达式首先判断你输入的邮箱和手机号格式是否正确。