放荡的人生|一节课教你用 python 搞定图片爬虫( 三 )


5、在解析渲染的过程中碰到其他资源浏览器继续向服务器发送请求
6、直到当前页面的所有资源全部下载回来
为了便于零基础的童靴理解 , 我简化了部分步骤
从这些流程中我们可以总结如下几点:
1、浏览器打开一个页面时所有的数据都是从服务下载回来的
2、浏览器打开一个页面第一个 http 请求下载的是网页的 HTML 文档
3、浏览器打开一个页面一般会发送多个 http 请求
网络资源
能够通过互联获取的网页 , 图片 , 视频 , 音频 , 其他文件等信息的集合 。
爬虫的目标就是网络资源 。 网络那么大 , 怎么定位网络资源呢?如何用浏览器打开淘宝首页 , 下载某个文件?
URL
URL(Uniform Resource Locator) , 中文叫统一资源定位符 。 是用来标识某一处网络资源的地址 。
也即是我们常说的网址 。 以下面这个 URL 为例 , 介绍下普通 URL 的各部分组成:
放荡的人生|一节课教你用 python 搞定图片爬虫现在基础知识我们已经学完了 , 可以开始进行实践了 。
爬虫实践开发流程
网络爬虫的本质就是模拟客户端发送请求 , 一个爬虫的基本开发流程包含五步:
1、明确目标数据
2、分析数据的请求流程
3、模拟发送请求
4、解析数据
5、数据持久化
明确目标数据我们要下载的是百度图片首页中的图片
放荡的人生|一节课教你用 python 搞定图片爬虫网页中的图片是浏览器通过 http 请求下载回来的 。
浏览器会先下载图片的 url , 再通过 url 下载图片 。
所以我们只要找到图片 url 的 http 请求即可 。
一般情况下 , 页面中的图片 url 就包含在页面的 HTML 文档中 , 使用谷歌浏览器开发者调试工具获取图片的 url
放荡的人生|一节课教你用 python 搞定图片爬虫然后右键查看网页源文件可以查看当前页面的 HTML 文档
ctrl+f 调出搜索框 , 把前面找到的图片的 url 粘贴进来 , 果然发现了 url 就在 HTML 中
放荡的人生|一节课教你用 python 搞定图片爬虫为了稳妥可以多找几张图片的 url 测试 。 发现页面中的前 30 张图片的 url 都在 HTML 文档中 。
分析数据请求流程分析请求流程的目的找到目标资源的 http 请求 , 根据前面学习的 HTTP 协议知识 , 分析请求流程的具体信息是:
1、请求方法
2、url
3、请求头
4、请求数据
工具在 HTTP 协议中信息以二进制的形式进行传输的 , 我们需要借助工具来分析 HTTP 请求 。 常用工具有 , 谷歌浏览器和 fiddler 。
fiddlerfiddler 的使用和安装相对复杂 , 谷歌浏览器可以满足大部分的请求流程分析 , 这里主要介绍谷歌浏览器 。
谷歌浏览器谷歌浏览器提供了开发者调试工具 , 能够对浏览器的 HTTP 请求进行监控 , 按功能键 F12 即可打开工具界面 , 功能窗口如下:
放荡的人生|一节课教你用 python 搞定图片爬虫点击某个具体的请求后
放荡的人生|一节课教你用 python 搞定图片爬虫我们这个案例中的请求就是网页的请求


推荐阅读