放荡的人生|一节课教你用 python 搞定图片爬虫( 四 )


放荡的人生|一节课教你用 python 搞定图片爬虫1、请求方法:get
2、url:;ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=000000
3、请求头:当前可以忽略
4、请求数据:无
发送请求分析清楚目标资源的请求过程后 , 就需要通过代码模拟发送请求 。
通过 socket 发送 HTTP 请求
放荡的人生|一节课教你用 python 搞定图片爬虫工具库上面我们通过使用 socket 实现了一个非常简单的请求的发送 , 可以看到代码比较复杂 , 如果需要传递更多信息 , 处理起来会更繁琐 , 费时费力 。 python 提供了很多的库 , 将发送 HTTP 请求的细节进行了封装 , 只需要进行简单的调用就可以实现各种 http 请求的发送 , 常用的库有:

  • urllib urllib 是一个用来处理网络请求的 python 标准库
  • urllib3 urllib3 是一个基于 python3 的功能强大 , 友好的 http 客户端 。 越来越多的 python 应用开始采用 urllib3.它提供了很多 python 标准库里没有的重要功能 。
  • requests 牛逼
使用 requests 发送请求
放荡的人生|一节课教你用 python 搞定图片爬虫解析数据响应正文及响应数据一般分为两大类 , 文本数据和二进制数据 。
其中文本数据又分为 HTML 和 JSON(注:主要指爬虫目标数据 , js , CSS 等也属于文本数据) 。
二进制数据主要指各种音频 , 视频 , 其他文件等 。
对于二进制数据一般不需要特殊处理 。
HTML 解析今天的案例数据包含在 HTML 文档中 , 所以需要解析 HTML
解析 HTML 的常用方法有两种:
1、正在表达式
2、HTML 解析库
数据持久化爬虫爬取到的数据需要存储起来 , 对于少量的数据 , 生成相应的文件 , 例如 Excel , cvs 等 。
对于图片 , 视频等二进制文件也是以文件的形式保存 。
【放荡的人生|一节课教你用 python 搞定图片爬虫】如果要保存大量的文本信息 , 例如商品信息 , 订单信息等 , 就需要存储到数据库中 。
代码
放荡的人生|一节课教你用 python 搞定图片爬虫说明:本文为柠檬班心蓝老师原创 , 转载需注明出处
有任何问题都欢迎来评论私信讨论哦~加软件测试交流QQ群:972956275还可获取免费测试学习视频干货资料哦!


推荐阅读