放荡的人生|一节课教你用 python 搞定图片爬虫( 四 )
1、请求方法:get
2、url:;ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=000000
3、请求头:当前可以忽略
4、请求数据:无
发送请求分析清楚目标资源的请求过程后 , 就需要通过代码模拟发送请求 。
通过 socket 发送 HTTP 请求工具库上面我们通过使用 socket 实现了一个非常简单的请求的发送 , 可以看到代码比较复杂 , 如果需要传递更多信息 , 处理起来会更繁琐 , 费时费力 。 python 提供了很多的库 , 将发送 HTTP 请求的细节进行了封装 , 只需要进行简单的调用就可以实现各种 http 请求的发送 , 常用的库有:
- urllib urllib 是一个用来处理网络请求的 python 标准库
- urllib3 urllib3 是一个基于 python3 的功能强大 , 友好的 http 客户端 。 越来越多的 python 应用开始采用 urllib3.它提供了很多 python 标准库里没有的重要功能 。
- requests 牛逼
其中文本数据又分为 HTML 和 JSON(注:主要指爬虫目标数据 , js , CSS 等也属于文本数据) 。
二进制数据主要指各种音频 , 视频 , 其他文件等 。
对于二进制数据一般不需要特殊处理 。
HTML 解析今天的案例数据包含在 HTML 文档中 , 所以需要解析 HTML
解析 HTML 的常用方法有两种:
1、正在表达式
2、HTML 解析库
数据持久化爬虫爬取到的数据需要存储起来 , 对于少量的数据 , 生成相应的文件 , 例如 Excel , cvs 等 。
对于图片 , 视频等二进制文件也是以文件的形式保存 。
【放荡的人生|一节课教你用 python 搞定图片爬虫】如果要保存大量的文本信息 , 例如商品信息 , 订单信息等 , 就需要存储到数据库中 。
代码
有任何问题都欢迎来评论私信讨论哦~加软件测试交流QQ群:972956275还可获取免费测试学习视频干货资料哦!
推荐阅读
- ZAKER生活|富人生活难以想象,北京豪宅保安:天天能见范冰冰
- 中国网教育|“错换人生28年”当事人向医院索赔273万,案件将于下周开庭
- #童小悠#“真言NEWS”风乍起 合当奋意向人生
- 音乐汪|三个唐僧三种人生,有的娶500亿富婆,有的只能四处奔波谋生
- 经典人生故事|Ppgod得到英雄联盟官方认可!你们要来世界赛了吗
- 穿搭|有种“人生赢家”叫张嘉倪,穿梦幻白裙秀长腿,这才叫辣妈
- 环球网|特朗普打击TikTok波及美国人生计 数千名英语老师忧心忡忡
- 喝撒哈拉甜茶,品人生起伏
- [爱情]无论你遇见谁,别伤害,别欺骗
- 扬子晚报-紫牛新闻|“天才少女”10岁考大专如今已毕业,她自己喜欢这样的人生吗?
