开启Scrapy爬虫之路！听说你scrapy都不会用？( 二 ) 摘要七夜大佬的《python爬虫开发与项目

view

# 和fetch类似都是查看spider看到的是否和你看到的一致，便于排错scrapy view 12

version

# 查看scrapy版本scrapy version122.2项目命令项目命令比较简单，感觉没什么好说的,我也没怎么详细测试，直接参考这篇【scrapy 命令行：scrpay项目命令】
3.scrapy框架介绍Scrapy 是一个用python写的Crawler Framework,简单轻巧，并且十分方便，使用Twisted这个一部网络库来处理网络通信，架构清晰，并包含了各种中间件接口，可以灵活地完成各种需求，整体架构组成如下图

文章插图

Scrapy引擎(Engine): 引擎负责控制数据流在系统的所有组件中流动，并在相应动作发生时触发事件；
调度器(Scheduler): 调度器从引擎接收request 并将他们入队，以便之后引擎请求request时提供引擎；
下载器(Downloader): 下载器负责获取页面数据并提供给引擎，而后提供给Spider；
Spider: Spider是Scrapy用户编写用于分析Response 并提取Item(即获取到的Item)或额外跟进的URL的类,每个Spider负责处理一个特定（或一些）网站
Item Pipeline: Item Pipeline 负责处理被Spider提取出来的Item .典型的处理有清理验证及持久化（例如存储到数据库中）；
下载器中间件（Downloader middlewares）: 下载器中间件是在引擎及下载器之间的特定钩子（specific hook）,处理Downloader传递给引擎的Response 。其提供了一个简单的机制，通过插入自定义代码来扩展Scrapy功能；
Spider中间件（Spider middlwares）: Spider中间件是在引擎及Spider之间的特定钩子（specific hook）, 处理Spider的输入（response）和输出（items 及request）其中提供了一个简便的机制，通过插入自定义代码来实现Scrapy功能。

4.Scrapy中数据流的流转