浅析scrapy与scrapy_redis区别( 三 )


文章插图
 
格式是set,即不会有重复数据 。前者就是redis的去重队列,对应 DUPEFILTER_CLASS,后者是redis的请求调度,把里面的请求分发给爬虫,对应 SCHEDULER。(里面的数据不会自动删除,如果你第二次跑,需要提前清空里面的数据)
缺点是,Scrapy-Redis调度的任务是Request对象,里面信息量比较大(不仅包含url,还有callback函数、headers等信息),可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间,所以如果要保证效率,那么就需要一定硬件水平 。

【浅析scrapy与scrapy_redis区别】


推荐阅读