爬虫scrapy框架及案例:scrapyredis的介绍/domz(P20-P21)

P20 01scrapyredis的介绍/domz
更新于: 2022-01-09 05:41:12

什么是 scrapy_redis

  1. 基于 redis 的组件,scrapy;
  2. 基于 scrappy的基础上,实现了更多,更强大的功能。
  3. 具体体现在 request 去重,爬虫持久化和轻松分布式(多个爬虫完成一个任务)
  4. 增量式爬虫
  5. 数据持久化(存数据库的东西,这里就会完成)

https://github.com/rmax/scrapy-redis

scrapy_redis 的流程图
scrapy_redis 的设置

还需要添加

REDIS_URL="redis://127.0.0.1:6379"

爬取过程中的变化

scrapy_redis 里的配置
redis里的数据变化
domz在redis里的键值

参考