爬虫scrapy框架及案例:构造请求和腾讯爬虫

P6 03构造请求和腾讯爬虫
更新于: 2022-01-09 03:30:10

如何实现翻页请求

https://careers.tencent.com/search.html

  1. 找到下一页地址
  2. 构造 request 对象,丢给 engine
发送请求的实现原理

核心源码实现

一个可以分页的爬虫实现

源码解析

  1. 关键是构造 next_url
  2. parse方法可以返回 baseItem/dict/还有 scrapy.Request,这个可以从 parse方法的返回定义里查看
  3. 以 yield 方式返回,可以让 engine 接管后面的事情
关于scrapy.Request的常用参数

在 scrapy.Request 里传参数(meta)

scrapy.Request(next_url, callback=self.parse, meta={item: item})