爬虫scrapy框架及案例：构造请求和腾讯爬虫

P6 03构造请求和腾讯爬虫

如何实现翻页请求

https://careers.tencent.com/search.html

找到下一页地址
构造 request 对象，丢给 engine

发送请求的实现原理

核心源码实现

一个可以分页的爬虫实现

源码解析

关键是构造 next_url
parse方法可以返回 baseItem/dict/还有 scrapy.Request，这个可以从 parse方法的返回定义里查看
以 yield 方式返回，可以让 engine 接管后面的事情

关于scrapy.Request的常用参数

在 scrapy.Request 里传参数(meta)

scrapy.Request(next_url, callback=self.parse, meta={item: item})