爬虫scrapy框架及案例:阳光政务平台爬虫 list/detail/next_url

P7 05阳光政务平台爬虫
更新于: 2022-01-09 11:47:07

核心代码

https://wz.sun0769.com/political/index/politicsNewest

核心的spider代码
pipline对content进行处理

代码解析

  1. 先把列表分组 list
  2. 列表主要信息采集完之后,扔给 self.parse_detail 去采集详情的内容
  3. 找分页 next_url,然后 yield 再构造 递归逻辑,完成多页采集
  4. 内容中出现 xa0 等特殊的字符 ,需要对内容进行处理;这里用 pipline来完成

for--map用法

python里一个以前没用过的用法