🏠 首页
› 日志
› 正文

爬虫scrapy框架及案例：阳光政务平台爬虫 list/detail/next_url

P7 05阳光政务平台爬虫

🕐 2022-01-09 11:47:07

核心代码

https://wz.sun0769.com/political/index/politicsNewest

核心的spider代码

pipline对content进行处理

代码解析

先把列表分组 list
列表主要信息采集完之后，扔给 self.parse_detail 去采集详情的内容
找分页 next_url，然后 yield 再构造递归逻辑，完成多页采集
内容中出现 xa0 等特殊的字符，需要对内容进行处理；这里用 pipline来完成

for--map用法

python里一个以前没用过的用法