💎 scrapy 学习笔记
scrapy 学习笔记
🕐
| 标题 | 副标题 |
|---|---|
| scrapy学习:Crawl spider 基类的使用 | 使用 Crawl spider 抓取分页next这种类型的数据 |
| Python语言学习:scrapy-redis 包 | 一个能让你的爬虫以数倍速度运行的工具包 |
| scrapy学习:用 scrapy 开发一个项目 cheatsheet | 用scrapy开发一个线上项目 |
| scrapy学习:scrapy读取设置文件(settings.py) | 利用多种方式来完成 scrapy 配置文件的读取 |
| scrapy学习:在程序中启动 scrapy 使用 CrawlerProcess、CrawlerRunner | 用程序启动 scrapy,而不只是scrapy crawl <spider-name>,常用在 debug 或者启动多个 chunk 的场景 |
| scrapy学习:使用scrapy shell时设置cookies和headers | 有时为了测试xpath,需要临时下载个页面,这时使用命令行进行测试是最方便的,但是很多网站页面需要认证,不能直接使用scrapy shell命令进行页面的抓取,所以需要重新对请求进行构造,设置cookies和headers。 |
| scrapy学习:利用 scrapy 来完成文件批量入库操作 | 有时候我们有处理大量文件的场景,利用 scrapy 也可以完成 |
| scrapy学习:XML 类型的数据采集 | XML 类型的数据采集,解析 |
| scrapy学习:如果出现异常情况,让 scrapy 的任务自动重启/retry | 有时候,scrapy 会因为一些不可遇知的情况下终止任务,这时候,我们可以利用 middleare 来完成重启 |
| scrapy学习:docker 容器化 | 如何将scrapy放在docker里运行 |
| scrapy学习:Scrapy中传入自定义参数 | 有些爬虫,可以通过不同的参数来控制的方式来执行爬虫 |
| scrapy学习:在 PyCharm 中开发、调试 Scrapy 应用 | 安装 Scrapy 后,可以通过其自带的命令行完成新建项目,项目构件,运行项目等功能。 |
| scrapy学习:常用命令速查表 | 记录一下常用scrapy的命令列表 |
| scrapy学习: 将 Pipelines 放在目录里,分成不同的文件来执行 | Scrapy Pipelines to Seperate Folder/Files - Abstraction |
| Scrapy学习: 常用的选择器/selector操作(xpath/css) | Scrapy Selector详解 |
| scrapy: 将数据写入 json 文件 | Write items to a JSON file |
| scrapy学习:环境及安装 | 记录一下自己在 MacOs 下安装 scrapy 的过程 |