scrapy 学习笔记

标题	副标题
scrapy学习：Crawl spider 基类的使用	使用 Crawl spider 抓取分页next这种类型的数据
Python语言学习：scrapy-redis 包	一个能让你的爬虫以数倍速度运行的工具包
scrapy学习：用 scrapy 开发一个项目 cheatsheet	用scrapy开发一个线上项目
scrapy学习：scrapy读取设置文件（settings.py)	利用多种方式来完成 scrapy 配置文件的读取
scrapy学习：在程序中启动 scrapy 使用 CrawlerProcess、CrawlerRunner	用程序启动 scrapy，而不只是scrapy crawl <spider-name>，常用在 debug 或者启动多个 chunk 的场景
scrapy学习：使用scrapy shell时设置cookies和headers	有时为了测试xpath，需要临时下载个页面，这时使用命令行进行测试是最方便的，但是很多网站页面需要认证，不能直接使用scrapy shell命令进行页面的抓取，所以需要重新对请求进行构造，设置cookies和headers。
scrapy学习：利用 scrapy 来完成文件批量入库操作	有时候我们有处理大量文件的场景，利用 scrapy 也可以完成
scrapy学习：XML 类型的数据采集	XML 类型的数据采集，解析
scrapy学习：如果出现异常情况，让 scrapy 的任务自动重启/retry	有时候，scrapy 会因为一些不可遇知的情况下终止任务，这时候，我们可以利用 middleare 来完成重启
scrapy学习：docker 容器化	如何将scrapy放在docker里运行
scrapy学习：Scrapy中传入自定义参数	有些爬虫，可以通过不同的参数来控制的方式来执行爬虫
scrapy学习：在 PyCharm 中开发、调试 Scrapy 应用	安装 Scrapy 后，可以通过其自带的命令行完成新建项目，项目构件，运行项目等功能。
scrapy学习：常用命令速查表	记录一下常用scrapy的命令列表
scrapy学习: 将 Pipelines 放在目录里，分成不同的文件来执行	Scrapy Pipelines to Seperate Folder/Files - Abstraction
Scrapy学习: 常用的选择器/selector操作(xpath/css)	Scrapy Selector详解
scrapy: 将数据写入 json 文件	Write items to a JSON file
scrapy学习：环境及安装	记录一下自己在 MacOs 下安装 scrapy 的过程