scrapy学习：常用命令速查表

记录一下常用scrapy的命令列表

命令列表

命令	示例	备注
新建一个 `scrapy` 项目	`scrapy startproject tutorial`	项目名推荐以 `xx_yy` 方式，虽然 `python` 都是 `xxyy` 方式
以 `shell` 方式抓取数据	`scrapy shell https://js.work/posts/f89848d238b6e`	常用来快速调试爬虫，注意当前的网站做了反爬虫可能直接屏蔽了debug
新建一个 `spider`	`scrapy genspider quotes js.work`	一个项目里可能有多个 `spider`，可以用这个命令生成(generate spider)
运行一个 `spider`	`scrapy crawl quotes`	`quotes` 为自己的爬虫的 `name`
运行一个文件方式的 `spider`	`scrapy runspider myspider.py`	运行一个包含在python文件中的spider，而不必创建一个项目
列出当前项目中所有可用的 `spider`	`scrapy list`	列出当前项目中所有可用的spider。每行输出一个蜘蛛。
在浏览器中打开给定的URL	`scrapy view https://js.work/posts/f89848d238b6e`	因为您的废蜘蛛会“看到”它。有时候蜘蛛看到的页面与普通用户不同，debug

常用配置

# settings.py
# 只有 warning 以上的才会被输出
LOG_LEVEL = "WARNING"
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'

Q&A

Scrapy中runspider和crawl的区别<见下表>

命令	说明	是否需要项目	示例
runspider	未创建项目的情况下，运行一个编写在Python文件中的spider	no	`$ scrapy runspider myspider.py`
crawl	使用spider进行爬取	yes	`$ scrapy crawl myspider`

请求中带cookie

注意，不是字符串，放 headers 里不确定情况。

yield scrapy.Request( url=record['url'], cookies={"dbcl2": "31699644:v+ww8MP4ihg"});