scrapy学习:常用命令速查表
记录一下常用scrapy的命令列表
命令列表
命令 | 示例 | 备注 |
---|
新建一个 scrapy 项目 | scrapy startproject tutorial | 项目名推荐以 xx_yy 方式,虽然 python 都是 xxyy 方式 |
以 shell 方式抓取数据 | scrapy shell https://js.work/posts/f89848d238b6e | 常用来快速调试爬虫,注意当前的网站做了反爬虫可能直接屏蔽了debug |
新建一个 spider | scrapy genspider quotes js.work | 一个项目里可能有多个 spider ,可以用这个命令生成(generate spider) |
运行一个 spider | scrapy crawl quotes | quotes 为自己的爬虫的 name |
运行一个文件方式的 spider | scrapy runspider myspider.py | 运行一个包含在python文件中的spider,而不必创建一个项目 |
列出当前项目中所有可用的 spider | scrapy list | 列出当前项目中所有可用的spider。每行输出一个蜘蛛。 |
在浏览器中打开给定的URL | scrapy view https://js.work/posts/f89848d238b6e | 因为您的废蜘蛛会“看到”它。有时候蜘蛛看到的页面与普通用户不同,debug |
常用配置
# settings.py
# 只有 warning 以上的才会被输出
LOG_LEVEL = "WARNING"
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
Q&A
- Scrapy中runspider和crawl的区别<见下表>
命令 | 说明 | 是否需要项目 | 示例 |
---|
runspider | 未创建项目的情况下,运行一个编写在Python文件中的spider | no | $ scrapy runspider myspider.py |
crawl | 使用spider进行爬取 | yes | $ scrapy crawl myspider |
参考