scrapy学习:常用命令速查表

记录一下常用scrapy的命令列表
更新于: 2022-01-19 08:53:39

命令列表

命令示例备注
新建一个 scrapy 项目scrapy startproject tutorial项目名推荐以 xx_yy 方式,虽然 python 都是 xxyy 方式
shell 方式抓取数据 scrapy shell https://js.work/posts/f89848d238b6e常用来快速调试爬虫,注意当前的网站做了反爬虫可能直接屏蔽了debug
新建一个 spiderscrapy genspider quotes js.work一个项目里可能有多个 spider,可以用这个命令生成(generate spider)
运行一个 spiderscrapy crawl quotesquotes 为自己的爬虫的 name
运行一个文件方式的 spiderscrapy runspider myspider.py运行一个包含在python文件中的spider,而不必创建一个项目
列出当前项目中所有可用的 spiderscrapy list列出当前项目中所有可用的spider。每行输出一个蜘蛛。
在浏览器中打开给定的URLscrapy view https://js.work/posts/f89848d238b6e因为您的废蜘蛛会“看到”它。有时候蜘蛛看到的页面与普通用户不同,debug

常用配置

# settings.py
# 只有 warning 以上的才会被输出
LOG_LEVEL = "WARNING"
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'

Q&A

  • Scrapy中runspider和crawl的区别<见下表>
命令说明是否需要项目示例
runspider未创建项目的情况下,运行一个编写在Python文件中的spiderno$ scrapy runspider myspider.py
crawl使用spider进行爬取yes$ scrapy crawl myspider

参考