scrapyd: 爬虫管理

一个爬虫api管理工具
更新于: 2024-04-14 23:25:37

cheatsheet

我的测试项目: https://github.com/aric-moban/spider-pptx-cn

功能代码
start 爬虫
# 启动的 rest api
curl http://localhost:6800/schedule.json -d project=default -d spider=pptx_post
# 结果如下
{"node_name": "aric-mbp13", "status": "ok", "jobid": "fbd9815efa6e11eea99e6c4008bb903c"}
stop 爬虫
curl http://localhost:6800/cancel.json -d project=myproject -d job=fbd9815efa6e11eea99e6c4008bb903c
list 列出所有可用项目
curl http://localhost:6800/listprojects.json
# {"node_name": "aric-mbp13", "status": "ok", "projects": ["default"]}
列出所有可用爬虫
$ curl http://localhost:6800/listspiders.json?project=default
# {"node_name": "aric-mbp13", "status": "ok", "spiders": ["pptx_post", "pptx_post_detail", "pptx_post_first", "pptx_post_publish"]}
列出项目所有 jobs 以及状态
curl http://localhost:6800/listjobs.json?project=myproject

参考