scrapyd: 爬虫管理
一个爬虫api管理工具
cheatsheet
我的测试项目: https://github.com/aric-moban/spider-pptx-cn
功能 | 代码 |
---|
start 爬虫 | # 启动的 rest api
curl http://localhost:6800/schedule.json -d project=default -d spider=pptx_post
# 结果如下
{"node_name": "aric-mbp13", "status": "ok", "jobid": "fbd9815efa6e11eea99e6c4008bb903c"}
|
stop 爬虫 | curl http://localhost:6800/cancel.json -d project=myproject -d job=fbd9815efa6e11eea99e6c4008bb903c
|
list 列出所有可用项目 | curl http://localhost:6800/listprojects.json
# {"node_name": "aric-mbp13", "status": "ok", "projects": ["default"]}
|
列出所有可用爬虫 | $ curl http://localhost:6800/listspiders.json?project=default
# {"node_name": "aric-mbp13", "status": "ok", "spiders": ["pptx_post", "pptx_post_detail", "pptx_post_first", "pptx_post_publish"]}
|
列出项目所有 jobs 以及状态 | curl http://localhost:6800/listjobs.json?project=myproject
|
参考