pyspider简介
pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫;
- 通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性;
- 通过web化的脚本编写、调试环境。web展现调度状态;
- 抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展。
pyspider作为一个开源的数据抓取框架,它提供了数据抓取,数据解析,数据展示等功能。
pyspider 的主要特性:
- python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)
- WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
- 支持 MySQL, MongoDB, SQLite
- 支持抓取 JavaScript 的页面
- 组件可替换,支持单机/分布式部署,支持 Docker 部署
- 强大的调度控制