构建垂直搜索引擎 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

pyspider简介


  pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫;


  • 通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性;
  • 通过web化的脚本编写、调试环境。web展现调度状态;
  • 抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展。

  pyspider作为一个开源的数据抓取框架,它提供了数据抓取,数据解析,数据展示等功能。

  pyspider 的主要特性:

  • python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)
  • WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
  • 支持 MySQL, MongoDB, SQLite
  • 支持抓取 JavaScript 的页面
  • 组件可替换,支持单机/分布式部署,支持 Docker 部署
  • 强大的调度控制