4

GitHub - ssssssss-team/spider-flow: 新一代爬虫平台,以图形化方式定义爬虫流程,不...

 2 years ago
source link: https://github.com/ssssssss-team/spider-flow
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

介绍 | 特性 | 插件 | DEMO站点 | 文档 | 更新日志 | 截图 | 其它开源 | 免责声明

平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台

  • 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
  • 支持JSON/XML/二进制格式
  • 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
  • 支持爬取JS动态渲染(或ajax)的页面
  • 支持自动保存至数据库/文件
  • 常用字符串、日期、文件、加解密等函数
  • 支持插件扩展(自定义执行器,自定义方法)
  • 任务监控,任务日志
  • 支持HTTP接口
  • 支持Cookie自动管理
  • 支持自定义函数

项目部分截图

Debug

其它开源项目

请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK