61

「造数」用智能云数据采集技术降低门槛,节省的或许不止一个工程师的成本

 6 years ago
source link: http://36kr.com/p/5097056.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

「造数」用智能云数据采集技术降低门槛,节省的或许不止一个工程师的成本

韩旭·2017-12-19 09:20
数据时代的“石油钻井平台”

数据驱动企业发展,企业对数据需求有三个层次,一是业务数据,代表性企业是神策;二是类似企业订单数据、CRM 数据等 SaaS 服务数据,如销售易做的事情;三是互联网公开数据,例如企业工商、电商网站、社交数据、招投标数据等开公开数据。互联网数据量是最大的,但很难拿到全部互联网公开数据,非结构化数据很难结构化。

通常互联网公开数据的获取有三种方法,第一种是复制粘贴收集数据,成本高、效率低;第二种是雇佣爬虫工程师,一个人的工资成本是每年至少20万元;第三种是用云端智能采集,机器人挖掘数据,这样做获取数据门槛降低,不再需要技术人员,效率高、成本低。造数采用的是第三种方法,是一家智能云数据采集服务商。 

造数产品无需专业技术人员完成,产品对互联网页面做智能解析,采用了可视化爬取,可爬取需要登录的网页、对网站进行多次采集,支持批量规则配置,采集结果可以按时推送。最终可以到处各种格式文件,如 excel、csv、xml 等。此外还提供了 API 接口,爬取的数据可以直接接入到企业内部系统。

看这个项目考虑两个问题,一个是技术实力,一个是应用场景是不是对产品有刚需。

首先看技术,造数区别于其他爬虫公司的一点是,造数全部在云端。从用户角度讲,不用下载任何软件就可以直接爬取,产品配置和使用的门槛降低了,用户体验更好;从可视化角度讲,云端爬取“越用越聪明”,即别人爬过的数据或者之前爬过的数据不用二次爬取;此外,云端部署在 Docker上面,可以快速同时伸缩几千个节点爬取,有大规模爬取数据的能力,云端的扩展性提供了大量的 API 接口,可以和上下游产品协同,如数据可视化工具等;最后云端支持大量数据存储。

除了云端优势之外,造数在技术上的突破还有智能解析和浏览区交互页面实现,以往的爬虫产品通常是做浏览器的插件,而造数直接在网页上实现。

其次看应用场景是不是对产品有刚需。业务数据、内部 SaaS 数据和互联网公开数据的重要程度并没有高下之分,在不同行业和场景有不同侧重点。企业内部数据通常用作用户画像和精准营销,用来优化转化率;外部数据是对大环境的分析,主要是用来辅助局侧,比如外贸电商群体,需要从外部数据了解到市面上的潮款爆品,也需要从海量评论中知道消费者真正关心什么,甚至产品的陈列、排外、库存状况都受外部数据的影响。

当然,对外部数据有强烈需求的还有零售选址,金融行业中一级市场投资者需要第一时间发现好的创业公司、融资信息的分布情况、二级市场股民舆情倾向、上市公司分析等,咨询行业则需要了解调查领域的各项数据。所以对于金融、电商、零售、咨询等领域,外部数据发挥很大作用,是引领生产、调整战略的重要依据。从这一点说,快速获取、门槛低的云端爬虫采集产品是不错的切入点。

造数最终能为中小企业节省人力成本,为大企业开源节流,将人力用在该用的地方。

造数目前有15000多家用户,包括数之联、Geoconcept、天气宝优易数据星客多、发改委等。合作伙伴有云基础服务商京东云、电子科技大学大数据研究中心、大数据教育平台 Datacastle、数据分析培训机构数据团学社、可视化平台BDP等。其中造数与 BDP API 接通,用户在爬取万数据后直接将数据可视化。

数据采集赛道上还有八爪鱼神箭手,八爪鱼是传统软件,神箭手更面向开发者;国外则有 import.io 和diffbot,import.io 累计融资 2200 万美金,diffbot 获得腾讯领投的了1000 万美金 A 轮融资。 

造数科技成立之初获得了明势资本、仟跃科技数百万元天使轮融资,2017年7月获得了逐鹿资本领投的千万级pre-A轮融资。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK