10

“大数据星火联盟”成立背后有哪些深意?

 3 years ago
source link: https://www.sensorsdata.cn/blog/da-shu-ju-xing-huo-lian-meng-cheng-li-bei-hou-you-na-xie-shen-yi/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

“大数据星火联盟”成立背后有哪些深意?

神策小秘书 标签: 神策数据 2017年10月25日

10 月 17 日,在神策 2017 数据驱动大会现场,“大数据星火联盟”正式成立。该联盟由神策数据牵头,目前已有十家企业,包括神策数据、第四范式、UCloud、旷视(Face++)、Ping++、智慧芽、荣之联、拉勾云人事、达观数据、智齿科技等。
目前来看,无论是从产品与服务能力、技术壁垒、还是客户认可度等方面,这个联盟可谓大数据、人工智能行业中企业服务综合竞争实力颇强的组合。联盟成立的目的是什么?“大数据星火联盟”命名背后有哪些深意……

神策数据创始人 & CEO 桑文锋在主持联盟成立前的一番话中,他深度观察大数据行业,分析我国面临的数据化建设的瓶颈,指出越来越多企业参与大数据联盟的背景与初衷,核心观点如下:

2000 年前后的中国互联网分为两个阶段:2000年 - 2015 年是 IT 化建设的阶段;2015年 - 2030 年是数据化建设的阶段。可以说 IT 化建设是数据化的前提。随着大数据时代的兴起,越来越多的企业意识到数据对一款不断迭代产品的发展至关重要。把脉中国数据化的现状,数据底子薄是最关键问题,以下内容主要围绕企业数据根基、数据驱动产品智能两大理念展开。

1、数据源与“大全细时”

“大全细时”以及三种采集方案

管理数据源如扎根土壤,根基稳固方能避免“空中楼阁”,这是桑文锋在大数据行业工作近十年的最大心得。尽管我国企业数据化建设已经开了头,而且众多企业都在培养用数据说话的意识。

“大全细时”(相关链接:埋点套路深,千万别掉“坑”)总结了大数据的价值,并强调数据源的重要性,也是企业积累数据资产的前提。总之数据采集不应只是搜集 App 网站客户端数据,还应包括客户服务器端、传感器和第三方数据等。如何收集,有三种方案:

一种是全埋点方案。在产品中( App 或者服务器模块)嵌入 SDK,等于做了一个统一的埋点,把相关的维度和关键的事件记录下来;

一种是代码埋点。代码埋点又可以分为前端代码埋点和后端代码埋点。前端代码埋点类似于全埋点,都是在前端嵌入 SDK 的方式,不同的是,对于每一个关键行为,我们都需要调用 SDK 代码,将必要的事件名、属性字段等写入代码,然后发送到后台数据服务器。与全埋点相比,更适合精细化分析的场景。我们可以将各种细粒度的数据采集下来,方便做后续的深度分析需求,具有更高的数据可靠性,并且可以实现一处埋点,不用从各个 App、Web 端进行埋点操作。

第三种是导入辅助工具。为了减少系统耦合性,我们还可以采用日志、数据库的方式生成数据,然后对数据进行转换,通过实时或批量工具完成数据的导入。对于离线数据,比如线下人员和客户沟通情况等,可以通过导入工具完成数据采集。事实上我在百度很多时候是将日志格式的数据,通过一个叫 LogAgent 的模块,实时传入到后台服务器,也会采用分布式抓取的方式,定时将数据从源头下载到数据服务器上。

神策数据支持以上三种采集方案,并认为,选择哪种采集方案应该根据企业的业务场景。单有工具不行,还需要分析师团队帮助梳理需求。因为数据驱动落地不只是有工具、有平台,搭起来一个 Hadoop、一个 Spark 就是数据平台,真正把数据治理好还是需要懂业务的,神策数据的定位还是面向业务层面,就是如何帮助企业把业务做好。

元数据管理

在进行数据统计时,企业经常会对数据的准确性产生怀疑。因此要把数据本身的源头管理起来,以保证数据的准确性。这需要对埋点进行管理,监控数据源头、采集数据,在采集过程中校验通过多少条、导入通过多少条,要把这些过程监控起来,有问题后可以实时跟踪。神策数据在数据采集和埋点管理方面下了很多功夫。

用户行为事件模型——Event 模型很有效,规范并结构化用户行为之后,已在百度公司发挥到比较理想的状态,我也深刻理解了这一模型在用户行为分析上的强大之处,许多数据分析都会变得更容易。有兴趣了解的同学可以参照神策数据官网。

2、驱动产品智能:数据基础 + 算法 = 产品的学习能力

如何思考数据价值?围绕业务价值,数据驱动的价值有两点:一点是驱动决策,无论是帮助产品改进、运营优化、渠道分析还是商业决策,归根到底就是帮助你“拍板”的。另一点是驱动产品智能。在我看来,智能是一种学习能力,有了数据基础、套上了一定的策略算法,然后回归到产品当中让产品本身具有学习能力。

神策数据在产品上不只是提供了运营分析工具,更重要的是做底层的 PaaS 平台。以 Windows 作类比,Windows 主要做了两件事:一个是底层硬件资源的管理,通过操作系统将硬件、CPU、磁盘、内存等资源管理起来;另一个就是提供 API,让第三方开发者开发 Word、QQ、Outlook 等应用。这些上层的应用和 API 的开放让它变得更加强大。

神策数据实现数据驱动则与之如出一辙:第一层是全面采集数据源,建好底层;第二层企业可以基于 PaaS 平台进行二次开发;第三层就是在此基础上的各种应用。大家所看到以 SA(Sensors Analytics,神策分析)为代表的数据分析工具,只是 PaaS 平台中的应用之一,此外还有用户推荐、风控、数据挖掘等。而神策数据就是扮演了 Windows 的角色。

数据处理归根结底是一条“流”。需要强调的是 PaaS 的开放性、底层数据开放、查询接口开放,数据深度利用的时候就会变得非常容易。金字塔展示了数据处理流程,包括数据采集、数据传输、数据存储建模、数据查询、可视化 BI 五环节。神策数据要把数据根基打好,在此基础上可以和越来越多的 AI 公司或者可视化公司合作,丰富企业大数据应用。

3、统一认知,赋能企业数据化建设

如上所述,我国目前大数据行业现在所处的阶段还是非常早期,刚刚开了个头,许多围绕大数据工作的企业,包括神策数据也是其中的一员,大家都是一颗星星,具有相同的数据认知,也都是围绕某个点——推动中国企业数据化建设努力。

在这样的背景下,神策数据发起并成立了大数据星火联盟,期望围绕大数据工作企业一起联合起来服务客户。该联盟旨在加速企业在大数据领域、人工智能领域、云计算领域的创新,通过优质资源共享,助力企业完成核心业务的全面数字化和信息资源的创新应用,赋能企业数字化转型。当然,作为一个联盟,星星之火,可以燎原,这个力量会变得更加强大,也会给客户带来一些优惠的政策,后面大家可以关注神策数据的官网,相关的优惠政策会发布。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK