贝壳一站式大数据开发平台实践

1 开场

大家下午好,很荣幸来到这跟大家一起分享贝壳一站式大数据开发平台的落地实践。今天的分享主要分为以下四个部分：

贝壳的数据业务背景。
数据开发平台探索历程。
数据开发平台的整体情况介绍
未来规划与展望

2 贝壳的数据业务背景

在公司最早的时候，由于体量较小，基本上都是业务自行承担数据的获取需求的，随着公司规模的增长，对大数据的离线应用开发的需求越来越多。那么为了满足各类数据获取/计算等需求，我们在 14 年成立了大数据部门，专门针对大数据工作进行探索。首先我们针对贝壳数据需求进行了分析，基本上都是围绕物的数据、人的数据、行为数据这三大块来进行分析研究。

物：我们早在08年就开始进行筹建楼盘字典，用房间门牌号、标准户型图、配套设施信息等多维信息定义一套房屋，到目前为止，已经收录了2亿以上的房屋信息
行为：线上的浏览日志，下线的看房行程等行为信息
人：主要是经纪人、还有客户（买家、业主）以及品牌主的信息

然后我们针对大数据技术在业内进行了调研，一般都是遵循这三个逻辑：降本、增效、规范。

3 数据开发平台探索历程

接下来为大家介绍贝壳数据开发平台探索历程。在大数据部门成立伊始，我们进行 hadoop 搭建，使用 Kafka+Sqoop+HDFS+Hive 架构；随着业务需求量以及需求复杂度的迅速增加,我们开始有了平台化的需求,于是开始探索平台化架构；2019 年，我们已经开始进行数据资产管理。

3.1 最初阶段

贝壳最早的大数据开发平台，非常的简单粗暴。经典的 Kafka+Sqoop+HDFS+Hive，任务调度用 Ooize，处理完之后的数据放在 MySQL 中，报表平台直接读取 MySQL 的数据做展示

使用了开源组件，采用hadoop进行搭建集群，集成工具使用sqoop，数仓建设使用hive，任务调度框架使用的是ooize，然后直接同步到mysql进行报表展示
数仓使用接入层、数仓层、应用层分层模型进行设计，大部分坑都已经被业界趟过了，可以避免踩一些不必要的坑

在早期这么做有一些好处：

开源组件，方便扩展和运维
业界成熟的数据仓库方案，分层模型设计
有利于技术人员培养

1 开场

2 贝壳的数据业务背景

3 数据开发平台探索历程

3.1 最初阶段

Recommend

如何避免安全架构设计的“经典”反面模式？

网约车的全球争夺战:时隔四年，滴滴成了进攻方？

在中国满天飞的弹幕，为何飘不进美国用户的屏幕里？

品牌崛起的终极奥义：熬！

istat menu 官网促销

给大家丢脸了，用了三年golang，我还是没答对这道resp.Body.Close() 引发的内存泄漏题

厕所如何成为当代人的「生活避难所」

腾讯追投水滴1.5亿美元后者考虑明年IPO

数字科技，巨头们的“修罗场”

嫦娥系列使用什么语言写的？

About Joyk