8

贝壳一站式大数据开发平台实践

 3 years ago
source link: https://www.infoq.cn/article/MMNwzdlCYjG83qm0TgQm
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

1 开场

大家下午好,很荣幸来到这跟大家一起分享贝壳一站式大数据开发平台的落地实践。今天的分享主要分为以下四个部分:

  • 贝壳的数据业务背景。

  • 数据开发平台探索历程。

  • 数据开发平台的整体情况介绍

  • 未来规划与展望

2 贝壳的数据业务背景

在公司最早的时候,由于体量较小,基本上都是业务自行承担数据的获取需求的,随着公司规模的增长,对大数据的离线应用开发的需求越来越多。那么为了满足各类数据获取/计算等需求,我们在 14 年成立了大数据部门,专门针对大数据工作进行探索。首先我们针对贝壳数据需求进行了分析,基本上都是围绕物的数据、人的数据、行为数据这三大块来进行分析研究。

M3yEvyj.png!mobile
  • 物:我们早在08年就开始进行筹建楼盘字典,用房间门牌号、标准户型图、配套设施信息等多维信息定义一套房屋,到目前为止,已经收录了2亿以上的房屋信息

  • 行为:线上的浏览日志,下线的看房行程等行为信息

  • 人:主要是经纪人、还有客户(买家、业主)以及品牌主的信息

然后我们针对大数据技术在业内进行了调研,一般都是遵循这三个逻辑:降本、增效、规范。

3 数据开发平台探索历程

接下来为大家介绍贝壳数据开发平台探索历程。在大数据部门成立伊始,我们进行 hadoop 搭建,使用 Kafka+Sqoop+HDFS+Hive 架构;随着业务需求量以及需求复杂度的迅速增加,我们开始有了平台化的需求,于是开始探索平台化架构;2019 年,我们已经开始进行数据资产管理。

iqA7Bj.png!mobile

3.1 最初阶段

贝壳最早的大数据开发平台,非常的简单粗暴。经典的 Kafka+Sqoop+HDFS+Hive,任务调度用 Ooize,处理完之后的数据放在 MySQL 中,报表平台直接读取 MySQL 的数据做展示

NFVRjai.png!mobile
  • 使用了开源组件,采用hadoop进行搭建集群,集成工具使用sqoop,数仓建设使用hive,任务调度框架使用的是ooize,然后直接同步到mysql进行报表展示

  • 数仓使用 接入层、数仓层、应用层分层模型进行设计,大部分坑都已经被业界趟过了,可以避免踩一些不必要的坑

在早期这么做有一些好处:

  1. 开源组件,方便扩展和运维

  2. 业界成熟的数据仓库方案,分层模型设计

  3. 有利于技术人员培养


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK