5

ODS、DataLake与Diversity

 3 years ago
source link: https://afoo.me/posts/2021-04-24-ODS_DataLake_Diversity.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

ODS、DataLake与Diversity

2021-04-24


其实DataLake(数据湖)在不同的人那里会有不同的理解,但在我看来, DataLake(数据湖)其实就是传统数据仓库理论中的ODS 1层概念的扩展,只不过, ODS传统上往往汇聚的是相对单一的结构化数据, 而DataLake(数据湖)则多样化的引入了多种结构化与非结构化数据进行存储(和计算)。

在数据行业有一个术语叫“Garbage In, Garbage Out”, 也就是数据最好是得经过清洗提纯(ETL)之后再进行下一步或者下面N步的数据处理,ODS层存放的其实就是初步清洗和提纯之后的数据。

但随着基础设施存储能力与计算能力大大大的提升,一个不成熟的想法就可以诞生了(我猜的,别太当真),我tnd可以把所有数据都拿过来集中起来存储和计算呀,管你哪儿来的, 管你啥格式,管你需不需要来, 我照单全收,反正老子有钱,哦不, 反正老子有磁盘,你想要啥数据的时候, 我都可以从这些照单全收的数据里帮你提取出来不就得了吗? 还不用像过去孙子一样求爷爷告奶奶地找业务研发把数据库schema设计的合理一点儿,反正啥数据都收上来了,要的时候都有。 这就像淘金一样, 泥沙俱下没关系,金子本来就是从沙子里提纯出来的嘛,反正老子有钱,哦不,又错了,反正老子有空间,都先照单全收了,慢慢炼! 淘金策略就是爽, oh,yeah~

19591619276631_.pic.jpg


  1. Operational Data Store↩︎



0 comments

Be the first person to leave a comment!


mp_footer.jpeg

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK