5

数字化转型为什么一定需要构建数据湖?

 2 years ago
source link: https://blog.qiniu.com/archives/8911
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
数字化转型为什么一定需要构建数据湖? - 七牛云

编者按:数据湖概念诞生,是由于企业面临如何存储和处理数据的挑战。企业的应用中会产生大量不同类型的数据,而这些数据像孤岛一样存在,大多数企业不具备从中挖掘价值的能力。企业迫切需要更高的数据管理、数据分析能力,为了解决上述问题,数据湖的概念应运而生,数据湖不但能存储传统类型数据,也能存储任意其他类型数据,并且能在它们之上做进一步的处理与分析,可以助力企业快速数字化转型。

资料来源:Dragon1

永久拥有一个存放所有数据的地方
传统的日志管理体系结构是基于索引的,需要在数据解析和填充方面进行大量前期投资。而数据湖则不同,它在抓取数据时不必定义日志的结构。数据湖的方法是收集所有不同类型的数据,并根据未来需要处理的问题,做不同的分析。

在 Snowflake 中,用户可以通过将日志数据作为 JSON 体收集到登录表的变体列中。然后,用户可以创建一个 SQL 视图,该视图不只允许从 JSON 中选择键属性作为列,还可以关联数据集来做增维分析。例如,仅使用数字帐户 ID 生成的日志事件可以与单独的账号明细表连接,以获得人类可读的帐户别名。

日志以原始格式登录后创建的日志分析视图

这种方法对于以云为中心的公司尤其有用,这些公司的大部分基础设施分布在几十个 SaaS 和 PaaS 解决方案中,每个解决方案都有自己的日志模式。例如,当你准备好关联工作日志和 Salesforce 记录时,就可以创建一个视图来规范化相关的字段进行分析。

考虑到生成的日志量呈指数增长,云原生数据湖的经济学也值得回顾。例如,在 Snowflake 中,客户可以以每月每 TB 23 美元的价格存储数据。这个价格是针对压缩数据和日志的,通常至少要压缩 3 倍。这样一来,数据存储就成了安全预算中的一个四舍五入误差。

除了节省成本之外,廉价的存储还可以收集更详细的日志和数据集,比如流日志,这对于 SIEM 解决方案来说非常昂贵。拥有数据湖的安全团队应该将他们的保留期限考虑为「永久」。

数据湖变得容易
第一代安全数据湖是在 Hadoop 上构建的。令人兴奋的是 Hadoop 适合于企业机器数据:大型的非关系型数据。问题在于 Hadoop 集群被证明在操作上很复杂,在分析上也很有挑战性。由于技术上的缺陷,他们的安全分析潜力也没有很好地挖掘。

快进五年,数据湖技术现在是主流云供应商(和 Snowflake)的优先考虑。技术进步和 SQL 的复苏使人们更容易从半结构化大数据的自助分析中获益,而不像 Hadoop 及其同类产品那样存在缺陷。

如果感兴趣,可以阅读关于使用新一代数据湖解决方案的组织的成功故事(详情请点击阅读原文)。这些解决方案在每个行业中都得到了快速采用,因此,大多数安全团队都有机会利用现有的企业数据湖项目。对于前瞻性 CISO 制定其云优先的安全策略而言,这意味着更少的开销和更高的 ROI。

你将为数据科学做好准备
谈到前瞻性的安全专家,你可能会问如何处理这些 TB 级的收集数据。考虑一下数据科学对任何应用程序的潜力,在这些应用程序中有大量的信息,需要洞察和预测。

资料来源:Oracle EPM Cycle

随着企业数据操作的成熟,他们将分析扩展到从财务到人力资源再到 IT 的各个部门。没有人期望每个部门会雇佣自己的数据科学家。相反,有一种协作模型,领域专家与数据科学家一起定义问题,最终实现自服务的 BI 仪表盘和分析驱动的自动化。
文章来源:Medium


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK