4

ETL专业人员应该学习Hadoop的5个理由

 2 years ago
source link: https://www.jdon.com/58431
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

ETL专业人员应该学习Hadoop的5个理由

作为提取、转换和加载 (ETL) 处理的临时平台,Hadoop 在数据仓库中的重要性正在迅速发展。提到 ETL,Hadoop 被视为数据准备和转换的逻辑平台,因为它允许他们完美地管理大量、多样性和速度的数据。Hadoop 被广泛认为是 ETL 的最佳平台,因为它被认为是企业大数据的通用暂存区和着陆区。要了解大数据和 Hadoop 对 ETL 专业人士的重要性,请阅读这篇文章,了解为什么现在是所有数据仓库和 ETL 专业人士从事大数据 Hadoop 职业的最佳时机。

在过去的二十年中,互联网用户的激增和所有可以想象的行业对技术的采用开始以指数级增长的数量生成数据。随着数据的不断增长,所有者意识到需要对其进行分析,因此开创了一个全新的数据仓库领域。这为全新的ETL领域(Extract Transform Load 的首字母缩写词)奠定了基础  ——该领域至今仍主导着数据仓库。

用于 ETL 平台的 Hadoop

提取、转换和加载过程构成了所有数据仓库工具的支柱。这一直是在通过大量卷和数据解析和分析做准备的方式。随着 Hadoop 的兴起,这一概念最近受到了挑战。许多 Hadoop 倡导者认为,未来管理数据的唯一方法是 学习 Hadoop。传统的 ETL 软件和服务器设置受到与可扩展性和成本超支相关的问题的困扰,Hadoop 巧妙地解决了这些问题。

我们来看看 ETL 专业人士应该学习 Hadoop 的 5 大理由:

原因一:更广阔的职业道路

ETL 与 Hadoop 的争论日益激烈,在不久的将来还没有明确的赢家。它们都有自己的优点和缺点。没有通用的解决方案,并且选择其中一种方法通常是一种选择问题,两种方法都牢牢地站稳了脚跟。

如果你经常遇到  大数据,传统的 ETL 工具在存储、效率和成本方面的局限性很可能会迫使你学习 Hadoop。因此,为什么不带头并准备好应对未来的任何情况呢?从目前的情况来看,这两种技术都将在不久的将来保留下来。可能存在特定要求的情况,其中一个优先于另一个,有时两者都需要同步工作以实现最佳结果。

即使 ETL 逐渐被遗忘,也不会是二元变化。相反,这将是一段旅程,您将需要结合传统 ETL 和 Hadoop 来完成大部分工作。

LinkedIn 首席工程师 Jay Kreps 说:“Hadoop 是使 LinkedIn 能够构建许多计算难度最高的功能的关键要素,使我们能够为用户利用关于职业世界的令人难以置信的数据。”

原因二:高效处理大数据

ETL的需求和工具的出现推进了大数据时代。随着传统 ETL 系统中数据量的不断增长,需要相应增加人员、技能、软件和资源。随着时间的推移,大量数据开始给资源带来压力,性能参数开始下降。传统上流畅的 ETL 流程中出现了许多瓶颈。由于 ETL 涉及从一个系统读取数据、通过网络复制和传输数据以及写入另一个系统,因此不断增长的数据量开始对性能参数产生不利影响。

包含数据的系统通常不是使用数据的系统,而 Hadoop 正在改变这一概念。它是企业架构中的数据中心,提供了一种廉价、高性能的存储环境来转换和使用数据,而无需通过网络系统迁移大量数据。

有时,ETL 所做的只是从一个系统中提取数据,执行次要的聚合功能并将其加载到另一个系统中。其中大部分只会导致系统瓶颈,通常不会增加任何价值,对于本质上非增值的活动,所花费的成本和时间变得难以管理。

原因三:处理非结构化数据

随着各行各业的组织继续以极快的速度增长,它们产生了大量、复杂和非结构化的数据,这些数据暴露了传统 ETL 系统的局限性。准确处理大规模数据正日益成为数据管理专业人员的一项艰巨任务。数据的增长如此突如其来,即使是现有的仓储平台也无法在资源限制的情况下对其进行吸收、聚合、转换和分析。更麻烦的是,传统 ETL 工具处理非结构化和半结构化数据的能力有限,这对于任何 21 st来说都不是好兆头。世纪商业。与数据混乱保持同步的一个选择是学习 Hadoop——越来越多的组织正在走这条路,因为升级传统的数据仓库基础设施并不是一个永久的解决方案,更不用说他们需要数小时的处理时间了。

原因四:需要同步传统ETL和Hadoop

最近的许多讨论都被预测为 ETL 与 Hadoop 的对比,这不是一个准确的分析。至少在目前,它们并不是相互排斥的,两者共存的可能性非常大。话虽如此,数据专业人员不能依赖于他们现有的一种或多种 ETL 工具的专业知识。Hadoop 正在流行,许多分析师强烈建议采用它,特别是对于定期处理大量、半结构化和非结构化数据的项目。这两种技术各有优缺点,即使采用Hadoop,ETL 工具也不会很快消失  。将转换处理卸载到 Hadoop 等平台可以释放数据仓库中的大量容量 – 从而使其成为昂贵的扩展或升级的可行替代方案,从而为数据量的指数级扩展腾出空间。

Hadoop 能够以比传统数据仓库解决方案低 50 倍以上的成本实现几乎无限的可扩展性。它还为数据归档提供了强有力的案例,因为它可以对归档数据进行分析。尽管它不会很快取代传统的 RDBMS 系统,但其卓越的性价比为组织提供了一个现实的选择,可以在保持现有性能水平的同时降低成本。

理由五:开源,一站式解决方案

传统的 ETL 系统在过去的二十年如雨后春笋般涌现,产品没有统一性。有各种各样的数据仓库解决方案可供选择,这些解决方案可能会让人很困惑。学习 Hadoop 后,您会发现它是针对与非结构化数据、处理时间和可扩展性相关的现有解决方案的一站式开源解决方案。所有数据仓库专业人员都应该具备查询、故障排除和数据处理的技能,这些技能涵盖了学习 Hadoop 的所有先决条件。它使您能够以比传统 ETL 解决方案更短的时间完美地管理数据的数量、种类和速度。

Gartner商业智能峰会统计(2013 年)的统计数据揭示了以下统计数据,这些数据进一步加强了学习 Hadoop 的案例:

75% 的当前数据仓库无法扩展以满足数据需求的新速度和复杂性

86% 的公司无法在正确的时间提供正确的信息


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK