0

为什么每个人都想杀死 Airflow?

 1 year ago
source link: https://www.jdon.com/63903
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

为什么每个人都想杀死 Airflow?


Airflow 可能是过去十年中 Top 5 突破性数据技术之一。作者通过比较 Airflow 的一些优缺点来描述当今编排引擎的竞争格局。

Apache Airflow 从根本上没有错,它是一流的数据工程工具,长期以来一直在推动数据管道向前发展。而且这个工具的采用并没有放缓。

那么为什么人们称 Apache Airflow 结束了呢?

我要向你提出一个提示:一般的数据团队或数据工程师并不要求 Apache Airflow 的消亡;而新的SAAS公司和营销团队呼吁结束Airflow,这两者是有区别的。
并不是说 Airflow 真的要结束了,而是说Airflow 已经达到了临界质量,现在竞争对手正在步履维艰,争夺市场份额。

Airflow 之所以领先,是因为管道编排领域有两个新人,PrefectDagster 。这是很自然的,这就是自由和开放市场的运作方式,即使使用开源软件也是如此。
当诸如 Airflow 之类的东西变得非常流行时,因为它很好地完成了一项任务并满足了需求,总会有人或某物出现并说,“我可以做得更好。”
对于 Airflow 来说,没有什么比激烈的竞争更好的了。它推动整个社区进行改进和创新。

我们怎么才能真正知道 Airflow 仍然有一个坚实的未来?
这是一个重要的问题,如果您正在市场上寻找新的编排和依赖管理工具,您肯定不想搭便车去赶牛。我会给你两个非常有说服力的理由,让你相信 Airflow 会长期存在。

可以肯定的是,如果 AWS 和 GCP 愿意全力以赴将 Airflow 作为一项托管服务提供,它将会存在一段时间。如果仅仅因为他们拥有如此多的客户和如此多的市场份额这一事实。
当云公司让工具的使用变得异常简单时,你可以打赌数据团队会上钩。简单性和在同一架构上保持工具被视为越来越重要。
归根结底,如果 AWS 和 GCP 支持 Airflow,它就会继续存在。

Airflow 有哪些不擅长的地方?
重要的是要认识到每个工具都会有“需要改进的地方”,也就是它不擅长的地方。
Airflow 也不例外,它的缺点催生了下一代工具,如 Perfect 和 Dagster。Airflow 存在实际问题,可能会给某些数据团队带来严重问题。

  • 不能很好地扩展大数据。
  • UI 并不是什么值得欢呼的东西。
  • 有些人抱怨 DAG 冗长。
  • 运行数十万个 DAG 可能会很痛苦。
  • 将自定义管道代码集成到 Airflow 中并不是很顺利。
  • 任务间通信是肉中刺。
  • 有些人抱怨 DAG 学习曲线。

老实说,你不能真的把所有这些都归咎于 Apache Airflow,事实是 Airflow 在数据工程社区中变得如此普遍和广泛使用,以至于它被滥用了。
尝试将 Airflow 与一群工作人员一起实际进行大规模数据处理和转换……可能不是一个好主意。你在滥用气流。如果你有任何体面大小的数据,你应该做的是使用一些社区提供的连接器/包卸载计算,让 Airflow 做它最擅长的事情,监控、编排、管理依赖项和计划。

Airflow 还擅长什么?
嗯,我很高兴你问!随着世界各地使用 Airflow 的人数和工程师的数量,您可以打赌它有很多优势,并使数据团队能够做出惊人的事情。
让我们歌颂一下 Apache Airflow,好吗?

  • Airflow擅长调度任务。
  • Airflow 擅长编排。
  • Airflow 擅长依赖管理。
  • Airflow 拥有庞大且非常活跃的社区。
  • Airflow 拥有数量惊人的第三方提供商(想想 Snowflake、Databricks 等)
  • Airflow 是非常可定制和可扩展的。
  • Airflow 由 AWS 和 GCP 支持和管理。
  • Airflow 已经足够“强化”以用于生产。

 


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK