64

Hadoop的光芒日渐黯淡

 5 years ago
source link: http://www.10tiao.com/html/554/201807/2654692489/4.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Wikibon发布了最新的大数据市场预测年度报告,其中最值得关注的调查结果之一是,如今Hadoop在诸多供应商的路线图中很少被提及。



我不会说Hadoop这款用于在大型硬件集群上存储数据、运行应用程序的开源软件完全死翘翘了。毕竟,大多数大数据分析平台和云服务提供商仍然支持诸如YARN、Pig、Hive、HBase、ZooKeeper和Ambari之类的Hadoop支柱技术。


然而,这些支柱技术没有一个能像Hadoop分布式文件系统(HDFS)那样代表这个开源平台的核心。而HDFS在大数据分析供应商的核心平台战略中越来越少见到。


HDFS在诸多供应商的大数据路线图中逐渐淡出的主要原因是,客户的需求已经远远超出了它预先假定的静态数据架构。静态数据架构(比如基于HDFS的数据湖)对企业数据战略来说变得不那么重要。这年头你听到“数据湖”时,它极有可能指某家企业的数据存储,比如S3、微软Azure数据湖存储和谷歌云存储之类。


就连像Hortonworks公司这样坚定支持Hadoop的公司都看到了不祥之兆,这就是为什么在最近发布的3.0版本中,Hortonworks强调异构对象存储。新的Hortonworks数据平台(HDP)3.0支持各大公共云对象存储系统中的数据存储,包括亚马逊S3、Azure Storage Blob、Azure数据湖、谷歌云存储和AWS Elastic MapReduce文件系统。


HDP在存储方面的最新改进包括一致性层、NameNode方面的改进(支持针对数十亿个文件的横向扩展持久化,存储开销更低)以及存储效率方面的提升(比如支持跨异构卷的纠删码技术)。HDP工作负载通过Hadoop兼容文件系统API访问非HDFS云存储环境。


所以,这个也就不足为奇:MapR最近发布了6.1数据平台更新版(仍处于测试阶段),除了Hive 2.3外,几乎只字未提HDFS或Hadoop生态系统的其他任何核心组件。虽然MapR总是与正宗的Hadoop供应商保持若即若离,但它在最新版本中走得更远。它现在提供一款强大的下一代云数据平台,基于下列几大支柱技术:


  • 对象存储:新的静态数据结构负责对异构多云中的异构数据对象持久化。这说明MapR现在将S3 API定位于其静态数据结构的核心,不过它也支持使用HDFS、NFS、POSIX、SMB和REST等接口的数据读写。MapR新的对象数据服务让数据管理员们能够灵活地与他们选择的提供S3 API的公共云或私有云(包括但不限于AWS的S3公共云服务)集成。MapR提供一个全局命名空间,并且跨分布式对象存储环境实施一套通用的规则和策略,比如访问控制、数据自动放置、卷加密和纠删码,无论这个环境是公共云、私有云还是混合云,无论对数据持久化采用了哪种格式。它还增加了基于策略的分层机制,以便在本地和云端自动迁移数据,不受性能、容量和归档存储的影响。

  • 数据流计算:新的动态数据结构负责持续处理各种数据对象。继对象存储之后,数据流计算(stream computing)是MapR最新的平台更新版的最重要新闻。尤其是,Kafka现在是MapR及其他大多数大数据分析公司重点关注的技术。最新的MapR版本支持使用Kafka 1.1和KStreams API,简化开发数据流分析和变更数据捕获应用程序的工作,另外通过Kafka的KSQL语言,让用户更容易查询流式数据。与此同时,MapR现在使用数据流内(in-stream)机器学习支持Spark Structured Streaming 2.3,实现高性能持续处理。


对象存储现在是大数据的核心平台,但在未来十年,它很可能不如数据流计算来得重要。数据流是当今始终在线(always-on)经济的基石,正如关系数据架构曾是前一个企业计算时代的基石。在Wikibon的大数据市场最新报告中,我们发现了几个业务技术趋势,它们指向了数据流计算是大多数数据架构基石的新时代:


  • 数据源在整合来自“物联网”端点设备的更多本地获取的传感器机器数据。

  • Serverless计算得到采用,工作负载因而转向基于事件驱动的请求/响应流,这种流基于始终在线的结构。

  • 面向边缘的应用程序架构需要在移动设备、嵌入式设备和物联网设备处进行数据流内分析处理、推理和训练。

  • 向实时、活动、交互式的在线会话转变需要支持低延迟、持续数据处理的端到端环境。

  • 将事务性工作负载转向数据流计算正在将有状态、经过编排的语义带入到这些环境。

  • 始终在线环境中的决策支持需要对数据流平台中的真相来源持久化。

  • Kafka、Flink和Spark Structured Streaming等开源数据流环境趋于成熟,已使这项技术进入企业信息技术专业人士的舒适区。


众多企业在加大内存、持续计算、变更数据捕获及其他低延迟解决方案等方面的投入,同时将那些投入与大数据静态环境(包括Hadoop、NoSQL和RDBMS)结合起来。在未来十年,从架构的角度来看,我们过去所知道的数据库将成为古老历史,将来数据流、内存、边缘和Serverless等基础设施占据主导地位。


Hadoop城堡的最后一堵墙建立在支持有状态的事务性应用程序的静态架构上,但Kafka等数据流环境似乎可能会高效地满足更多的这类需求,可能与作为持久性元数据日志的区块链结合起来。


实际上,随着数据流、对象存储、区块链和物联网渗入到所有应用,未来几十年无数据库的世界可能在等着我们。


Hadoop可能仍有很长的使用寿命,数据库可能会继续成为许多应用程序架构的支柱。但是我们已进入了一个新时代,这些熟悉的地标在日渐式微。这是数据流计算在各个应用程序环境开辟新渠道、大型对象存储系统完全立足于数据流计算的新时代。


相关阅读:

云在颠覆Hadoop!

Gartner:伙计们,你们搞错Hadoop和Spark了,它们可能会失败!

Hadoop处于风雨飘摇中|「云头条」



About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK