123

36氪独家 | 新一代数据库「偶数」获红杉中国、红点中国投资,开源技术商业化是个好方...

 6 years ago
source link: http://36kr.com/p/5100074.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

36氪独家 | 新一代数据库「偶数」获红杉中国、红点中国投资,开源技术商业化是个好方向

徐宁·2017-10-31 00:03
偶数是一家算法公司。算法不断迭代,就能让数据库提升更快的效率。

“偶数”成立于2016年底,是一个基于HAWQ的新一代数据库项目,目前团队在30人。今年4月份公司获得红点中国的天使轮投资,又于近期完成了红杉中国领投、红点中国跟投的A轮融资,两轮共计数千万元。

我们先来看一下数据库的发展历程。

数据库承担的功能是存储和计算,可分为交易型OLTP(on-line transaction processing)、分析型OLAP(On-Line Analytical Processing)两类:

  • 交易型OLTP是最稳定的,主要是针对基本的、日常的事务处理,银行交易就是一个典型的应用场景,由于不能出纰漏,大企业基本都选用Oracle的产品,该市场80%已饱和,并且增长缓慢。

  • 分析型OLAP是数据仓库系统,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,像现在智能交通中识别车牌就是典型应用,需要分析大量数据,以及现在正火热的AI都需要分析型数据库做底层支撑。分析型数据库是创业公司的机会,存量市场在200亿美元,目前还在保持高速增长。

分析型数据库目前已经历三代,正朝着第四代演变。

Oracle做为数据库的巨头,产品即有OLTP,也有OLAP。第一代分析型数据库/OLAP,代表有Oracle的Exadata,缺点是只能储存在EMC这样的高端专有硬件上,每个节点要花费400多万,并且,多节点共享一个存储设备,导致可拓展性差,往往只能支持10几个节点。

接着,出现第二代数据仓——MPP大规模并行处理。这时,数据已经不需要储存在专有硬件上,普通的x86服务器即可,成本自然下降。各个计算节点的数据独立存在本地的硬盘上,互相之间不共享,计算时将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。代表产品有HP Vertica、EMC收购的Greenplum、IBM Netezza,虽然这种架构下节点可拓展至几十个,但依旧不能满足大规模的扩展需求。

随着Hadoop的发展,第三代数据库崛起,数据存储在HDFS上,HDFS是运行在通用硬件上的分布式文件系统。此时,存储、计算分离,各节点之间能够互相访问,扩展性强,可以延伸到上千个节点。不过由于新产品的性能还没能很好磨合,有些情况下,第三代数据库不如第二代快速。

之后,在Hadoop上就长出了很多开源技术,用来更进一步完善、优化性能,HAWQ就是其中之一,此外还有Hive、Impala、Spark SQL等。

偶数的CEO常雷便是Apache HAWQ创始人,他告知,HAWQ数据库可以比第二代快10倍,比第三代快30-50倍。

数据库的性能取决于“优化器”和“执行器”,其中优化器负责找出最佳步骤,执行器负责控制硬件。而HAWQ的关键就在于执行器

例如,给一堆数据做排序,“先排序还是先筛选”是由优化器决定,当优化器决定先排序时,接下来由执行器调配硬件。我们知道在冒泡排序的算法里,用一个数据跟其他比较然后插入位置,此时用两个甚至多个同时计算就会快很多,而HAWQ就是用一种高级指令控制硬件,同时计算多条数据。

再比如,CPU有一定的缓存空间,计算时访问距离最近、速度最快,但空间有限,磁盘存储空间最大却访问最远、速度最慢,所以,怎样分配指令,用最快的资源处理最实时的需求,就是HAWQ执行器需要做的事情。

这样看来,偶数是一家算法公司。算法不断迭代,就能让数据库提升更快的效率

目前,偶数有两款产品,一个是开源版的Apache HAWQ,另一个是商业版的Oushu Database(HAWQ++)。据常雷告知,刚发布的Oushu Database 3.0商业版比开源版快10倍,这样算下来,就比Spark SQL等其他数据引擎快几十倍。

至于应用,偶数可以在数据库内做AI算法,效果会优于TensorFlow,TensorFlow是独立系统,加在数据库外,而偶数的算法可以做在数据库内,访问越近,速度越快。常雷告知,像是航母、银行、电力运维、金融、政府公安等行业目前都在应用偶数数据库,像是传感器采集大量数据的场景,都需要快速处理。

收费方面,偶数商业版根据CPU/节点/容量收取账号年费。

对于本次融资,红点中国管理合伙人袁文达先生表示:“红点中国本身是很看好大数据技术领域未来的发展趋势,在国内外投资了不少大数据技术公司,包括MapR、Dremio、Snowflake、Crunchbase、Kyligence等等,偶数团队来自于Pivotal、IBM等著名软件公司,对国内和国际市场以及产品落地有丰富的经验,以及HAWQ++在MPP分析数据库的技术处于国际领先水平。我们很高兴跟这样的团队合作。”

至于融资资金,常雷透露,将主要用于研发和市场。

附:以下是Oushu Database 3.O主要的革新点

1.   全新执行器,性能提升10倍。

执行器是数据库最核心的部件之一,Oushu Database 3.0对执行器进行了完全重新设计,充分利用了最新CPU的每一个特性,比如SIMD指令等,可以做到性能的极致。

2.   支持ORC外部存储格式,结合新的执行器,外部存储的性能可以提升10-50倍。

这就使得外部存储达到了内部存储的性能。

3.   支持新一代可插拔存储框架,只需简单编写几个函数就可以添加一个外部数据源。

传统数据仓库连接外部数据往往都是使用Connector形式,性能很慢,从而导致用户需要使用先导入外部数据再查询的方式,数据需要在多个系统存储多份,浪费了多倍存储空间。

结合新一代执行器,Oushu Database可插拔存储框架使得数据库可以直接高性能访问外部数据,查询外部数据的性能和查询内部数据类似。

本文由「徐宁」原创出品, 转载或内容合作请点击 转载说明 ;违规转载必究。

寻求报道 。

本文图片来自:Yestone邑石网


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK