36氪独家 | 新一代数据库「偶数」获红杉中国、红点中国投资，开源技术商业化是个好方向

徐宁·2017-10-31 00:03

偶数是一家算法公司。算法不断迭代，就能让数据库提升更快的效率。

“偶数”成立于2016年底，是一个基于HAWQ的新一代数据库项目，目前团队在30人。今年4月份公司获得红点中国的天使轮投资，又于近期完成了红杉中国领投、红点中国跟投的A轮融资，两轮共计数千万元。

我们先来看一下数据库的发展历程。

数据库承担的功能是存储和计算，可分为交易型OLTP（on-line transaction processing）、分析型OLAP（On-Line Analytical Processing）两类：

交易型OLTP是最稳定的，主要是针对基本的、日常的事务处理，银行交易就是一个典型的应用场景，由于不能出纰漏，大企业基本都选用Oracle的产品，该市场80%已饱和，并且增长缓慢。
分析型OLAP是数据仓库系统，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果，像现在智能交通中识别车牌就是典型应用，需要分析大量数据，以及现在正火热的AI都需要分析型数据库做底层支撑。分析型数据库是创业公司的机会，存量市场在200亿美元，目前还在保持高速增长。

分析型数据库目前已经历三代，正朝着第四代演变。

Oracle做为数据库的巨头，产品即有OLTP，也有OLAP。第一代分析型数据库／OLAP，代表有Oracle的Exadata，缺点是只能储存在EMC这样的高端专有硬件上，每个节点要花费400多万，并且，多节点共享一个存储设备，导致可拓展性差，往往只能支持10几个节点。

接着，出现第二代数据仓——MPP大规模并行处理。这时，数据已经不需要储存在专有硬件上，普通的x86服务器即可，成本自然下降。各个计算节点的数据独立存在本地的硬盘上，互相之间不共享，计算时将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。代表产品有HP Vertica、EMC收购的Greenplum、IBM Netezza，虽然这种架构下节点可拓展至几十个，但依旧不能满足大规模的扩展需求。

随着Hadoop的发展，第三代数据库崛起，数据存储在HDFS上，HDFS是运行在通用硬件上的分布式文件系统。此时，存储、计算分离，各节点之间能够互相访问，扩展性强，可以延伸到上千个节点。不过由于新产品的性能还没能很好磨合，有些情况下，第三代数据库不如第二代快速。

之后，在Hadoop上就长出了很多开源技术，用来更进一步完善、优化性能，HAWQ就是其中之一，此外还有Hive、Impala、Spark SQL等。

偶数的CEO常雷便是Apache HAWQ创始人，他告知，HAWQ数据库可以比第二代快10倍，比第三代快30-50倍。

数据库的性能取决于“优化器”和“执行器”，其中优化器负责找出最佳步骤，执行器负责控制硬件。而HAWQ的关键就在于执行器。

例如，给一堆数据做排序，“先排序还是先筛选”是由优化器决定，当优化器决定先排序时，接下来由执行器调配硬件。我们知道在冒泡排序的算法里，用一个数据跟其他比较然后插入位置，此时用两个甚至多个同时计算就会快很多，而HAWQ就是用一种高级指令控制硬件，同时计算多条数据。

再比如，CPU有一定的缓存空间，计算时访问距离最近、速度最快，但空间有限，磁盘存储空间最大却访问最远、速度最慢，所以，怎样分配指令，用最快的资源处理最实时的需求，就是HAWQ执行器需要做的事情。

这样看来，偶数是一家算法公司。算法不断迭代，就能让数据库提升更快的效率。

目前，偶数有两款产品，一个是开源版的Apache HAWQ，另一个是商业版的Oushu Database（HAWQ＋＋）。据常雷告知，刚发布的Oushu Database 3.0商业版比开源版快10倍，这样算下来，就比Spark SQL等其他数据引擎快几十倍。

至于应用，偶数可以在数据库内做AI算法，效果会优于TensorFlow，TensorFlow是独立系统，加在数据库外，而偶数的算法可以做在数据库内，访问越近，速度越快。常雷告知，像是航母、银行、电力运维、金融、政府公安等行业目前都在应用偶数数据库，像是传感器采集大量数据的场景，都需要快速处理。

收费方面，偶数商业版根据CPU／节点／容量收取账号年费。

对于本次融资，红点中国管理合伙人袁文达先生表示：“红点中国本身是很看好大数据技术领域未来的发展趋势，在国内外投资了不少大数据技术公司，包括MapR、Dremio、Snowflake、Crunchbase、Kyligence等等，偶数团队来自于Pivotal、IBM等著名软件公司，对国内和国际市场以及产品落地有丰富的经验，以及HAWQ++在MPP分析数据库的技术处于国际领先水平。我们很高兴跟这样的团队合作。”

至于融资资金，常雷透露，将主要用于研发和市场。

附：以下是Oushu Database 3.O主要的革新点

1. 全新执行器，性能提升10倍。

执行器是数据库最核心的部件之一，Oushu Database 3.0对执行器进行了完全重新设计，充分利用了最新CPU的每一个特性，比如SIMD指令等，可以做到性能的极致。

2. 支持ORC外部存储格式，结合新的执行器，外部存储的性能可以提升10-50倍。

这就使得外部存储达到了内部存储的性能。

3. 支持新一代可插拔存储框架，只需简单编写几个函数就可以添加一个外部数据源。

传统数据仓库连接外部数据往往都是使用Connector形式，性能很慢，从而导致用户需要使用先导入外部数据再查询的方式，数据需要在多个系统存储多份，浪费了多倍存储空间。

结合新一代执行器，Oushu Database可插拔存储框架使得数据库可以直接高性能访问外部数据，查询外部数据的性能和查询内部数据类似。

本文由「徐宁」原创出品，转载或内容合作请点击转载说明；违规转载必究。

寻求报道。

本文图片来自：Yestone邑石网

36氪独家 | 新一代数据库「偶数」获红杉中国、红点中国投资，开源技术商业化是个好方...

36氪独家 | 新一代数据库「偶数」获红杉中国、红点中国投资，开源技术商业化是个好方向

Recommend

【GAD翻译馆】如何掌握头发重叠的方法与动作

iPhoneX年内必买的三个理由

mockk | mocking library for Kotlin

町町单车倒闭，实业富二代千万别玩互联网

爆料：快手开启上市前大规模商业化招聘，但也有小烦恼

GitHub - haccer/subjack: Hostile Subdomain Takeover tool written in Go

双十一红包大战激烈！微信刚封杀完天猫的“火炬红包”，就开始推自己的“红包店”小程序

HTTPS Everywhere :: Add-ons for Firefox

党的十九大报告是这样诞生的

取经德国小巨人大作为浙江发力培育“隐形冠军”

About Joyk