Elasticsearch 技术原理

上两篇文章《基于HBase+ElasticSearch进行用户画像查询（二）》、《ElasticSearch之复杂搜索及分页（一）》提到ElasticSearch组件的实际应用，ElasticSearch在亿级海量数据中多维度检索数据具有非常好的性能。本文主要对ElasticSearch底层原理浅析。

一、基本概念

索引（Index）

ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合，类比传统关系型数据库的一个数据库（database），或者一个数据存储方案（schema）。索引由其名称（必须全小写字符）进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。

类型（Type）

类型是索引内部的逻辑分区（category/partition），一个索引内部可定义一个或多个类型（type）。类比传统关系型数据库的一张表。

文档（Document）

文档是索引和搜索的原子单位，它是包含了一个或多个域（field）的容器，采用JSON格式表示。文档由一个或多个域组成，每个域拥有一个名字及一个或多个值，类比传统关系型数据库的一条记录。

倒排索引（Inverted Index）

每个文档都对应一个ID，倒排索引会按照指定语法对每一个文档进行分词，然后维护一张表，列举所有文档中出现的terms以及它们出现的文档ID和出现频率，它是实现"单词-文档矩阵"的一种具体存储形式。倒排索引主要由两部分组成："单词词典"和"倒排文件"。

单词词典(Lexicon)：单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向"倒排列表"的指针。

倒排列表(PostingList)：倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息，每条记录称为一个倒排项。

倒排文件(Inverted File)：所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件被称之为倒排文件，倒排文件是存储倒排索引的物理文件。

qMbaei6.jpg!web

节点（Node）

一个运行中的ElasticSearch实例为一个节点，而集群是由一个或多个拥有相同cluster.name配置的节点组成。ES集群中的节点有三种不同的类型：

主节点：负责管理集群范围内的所有变更，主节点并不需要涉及到文档级别的变更和搜索等操作，可通过属性node.master进行设置。

数据节点：存储数据和其对应的倒排索引，可通过属性node.data属性进行设置。

协调节点：如果node.master和node.data属性均为false，则此节点称为协调节点，用来响应客户请求，均衡每个节点的负载。

分片（Shard）

一个索引中的数据保存在多个分片中，相当于水平分表。一个分片便是一个Lucene的实例，它本身就是一个完整的搜索引擎。分片是数据的容器，文档保存在分片内，分片又被分配到集群内的各个节点，当集群的规模扩大或缩小时，ES自动在各节点中迁移分片，使得数据均衡分布。一个分片可以是主分片或者副本分片，索引内任意一个文档都归属于一个主分片，所以主分片的数目决定着索引能够保存的最大数据量，一个副本分片只是一个主分片的拷贝，并为搜索和返回文档的读操作提供服务。

IR3mqiy.png!web

(3个节点 3个分区 1个备份)

二、写操作（write）

索引新文档（create）

当用户向一个节点提交了一个索引新文档的请求，节点会计算新文档应该加入到哪个分片（shard）中。

1、每次写入新文档时，都会先写入内存中，并将这一操作写入一个translog文件（transaction.log）中，此时如果执行搜索操作，这个新文档不能被索引到；

2、ES每隔1秒（这个时间可修改）进行一次刷新（refresh）操作，将在这1秒时间内写入内存的文档写入一个文件系统缓存（filesystem cache）中，并构成一个分段（segment）。此时这个segment里的文档可以被搜索到，但是尚未写入硬盘，可能会因宕机而导致文档丢失；

3、不断有新的文档写入，则这一过程将不断重复执行，不断生成新的segment文件，而translog文件将越来越大；

4、每隔30分钟或者translog文件变得很大，则执行一次fsync操作，此时所有在文件系统缓存中的segment将被写入磁盘，而translog将被删除（此后会生成新的translog）；

ES引入了translog来记录两次fsync之间所有的操作，这样机器从故障中恢复或重新启动，ES便可以根据translog进行还原。当然，translog本身也是文件，存于内存中，也存在数据丢失的可能性，因此，ES会每隔5秒或者一次写入请求完成后将translog写入磁盘。此外，由于不断生成新的segment文件，对于一个分片进行查询请求时，会轮流查询分片中的所有segment，这非常影响搜索的性能，因此ES会自动启动合并segment的工作，将一部分segment合并成一个新的大segment，所有被合并的旧segment被清除。

更新（update）和删除（delete）文档

ES的索引是不能修改的，因此更新和删除操作并不是直接在原索引上执行。每个分区上的segment都会维护一个del文件，用来记录被删除的文档，每当用户发起一个删除请求，文档并没有被真正删除，索引也没有发生改变，而是在del文件中标识该文档已被删除。因此，被删除的文档依然可以被检索到，只是在返回结果时被过滤掉，每次启动segment合并工作时，那些被标识为删除的文档才会被真正删除。

更新文档首先查找原文档，得到该文档的版本号，然后将修改后的文档写入内存，即写入一个新文档，同时旧文档被标识为删除。

三、读操作（read）

查询的过程大体上分为查询（query）和取回（fetch）两个阶段，通过广播查询请求到所有相关分片，并将它们的响应整合成全局排序后的结果集合，这个结果集合会返回给客户端。

1、当一个节点接收到一个搜索请求，则这个节点就变成了协调节点；

2、广播请求到索引中每一个节点的分片，查询请求可以被某个主分片或者某个副本分片处理；

3、每个分片将会在本地构建一个优先级队列。如果客户端要求返回结果排序中从第from开始数量为size的结果集，则每个节点都需要生产一个from+size大小的结果集，因此优先级队列的大小为from+size，分片仅会返回一个轻量级的结果给协调节点。

4、协调节点将所有分片的结果汇总，并进行全局排序，得到最终的查询排序结果。

5、以上步骤为查询阶段，得到一个排序结果，标记出哪些文档是符合搜索要求的，仍然需要获取这些文档返回客户端。协调节点向含有该文档的分配发送get请求，分片获取文档返回给协调节点，协调节点将结果返回给客户端。

一、基本概念

二、写操作（write）

三、读操作（read）

Recommend

NVIDIA“恶补”显卡这门课

美国正式提高中国产品关税，中国表示将反击

GitHub - KunMinX/Linkage-RecyclerView: 即使不用饿了么订餐，也请务必收藏好该库！?...

每日刷一刷 - 爆笑动图，每日刷一刷 - NEXT

好奇心杂志 - 筛选最有价值的信息，最值得关注的各届动态及他们的想法 - NEXT

you say what - 没有字幕听的懂否？做个小测试，进行下一段剧情.. (我刚整的，欢迎意...

如果财务自由辞职回四线老家，相比于正常工作有哪些弊端？

一线丨中国电子37亿战略入股奇安信持股超22%

36氪首发 | 「欧瑞博」完成C轮融资，美的置业、红星美凯龙领投

苹果开发中文网站在华为写了十几年代码，我为什么还没有被拿去“祭天”

About Joyk