ElasticStack学习（七）：ElasticSearch之Mapping初探

一、Mapping的概念

　　1、Mapping类似于数据库中的Schema的定义，作用如下：

　　　　1）定义索引中的字段的名称；

　　　　2）定义字段的数据类型，例如字符串、数字、日期、布尔等；

　　　　3）对每个字段进行倒排索引的建立及相关配置；

　　　　4）Mapping会将Json文档映射成Lucene所需要的扁平格式；

　　　　5）一个Mapping属于一个索引的Type，从7.0开始，不需要在Mapping中指定Type信息；

　　2、字段的数据类型

　　　　1）简单类型

　　　　　　Text（会增加Keyword子字段）；

　　　　　　Date；

　　　　　 Integer/Long/Floating；

　　　　　　Boolean；

　　　　　　IP4&IP6；

　　　　　　Keyword；

　　　　2）复杂类型

　　　　　　对象类型；

　　　　　　嵌套类型；

　　　　　　数组（由第一个非空数值的类型所决定）；

　　　　3）特殊类型（地理信息）

　　　　　　geo_point&geo_shape

二、Dynamic Mapping的概念

　　1、在写入文档的时候，如果索引不存在，则会自动创建索引；

　　2、由于上述机制，可以无需手动定义Mapping，ElasticSearch会自动根据文档信息，推算出字段的类型；

　　3、但是有时候推算的可能不对，当类型设置的不对时，会导致一些功能无法正常运行，比如范围内的Range查询；

三、Mapping与Dynamic Mapping的使用

　　1、推断字段的类型

//创建一个文档
put mapping_test/_doc/1
{
    "id":"100",
    "isvip":false,
    "isadmin":"true",
    "age":18,
    "height":180
}
//查看索引Mapping结构
get mapping_test/_mapping
//删除索引
delete mapping_test

　　由上图中可以得出，ElasticSearch基本上可以按照数据推断出预想的字段类型，由于isadmin字段的值是由双引号所括起来的，所以该字段被推断成text类型。

　　2、更改Mapping的字段类型

　　对于索引后期加入的字段，可以按照如下情况进行设置：

　　　　1）新增加字段

　　　　　　a）Dynamic设置为True时，一旦有新增字段的文档写入，Mapping同时会被更新；

　　　　　　b）Dynamic设置为False时，有新增字段的文档写入，Mapping不会被更新，新增字段的数据也无法被索引，但是信息会出现在_Source中；

　　　　　　c）Dynamic设置成Strict时，文档写入失败；

　　　　2）已有字段

　　　　　　a）对于已有字段，一旦已经有数据写入，就不再支持修改字段定义。因为Lucene实现的倒排索引，一旦生成后，就不允许修改。

　　　　　　b）如果希望改变已有字段类型，必须ReIndex，重建索引；

　　　　　　为什么会这样？

　　　　　　I）如果修改了字段的数据类型，会导致已被索引的属于无法被搜索；

　　　　　　II）正因为如此，对于新增加的字段，就不会有这个问题的影响；

　　3、对于这几种情况，我们通过下图进行演示：

　　　　1）对于dynamic为true时，对于创建的文档中的某一字段进行搜索，是可以查询到的。

　　　　2）将dynamic设置为false，然后新增一个name字段，然后对其搜索，是无法搜索到的。

　　　　同时mapping中也不存在该字段。

　　　　但是可以在_Source中看到这个字段。

　　　　3）将dynamic设置为strict，然后新增一个grade字段，会发现出现异常。

四、索引Mapping的显式定义

　　1、Mapping定义的方式有两种：

　　　　1）可以参考API手册，纯手写；

　　　　2）为了减少输入工作量，减少出错概率，可以依照以下步骤：

　　　　　　a）创建一个临时的Index，写入一些样本数据；

　　　　　　b）通过访问Mapping API获取该临时索引的动态Mapping定义；

　　　　　　c）修改成符合要求的Json，然后创建显式索引；

　　　　　　d）将临时索引删除；

　　2、显式Mapping定义的语法：

Put Index_Name
{
    "mappings":{
         定义Mapping信息，Json格式
　　　　　"properties":{
　　　　　　　　"column_name":{
　　　　　　　　　　"type":"text"
　　　　　　　　},
　　　　　　　　"column_name":{
　　　　　　　　　　"type":"long"
　　　　　　　　}
　　　　　　　　...
　　　　　　}
     } 
}

　　3、显式Mapping定义的说明：

　　　　1）控制当前字段是否可以被索引，默认是True。如果设置成False，则该字段不可被搜索。

　　　　　将不被搜索的字段设置成索引为false，可以节省磁盘开销，因为这样该字段就不需要进行倒排索引了。