42

从诗词大会飞花令到 elasticsearch 原理解析

 5 years ago
source link: https://mp.weixin.qq.com/s/LD2VG6dRNYXOO9KE38F_Mg?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

郑重声明:漫画人物和故事情节均是原创,未经同意禁止任何形式的转载,侵权将进入法律程序。大佬除外。

欢迎大家转发文章,谢谢!

Rf2eemj.jpg!web

小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了。

对小史面试情况感兴趣的同学可以观看面试现场系列。

jmmuUvU.jpg!web

随着央视诗词大会的热播,小史开始对诗词感兴趣,最喜欢的就是飞花令的环节。

但是由于小史很久没有背过诗词了,飞一个字很难说出一句,很多之前很熟悉的诗句也想不起来。

Z7JjquJ.jpg!web

Mbe63mJ.jpg!web

2QvEBff.jpg!web

UvqQjur.jpg!web

z26je2f.jpg!web

Y3uEZb6.jpg!web

3q2m6zV.jpg!web

mIzMZrm.jpg!web

67Bnaqm.jpg!web

n67bqiM.jpg!web

【倒排索引】

NVBNviF.jpg!web

VR3euyu.jpg!web

6jAn2qe.jpg!web

NjaQRfQ.jpg!web

6vMvE3A.jpg!web

yqEnyyz.jpg!web

吕老师:但是我让你说出带“前”字的诗句,由于没有索引,你只能遍历脑海中所有诗词,当你的脑海中诗词量大的时候,就很难在短时间内得到结果了。

RJrAre7.jpg!web

RJn6Zfe.jpg!web

nmQrAzU.jpg!web

EjQZRfi.jpg!web

22UrYvQ.jpg!web

RJNnEnU.jpg!web

a2YfIv7.jpg!web

【索引量爆炸】

NzaQr2j.jpg!web

AFra2y7.jpg!web

BrQrym2.jpg!web

mqaIJzv.jpg!web

32QJrib.jpg!web

ray6fez.jpg!web

rE3amuN.jpg!web

zmia2mQ.jpg!web

AVryeaQ.jpg!web

fuYFZr3.jpg!web

ANNfy2J.jpg!web

aY3MZvV.jpg!web

3IzQjuR.jpg!web

jMzYzyb.jpg!web

VjaUNbI.jpg!web

qmeY32U.jpg!web

Y7nUjau.jpg!web

MviYjaR.jpg!web

v6BrArj.jpg!web

【搜索引擎原理】

Q7RNjmF.jpg!web

MjuI3mR.jpg!web

7vIJZzZ.jpg!web

bQrEZjU.jpg!web

2QvmimV.jpg!web

V3AbyeA.jpg!web

zueuMjU.jpg!web

MbqqaaB.jpg!web

MNfuuyb.jpg!web

ArQfM3r.jpg!web

vmaYjqa.jpg!web

baE77ve.jpg!web

V7zmmmb.jpg!web

iqM36jz.jpg!web

3eqArqq.jpg!web

【elasticsearch简介】

AF7Zrmi.jpg!web

ZZzeuur.jpg!web

jm2u6nj.jpg!web

2uyi2qe.jpg!web

2qMZZfV.jpg!web

吕老师:但是 lucene 还是一个库,必须要懂一点搜索引擎原理的人才能用的好,所以后来又有人基于 lucene 进行封装,写出了 elasticsearch

bYveIfY.jpg!web

yINbqiF.jpg!web

3iArYjY.jpg!web

uEJjYzm.jpg!web

qmqM7vi.jpg!web

UrmIN3N.jpg!web

【elasticsearch基本概念】

yQzuIbA.jpg!web

biUz2ez.jpg!web

3Yrmeii.jpg!web

JjMj6bm.jpg!web

uYjm2ij.jpg!web

吕老师:类型是用来定义数据结构的,你可以认为是 mysql 中的一张表。文档就是最终的数据了,你可以认为一个文档就是一条记录。

JVNnaqZ.jpg!web

nE3Efyy.jpg!web

JVVnQbz.jpg!web

吕老师:比如一首诗,有诗题、作者、朝代、字数、诗内容等字段,那么首先,我们可以建立一个名叫 poems 的索引,然后创建一个名叫 poem 的类型,类型是通过 mapping 来定义每个字段的类型,比如诗题、作者、朝代都是 keyword 类型,诗内容是 text 类型,而字数是 integer 类型,最后就是把数据组织成 json 格式存放进去了。

N3EJfuB.jpg!web

AZJFBvN.jpg!web

rUVvuya.jpg!web

吕老师:这个问题问得好,这涉及到分词的问题, keyword 类型是不会分词的,直接根据字符串内容建立反向索引, text 类型在存入 elasticsearch 的时候,会先分词,然后根据分词后的内容建立反向索引。

NvmAZzM.jpg!web

jMR3Q3Q.jpg!web

aieE7zQ.jpg!web

吕老师:之前我们说过, elasticsearch 把操作都封装成了 http api ,我们只要给 elasticsearch 发送 http 请求就行。比如使用 curl -XPUT ' http://ip:port/poems ' ,就能建立一个名为 poems 的索引,其他操作也是类似的。

MRz2YbU.jpg!web

【elasticsearch分布式原理】

nmqAFrz.jpg!web

NFVjumQ.jpg!web

吕老师:没错, elasticsearch 也是会对数据进行切分,同时每一个分片会保存多个副本,其原因和 hdfs 是一样的,都是为了保证分布式环境下的高可用。

YrERBfV.jpg!web

2UNZFrB.jpg!web

NJneq2V.jpg!web

吕老师:没错,在 elasticsearch 中,节点是对等的,节点间会通过自己的一些规则选取集群的 mastermaster 会负责集群状态信息的改变,并同步给其他节点。

3m6jmii.jpg!web

jQfmUzn.jpg!web

eamY7b2.jpg!web

JVzyeq3.jpg!web

QNbQni6.jpg!web

吕老师:注意,只有建立索引和类型需要经过 master ,数据的写入有一个简单的 routing 规则,可以 route 到集群中的任意节点,所以数据写入压力是分散在整个集群的。

qa6f2y6.jpg!web

【elk系统】

NFRRJvq.jpg!web

aMbmaqq.jpg!web

吕老师:其实很多公司都用 elasticsearch 搭建 elk 系统,也就是日志分析系统。其中 e 就是 elasticsearchllogstash ,是一个日志收集系统, kkibana ,是一个数据可视化平台。

Nfaequn.jpg!web

YjAvui6.jpg!web

Qbeaqa6.jpg!web

吕老师:分析日志的用处可大了,你想,假如一个分布式系统有 1000 台机器,系统出现故障时,我要看下日志,还得一台一台登录上去查看,是不是非常麻烦?

auuQreA.jpg!web

f2AnQna.jpg!web

吕老师:但是如果日志接入了 elk 系统就不一样。比如系统运行过程中,突然出现了异常,在日志中就能及时反馈,日志进入 elk 系统中,我们直接在 kibana 就能看到日志情况。如果再接入一些实时计算模块,还能做实时报警功能。

eQVbmma.jpg!web

EvQFfuA.jpg!web

FbQFBfy.jpg!web

【笔记】

小史学完了 elasticsearch ,在笔记本上写下了如下记录:

1 、反向索引又叫倒排索引,是根据文章内容中的关键字建立索引

2 、搜索引擎原理就是建立反向索引

3elasticsearchlucene 的基础上进行封装,实现了分布式搜索引擎

4elasticsearch 中的索引、类型和文档的概念比较重要,类似于 mysql 中的数据库、表和行

5 elasticsearch 也是 master-slave 架构,也实现了数据的分片和备份

6 elasticsearch 一个典型应用就是 elk 日志分析系统

写完,又高高兴兴背诗去了。

观书有感

朱熹

半亩方塘一鉴开,天光云影共徘徊。

问渠那得清如许?为有源头活水来。

生活现场是互联网侦察推出的现场系列中的另一个板块,旨在通过生活中的场景,来解释大数据微服务技术中的基本原理,希望对大家学习技术原理有所帮助。

往期回顾

【生活现场】从洗袜子到hbase存储原理解析

【生活现场】从生日请客到hdfs工作原理解析

【生活现场】从打牌到map-reduce工作原理解析

【生活现场】从搬家到容器技术docker应用场景解析

QryAjav.jpg!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK