34

面试官扎心一问:数据量很大,分页查询很慢,有什么优化方案?

 3 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzA3MTUzOTcxOQ%3D%3D&%3Bmid=2452973162&%3Bidx=1&%3Bsn=6a236e86a98c904c849af04bd40a6a18
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击上方“ 搜云库技术团队 ”关注,选择“ 设为星标

回复“ 面试题 ”领 《96份:3265页面试题》

当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时需要使用分页查询。对于数据库分页查询,也有很多种方法和优化的点。下面简单说一下我知道的一些方法。

准备工作

为了对下面列举的一些优化进行测试,下面针对已有的一张表进行说明。

1、表名:order_history

2、描述:某个业务的订单历史表

3、主要字段:unsigned int id,tinyint(4) int type

4、字段情况:该表一共37个字段,不包含text等大型数据,最大为varchar(500),id字段为索引,且为递增。

5、数据量:5709294

6、MySQL版本:5.7.16

注 意

文末有:3625页互联网大厂面试题

线下找一张百万级的测试表可不容易,如果需要自己测试的话,可以写shell脚本什么的插入数据进行测试。

以下的 sql 所有语句执行的环境没有发生改变,下面是基本测试结果:

返回结果:5709294

三次查询时间分别为:

  • 8903 ms

  • 8323 ms

  • 8401 ms

一般分页查询

一般的分页查询使用简单的 limit 子句就可以实现。limit 子句声明如下:

LIMIT 子句可以被用于指定 SELECT 语句返回的记录数。需注意以下几点:

1、第一个参数指定第一个返回记录行的偏移量,注意从 0 开始

2、第二个参数指定返回记录行的最大数目

3、如果只给定一个参数:它表示返回最大的记录行数目

4、第二个参数为 -1 表示检索从某一个偏移量到记录集的结束所有的记录行

5、初始记录行的偏移量是 0(而不是 1)

下面是一个应用实例:

该条语句将会从表 orders_history 中查询 offset:1000 开始之后的10条数据,也就是第1001条到第1010条数据( 1001<=id<=1010 )。

数据表中的记录默认使用主键(一般为id)排序,上面的结果相当于:

三次查询时间分别为:

  • 3040 ms

  • 3063 ms

  • 3018 ms

针对这种查询方式,下面测试查询记录量对时间的影响:

三次查询时间如下:

1、查询1条记录:3072ms 3092ms 3002ms

2、查询10条记录:3081ms 3077ms 3032ms

3、查询100条记录:3118ms 3200ms 3128ms

4、查询1000条记录:3412ms 3468ms 3394ms

5、查询10000条记录:3749ms 3802ms 3696ms

另外我还做了十来次查询,从查询时间来看,基本可以确定,在查询记录量低于100时,查询时间基本没有差距,随着查询记录量越来越大,所花费的时间也会越来越多。整编:微信公众号,搜云库技术团队,ID:souyunku

针对查询偏移量的测试:

三次查询时间如下:

1、查询100偏移:25ms 24ms 24ms

2、查询1000偏移:78ms 76ms 77ms

3、查询10000偏移:3092ms 3212ms 3128ms

4、查询100000偏移:3878ms 3812ms 3798ms

5、查询1000000偏移:14608ms 14062ms 14700ms

随着查询偏移的增大,尤其查询偏移大于10万以后,查询时间急剧增加。

这种分页查询方式会从数据库第一条记录开始扫描,所以越往后,查询速度越慢,而且查询的数据越多,也会拖慢总查询速度。

使用子查询优化

这种方式先定位偏移位置的 id,然后往后查询,这种方式适用于 id 递增的情况。

4条语句的查询时间如下:

  • 第1条语句:3674ms

  • 第2条语句:1315ms

  • 第3条语句:1327ms

  • 第4条语句:3710ms

针对上面的查询需要注意:

1、比较第1条语句和第2条语句:使用 select id 代替 select * 速度增加了3倍

2、比较第2条语句和第3条语句:速度相差几十毫秒

3、比较第3条语句和第4条语句:得益于 select id 速度增加,第3条语句查询速度增加了3倍

这种方式相较于原始一般的查询方法,将会增快数倍。

使用 id 限定优化

这种方式假设数据表的id是 连续递增 的,则我们根据查询的页数和查询的记录数可以算出查询的id的范围,可以使用 id between and 来查询:

查询时间:15ms 12ms 9ms

这种查询方式能够极大地优化查询速度,基本能够在几十毫秒之内完成。限制是只能使用于明确知道id的情况,不过一般建立表的时候,都会添加基本的id字段,这为分页查询带来很多便利。

还可以有另外一种写法:

当然还可以使用 in 的方式来进行查询,这种方式经常用在多表关联的时候进行查询,使用其他表查询的id集合,来进行查询:

这种 in 查询的方式要注意:某些 mysql 版本不支持在 in 子句中使用 limit。

使用临时表优化

这种方式已经不属于查询优化,这儿附带提一下。

对于使用 id 限定优化中的问题,需要 id 是连续递增的,但是在一些场景下,比如使用历史表的时候,或者出现过数据缺失问题时,可以考虑使用临时存储的表来记录分页的id,使用分页的id来进行 in 查询。这样能够极大的提高传统的分页查询速度,尤其是数据量上千万的时候。整编:微信公众号,搜云库技术团队,ID:souyunku

关于数据表的id说明

一般情况下,在数据库中建立表的时候,强制为每一张表添加 id 递增字段,这样方便查询。

如果像是订单库等数据量非常庞大,一般会进行分库分表。这个时候不建议使用数据库的 id 作为唯一标识,而应该使用分布式的高并发唯一 id 生成器来生成,并在数据表中使用另外的字段来存储这个唯一标识。

使用先使用范围查询定位 id (或者索引),然后再使用索引进行定位数据,能够提高好几倍查询速度。即先 select id,然后再 select *;

作者: 悠悠 来源: dwz.cn/xU3nHQhO

本人才疏学浅,难免犯错,若发现文中有错误遗漏,望不吝赐教。

《第2版:互联网大厂面试题》

最近又赶上跳槽的高峰期,好多粉丝,都问我要有没有最新面试题,索性,我就把我看过的和我面试中的真题,及答案都整理好, 整理了 《第2版:互联网大厂面试题》 分类  92  PDF 累计 3625页! 我会持续更新中,马上就出第三版,涵盖大厂算法会更多!

IFR7viR.png!web

第2版:题库非常全面

包括 Java 集合、JVM、多线程、并发编程、设计模式、Spring全家桶、Java、MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、MongoDB、Redis、MySQL、RabbitMQ、Kafka、Linux、Netty、Tomcat、Python、HTML、CSS、Vue、React、JavaScript、Android 大数据、阿里巴巴等大厂面试题等、等技术栈!

第2版:面试题,怎么领取?

扫码添加, 我的个人微信 ,备注: 面试题

(一定要备注: 面试题 )否则不给通过

→  程序员 工作内推群

 程序员技术交流群

 3625页PDF面试题

ryeM32R.png!web

没错,加我好友,给你安排到位


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK