4

一日一技:实现有过期时间的LRU缓存

 3 years ago
source link: https://www.kingname.info/2020/03/23/lru-with-expire-time/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

一日一技:实现有过期时间的LRU缓存

发表于

2020-03-23

| 分类于 Python

| 评论数: 3

一日一技:实现函数调用结果的 LRU 缓存一文中,我们提到Python自带的LRU缓存lru_cache。通过这个装饰器可以非常轻松地实现缓存。

现在我们考虑下面这个应用场景:MongoDB中有100对id-用户名的对应关系,我从Redis中持续不断读取id,如果id能在MongoDB中找到对应关系,那么就把对应的用户名打印出来。如果找不到对应关系,那么就把这个id丢弃。

为了防止频繁读取MongoDB,我在程序开始的时候直接读取这一百对对应关系,并存为字典:

import pymongo
import redis

client = redis.Redis()
handler = pymongo.MongoClient().weibo.id_name_map


def read_id_name_map():
id_name = {}
for row in handler.find():
id_name[row['id']] = row['name']
return id_name


id_name_map = read_id_name_map()
while True:
data = client.blpop('weibo_id')
user_id = data[1].decode()
if user_id in id_name_map:
print(id_name_map[user_id])

大家可以思考一下,上面这段代码有没有什么问题。然后继续看后面。

如果我现在需要再增加100个id-用户名的对应关系怎么办?

由于这个程序运行以后就一直阻塞式地读取Redis,不会停止,所以整个过程只会读取一次MongoDB。后面即使我向MongoDB中添加了新的对应关系,只要程序不重启,就无法读取到新的对应关系。

肯定有同学想到,在while循环里面增加一个计时器,每x分钟就重新调用一下read_id_name_map()函数,更新对应关系。

不过今天我们要讲的是另一个更有创意的办法,使用lru_cache来实现。

对于这个例子来说,lru_cache的maxsize参数只需要设置为1,因为只需要存放1份对应关系即可。那么我们如何做到,比如每10分钟更新一次呢?我们知道,在使用lru_cache时,如果调用同一个函数,并且传入的参数相同,那么从第二次开始就会使用缓存。现在我们如何让时间在每10分钟内相同呢?

我们来看现在的时间戳:1578399211.30042

它除以600,值是1578399211.30042 // 600 = 2630665.0。然后我让这个时间戳加5分钟,也就是增加300秒,变成1578399511.30042。这个新的时间戳再除以600,发现结果还是2630665.0。但如果原来的时间戳增加超过10分钟,例如增加了601秒,我们再来看看效果(1578399211.30042 + 601) // 600 = 2630666.0,此时的结果也发生了变化。

利用这个特点,修改一下我们的代码:

import pymongo
import redis
import time
from functools import lru_cache

client = redis.Redis()
handler = pymongo.MongoClient().weibo.id_name_map


@lru_cache(maxsize=1)
def read_id_name_map(_):
id_name = {}
for row in handler.find():
id_name[row['id']] = row['name']
return id_name


while True:
data = client.blpop('weibo_id')
id_name_map = read_id_name_map(time.time() // 600)
user_id = data[1].decode()
if user_id in id_name_map:
print(id_name_map[user_id])

现在,我们直接在while循环内部调用read_id_name_map,如果两次调用的时间间隔小于600秒,那么time.time() // 600的值是相同的,第二次直接使用缓存,也就不会查询MongoDB了。当时间超过10分钟后,时间戳除以600的值增加了,于是缓存没有命中,进入查询MongoDB的过程,更新id_name_map。实现了有过期时间的LRU缓存。

补充:可能有同学注意到定义read_id_name_map函数的时候,参数我写的是下划线。这是Python 编码规范中建议的一种写法。当一个变量不会被使用,但又需要保留时,就可以用下划线表示。

谢乾坤 | Kingname wechat
第一时间获取最新文章更新,请订阅我的微信公众号:未闻Code

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK