程序员修仙之路--优雅快速的统计千万级别uv（留言送书）

菜菜，咱们网站现在有多少PV和UV了？

timg?image&quality=80&size=b9999_10000&sec=1548674047222&di=aebe71977f7e45f53c7c37c35f97263b&imgtype=0&src=http%3A%2F%2Fs16.sinaimg.cn%2Forignal%2F48c93a19cf6244f09edaf

Y总，咱们没有统计pv和uv的系统，预估大约有一千万uv吧

写一个统计uv和pv的系统吧

timg?image&quality=80&size=b9999_10000&sec=1548674047222&di=aebe71977f7e45f53c7c37c35f97263b&imgtype=0&src=http%3A%2F%2Fs16.sinaimg.cn%2Forignal%2F48c93a19cf6244f09edaf

网上有现成的，直接接入一个不行吗？

别人的不太放心，毕竟自己写的，自己拥有主动权。给你两天时间，系统性能不要太差呀

timg?image&quality=80&size=b9999_10000&sec=1548674047222&di=aebe71977f7e45f53c7c37c35f97263b&imgtype=0&src=http%3A%2F%2Fs16.sinaimg.cn%2Forignal%2F48c93a19cf6244f09edaf

好吧~~~

PV是page view的缩写，即页面浏览量，通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。网页浏览数是评价网站流量最常用的指标之一，简称为PVUV是unique visitor的简写，是指通过互联网访问、浏览这个网页的自然人。 aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9naWYvbGRGYUJOU2t2SGlhVmNZRk9GSWQ2c0h5QlM3Q0FkQTRXcUM3UHpFaWJKMENaNEU0OHFOb3RaU09XVmhxNDA3a2JOOU04R2duck03Q1E2VGlhQjlHVkZuMmcvMA==

通过以上的概念，可以清晰的看出pv是比较好设计的，网站的每一次被访问，pv都会增加，但是uv就不一定会增加了，uv本质上记录的是按照某个标准划分的自然人，这个标准其实我们可以自己去定义，比如：可以定义同一个IP的访问者为同一个UV，这也是最常见的uv定义之一，另外还有根据cookie定义等等。无论是pv还是uv，都需要一个时间段来加以描述，平时我们所说的pv，uv数量指的都是24小时之内（一个自然日）的数据。

pv相比较uv来说，技术上比较容易一些，今天咱们就来说一说uv的统计，为什么说uv的统计相对来说比较难呢，因为uv涉及到同一个标准下的自然人的去重，尤其是一个uv千万级别的网站，设计一个好的uv统计系统也许并非想象的那么容易。

那我们就来设计一个以一个自然日为时间段的uv统计系统，一个自然人（uv）的定义为同一个来源IP（当然你也可以自定义其他标准），数据量级别假设为每日千万uv的量级。

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9wbmcvWVV5WjdBT0wzb2x6cmxzZmJIb0MyRmV0YTBiZFVzSHhWYzhUam5RbmhhbVJteHU4T1gyaGd3RW9pYlROaWJyTTBpYTVwZVVPdTFhaWJocklhZ1NFdjZhOG9nLzA=

注意：今天我们讨论的重点是获取到自然人定义的信息之后如何设计uv统计系统，并非是如何获取自然人的定义。uv系统的设计并非想象的那么简单，因为uv可能随着网站的营销策略会出现瞬间大流量，比如网站举办了一个秒杀活动。

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9wbmcvWVV5WjdBT0wzb2x6cmxzZmJIb0MyRmV0YTBiZFVzSHhWYzhUam5RbmhhbVJteHU4T1gyaGd3RW9pYlROaWJyTTBpYTVwZVVPdTFhaWJocklhZ1NFdjZhOG9nLzA= 基于DB方案

服务端编程有一句名言曰：没有一个表解决不了的功能，如果有那就两个表三个表。一个uv统计系统确实可以基于数据库来实现，而且也不复杂，uv统计的记录表可以类似如下（不要太纠结以下表设计是否合理）：

字段	类型	描述
IP	varchar(30)	客户端来源ip
DayID	int	时间的简写，例如 20190629
其他字段	int	其他字段描述