34

你了解你的数据吗(结丹篇)

 6 years ago
source link: http://mp.weixin.qq.com/s/nwvwY-N_nqz09fsli-AMcg
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

0x00 前言

结丹篇是《你了解你的数据吗》第四篇,本篇主要聊的内容主要和数据质量监控有关,之前在《数据质量监控》专门分享过相关内容,那篇文章主要从一个宏观的整体来看待质量监控,内容包括架构、设计和实现多个方面,但是对于数据质量监控本身的内容并没有一个比较体系化的梳理,本篇就来做这件事。

0x01 数据质量监控

我们将要分享的数据质量监控,不是单指数据异常,而是对数据各个角度的描述。

同比和环比

为了后面更好描述我们的想法,这里需要先引入两个概念:

  • 同比:“同比 ”是同期之比的意思,一般指本年某月的累计指标与上年相同月份的累计指标之间的对比。

  • 环比:是报告期(例如某月(年)对应上月(年),上月(年)对应前月(年)的逐期之比。以一期为一环,取环环相比的形像比喻。

在我们实际的数据质量监控中用到的同比和环比会是这样子的:

  • 同比:本月1号某业务接入的总数据量和上个月1号某业务接入总数据量的。

  • 环比:本月2号某业务数据接入量和本月1号某业务数据接入量之比。

在数据质量监控中,我们将要监控的内容分为三个层次:

  1. 集群整体状况:这在练气篇中也有所提及,比如集群总容量、接入业务量等。

  2. 业务层面:对单个业务进行监控,具体来讲可能是对一张表来监控,比如说会监控它的数据量趋势、某日是否掉0、数据落地延迟、数据同比和环比等。

  3. 维度层面:这里想表达的内容是对核心业务的核心维度做监控,比如说用户的网页点击行为表,我们会对表中的ip字段进行监控,每天有多少为空;再或者对用户资料表进行监控,监控是否会有重复数据。

做一个大致梳理的话会是下面这张图:

Image

0xFF 总结

数据质量监控的内容当然不会只有这么少,比如说像hdfs、es、mysql这些不同的存储引擎会有不同的特性,特定业务场景也会对数据质量有不同的要求,这些我们都不在做展开,在这里只是做一个抛砖引玉的介绍,期待大家一起来完善。

最后再聊一下为什么在《你了解你的数据吗》系列中混入了数据质量监控的内容。其实笔者理解,所谓数据质量监控,宽泛地讲应该是数据监控,数据监控的目的在于让人或者系统来更好地理解数据和管理数据,我们以这样一种体系化地方式来组织和呈现数据的内容其实是一种知识体系的汇总,其目的都是让人更好地去了解你的数据。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK