18

网易大数据用户画像实践

 3 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw%3D%3D&%3Bmid=2247507274&%3Bidx=1&%3Bsn=427f267d05f564f6726da82ba0c7152f
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

FJbQFrv.png!mobile

7zyQJj.png!mobile

分享嘉宾:张长江 网易 大数据技术专家

编辑整理: 黄乐平

出品平台:DataFunTalk

导读: 网易大数据生态数量级巨大,且产品线丰富,覆盖用户娱乐、电商、教育等领域,并且APP活跃度高,积累了多维度的用户行为数据。通过集团数据资产构建全域用户画像,旨在服务于域内众多业务场景,同时也在探索外部商业化方案。今天借此机会,同大家分享下网易在大数据用户画像中的实战应用经验。

今天的介绍会围绕下面三点展开:

  • 网易生态数据介绍

  • 用户画像中心分类

  • 网易用户画像实战案例

01

网易生态数据介绍

整个用户画像实践经验,都依赖于网易易数中台,所以首先给大家介绍下网易生态数据情况。

1. 网易数据总览

j26nAzZ.png!mobile

网易数据总览特征如下:

  • 数据量超亿级,每日上亿级账号活跃,可触达同人;

  • 服务场景多,生态较为复杂,覆盖多行业产品线,包括游戏、教育、电商、泛娱乐等;

  • 优质用户平均标签覆盖率达70%以上;

  • 提供包括但不限于参与人、流量域、位置域、关系域等主题域解决方案,即能够封装用户画像在主题域的通用化模块。

2. 网易产品线丰富

NjeiYnv.png!mobile

网易产品线丰富,覆盖从用户娱乐、电商购物、教育、新闻资讯等各个维度用户行为数据,APP活跃度高,涵盖用户群广。项目组整体目标是通过集团数据资产构建全域资产用户画像,已应用于网易生态圈内众多业务场景,同时探索产品化及方法论,服务于生态圈外部合作机构,进行商业化操作。

3. 全链路数据中台产品矩阵

v6ZrIzf.png!mobile

全链路数据中台产品矩阵,包括底层日志等数据源层,数据平台加工层,整体标签的离线或实时加工、挖掘算法及监控,以及上层业务应用,如智能分析、增长运营、推荐搜索等一系列业务层应用,组成了网易数据中台产品矩阵。网易易数产品矩阵,为网易用户画像起着极为关键的支撑作用,尤其是数据标准体系、数据治理平台等模块,很好的承载着用户画像落地和质量保障。

02

用户画像中心分类

首先介绍下杭研用户画像整体数据架构及落地情况,主要分为三部分:其一为基础的用户画像,基础标签 ( 如性别、年龄 )、行为统计 ( 如活跃 )、兴趣偏好及预测等标签;其二为关系库部分,即IDMapping;其三为主题域部分,即对地域、社交、搜索关键词等相关方面的工作。

1. 网易数据架构

QbEnAzF.png!mobile

网易整体数据架构底层与各个业务方进行数据交换合作,共同建立公共数据中心,以数仓为蓝本进行架构。

中间层为用户画像中心:

  • 用户标签的分类包括基础标签、行为标签、偏好标签以及预测标签等,不同公司分类方法略有不同,如根据更新周期, 分为 静态标签 ( 性别等 ) 和动态标签 ( 年龄等 ); 偏好标签包括用户的长中短期偏好等,预测标签主要应用于广告投放部分,例如游戏达人,高价值用户群等。

  • 关系库主要是IDMapping,目前已经有较多的方案论和解决方案,例如多账号的归一用于后续的业务数据挖掘工作,提升对用户的识别能力。典型场景为两个手机号对应只有其中一个有过注册行为信息,另一个没有注册行为信息,但对于上层而言,应该打通他们作为同一个行为主体。关系库主要包括同机网络 ( 同一设备多个ID的关系 )、同人网络 ( 同一个人多个设备信息 ) 以及社交关系 ( 人与人之间的关系 ) 等。

  • 主题域主要包括地域数据、广告数据、关键词和知识库方向,其中知识库和图谱数据,主要应用于网易域内外内容知识打通。

顶层的应用场景包括增长运营、推荐搜索、广告变现、营销系统、用户反欺诈及内容运营等方面,对业务方提供全方位的服务,不局限于单一应用场景。还有数据规范和数据管理部分,作为数据标准化,沉淀经验方法论。

2. 网易用户画像构建流程

riyQ3u.png!mobile

用户画像整体构建流程依托于网易易数中台,搭建起完整的业务数仓体系,融合多方业务数据源。经过多年的探索实践,已经形成完整的用户画像体系,从数据层面到产品层面,逐渐打磨,提供标签管理、监控、报表、算法、开发及权限管理,融合在各业务产品体系。诸如关系图谱形成API的接口服务输出各业务方;数据服务包括人群圈选、人群分析等运用于市场及运营团队;特征库方面描述了用户向量化的特征相比标签粒度更为细腻,适用于算法团队迭代开发。在此基础上沉淀了多种数据应用,包括增长运营、广告DMP、智能风控等方面。

3. 网易用户标签

RRnEJf7.png!mobile

目前整体总标签数达1000+,其中不包含单一业务行为数据。标签分类如下:

  • 基础标签,即对用户的自然属性描述,例如性别、年龄、教育背景、生活习惯 ( 早起晚起 )、地理位置 ( POI信息 )、职业状况 ( 所属行业 )、经济情况 ( 有车有房 )、设备信息 ( 手机、运营商等 )、会员信息 ( 各业务方会员等级 )、衍生信息。其中衍生标签,如评估是否已婚,在原有的标签体系下没有此类标签,但可以通过对多个标签进行组合生成新的标签,包括是否有小孩、30岁满足某个条件等。

  • 行为标签包括地域、广告、搜索、全域、播放、点击、评论、关注、收藏、购买等维度。

  • 偏好标签包括出行购物、手机数码、家装家居、教育公益、文化娱乐、新闻资讯、金融理财、游戏竞技、动漫影视、明星艺人等维度。

  • 预测标签包括利用算法等进行预测生成的标签,包括是否出行,是否买车等等。

另外,标签的枚举值也相当重要,业务分析过程中很容易出现枚举值的偏差,不符合实际业务逻辑。除此之外还包括标签间的冲突,例如年龄15岁,学历却是博士或者有小孩,策略类标签是标签领域较为有挑战性的地方。

qMFFZv.png!mobile

用户标签案例:性别。主要包括三种方案,其一为标签传播,根据用户在各个业务场景,例如母婴商品点击行为标签等进行item标记,构建User-Item的兴趣网络进行Graph Embedding,最后进行分类预测用户的性别;其二为利用NLP算法对用户的昵称进行语义分析;其三为利用业务属性自行填写的内容进行判断,此处需要对数据质量进行过滤,排除诸如出生为1990-01-01的参数异常值信息。基于上述的三类算法特征结果集进行模型的融合,然后对用户的性别进行预测,同时判断该用户性别的准确率,大部分准确率在0.6+以上可以应用于实际业务场景中。当然除了常见的算法融合,还包括数据融合、特征融合等等。其中需要突破的地方包括特征的稀疏性,因为IDMapping打通后的数据覆盖率仅20%左右,这个严重影响了模型的整体效果。

4. IDMapping

NZ3Mbmb.png!mobile

IDMapping主要指用户设备的打通,用于识别用户的唯一性,现今采用的手段有两种,其一通过工程层面打通,如SDK埋点,优点是准确率较高,缺点是还会存在一人多机等现象,导致了不能够较好地完整描述一个用户画像;其二指数据层面打通,通过ID关系网,采用规则和算法结合的方法,进行同人识别,优点是很好解决一人多机现象,缺点是准确率难以评估。本次分享,主要指数据层面打通。

fIJfmua.png!mobile

IDMapping整体的思路及方案,具体要结合各种账户、设备之间的关系对,以及设备使用规律等用户数据,利用规则过滤+数据挖掘算法 ( 连通图划分及社区发现 ) 判断账号是否属于同人。在IDMapping过程中,常遇到的问题及对应解决方案如下:

  • 用户有多个设备信息,定义相应的阈值进行关联。当然,社区发现当前应用于营销场景,暂没有用于风控或用户运营等场景,因为会把一些异常的账号关联在一起,且会存在仅登录使用过一次的设备信息。

  • 设备过期 ( 一般在2年半左右时间 ),设定衰减系数,对单用户多设备加大衰减力度。

  • 当然也会存在一些异常数据信息,通过算法识别出包括但不限于以下场景,诸如借用朋友设备、设备脏数据、刷号等行为轨迹。

jEjUza7.png!mobile

IDMapping的存储方式包括两个ID类型 ( 关系对 )、最近采集时间、最早采集时间、采集源数据、采集源列表、采集的频次和周期。其中共线关系的部分增加了时间衰减系数,同步递减应用于结果,同时也增加了某些参数的权重部分用于提高业务的可选性和高可性。

5. 地域主题域

mM3MnuU.png!mobile

地域主题域可以挖掘用户的需求信息,包括是否有车,是否经常去4S店,通过WIFI、设备等信息获取亲戚、同事等关系,通过IP可以捕获学校的学生信息,根据作息规律进行统计。当然除此之外,地域主题域还用于反欺诈领域,针对黄牛等用户群进行修改地域参数信息,规避系统检测。

6. 用户画像管理与存储

reeEviQ.png!mobile

用户画像管理与存储在网易大数据经历了多次迭代,包括前期字符串的拼接、手工标签命名、明文关联维表,再到现在利用JsonArray格式进行标签类型管理,这种有个比较大的缺点,就是存在冗余严重,正在尝试新的方案设计。

7. 质量校验与保障体系

bMrqU3N.png!mobile

网易标签包含真实的用户数据及特征用户数据,利用无监督的算法模型预测姓名、年龄、有车、有房等,利用有监督进行提升数据质量,提升标签的整体效果。主要包括三方面的工作:

  • 利用实名认证数据,作为高可信的样本集;

  • 利用强特征用户数据,通过GPS\IP等用户行为数据;

  • 利用外部数据,增加高置信用户数据质量。

除此之外,还包括利用一些常见的算法,例如交叉验证准确率和召回率,线上ABTest、算法离线验证、运营活动验证、真实数据验证等等方案。

rI3myyz.png!mobile

质量保障标签管理方法论,包括以下四点:

  • 每个标签定义第一责任人,用于快速响应业务需求,同时处理标签异常问题;

  • 流程优化,标签的流程较为漫长,需要了解业务、算法、开发的全流程,利用端到端的模式,通过快速响应增加标签规范化的评审工作;

  • 测试监控方面,测试在标签上线前对标签规范和质量输出测试报告,预测则是针对规范、枚举值等范围,建立监控预警机制;

  • 管理平台化,则是标签生产、加工、处理、应用全流程体系化、标签化、工具产品化,不断迭代升级。

03

网易用户画像实战案例

最后和大家介绍下网易用户画像实战案例。

1. 应用场景丰富

AfMjiyF.png!mobile

网易用户的多元化数据,能够精准定位用户,覆盖范围广,包括但不限于以下业务目标场景:

  • 市场营销:为人群圈选、人群洞察等提升营销价值;

  • 推荐搜索:为网易算法团队提供数据输入;

  • 增长运营:为用户研究、数据运营等提供数据支撑;

  • 广告投放:为广告主提供人群定向投放功能;

  • 智能风控:为营销反欺诈,诸如薅羊毛、资金风险、异常用户识别提供特征算法服务。

这里重点讲解下营销反欺诈薅羊毛案例,此类用户资源池有限,通过频繁地切换IP、WIFI等设备信息,规避风险。利用用户画像及其特征,切入智能风控,能够提升6%的风险用户识别率,同时结合知识图谱、IP黑名单、异常设备等方面的数据信息,能够较好地扩大数据价值。

2. 用户画像案例

QjEfmq2.png!mobile

通过覆盖用户出行、娱乐、设备、购买、地址等维度数据,基于基础标签、事实标签以及预测标签等标签,应用于上述提及的多个业务场景中。通过用户画像,可以知道用户偏好,购买相关等偏好信息。

3. 实时全链路推荐案例

NJj2Yf.png!mobile

网易用户数据服务实时方案,打通各个业务场景的数据孤岛信息,实时融合用户的数据资产,深度洞察分析用户属性信息,支撑各个业务间数据打通和服务,实现了"采集+计算+调用"的实时全链路体系。例如,在冷启动新客阶段,利用用户画像能力,将离线特征放进HBase中进行实时计算,在多业务场景进行交叉,全链路支撑各业务数据打通和服务,为业务方提供二次服务。另外,利用实时用户画像结合知识图谱捕获用户行为轨迹,避免用户流失后造成的无购买、点击等行为,进行二次触达,增加业务转化效率。

4. 总结

YBRreqq.png!mobile

网易数据用户画像中台显著提高了数据生产力,逐步沉淀方法论和产品,赋能域内众多业务场景,探索外部商业化解决方案。

今天的分享就到这里,谢谢大家。

在文末分享、点赞、在看,给个三连击呗~~

嘉宾介绍:

7JN3ui.png!mobile

张长江

网易 | 大数据技术专家

社群推荐:

欢迎加入  DataFunTalk 用户画像 交流群,跟同行零距离交流。 识别下方二维码 ,根据提示自主入群。

yeq6ru6.jpg!mobile

文章推荐:

网易实时数仓实践与展望

用户画像技术及方法论

关于我们:

DataFunTalk  专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100场线下沙龙、论坛及峰会,已邀请近500位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章300+,百万+阅读,7万+精准粉丝。

b6V3Ujz.jpg!mobile

分享、点赞、在看 ,给个 三连击 呗! :point_down:


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK