3

COS 沙龙第 22 期(北京)

 2 years ago
source link: https://cosx.org/2014/10/22salon/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

COS 沙龙第 22 期(北京)

关键词:COS 沙龙; 推荐系统

陈开江

2014 年 10 月 19 日,第 22 期 COS 沙龙(北京站)在北京大学光华管理学院如期举行。各位统计爱好者冒着京城茫茫的雾霾前来,统计沙龙为大家呈现了一场主题为 “移动音频推荐系统实践二三事” 的精彩分享。本次沙龙由人大统院本科生闫晗主持,嘉宾是考拉 FM & 考拉电子狗推荐系统的负责人陈开江

陈开江先生毕业于北京理工大学信息与通信工程专业,研究方向为中文文本句法分析,曾任新浪微博商业产品部推荐团队高级算法工程师,专注文本挖掘、社交网络分析、推荐系统相关工作,期间参与翻译了 machine learning for hackers 一书(中文版书名:《机器学习:实用案例解析》),目前任考拉 FM & 考拉电子狗两款产品的推荐系统负责人,致力于打造最懂用户的移动网络音频推荐系统。

本次分享中嘉宾站在传统推荐系统设计的基础上,通过自己的实际经验对现有推荐系统的缺陷进行了细致的剖析,并对其各个方面进行了改进。分享主要内容回顾:

1. 排行榜依据的指标:

传统排行榜依据的指标一般对播放用户数目或者播放时长进行累加,但是存在用户被动推荐和不同节目的时长不等之类的问题。因此,嘉宾对传统的指标进行了综合并平滑处理,得到了结合节目播放次数和比例的贝叶斯平滑播放比例。

2. 收听时长的真实反映:

收听时长是最直接、数据量最大的用户反馈,但不同节目时长长短不一,时长并不纯粹反应用户的兴趣。于是,嘉宾对收听时长做了一定的假设,通过实际数据拟合建立了收听时长模型,将感兴趣和不感兴趣的人群的分布均包括进该模型,以此为依据通过模型得到分数对排行榜进行优化,使时长中蕴含的反馈信息能够真实充分的被利用。

3. 充分利用隐式反馈:

目前普遍采用反馈信息是显式反馈,但实际中隐式反馈占绝大多数,为了充分利用这一信息,嘉宾放弃传统市面上的明星算法,采用 OCCF 对隐式反馈进行协同过滤。

4. 对推荐系统的评价:

一般对分类器的评价中,AUC 被广泛采用。而在考拉电子狗的推荐系统评估中,陈开江先生对原有的 AUC 进行了调整,改为了 general-AUC,通过 X 轴和 Y 轴的归一化处理使得最优值不再是 1。

同时,嘉宾和参会者分享了关于产品和技术的一些看法,妙语横生,引人深思。

来自阿里巴巴、百度、京东、搜狐、新浪、首钢、豆瓣、IBM、中国移动、58 同城、中国兵器工业信息中心、光大银行、中国工商银行、北京大学、北京航空航天大学、清华大学、中国人民大学、北京理工大学、北京师范大学、中科院计算所的业界人士和高校学生以及创业者逾 30 余人报名参与了此次活动,席间与嘉宾积极互 动,围绕主题展开了深入精彩的讨论。本次沙龙取得圆满成功。

沙龙 PPT 及摘要下载

人大本科,宾州州立博士在读。个人主页:https://zhanruicai.github.io/蔡占锐

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← COS 每周精选:统计学中的新鲜事 第七届中国 R 语言会议(广州会场)通知 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK