COS 沙龙第 22 期（北京）

主题：移动音频推荐系统实践二三事
嘉宾：陈开江
主办：统计之都、北京大学商务智能研究中心
场地：北京大学光华管理学院
组织：蔡占锐、闫晗、吕翔、邓一硕
纪要：吕翔

陈开江

2014 年 10 月 19 日，第 22 期 COS 沙龙（北京站）在北京大学光华管理学院如期举行。各位统计爱好者冒着京城茫茫的雾霾前来，统计沙龙为大家呈现了一场主题为 “移动音频推荐系统实践二三事” 的精彩分享。本次沙龙由人大统院本科生闫晗主持，嘉宾是考拉 FM & 考拉电子狗推荐系统的负责人陈开江。

陈开江先生毕业于北京理工大学信息与通信工程专业，研究方向为中文文本句法分析，曾任新浪微博商业产品部推荐团队高级算法工程师，专注文本挖掘、社交网络分析、推荐系统相关工作，期间参与翻译了 machine learning for hackers 一书（中文版书名：《机器学习：实用案例解析》），目前任考拉 FM & 考拉电子狗两款产品的推荐系统负责人，致力于打造最懂用户的移动网络音频推荐系统。

本次分享中嘉宾站在传统推荐系统设计的基础上，通过自己的实际经验对现有推荐系统的缺陷进行了细致的剖析，并对其各个方面进行了改进。分享主要内容回顾：

1. 排行榜依据的指标：

传统排行榜依据的指标一般对播放用户数目或者播放时长进行累加，但是存在用户被动推荐和不同节目的时长不等之类的问题。因此，嘉宾对传统的指标进行了综合并平滑处理，得到了结合节目播放次数和比例的贝叶斯平滑播放比例。

2. 收听时长的真实反映：

收听时长是最直接、数据量最大的用户反馈，但不同节目时长长短不一，时长并不纯粹反应用户的兴趣。于是，嘉宾对收听时长做了一定的假设，通过实际数据拟合建立了收听时长模型，将感兴趣和不感兴趣的人群的分布均包括进该模型，以此为依据通过模型得到分数对排行榜进行优化，使时长中蕴含的反馈信息能够真实充分的被利用。

3. 充分利用隐式反馈：

目前普遍采用反馈信息是显式反馈，但实际中隐式反馈占绝大多数，为了充分利用这一信息，嘉宾放弃传统市面上的明星算法，采用 OCCF 对隐式反馈进行协同过滤。

4. 对推荐系统的评价：

一般对分类器的评价中，AUC 被广泛采用。而在考拉电子狗的推荐系统评估中，陈开江先生对原有的 AUC 进行了调整，改为了 general-AUC，通过 X 轴和 Y 轴的归一化处理使得最优值不再是 1。

同时，嘉宾和参会者分享了关于产品和技术的一些看法，妙语横生，引人深思。

来自阿里巴巴、百度、京东、搜狐、新浪、首钢、豆瓣、IBM、中国移动、58 同城、中国兵器工业信息中心、光大银行、中国工商银行、北京大学、北京航空航天大学、清华大学、中国人民大学、北京理工大学、北京师范大学、中科院计算所的业界人士和高校学生以及创业者逾 30 余人报名参与了此次活动，席间与嘉宾积极互动，围绕主题展开了深入精彩的讨论。本次沙龙取得圆满成功。

沙龙 PPT 及摘要下载

人大本科，宾州州立博士在读。个人主页：https://zhanruicai.github.io/ 蔡占锐