118

个性化推荐系统最近一些复盘探讨

 6 years ago
source link: http://mp.weixin.qq.com/s/cv2AHEKu8StZy4Jxlg2CDA
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

个性化推荐系统最近一些复盘探讨

Original 杉枫 探索互联网 2017-12-09 03:12 Posted on

T002R90x90M000003qpdns4HcQDn.jpg

       最近和很多人探讨、交流推荐系统相关很多事情,喜欢这种理性探讨,这种探讨能够让双方都有收获,一个是负反馈再有就是对于推荐系统怎样做深入,再有就是推荐系统架构一点思索。

Image

       负反馈最近探讨很多一个问题。一直有疑惑,大部分的内容都是关于movielens这种含有客户负反馈的,但是我只是一个普通的电商网站,只有客户的购买浏览等记录,却缺乏客户不喜欢物品的负反馈,即使是我使用itemcf,也只能是单类协同过滤,效果不是很好,查了一些paper,除了使用其他的结合内容,上下文等之外,就只有采样了,但是我所在的行业,就算客户没买,也不一定是不喜欢,只是可能不知道而已,想探讨一下,是否了解这种隐反馈的场景实际应用中还有没有其他的处理方法呢?

        这是一个好问题,一个有意思问题,也是我们探讨了很多次问题。负反馈其实我们可以思考一下,不买就是不喜欢或者说没推准?那推出来不点击不浏览呢?应是不能作为负反馈的,因为一个用户不点击、不购买因素太多了,钱不够?人委屈(对这个素材不满意而已,把品类都降权太极端)了可能都不会去点击。

        再有就是现在淘宝京东等app对于素材都有负反馈收集,但其实了解到负反馈人很少,因为用户没义务去点击那个,他也不愿意去反馈。其实很多用户是不满意就直接走了,不会提意见的,这是实际数据反馈情况。

        那负反馈要不要做,做是当然要做但要小心做,因为其实很多用户在频道内行为是很有限的,分类召回级直接卡掉,点击、浏览、GMV转化等指标应该一下就会降一大截。

        现在推荐系统,两个方面一个是用户持久喜好,作为离线偏好,这种负反馈尽量不要做。另外是用户实时篇好,因为很多情况下用户看到喜欢内容、商品会点击两下看看,真喜欢可能就购买了。实时用户篇好目前是很重要用户推荐构成部分,能抓取就抓用户了,抓不住就走了。对于实时篇好可以根据给用户推荐内容、商品都未点击,可以做降权处理,不是过滤,过滤要慎重,用户点击多了还要加权,抓住用户实时兴趣,引导用户多浏览、多看。

       我所在的行业,但是由于某一类目的商品选择较少,导致这一类型各个商品和其他类型的各种商品的相似度都较高,导致不管其他什么商品都会很容易推荐这一类目的热门商品,请问您有遇到过这种情况嘛?一般工程上会怎样解决这种问题呢?

        关于推荐系统的热门商品权重过大的问题,除了上面的规则干预,还有没其他的模型计算方法呢?我用的是项亮书中的在itemcf时变了分母的幂次,但效果不好,您还知道工程中有其他合适的算法嘛?

       热门商品是个好东西,但不受控制总是推出热门商品不是一个好的做法,热门商品作为一个单独热门召回级,热门商品被关联数量一定要控制,设置相关策略阀值。

       对于热门商品做热度算法处理,就是热门内容、商品作为召回级,给予阶梯式曝光,如果热门能很大程度提升整体转化指标,那么可以给相应加权如做不到进行相应降权。

       热门商品召回级还有一个很大用处,目前看在一个频道很多用户是行为很少的,热门作为拉新很重要一个手段,因为热门某种意义就是命中了大多数人喜好。是作为召回级不够用户很重要一个数据补充渠道,用好还是相当重要。

       最近探讨另外一个重要点,推荐系统如何做深入,毕竟越深越美,如果有了粗力度召回级,那么就是做细粒度召回级。就像文章,最开始做主题LDA分类,但这种分类很粗,加进相似文章召回,数据猛的一升。后来又做了细粒度标签比主题细分很多一种划分主题方式,这种就要结合LDA将力度又不要划分太细,不然会发现用户点击两下全是同一个内容。

       内容细的标签,沉下心来仔细想想,很像搜索引擎,用户点击某个标签,然后返回标签下内容。如果把标签理解为搜索引擎搜索词,这就是极其类似召回数据方式。很多事情都是相通的,要静下心来去探索、去发现。

       商品最近也是在探索细粒度召回级事情,以前做的更多是品类,品类作为召回级核心,后边会更多探索用户对于品牌、性别、价格段、季节、地理位置、手机信息等多个更细粒度召回级探索。补充完善粗召回级之外内容,预估对转化数据都是会有提升的。

       再有就是也在对于商品标签不断完善,是另外一个方向对于召回级扩大以及更加细分,让用户行为能更精准进行推荐。品牌、价格段、性别、商品标签都是对于商品分类召回细化,仔细想想很像是对于内容由主题到标签,粗粒度细粒度结合。

       这些新的尝试对于线上推荐服务、推荐引擎也是一个新的挑战,需要花费心思去将架构抽象化合理化。其实做事情难易程度,不在于外界,在于你对于自己要求,要求高了,难度自然就大了。

       最近在看Google对于分布式系统设计方面内容,收获很多,对于复杂系统给出最简洁设计,是Google设计分布式系统很重要设计理念,求于至简,归于永恒。简洁其实是很难很复杂要求很高设计,因为所有事情都考虑到,才能做到至简,至繁归于至简。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK