1

如何学习风控?我的知识架构 | 缩我短链接

 1 year ago
source link: https://suowo.cn/cms/class/31411.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

不少初入门风控的人可能会有些疑惑,如果想更深层地学习风控的相关知识,应该怎么做?如何才能更好地理解风控的底层逻辑?本篇文章里,作者尝试结合自身经验,分享了他有关风控学习知识体系搭建的部分经验,一起来看一下。

ZfTjMP19XB3kJInejiGr.jpg

一、风控的范围很大

只要有交易就有风险。想想别人找你借钱时你的心路历程吧,可太怕了。人都不喜欢和自己不了解的人交朋友,更不喜欢和不知道的人做交易。

“有内鬼,终止交易”。内部人尚且如此,陌生人不能不防。

互联网业务中你从来不知道你服务的对象是什么人,它天然就需要做风控。ToB 的业务如果是大客户,你可能还会线下有过往来接触,ToC 的根本就不可能。

可以说互联网的业务有多大,风控的范围就有多大。

以我在的互联网金融业务为例,业务上肯定希望吸引更多的用户,给更多的人授信,提供更高的额度,最后又能有更低的逾期,从而有最大的收益。但规模要大,就要下沉,额度高的,风险又更高。风控就是要在各个环节上,例如,市场营销—>申请审批—>账户管理—>催收处置等,把高风险用户识别出来特殊对待。

不仅信贷,营销活动要拦截“羊毛党”,刷单控评的行为要拦截,黄牛党也要防控,垃圾注册刷访问、关注的要防控,就现在这篇文章,也要被检测看看符不符合原创,有没有涉政、涉黑、涉黄。无所不包。

二、个体不重要,群体才重要

做风控的目标不是为了 0 风险。你不能把所有存在风险的客户都拒绝掉,你也做不到这一点,因为每个人每笔交易都存在风险,程度问题。

你不能说一个芝麻分 600 分的人,比一个 800 分的人差,个体符合测不准原理。但是你可以说,六百多分的这群人没有八百多分的那群人好,这是对的,群体是测得准的。

风控不关注个体,1w 个人申请,你通过了 3k 人,不是说这 3k 里的每个人都是会准时还款的。实际上是,你把这 1w 人按风险排序分成 10 组,每个群组里计算收益率,风险排序足够好的话,这 10 组的收益率是单调的,收益率为 0 作为分界线,你取出了其中前 3 组。实操中,不必真的算收益率,逾期率好算的多,也不必用 0 作为分界线,取一个业务上合理的阈值就可以了。

你从来没有关注过个体,而这却是对的。

所以你常常会见过,风控把一些正常行为拦截了,例如反复让你校验验证码、刷脸失败、交易被拒绝、投保被拒等。

三、最重要的是数据

主流银行贷款是需要提供很多很多信息的,在哪工作、收入、学历、家庭情况、征信记录等等,银行对你的了解比你的亲朋好友还多得多。如果你有贷款买房经历就知道了。

移动互联网改变了世界。你的客户是不是人你都说不准,你的客户就是数据。y=f(x),你只有 x,没有 y。

那么你需要什么数据呢?你想知道一个人会不会还钱,显然需要知道他想不想还钱,需要知道他有没有能力还钱。

离这些信息越近的数据越有效。而几乎所有的数据都是有效的,又一个程度问题。收入高不高、学历怎么样、安装了哪些 app、跟什么人通话,等等,几乎一切都有用。

我们不需要 y 标识每个人,我们不是用 X 来预测用户的身份证号,我们只需要评估一个人会不会还钱。

四、因果关系很难,但相关关系很容易

上面随意列出的数据,你都不敢说因为怎么样所以怎么样。这个人收入很高,所以不会逾期,这个逻辑如果是对的,那高收的人都要通过,低收的人都要拒绝。是收入高的这群人,整体风险偏低。

前者说的是因果关系,后者是相关关系。我们从来不能很好地解释,这群人逾期的原因是什么。我们擅长计算,这群人具备这些特性,他们的逾期水平比较高。

用数据去定义一个人,尤其是移动互联网时代,用海量的数据去定义一个人,我们找的是相关关系。数据维度非常多,数据分布非常稀疏,但因为你找的是一个相关关系,问题就变得可解,或者说容易解。

1000 个相关变量找出来的风险度量,就很可靠,不容易被攻击。而不是捏造一个高收数据,就可以获得一笔贷款。

世界上不是所有有道理的事情都是因果关系的。

五、策略模型的工作其实很简单

选择一批样本,也就是历史用户,定义出他们的好坏标签,也就是打上 label,关联到他们的数据信息,也就是匹配特征,选用一个成熟的算法,也就是 xgb,训练一个模型,输出一个概率对用户进行排序。建模工作就完成了。

图像分类的经典问题猫狗识别,是识别一张图片是猫是狗,我们也是用一个人的数据信息,识别一些东西。当然,我们不是识别是人非人,而是识别是不是一个“好人”。

m93HDYYU4ODdVi0orLFZ.png

应用时,获取用户申请时的那些数据信息,用训练得到的模型,计算出用户的风险概率,参考历史用户的风险水平,做出拒绝还是通过的决策。这就是策略应用了。

模型开发时我们总在关心模型效果,但当模型开发完后,最重要的是稳定性。没有策略会盯着模型分的变动反复调整阈值的。有问题的信息千万不要用。监控一切容易,响应一切难。

简而言之,言而简之,风控就是用你能拿到的信息综合计算出一个风险度量。

所以风控的这些工作,无非是去拿信息、去加工信息、去计算风险、去找到一个尽可能优的方程式。

关于短链接的风控

现在很多推广中都会使用短链接做推广,其实短链接里面也会涉及到风控,它会影响你的链接能不能正常的打开,很对推广平台都会有相关方面的规定,这种情况很多出现在共享域名上面,一个用户出现违规情况被封禁可能导致整个域名打不开。这时候就要选择一个靠谱的短链接平台了,缩我短链接suowo.cn,,24小时不间断巡逻系统

流量平台风控合作,多重链路防护技术,老牌免费短链接生成工具,

92c17eb4ce094523ba649fc7466a6918.png

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK