互联网广告内容审核专题（二）——机器审核

导语：在上一篇文章《审核业务机制基本认知》中，作者为我们分析了审核维度主要分为准入环节的客户主体审核和推广环节的内容审核。在本篇文章中，作者将重点介绍推广内容的机器审核方式，不仅限于商业推广的内容，同样适用于流量内容审核。

2YNbmeR.jpg!mobile

互联网上每日发布海量内容，单单微博的评论日均可达亿级以上。同时，随着时代发展，在传统的图文内容以上，音视频、直播、弹幕等内容形式的兴起，对于内容审核的挑战日益增大。

很明显，在风险和用户体验双重重压之下，仅依赖人工审核是不现实的，使用机器审核并初步过滤风险内容才是最优的选择。

机器审核是什么？

简言之，机器审核是通过AI算法对劣质内容进行识别、过滤的一种审核模式，通过提取海量数据样本的特征，输入机器学习形成的机器算法。

机器审核通常可以区分为机审规则和机审模型，机审规则是最简单的机器审核方式，仅支持识别文本类内容。机审模型则能力更加强大，可支持文本、图片、音视频的审核，一起来看看机器审核是如何识别风险内容的？

一、机审规则

机审规则即风险词表，由海量的风险词和匹配规则构成，简单理解为根据匹配规则，识别待检测文本中是否存在风险词表中的词，下面来具体说说匹配规则：

1. 场景1：针对单个风险词的匹配规则

精准包含匹配：待检测文本中精准包含风险词才能够命中机审规则。如风险词为【真人荷官】，待检测文本中内容为【真%人。荷/官】，词中间加入了特殊符号，即无法识别；
强过滤匹配：能够将（1）中的特殊符合自动过滤后进行匹配，即将【真%人。荷/官】转化为【真人荷官】，再进行识别；
拼音匹配：能够将【zhenrenheguan】、【真人heguan】转化为【真人荷官】进行识别；
字母大小写转换：如风险词为【coco】，可以将【COCO】、【Coco】转化为【coco】进行识别。

2. 场景2：针对多个风险词的匹配规则

多模匹配：通过识别固定词间距内是否同时出现了多个风险词（通常不超过3个），如同时出现即命中机审规则。举例：如机审规则中，风险词为【真人】和【荷官】，设置识别的固定词间距为60字。当待检测文本中出现【真人XXXX荷官】，且两个词间距不超过60字时，机审规则可以识别；
置换匹配：对于多模匹配，需要按顺序先出现【真人】，再出现【荷官】，才能识别；而置换匹配，可以将两个词倒序排布后识别，即可以识别【荷官XXXX真人】。

3. 场景3：豁免规则

为防止正常合规的词语被误杀，通常会人为添加豁免规则。

举个例子：如机审规则中风险词为【人流】，豁免规则为【人流量】。那么当出现【人流量】时，即会命中豁免规则，允许该词语正常使用。

除了上述基本的匹配规则外，在商业推广中通常还会增加【白名单机制】。白名单机制的出现，是基于品牌保护的目的，即白名单内的客户或账户允许使用词【coco】，其他客户不允许使用，来保证品牌主体的正当权益。

大家可能有疑问，海量的风险词是怎么来的？如何判断一个词属于低俗风险？

这些都是专业的审核人员或风控规则运营人员基于工作经验、审核case以及互联网的海量数据进行人工整理的。可想而知，工作量极大。

随着机审能力的发展，目前也可以借助一些词扩展工具，通过一个基础词，基于繁体转换、拼音转换、同义转化等逻辑，自动扩展出变体词，辅助人工收集。

二、机审模型

机审模型能够实现对文本、图片、音频、视频各种形态产品的识别，对于不同形态的产品如何识别呢？

1. 文本识别

相较于机审规则，模型能够实现的识别场景更多。通过语义分析构建智能学习算法，结合场景对风险文本进行识别。

以下面一段文本为例【韩国电影/迷人的保姆/男主经不住漂亮保姆诱惑】，这段话拆开每个词都不涉及敏感问题，但整体的场景描述下却是低俗导向，不适宜发布。

对于这类情况，机审规则无法生效，只能靠模型来识别。通过样本输入和机器学习，让模型具备这类场景的识别能力。

2. 图片识别

通常区分为图片中的文字和图像识别：

文字识别采用ocr识别技术，即对图片进行扫描，将图片中的文本输出，再使用文本规则或模型进行风险识别；图像识别基于海量的图片数据，获取图片的信息并进行预处理，比如去噪、平滑、变换等，然后抽取图片特征进行分类处理存储至索引库，计算并存储图片的风险标签。

那在面对一张新图片时，索引库中如有与之相似的特征，即可以进行识别判断。作者对于图像识别研究并不深入，不作更多妄论。

3. 音频识别

asr语音识别技术，将音频转换为文字后进行识别。

首先对音频进行预处理，提取音频的特征。特征提取出来后，建立索引库存放特征。在面对一段待识别的语音时，将其与索引库中特征进行匹配，输出识别的结果。

音频识别与同为多媒体元素的图片识别，基本的原理是一样的，都是提取特征、建立索引库存储、特征匹配这三大过程。

4. 视频识别

视频审核目前主要以视频切帧的方式，将视频切成一张张的图片，再按照图片识别的方式进行审核。

三、总结

可以看到，相较于机审规则，模型的识别范围更加广泛，识别能力更加强大。但在实际机器审核中，通常是规则和模型组合拳的方式使用。

原因在于，模型的研发需要更加海量的数据和极细粒度的标准，并经过严格的线上测试，准召率达标后才能够上线使用。而机审规则不需要研发，通常配置即可生效，是一种实时服务。

对于紧急风险来说，最合适的办法是使用机审规则应急，同时进行模型研发，以最大程度降低风险影响。

当然机器算法的识别能力也是有限的，除了准召率的问题外，对于某些场景几乎不适用。

比如直播的审核，对时效性要求极高。如使用视频切帧、音频识别的方式，直播画面结束还没审核完成，远远达不到风险管控的目的。因此通常使用人工审核，盯在直播间前防止风险突发。

本篇文章的内容就到这里，关于更多的审核模式、审核机制、审核业务管理方式等会在后续文章中继续和大家分享！欢迎大家一起探讨！

本文由 @声生原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash ，基于 CC0 协议

一、机审规则

1. 场景1：针对单个风险词的匹配规则

2. 场景2：针对多个风险词的匹配规则

3. 场景3：豁免规则

二、机审模型

1. 文本识别

2. 图片识别

3. 音频识别

4. 视频识别

三、总结

Recommend

心擎医疗获超亿元B轮融资，北极光创投领投

对决比亚迪，吉利汽车不想“单押”宁德时代

使用自己的代码查找漏洞：检测功能相似但不一致的代码

50+有用的DevOps工具(三)

区块链的演化及墨客的发展规划

“中国韭菜”撑起世界首富：每收割一位车主，马斯克的身价就会更高

spring中这些能升华代码的技巧，可能会让你爱不释手

【吐血整理】超全golang面试题合集+学习指南+知识图谱涵盖大部分golang程序员所需要...

动态方法拦截(AOP）的N种解决方案

多年经验总结，写出最惊艳的 Markdown 高级用法

About Joyk