17

只要AI跑得快,色情黑话就追不上我

 3 years ago
source link: https://www.jiqizhixin.com/articles/2020-09-24-4
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

比老司机更懂行话,可快速识别“多人运动”“王者五排”等涉黄词汇,继每天审核数亿张图片,识别准确率高于99.5%的技术能力后,近日,阿里安全宣布,AI鉴黄师技术能力再度升级,通过将知识融合技术与已有知识图谱进行结合,可精准快速拦截不可描述的变异升级版色情黑话暗语。

业内专家评价,这对人工智能技术的发展具有非常重要的意义,让机器引入知识后并不对原始语义产生曲解,正是训练智能AI模型需要重点解决的难题。

色情“黑话”变异升级  一般NLP模型难识别

“小哥哥,要不要来我们这里多人运动啊?”“大号玻璃过滤彩珠大水瓶、玻璃水壶全套配件到手即用”。大多数群众并不了解这些行话内涵意义,但黑灰产从业人员几乎每天都在想如何利用类似行业“黑话”,绕过鉴黄师的检测。

这对人工智能技术的发展带来了非常大的挑战。目前谷歌发布的BERT自然语言处理模型已经在文本理解领域取得了突破性进展,但在识别上述这些黑话时仍难以发挥实际的拦截作用,不能撕掉这些黑话的伪装,以及无法辨别其指代“色情、毒品”的本来含义。

原因在于机器虽然对字面意思的自然语言处理模型都懂,但想要了解其中“内涵”就变得极其艰难。

阿里安全高级算法专家开阳指出,黑话的识别难度还在于黑灰产对黑话的创造能力非常强。“他们会结合一些热点事件来造梗与‘搞内涵’,而这些热点事件通常难以预测”。例如“多人运动”这类词,如果不是某明星事件发酵,就不会被色情黑话所引用,这就要求AI模型能够针对新事件快速感知,并构建形成知识,来为新风险的识别提供能力。

开阳介绍,在这个过程中,需要依赖各种分析技术对事件进行识别,同时基于新词发现技术挖掘事件词,也就是有可能被黑灰产使用的“梗”,最后通过知识融合技术与已有知识图谱进行融合。

此外,知识的引入也需要避免“过度解读”,例如“足球是一项多人运动”,对这个句子来说,需要让AI模型知道即便带入知识(多人运动-某明星出轨-群P),也不应识别成色情运动。

新一代安全架构注重文本识别  提升AI鉴黄能力

“阿里新一代安全架构核心AI技术可以做到这一点。”开阳介绍,针对此类问题,阿里安全提出了一种基于知识图谱的黑话识别方法,将人工经验知识引入,提升AI鉴黄师的文本理解能力。

首先,算法专家采用半自动化的方式,结合人工经验,构建黑话知识图谱,例如“多人运动”第一次出现在某明星前女友的分手信,指出某明星背着他在外面多次做出格的事。

yqUrMjy.png!mobile

图说:以罗XX事件为例打造的关联图谱

算法专家可以让模型学习到“多人运动”除了在通用理解层面与足球、篮球有关系外,与“群P”、“出轨”等也有相近意义。然后,进行文本理解时,算法专家将知识信息引入到文本模型当中,让AI将“小哥哥,要不要来我们这里多人运动啊?“准确理解为“小哥哥,要不要来我们这里多人运动啊?”,机器模型带着这样的背景知识来判定原始输入文本,就很容易将其判定为色情文本。

当然,知识图谱不是简单罗列几个关键词,需要根据向量计算,在神经网络结构中提取不同的特征,使AI在信息提炼、语义关系的理解上更精准。

开阳介绍,只需要把新的黑话知识添加到知识图谱中就可以生效,发现舆情事件导致的变异的时间可能在小时级,识别过程只需几十毫秒。阿里安全AI鉴黄师的新能力可以增强对内涵低俗内容的识别处置,能够净化网络空间环境,尤其现在接触互联网的青少年越来越多,年龄越来越低,网络空间更需清朗。

“我前两天听到了两个小学生的对话,一个对另一个说‘我觉得你在开车,你就是在开车’,这种内涵的网络语言已经开始影响到青少年,需要我们相关从业者做更多工作。”开阳强调,他已经越发感觉到推广该项技术的必要性与紧迫性。

目前,阿里新一代安全架构核心AI技术已应用在阿里的内容安全业务中,帮助识别色情、赌博等违禁内容,为净化网络空间环境起到了关键作用。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK