为裸女自动穿上「比基尼」，借助GAN打造强劲的内容审核方法

选自arXiv

机器之心编译

参与：思源、晓坤

互联网上的图像内容审核一直是很多人都非常关注的话题，而当前内容审核还需要很多人力操作。最近有研究者利用生成对抗网络以无监督的方式学习自动给裸体穿上比基尼，这样在不改变内容语义的情况下还能去除敏感信息。这些研究者使用从网上收集的数据集，并借助 Mask-RCNN 去除背景以更好地训练生成对抗网络。他们表示数据集将可以开放获取并限于研究，但目前并没有提供下载链接。

互联网易于访问和使用广泛的特性使其比以往更容易地在任何时间搜索到任意的内容。然而这种便利性是有代价的：在很多情况下，人们都会搜索到不希望出现的内容。而研究如何自动过滤这些内容就显得非常有必要了。

早期在裸露和淫秽内容审查的工作主要聚焦于检测敏感媒体文件中的身体部位，例如脸部、人体皮肤和乳头 [1]-[4]，而近期的研究使用当前最佳的表征学习方法，来自动学习可以辨别敏感内容和非敏感内容的特征以解决这个问题 [5]-[7]。这些研究仅关注执行二分类问题，使用分类结果来决定是否完全忽略访问的内容。在实际情况中，需要注意到这样的方法可能有损种用户经验，因为其完整的内容，无论是图像还是视频帧都必须被删除或屏蔽。

而只屏蔽裸露部位通常又需要大量的人力屏蔽，因此在理想情况下，自动实现不改变整体而屏蔽敏感内容方式将是很不错的，这样用户可以不需要注意裸露检测，同时还能避免大量手工标注身体部位。图 1 展示了这个理想应用场景，它也正是本文所提出的方法。简单来说，研究者提出了一种基于对抗训练的图像到图像转换的方法，其潜在地定位图像中的敏感部位，在保留其语义的同时覆盖它们，即给它们穿上合适的衣物。该方法可以转换敏感内容域 X（包含裸女的图像池）的一张图像 x 到非敏感内容域 Y（包含穿比基尼女人的图像池）的一张图像 y，其中敏感部位被比基尼覆盖，同时保留原始图像的语义。该任务需要的数据是来自域 X 和 Y 的图像，它们很容易获取，不需要特定的标注工作。

图 1：审查图像敏感部位的技术展示。（a）-（c）：常用于定位审查的手工过程。目前，没有其它研究使用自动化方法来解决这个问题。（d）：本文提出的完全自动化的使用非配对图像到图像转换的无缝审查方法。

图像到图像转换方法一个常见的问题是必须有对齐的样本对 {x_i , y_i}，这样才能训练模型学习从领域 X 映射到领域 Y 的过程。本论文提出的方法基于当前最优的图像到图像转换技术，它允许模型能学习从不安全图像领域（裸体女性）映射到安全图像领域（穿比基尼的女性）的方法，且还不需要使用成对的训练样本，这就避免了获取对齐样本的成本。研究者展示了自动从裸女生成比基尼女的一些令人印象深刻的结果，证明了可以通过少量数据收集和标注的工作就能执行无缝的裸露审查。

论文：Seamless Nudity Censorship: an Image-to-Image Translation Approach based on Adversarial Training

论文地址：https://www.researchgate.net/publication/325746502_Seamless_Nudity_Censorship_an_Image-to-Image_Translation_Approach_based_on_Adversarial_Training

摘要：互联网易于访问和使用广泛的特性使其比以往更容易地在任何时间搜索到任意的内容，尽管这有很多好处，但事实上敏感的用户可能在不经意间搜到他们不希望出现的裸露内容。几乎所有裸露和淫秽内容的审查工作都仅关注执行二值分类，即确定是否完全忽略访问的内容。这类方法可能需要折衷用户经验，因为其完整的内容，无论是图像还是视频帧都必须被删除或屏蔽。在本文中，我们提出了一种成人内容审查文献的范式转变：不是检测和排除识别到的内容，而是自动过滤掉图像中的敏感部位。为此，我们开发了一种基于对抗训练的图像到图像转换的方法，其潜在地定位图像中的敏感部位，在保留其语义的同时覆盖它们，即给它们穿上合适的衣物。我们在裸女图像上测试了这个新方法，结果表明我们可以自动地生成覆盖敏感部位的比基尼，并且不需要做预先标注身体部位的额外工作。我们的结果在视觉效果上令人印象深刻，表明用小量数据搜集和标注执行无缝的裸露审查是可能实现的。

III 方法

我们提出了一种基于对抗训练的图像到图像转换的方法，其潜在地定位图像中的敏感部位，在保留其语义的同时覆盖它们，即给它们穿上合适的衣物。该方法可以转换敏感内容域 X（包含裸女的图像池）的一张图像 x 到非敏感内容域 Y（包含穿比基尼女人的图像池）的一张图像 y，其中敏感部位被比基尼覆盖，同时保留原始图像的语义。该任务需要的数据是来自域 X 和 Y 的图像，它们很容易获取，不需要特定的标注工作。

本文提出的方法使用图 2 所示的架构。我们从文献 [31] 中获得启发，其中不需要使用配对数据来执行图像到图像转换。关键思想在于执行对抗训练来学习域之间的真实映射。具体而言，该框架有两个生成器映射，即 G : X → Y 和 F : Y → X，还有两个判别器，即 D_X 和 D_Y。其中 D_X 试图区分真实图片 {x} 和转换的图片 {F(y)} = {x hat}，而 D_Y 试图区分真实图片 {y} 和转换图片 {G(x)} = {y hat}。

图 2：本论文提出的图像到图像转换方法，它通过对抗训练无缝审查成人内容。

A. 数据集

以前关于成人内容检测的研究可以使用预建立的数据集进行研究 [45]-[48]，这些数据集通常包含常规内容和成人内容的图像与视频，也可以从互联网上爬取而构建出满足特定需求的自定义数据集。由于现有数据集一般只支持内容的二值分类任务，一些视频与图像完全和成人内容无关，例如动画片、动物视频和地理图像等。而这些数据对于我们在领域间实现无缝图像转换是没有什么帮助的，因此我们从头开始收集数据集。

我们从互联网上爬取了两个领域的图像，即裸体女性和穿着比基尼的女性。我们过滤结果并仅保留单个人出现的图像，随后所有数据集进一步分为训练集与测试集。对于穿着比基尼的女性，最终共有 1044 张训练图像和 117 张测试图像。对于裸体女性，最终共有 921 张训练图像和 103 张测试图像。我们将该数据集开源以作为研究使用。（注：作者表示因为双盲审，数据集链接暂时不提供）

IV 实验

A. 原数据集上的实验结果

图 3 展示了使用原数据集训练网络的结果。

图 3：在原数据集上训练的结果。第一行：真实图片（为了保护读者而手动加了马赛克）。第二行：使用 9 个残差块的 ResNet 生成器生成结果。第三行：使用 U-Net 256 生成器的生成结果（给不满意的地方手动加上了马赛克）。

B. 移除背景后的生成结果

从以上实验中，我们发现模型无法区分前景与背景。所以我们通过 Mask-RCNN[53] 对所有图片中的人进行语义分割，并去除背景以构建新的数据集，其中 Mask-RCNN 是当前最优的语义和实例分割方法。

图 4 展示了在无背景版的数据集上模型的训练结果。注意这些生成结果可能要比基于原数据集生成的结果更具有一致性。

图 4：在无背景数据集上训练的结果。第一行：真实图片（为了保护读者而手动加了马赛克）。第二行：使用 9 个残差块的 ResNet 生成器生成结果。第三行：使用 U-Net 256 生成器的生成结果（给不满意的地方手动加上了马赛克）。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：[email protected]

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：[email protected]

Recommend

最近坛子里有朋友准备结婚或求婚吗？买 GIA 裸钻找我女朋友有优惠渠道，同时也做彩色...

续我上次表弟发的总结

烧钱烧不出结果，货拉拉、58速运们是时候该冷静一下了

罗丽娟:15年研制900个配方只为神舟飞船发射那9分钟1532235606693538

手把手教你搭建微信小程序服务器（HTTPS）

36氪首发 | 获数千万人民币 Pre-A 轮融资，电脉冲健身品牌「ZESPEED」认为“内容”与“运...

美国女童子军正在学习电脑黑客技术！

C# 高性能对象映射（表达式树实现）

作为一个菜鸟码农，如何判断你所在的团队是否有前途？

历史低价:PPTV PTV-50VU4 50英寸 4K 液晶电视 1499元包邮（预付19元）_苏宁易购优惠

About Joyk