43

那个20多万“不可描述”照片的数据集,有人用它做了鉴黄模型 | Demo

 5 years ago
source link: https://36kr.com/p/5174466.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

编者按:本文来自 量子位 ,作者三井,发自凹非寺。

有人上手了!

近日, GitHub出现一个名为“NSFW Model”的项目。通俗一点来说,就是一个鉴黄模型。

qMBF7ji.jpg!web

这个模型,使用的数据来自前不久量子位介绍的那个数据集,内含多20万张“不可描述”图片。

Ez2myuF.jpg!web

同时,这个模型也被项目的贡献者做成了Demo。

既然有了Demo,那肯定是免不了测试一番……

Demo效果

Demo网站十分简单,进去之后能做什么一目了然。

上传图片之后,是自动给出结果,不需要点击其他按钮。但有时候不会给出结果…..还有待完善。

结果是数据集中提到的5种类别的可能性。分别是:hentai、sexy、neutral、drawings、porn。具体每个类别代表的意思,如下图所示:

eyuYZvr.jpg!web

好了,开始第一个测试:

j2A7by7.jpg!web

这个图有71%的可能性是hentai;16%的可能性是porn。你觉得准吗?

再来一个:

FjUjYbF.jpg!web

71%的可能性是sexy。

但下面这个,就有点不好说了。

i2mQza3.jpg!web

porn到了76%,19%是hentai。按照这个标准,《超体》别想正常上映了……

但整体上,这个模型还是能工作的,比如整个漫画,就很好的识别出来了,比如其他的一些,也能识别出来(但图片就不好放了)。

zeea6jU.jpg!web

至于准确率怎么样,没法给出定论。如果你有兴趣,可以去体验下这个Demo。地址:

http://ai.midday.me/

话说话来,看到这个模型,你有没有想自己上手体验一下?GitHub有相关的开源代码。

请收好项目地址:

https://github.com/rockyzhengwu/nsfw

最后,数据集地址:

https://github.com/alexkimxyz/nsfw_data_scrapper

One More Thing

在Demo网站的下方,写了一句爱因斯坦的话:

Two things are infinite: the universe and human stupidity; and I’m not sure about the universe.

只有两样东西是无限的,就是宇宙,还有人类的愚蠢,不过我对前者还没什么把握。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK