幼师虐童，用人工智能灭了她！

Original shadow 无界社区mixlab 2017-11-09 09:23 Posted on

这应该是第二篇，站在技术的角度，解决社会问题的文章。

第一篇，点击查阅：

如何技术地识别双十一的“骗”局

这次围绕的是人工智能，我们探索下解决方案：

1 背景

幼儿园虐童事件又发生了。这次，是喂十几个月大的孩子，吃大量芥末，还把消毒水往孩子的眼睛和嘴里灌。

很多人看了视频，都气炸了，前阵子看到携程给员工提供了亲子园都福利，还挺羡慕的，这下好了……

幼师虐童事件，透露出了为人父母一直所担忧的问题：

把孩子交给一个陌生人照料，是要冒着多大的风险？

据各种渠道统计：

乘坐飞机，发生坠毁事件的概率是 0.000085%

（117.65万次飞行才发生1次死亡性空难）

日本儿童虐待发生概率约为0.0964%

（日本官方统计数据显示，全国210处儿童咨询求助站2016年度受理的儿童虐待事件数达到122578件，2015年总人口为1亿2709万5000人）

不知中国的虐童事件发生的概率有多少，保守估计0.1%？

2 问题

回到本文的重点，我们讨论下：

如何利用人工智能，避免再次发生虐童事件？

问题痛点在于虐童行为发生非常隐蔽，幼龄儿童又不会表达。有人会说，我们在早教中心部署监控设备，不就能预防了吗？

传统的监控有太多的缺点：

比如，人类自身不可靠弱点，无法保持警惕，注意力难以持久，容易错过重要画面信息。

据调查，值班员连续盯着监控屏幕22分钟，对于之后95%的画面信息会视而不见。

目前大部分监控系统摄像机数量都是大于监视器数量，采用轮巡显示、多画面小图像的方式，很可能错过异常现象，听任事态发展。

尤其是值班员疲惫的时候，难以集中注意力；往往在不经意间，刚刚留意到异常，但画面却已消失，难以及时通过录像，对刚才出现的异常去分析、判断、消除怀疑。

等等，靠人肉去监控，明显不可取，我们要用技术解决这个问题。

3 AI产品

AI应用于监控，简单的系统组成是这样的：

1.部署监控系统

2.实时分析监控数据

3.显示预测结果

监控系统采集视频、声音数据，传输给服务器，服务器实时通过AI来分析，输出可视化的预测结果。涉及到硬件、通讯、AI、数据可视化等等内容。

我们希望这一套系统，避免早教机构发生虐待幼儿事件的发生，通过幼儿哭泣声音的采集，早教老师的行为数据采集，交谈话语的采集等，达到实时监控，及预测行为倾向。

3.1 关键技术：

儿童哭泣声音识别与分类

成人虐童行为识别与分类

成人粗口声音识别与分类。

需识别出有几个小孩的哭声，判断幼儿的情绪，视频识别虐童动作的等级及倾向。

3.2 降级方案：

只解决“是”跟“否”的二分类问题，相对简单，只需判断幼儿是否哭泣，成人是否有虐童行为，成人是否用语言攻击幼童。

这个降级方案比较可行，我会结合近期的keras更新，尝试下实现。

4 关键技术

关于成人粗口声音识别与分类，这个做起来还是比较简单的，只要把语音转成文字，然后通过分类，即可完成。相关的语音转文字，科大讯飞已经完成的很深入了，我们只需收集一些粗口形成针对本文课题的语料，进行训练使用，下面真对另2项关键技术，做一些简单梳理。

4.1 儿童哭声的识别与分类

目前没有发现很好的数据集（有读者知道相关的数据集，欢迎提供线索，有奖！），需要我们自己来制作，数据来源可以是各类视频网，把涉及到幼儿哭泣的视频都切割出来，提取声音。

学术界其实有不少研究，如心理学，教育学等领域有类似于《基于幼儿以及学前儿童哭声的研究》这样的课题，可以合作联手开发ai产品。

在市场上，一般号称“婴儿哭声检测”的产品，实际上并不具备真正的识别功能，只是针对声音的强度作检测，任何突然爆发的声音，比如电话铃声，拍巴掌声，大人说话声，都会触发。

相关的产品应用，我收集了这些，以供参考：

声联网-婴儿哭声检测 SDK

婴儿声音检测SDK主要是提供对婴儿哭声事件检测的一套解决方案。

http://www.avsnest.com/

婴语App

一款可以让新手爸妈知道他们的宝宝为何啼哭的App在台湾上线了。台湾云林科技大学开发的这款“婴语”翻译App可以录下婴儿的哭声，并把哭声与数据库中的各种哭声做比较，然后告诉焦急的爸妈宝宝到底需要什么。辨识四种哭声的状态，肚子饿、尿布湿、想睡觉、还有疼痛。

通过使用者的回馈得出来的准精确度是，对于出生两个礼拜的小朋友，正确率可以到达92%。”

科大讯飞输入法

科大讯飞顺利攻克“婴语识别”的超级难题，实现机器翻译“婴语”功能。

4.2 成人虐童行为识别与分类

目前没有相关的针对成人虐童的数据集，近年来随着深度学习技术的发展，以及计算能力的进步（GPU等），现在基于视频的研究领域越来越受到重视。视频与图片最大的不同在于视频还包含了时序上的信息，此外需要的计算量通常也大很多。

简单的行为识别即动作分类，给定一段视频，只需将其正确分类到已知的几个动作类别，复杂点的识别是视频中不仅仅只包含一个动作类别，而是有多个，系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方，在干什么事情。

中科院深圳先进技术研究院的乔宇研究员《视频行为识别年度进展》，在报告中提到

“行为识别现在是一个正在进行的领域。随着更大的数据库和更复杂的挑战的出现，我想这个问题远远还没有到解决的时候，从短时特征的提取到长时时间序列的建模，还有很多工作需要去做，包括后面提到的检测、跟踪、姿态估计”。

要构建一套人工智能产品，还是需要很多相关的技术支撑的，本文从声音分类，视频动作识别，语义理解等技术出发，作为抛砖引玉，希望我的想法能够引导大家带来更好的想法。

技术让生活更美好。

各位读者，觉得这个方向如何？站在技术的角度，探讨解决社会问题的方案：

投个票吧！

码字不易，开启新的打赏方式：

本公众号定期更新关于

设计师、程序员发挥创意

互相融合的指南、作品。

主要技术栈：

nodejs、react native、electron

Elasticsearch

Solidity

Keras

欢迎关注，转发～

欢迎长按二维码

关注本号

幼师虐童，用人工智能灭了她！

幼师虐童，用人工智能灭了她！

Recommend

系统设计的要素————系统策划的自我进化

Unity 游戏框架搭建 (二) 单例的模板

Facebook

GitHub - symisc/ascii_art: Real-Time ASCII Art Rendering Library

Making Pixel better for Drivers

被代理商围攻，饿了么犯了什么错？

为何腾讯、网易、小米不惧风险接连“吃鸡”？

搜狗上市，39岁的CEO王小川身价达到2.5亿美元

199元能充单车！摩拜移动电源开卖：360天可退

Visual Studio Code October 2017

About Joyk