语音识别 AI 挑战赛上线：用深度学习三种结构，对 50 种环境声音分类！

雷锋网 AI 源创评论按：此前，AI 研习社（ https://god.yanxishe.com ）陆续推出了医疗、美食、安全等多个领域的图像识别挑战赛以及 NLP 方向的挑战赛 30 余场。在这过程中，各位 AI 大神在各个挑战赛中不仅进一步提升了自己的编程实力，也为更多开发者留下了令人印象深刻、受益匪浅的作品。

据一些大神选手反馈，可以肯定的是比赛主题选取都很新颖且有实际意义，只是现在的他们已经不再满足于初级难度的挑战啦，并询问我们是否能够推出难度更高的比赛呢？

当然没问题！这不，难度再次升级的 「50 种环境声音分类」的语音识别挑战赛 ，来了！

MzmqqiJ.jpg!web

深度学习与语音识别

在目前大多数语音识别应用中，深度学习是较为常见的一种方法。它通过模仿人脑结构，建立起了一个深层神经网络；通过输入层输入数据，由低到高逐层提取特征，建立起低级特征到高级语义之间复杂的映射关系。

从而实现对输入的复杂数据的高效处理，使机器可以像人一样智能地学习不同的知识，并且有效地解决多类复杂的智能问题；例如：语音识别、图像视频识别、语言处理和信息检索等领域。

根据深层神经网络的构造方式、训练方法等因素，我们将深度学习分为了 3 大类别：生成深层结构、判别深层结构以及混合深层结构。

7rQNree.jpg!web

深度学习与语音识别

深层神经网络结构

一、生成深层结构

美国哲学家乔姆斯基将语言的结构分为「深层结构」和「表层结构」两种结构。语言按一定的短语规则和句子规则生成深层结构 (语义介入)，而深层结构经转换规则处理后变成表层结构 (语音介入)，于是转换为了人类看得见听得懂的话语。

而生成深层结构则是使得机器能够通过学习观测数据高阶相关性，或观测数据和关联类别之间的统计特征分布来实现模式分类，从而转换为机器可以识别语言的一类深层结构。

B77RfeA.png!web

DBN 的组成元件是受限玻尔兹曼机（RBM）

生成深层结构的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任网络（Deep Belief Networks，DBN）。它由多层神经元构成，通过一层一层训练其神经元间的权重，可以让整个神经网络按照最大概率来生成训练数据。

此外，该模型除了可以使用 DBN 识别特征、分类数据之外，它还可以被用来生成数据。

参考文献：

《A Fast Learning Algorithm for Deep Belief Nets 》by Geoffrey E. Hinton and Simon Osindero.

https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527

二、判别深层结构

判别深层结构是通过直接学习不同类别之间的区分表达能力来实现模式分类的一类深层结构。其代表模型是卷积神经网络（Convolutional Neural Network，CNN）。

目前在语音识别方向，deep cnn 算是其中较为热门的方向，这和 CNN 的三个重要的思想架构，包括：局部区域感知、权重共享、空间或时间上的采样有着极强的关联。

MryaYvI.png!web

CNN 模型

我们知道在通常情况下，语音识别都是基于时频分析后的语音谱完成的，而其中语音时频谱则具有较强的结构特点。而卷积神经网络恰好提供了在时间和空间上的平移不变性卷积，将这一思想应用到语音识别的声学建模中，则可以很好的克服语音信号本身的多样性。

从这一角度来看，CNN 可以视为将整个语音信号分析得到的时频谱，当作一张图像来处理，然后再采用图像中广泛应用的深层卷积网络对其进行识别。

参考文献：

《ImageNet Classification with Deep Convolutional Neural Networks》by Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

三、混合深层结构

混合深层结构是将上述生成深层模型和判别生成模式相结合而成的一类深层结构。在大部分混合深层模型训练中，生成单元首先将模型参数初始化为近似最优解，再使用判别单元全局微调，从而解决高度复杂问题的建模与推广问题。

例如：使用连续受限玻尔兹曼机（continuous restricted Boltzmann machine，CRBM）代替 RBM 对连续数据建模；将传统 CNN 与贪心逐层无监督学习算法结合从而提高有标签数据稀少时特征提取器的训练性能；用预训练算法（CD 算法）提高 RBM 的训练效率；或是采用全局优化算法解决深层神经网络模型中收敛速度慢、易于过拟合等问题。

这一结构往往更加复杂，但最终取得的效果也更佳。曾有一些研究者在迁移学习的基础上，将深度学习和机械学习相结合、并可在前端嵌入式实现的算法，使得最终环境声音识别准确率达到 88％（比此前全球最佳算法提高了近 2 个百分点）。

3QVrYrm.png!web 混合深层结构语音识别结果对比

50 种环境声音分类

在语音识别中，通常我们根据不同识别侧重点，将任务细化为不同类别，如：音乐流派识别、说话者识别、说话者性别分类、语音种类分类等，从而提高语音识别的准确率。

在本次 AI 研习社（ https://god.yanxishe.com/ ）推出的挑战赛中，我们选取了语音种类分类中的「50 种环境声音分类」主题。

emANZf2.jpg!web

图片来源：AI 研习社

开始时间：2020-2-21 09:00:00

结束时间：2020-3-20 23:59:59

本次比赛需要选手准确识别 5 种大类，共计 50 种小类的音频，每个音频文件时长 5 秒，格式为 wav。数据集来自 freesound.org 公开项目，从中手动提取，训练集共计 1600 个，测试集 400 个。

Ejyea2i.png!web

5 大类语音分类详情

其中数据集详细文件格式如下所示：

文件名命名：{FOLD}-{CLIP_ID}-{TAKE}-{TARGET}.wav

{FOLD} -索引
{CLIP_ID}-原始剪辑的 ID
{TAKE} -在同一剪辑的不同片段之间进行歧义消除的字母
{TARGET} -类别-数字格式 [0，49]

数据集下载链接：

https://static.leiphone.com/sound_classification_50.zip

评审标准与奖金

最终提交结果文件如下所示，其中，第一个字段位：测试集 ID（注意 ID 即文件名是从 0 开始的）；第二个字段：类别-数字 [0，49]。

Ps：结果文件建议使用 UTF-8（BOM）编码~

ryqIfue.png!web

（答案示例图片使用 Notepad++打开）

整个比赛的评审完全透明化，我们将会对比选手提交的 csv 文件，确认正确分辨图片数据，并按照如下公式计算得分，其中：

True：模型分类正确数量
Total ：测试集样本总数量

ZJ3e6v3.png!web

本次大赛依旧提供了基础奖金池为 3000 元，共设置了三种奖项，包括：参与奖（30%）、突破奖（20%）、排名奖（50%）；以上三种奖项均互不冲突，只要你足够秀，全部拿走也是没问题的！

jAJ3Evj.jpg!web

每日 24:00，我们也会将最新结果更新在官网排行榜上，你可以随时随地查看自己的排名情况。

更多信息，可进入参赛主页查看：

https://god.yanxishe.com/37

雷锋网 (公众号：雷锋网) AI 源创评论雷锋网

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

AfMRVbE.jpg!web

深度学习与语音识别

深层神经网络结构

一、生成深层结构

二、判别深层结构

50 种环境声音分类

结束时间：2020-3-20 23:59:59

评审标准与奖金

Total ：测试集样本总数量

Recommend

Bypassing OkHttp Certificate Pinning

良品铺子突围：疫情下武汉远程上市第一股，闯关万亿市场

Sony’s new flagship Xperia 1 II is built for speed, offering the... - Sony Europ...

疫情区间没什么事情做，抓了一些抖音的数据

Go语言之禅

今年 1 月国内手机出货量下滑 39%

物理学家解开完美炒饭的秘密

钉钉将推出“圈子”新功能首次开放私域流量

Hash#shift using default values

鉴别真假，Face X-Ray技术给换脸图像“照X光”

About Joyk