利用声纹识别技术识别400电话语音性别

MbIBRjZ.png!web

总篇第81篇 2020年第5篇

一、引言

声纹识别(Voiceprint recognition,VPR)又称说话人识别(Speakerrecognition, SRE)，是一项根据说话人语音信号中反映说话人生理和行为特征的语音参数(“声纹”)自动识别说话人身份的技术。说话人性别识别是声纹识别的一个重要领域，是一项基于说话人的声学特征识别说话人性别的技术。

400电话目前广泛应用于之家智慧网销客服咨询，在服务看车、买车、用车客户的过程中，之家会积累大量的高价值数据来构建用户画像。通过用户画像，之家可进行针对性地广告投放，做到精准营销，提升线索转化率。其中，用户性别信息对于用户画像的构建是至关重要的，对于通话用户的性别信息进行标注往往需要投入大量的人工成本，通过声纹识别技术对用户通话语音进行自动化性别识别可以帮助企业提升工作效率，节约人工标注成本。

二、原理与实践

本方法通过实时获取400电话通话语音流，对语音流进行实时端点检测，截取2秒通话语音，对语音进行预处理，提取语音的声学特征，将特征输入训练好的模型对通话语音进行实时性别识别。

对语音性别识别模型进行建模的过程为：首先用大量各种信道的语料训练一个与说话人信息无关的UBM模型，然后分别将400电话语音数据在UBM上进行MAP自适应得到每条语音的GMM，通过GMM生成均值超矢量，接着对均值超矢量进行因子分析，从中提取待识别语音的i-vector特征，最后利用i-vector特征训练Logistic Regression模型进行性别识别，整体流程如图1所示。

IvyuUnZ.png!web

图1 整体流程

2.1 声学特征提取

原始音频信号可以直接作为模型的输入，但是在保守情况下，如数据不足、计算力薄弱时，更好的做法是先将其由时域信号转换为频域信号，模拟人耳的处理机制，最终产生声学特征（Acoustic Feature）。声学特征提取使得语音信息更容易暴露，大大降低算法优化的压力，某种程度上也起到降维的效果，提高计算效率。

声学特征选择MFCC(Mel-FrequencyCepstrum Coefficients,梅尔倒谱系数），MFCC特征提取的具体步骤为：

a. 预加重加重高频语音的能量，使得语音信号的高频信息更加凸显；

b. 对语音信号进行分帧加窗帧长25ms，帧移10ms，窗函数优选海明窗；

c. 对加窗后的每一帧语音进行离散傅里叶变换，提取频域信息；

d. 提取FBANK特征将频谱通过梅尔滤波器组规划到梅尔刻度上得到梅尔频谱，其中梅尔滤波器的个数选择40，接着将梅尔频谱的能量数值取对数，得到40维FBANK特征；

e. 提取MFCC特征对FBANK特征进行离散余弦变换，得到MFCC，取前20维；

f. 计算每一帧音频的能量值能量值为该帧下所有音频采样点取值的平方和，并用能量值替换MFCC特征的第一个系数。

每一帧语音特征的最终形式为20维，其中包括1维能量值和19维MFCC。

2.2 GMM-UBM模型训练

2.2.1 GMM

GMM(Gaussianmixture model,高斯混合模型)是将多个SGM(SingleGaussian Model,单高斯模型)的PDF函数加权求和来拟合更加复杂空间分布的PDF函数。假设GMM模型由K个SGM组成，每个SGM称为一个Component，这些Component的线性加权组成了GMM的概率密度函数。

VZzuemA.png!web

2.2.2 GMM-UBM

UBM(UniversalBackground Model,通用背景模型)也是一种GMM，该模型将整个声学空间划分成若干个声学子空间，即若干个UBM混合分量。每个声学子空间是一个与说话人无关的高斯分布，粗略地代表了一个发音基元类，如图2所示。

JjQfuqb.png!web

图2 GMM-UBM建模示意图

UBM是所有说话人语音特征的共性反映以及信道信息的共性反映，固UBM的训练数据集越多、覆盖面越广，训练得到的GMM就越能接近真实分布。GMM-UBM建模的步骤为：

a.用大量各种信道的语料训练一个与说话人信息无关的UBM(Universal Background Model, 通用背景模型)，UBM模型参数的训练采用EM(Expectation-maximizationalgorithm，期望最大化算法);

b.将400电话语料数据按一定比例分为训练集和测试集，将训练集语料数据在a.得到的UBM模型的每个高斯分量上进行MAP(Maximum A PosterioriEstimation，最大后验估计)自适应得到每条语音对应的GMM模型，即GMM-UBM模型，自适应过程中只需更新均值矢量 u c ;

c.将GMM中所有高斯分量的均值矢量 u c 按照固定的顺序拼接起来，得到GMM均值超矢量M，其中包含了对应通话用户语音的全部信息，包括说话人信息和信道信息。假设GMM的每个声学特征矢量为F维，则M为CF×1的Supervector，

VJNJbuq.png!web

声学特征矢量选择512维，基于UBM进行MAP自适应的流程如图3所示。

FVBvAzr.png!web

图3 基于UBM进行MAP自适应

2.2.3 JFA

Supervector特征包含大量信息，包括一些与说话人性别无关的信息，比如说语言信息，信道信息。因此，直接使用这个特征进行判别是存在信息冗余的，需要提取出一些只与说话人相关的特征。JFA(Joint Factor Analysis, 联合因子分析)就是一个将特征分解的常用方法，将语音空间分解成说话人子空间和信道子空间。

eqiyeyR.png!web

其中

• s 是对应说话人的GMM均值超矢量，需要分解的对象

• m 是说话人/信道无关的信息，这里是UBM的均值超矢量

• V 是本征语音信号矩阵

• y 是说话人相关的分量，假设其先验分布为标准正态分布

• V 是本征信道信号矩阵

• x 是信道相关的分量，假设其先验分布为标准正态分布

• D 是残差矩阵

• z 是说话人相关的残差因子，假设其先验分布为标准正态分布

使用JFA方法，训练 V ， U ， D 矩阵，然后用这些信息计算 y ， x ， z 的数值。其中 y 是主要的说话人特征，JFA方法需要估计三个矩阵，计算量上是比较大的，而且有说话人信息和信道信息混杂的现象。

2.2.4 i-vector

N.Dehak提出了一个更加宽松的假设：既然声纹信息与信道信息不能做到完全独立，那么用一个超向量子空间对两种信息同时建模，用一个子空间同时描述说话人信息和信道信息。每段语音在这个空间上的映射坐标称作i-vector（Identity Vector,身份向量），i-vector维度一般在400-600左右。

M=m+Tw

其中

• M 为2.2.2中提到的均值超矢量，服从高斯分布

• m 为UBM均值超矢量， T 为总变化空间矩阵，其维度为CF×R

• w 为i-vector特征

训练过程中通过EM算法对总变化空间矩阵 T 进行估计，在总变化空间矩阵 T 估计完毕后，分别对训练集和测试集通过每条语音的GMM均值超矢量提取对应的i-vector特征， i-vector特征选择400维 。得到i-vector特征后，训练LR模型对语音性别进行分类。

三、总结

本文主要介绍了声纹识别技术在语音性别识别中的应用，梳理了经典的以i-vector为基线从建模到应用的整个流程，上述模型在之家400客服电话语音场景中的准确率为97.8%，如有错误还望指正。

四、参考文献

[1] Bahari M H, Dehak N, Van Hamme H.Gaussian Mixture Model Weight Supervector Decomposition and Adaptation[J].2013.

[2] Ranjan S, Liu G, Hansen J H L. Ani-Vector PLDA based gender identification approach for severely distorted andmultilingual DARPA RATS data.[C]// 2016.

[3] Matejka P , Glembek O , Castaldo F , etal. Full-covariance UBM and heavy-tailed PLDA in i-vector speakerverification[C]// Proceedings of the IEEE International Conference onAcoustics, Speech, and Signal Processing, ICASSP 2011, May 22-27, 2011, PragueCongress Center, Prague, Czech Republic. IEEE, 2011.

[4] Joanna Grzybowska , Mariusz Zió ł ko , I-Vectors in gender recognition from telephone

Speech[C]// 13th Annual Conference of theInternational Speech Communication Association 2012, INTERSPEECH 2012, September9-13, Portland, OR, USA.

[5] Ondrej Glembek, Jeff Ma, Pavel Matejka,等. Domain adaptation via within-class covariance correction inI-vector based speaker recognition systems[C]// ICASSP 2014 - 2014 IEEEInternational Conference on Acoustics, Speech and Signal Processing (ICASSP).IEEE, 2014.

yi6Nvef.jpg!web

2.2 GMM-UBM模型训练

Recommend

「硬核干货」总结IDEA开发的26个常用设置

特斯拉周三大涨近7%，收盘股价突破900美元

疫情中的苹果：下调营收预期、供应链复工难、零售店关停

推荐系统“体检”：如何评估推荐系统的“健康”状况？

惊惶长租客

程序员如何高效远程办公 | 码农周刊第 295 期_码农周刊第295期

美国神药瑞德西韦应该是无效的了

有奖竞猜（88个集思录金币）柳药转债2月24日上市开盘价

分析开源项目源码，我们该如何入手分析？（授人以渔）

You can pin apps in Android 11's share menu

About Joyk