科研快讯 | THUHCSI人机语音交互实验室11篇论文被信号处理领域顶级国际会议ICASSP录用

ICASSP 2022

近日，2022年IEEE音频、语音与信号处理国际会议（2022 IEEE International Conference on Acoustics, Speech, and Signal Processing，ICASSP 2022）发布录用通知，THUHCSI清华大学人机语音交互实验室有11篇论文被录用。ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议，在国际上享有盛誉并具有广泛的学术影响力。本年度会议的主题是“以人为本的信号处理”，论文录用率为45%。

清华大学人机语音交互实验室（THUHCSI）被录用的11篇论文涉及智能语音交互领域的诸多研究方向，包括语音合成、虚拟人生成、语音转换、语音增强、语音情感识别、错误发音检测与诊断、说话人识别攻击防御、自然语言理解等。论文工作将学术科研与产业应用紧密结合，合作伙伴包括：腾讯、虎牙、微软、字节跳动、标贝科技、好未来、香港中文大学、台湾大学等。

Paper 01

Enhancing Speaking Styles in Conversational Text-to-Speech Synthesis with Graph-based Multi-modal Context Modeling

作者：Jingbei Li, Yi Meng, Chenyi Li, Zhiyong Wu, Helen Meng, Chao Weng, Dan Su

合作单位：腾讯科技有限公司、香港中文大学

本文针对对话风格语音合成（Conversational TTS）提出了一种利用图神经网络（GNN）和多模态信息进行对话交互上下文建模的方法，以提升回复的合成语音的说话风格表现力效果。给定当前要回复的待合成文本，该方法首先从之前的对话历史中提取出文本和语音的多模态表征；然后利用对话图卷积网络（DialogueGCN）建模对话过程中各说话人之间的互交互与自交互过程，生成包含对话交互上下文信息的新表征；进而通过注意力机制汇总，为当前要回复的待合成文本提供更好的对话交互上下文信息表征。相对于传统的基于循环神经网络（RNN）和纯文本信息的对话交互建模方法，所提方法合成的语音更加符合当前对话场景需求，表达方式更加自然、更加多样。

640?wx_fmt=png

“合成样例抢先听

Paper 02

Towards Expressive Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis

作者：Shun Lei, Yixuan Zhou, Liyang Chen, Zhiyong Wu, Shiyin Kang, Helen Meng

合作伙伴：广州虎牙信息科技有限公司、香港中文大学

传统表现力语音合成主要考虑当前语句内部的信息，而没有考虑当前语句所处上下文的影响，导致同一输入文本的合成语音，其说话风格相对固定、缺乏变化。为了建模更有表现力的说话风格，模型需要考虑更广泛的上下文信息，这不仅包括上下文句子的语义信息，还包括上下文结构的知识。本文提出了一个结合语义信息和上下文层级信息的层级文本编码器，以预测合成语音的说话风格。受到知识蒸馏的启发，为了让层级文本编码器学习到更好的说话风格表征，本文引入了一个参考编码器提取语音中的说话风格表征，并用于指导层级文本编码器的训练。实验表明，该方法可以显著提高合成语音的自然度和表现力，并实现更准确的音高、能量和时长的预测。

640?wx_fmt=png

“合成样例抢先听

Paper 03

An End-to-End Chinese Text Normalization Model based on Rule-guided Flat-Lattice Transformer

作者：Wenlin Dai, Changhe Song, Xiang Li, Zhiyong Wu, Huashan Pan, Xiulin Li, Helen Meng

合作单位：标贝(北京)科技有限公司、香港中文大学

本文提出了一种将规则、词典和神经网络融合于一体的端到端的中文文本正则化模型。该模型直接接受包含各种非汉字字符的原始字符序列作为输入，将其与非标准词（None-standard word, NSW）的匹配规则库以及中文词典进行匹配，得到所有可能的候选非标准词和中文词语，进而使用 Flat-Lattice Transformer (FLAT) Encoder 和相对位置编码方式对上下文建模，最后使用条件随机场（CRF）解码，得到非标准词的类别。本文所提的模型结合了规则的可扩展性、FLAT的上下文建模及高效利用大数据的能力，将专家知识（规则及词典）和神经网络模型融合在一起，解决 NSW 类别判断的问题；通过规则和词典等在神经网络模型推理的过程中引入专家知识信息，提升 NSW 类别判断的准确性；可以方便地增、删、更新规则和词典，无需对神经网络模型进行重新训练；基于 Transformer 结构，有效建模包含输入字符、词典、规则等各种上下文信息，提升NSW类别判断的准确性。本文还发布了第一个用于中文文本正则化任务的可公开访问的大规模数据集。所提模型在该数据集上达到了 99.1% 的 NSW 分类准确率。

640?wx_fmt=png

“代码及数据集下载

Paper 04

A Character-level Span-based Model for Mandarin Prosodic Structure Prediction

作者: Xueyuan Chen, Changhe Song, Yixuan Zhou, Zhiyong Wu, Changbin Chen, Zhongqin Wu, Helen Meng

合作单位：北京世纪好未来教育科技有限公司、香港中文大学

本文提出了一种面向语音合成的基于跨度（span）的韵律结构预测模型。该模型采用跨度对所有可能的韵律结构树进行表征，然后采用打分函数对每一个带有韵律结构标签的跨度进行打分，进而通过一种动态规划的算法寻找到具有最高得分的树作为最优的韵律结构树，最终将其转化成韵律结构标签序列的形式。相比于传统的序列到序列建模的方法，本文所提出的基于跨度的方法采用树结构统一了韵律词、韵律短语和语调短语边界预测这三个子任务，充分考虑了它们之间的层级关系，可以对所有的韵律结构标签同时进行预测。此外，本文所提方法不需要额外复杂的特征工程，避免了分词和词性的错误累积的影响，可以直接接受字级别的输入，更有利于实际应用。在两个差异较大的数据集上进行了客观实验，结果表明本文方法在所有的性能指标上都有大幅度的提升。此外，把韵律结构预测的结果通过一个训练好的 Tacotron 2 语音合成模型合成语音，主观评测实验结果同样表明本文方法能大幅度提升合成语音的自然度。

640?wx_fmt=png

“代码下载及

合成样例试听

Paper 05

Transformer-S2A: Robust and Efficient Speech-to-Animation

作者：Liyang Chen, Zhiyong Wu, Jun Ling, Runnan Li, Xu Tan, Sheng Zhao

合作单位：微软亚洲工程院

本文提出了一种从语音中预测动画人脸参数（Speech-to-Animation, S2A）的方法，能够稳定且高效地生成与语音内容同步的面部表情动作。与传统方法相比，本文利用音素后验概率图（PPG）来表征语音中与文本相关的内容，使模型拥有对不同语言和不同说话人自适应的能力；并引入了韵律特征（如基频和能量）作为模型输入，从而能够生成更有表现力和区分性的嘴部动作。为了更好地建模语音特征和面部表情序列中的长短距离联系，本文还提出了一种基于混合专家网络（MOE）的 Transformer 模型。实验表明，本文所提的方法在嘴型准确度上超越了此前的其它方法，并在运行速度上得到了 17 倍的提升。

640?wx_fmt=png

“合成效果抢先看

Paper 06

Disentangling Content and Fine-Grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion

作者：Xintao Zhao, Feng Liu, Changhe Song, Zhiyong Wu, Shiyin Kang, Deyi Tuo, Helen Meng

合作单位：广州虎牙信息科技有限公司、香港中文大学

在基于识别-合成框架的语音转换（VC）工作中，本文通过实验发现使用自动语音识别（ASR）模型提取的瓶颈特征（Bottleneck Features, BNFs）所包含的信息存在差异，且导致该差异的根本原因是ASR模型训练时所使用的损失函数（CE或CTC）的不同。CE-BNFs 会包含丰富的韵律信息，但同时也存在冗余的说话人信息；而CTC-BNFs则包含较为单一的文本信息。对于语音转换模型而言，单独使用其中某一种 BNFs，会造成转换的语音或者在韵律自然度上、或者在说话人相似度上受到影响。该问题限制了已有研究的转换效果。本文提出了一种Hybrid BNFs的方法，将 CE-BNFs 与 CTC-BNFs 结合，综合它们各自的优点、避免其缺点。通过妥善的设计，该方法可以从 CE-BNFs 中提取韵律信息、从 CTC-BNFs 中提取内容信息，并最终达到音色相似度和韵律相似度的兼顾。实验表明本文所提方法可以进一步提升现有基于识别-合成框架的 VC 模型的音色相似度或韵律自然度指标。

640?wx_fmt=png

“语音转换效果试听

Paper 07

FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for Speech Enhancement

作者：Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, Helen Meng

合作单位：广州虎牙信息科技有限公司、香港中文大学

FullSubNet 在深度噪声抑制挑战（DNS Challenge）中取得了出色的表现，但其将原始的整个频段作为全频段模型的输入，这降低了网络对输入频谱中不同频段的辨别能力；将 cIRM 作为其预测目标，而同时只提供缺乏相位信息的幅度谱输入，这种输入输出的不匹配导致增强语音的相位明显偏离，限制了网络性能的上限。针对这些问题，本文提出了一种新型的单通道语音增强网络 FullSubNet+。该网络首先使用一个自主设计的多尺度时间感知通道注意力模块 MulCA，利用多尺度卷积核通道注意力机制，帮助网络聚焦到对降噪更有意义的频带；而后，该网络将所有的幅度谱、实部谱和虚部谱作为输入，以充分利用噪声语音中的相位信息；最后，该网络还将原全频带模型中的 LSTM 层替换为堆叠的 TCN 模块，有效降低了计算复杂度。本文所提出的网络在低 SNR 的条件下于抑制噪声恢复语音信号任务上取得了良好的效果，超越了现有的最好的方法。

640?wx_fmt=png

“增强效果试听

Paper 08

Neural Architecture Search for Speech Emotion Recognition

作者：Xixin Wu, Shoukang Hu, Zhiyong Wu, Xunying Liu, Helen Meng

合作单位：香港中文大学

深度神经网络在语音情感识别上已经取得显著的成功。然而，语音情感识别中使用到的神经网络模型的设计主要依赖于专家知识和反复试错，耗时长且成本高昂。本文提出应用神经网络搜索（neural architecture search，NAS）技术自动配置神经网络模型。为了加速候选网络的优化，我们提出一种 uniform path dropout 的训练策略使得不同候选网络均等地得到充分训练。基于 IEMOCAP 数据，我们尝试优化两种不同的语音情感识别结构。结果表明 NAS 能够有效提高实验结构的识别准确率并保持或减少参数量，我们提出的训练策略也较之前的策略表现出更好的性能。

Paper 09

An Approach to Mispronunciation Detection and Diagnosis with Acoustic, Phonetic and Linguistic (APL) Embeddings

作者：Wenxuan Ye, Shaoguang Mao, Frank Soong, Wenshan Wu, Yan Xia, Jonathan Tien, Zhiyong Wu

合作单位：微软亚洲研究院

错误发音检测与诊断任务（MD&D）的音素级别标注数据非常稀缺，直接在现有数据上训练的以声学特征、语言学特征为输入的端到端音素识别模型难以实现良好的 MD&D 效果。针对这一问题，本文提出了一个同时利用声学特征、音素学特征和语言学特征的音素级别 MD&D 框架。其中音素学特征提取自用大规模语料训练的语音识别模型，具备噪声鲁棒和与说话人无关等特性，因此增加这一特征后模型能更容易捕获音频中与发音相关的信息。本文实验验证了音素学特征是声学特征和语言学特征的良好补充，所提出的 MD&D 框架相比现有方法在音素识别任务和 MD&D 任务上都取得显著的性能提升。

Paper 10

NeuFA: Neural Network based End-to-End Forced Alignment with Bidirectional Attention Mechanism

作者：Jingbei Li, Yi Meng, Zhiyong Wu, Helen Meng, Qiao Tian, Yuping Wang, Yuxuan Wang

合作单位：北京字节跳动科技有限公司、香港中文大学

本文提出了一种新的双向注意力机制（Bidirectional Attention）以及基于该机制的神经网络强制对齐（Forced Alignment）模型 NeuFA。相比于传统的基于隐马尔可夫模型（HMM）的强制对齐模型如 Montreal Forced Aligner（MFA），该模型在词级别和音素级别上的强制对齐性能都有所提升。

Paper 11

Adversarial Sample Detection for Speaker Verification by Neural Vocoders

作者：Haibin Wu, Po-chun Hsu, Ji Gao, Shanshan Zhang, Shen Huang, Jian Kang, Zhiyong Wu, Helen Meng, Hung-yi Lee

合作单位：腾讯科技有限公司、香港中文大学、台湾大学

说话人验证是生物特征识别最重要的技术之一，已广泛应用于高安全性应用。然而，先前的工作表明，说话人验证系统很容易受到最近出现的对抗性攻击的攻击，但针对此类攻击的有效对策是有限的。在本文中，我们采用神经声码器来发现对抗样本。我们使用神经声码器重新合成音频，发现可以将原始音频和重新合成音频的说话人验证分数之间的差异作为区分真实样本和对抗样本的良好指标。我们所提出的方法可以有效地检测出对抗样本。实验还表明，检测框架中采用的神经声码器与训练声码器的数据集无关。我们的代码将开源，以供将来的工作进行比较。
640?wx_fmt=png