基于深度学习的单通道语音增强
摘要:语音增强是指一段干净语音信号被各种噪声干扰后,采用一定的降噪算法从包含目标语音和背景噪声的带噪信号中提取所需的语音信号。在与智能设备的交互中,人和这些设备之间的交流以简易指令为主,使得语音将成为智能设备下一代的信息入口,其次,语音增强在军事通信需要语音增强技术减弱强噪声环境干扰,确保目标语音的质量和可懂度满足通信需要。作为自动语音识别的前端,它在改善设备在噪声环境中的性能和克服训练集和测试集之间的匹配失衡上发挥至关重要的作用,为降低词错率做出重要贡献。在目前的研究中,深度学习技术因其建模能力强,能充分挖掘语音信号的时空结构和时序相关性信息,而逐渐代替传统技术,成为主流的语音增强算法。
关键字:语音增强;语音信号处理;深度学习
1. 前言
基于深度学习的方式有效融合复杂环境提取的谱信息去重构原始的语音信号[1],提高语音的质量,更符合现实应用和需求[2]。通过网络,我查阅了语音增强的相关信息,了解了该领域的前沿信息,下载了相关文献二百余篇,研读国外相关名著十几篇,使得自己能够更好的把握语音信号处理技术课题。
2. 国内外研究概况
传统单通道语音增强算法较多的运用了数字信号处理的知识,可分为时域和频域的方法。传统的普减法是由Boll在1979年提出,该算法实现简单,但若对噪声欠估计就会残留噪声过大,若过估计就会带来语音失真[3]。时域上主要有子空间算法。子空间算法把带噪信号分解为信号子空间和噪声子空间,然后得到估计的原始语音信号。声音和图像分别是听觉和视觉两种模态接收的输入信息,将图像的处理方法运用到声音上,这种跨模态处理方法为视听交互和融合的相关研究提供分析思路,激发新的数字信号处理方法[4]。声音图像相互转换的主要思想是:利用傅里叶变换将声音信号转换成语谱图图像,将语谱图视为一般图像进行图像处理,再对修改后的语谱图图像进行逆傅里叶变换,得到新的声音信号。
进入21世纪以后,深度学习技术在信号处理域取得一系列重大突破,首先是多伦多大学的Hinton教授将深度模型引入在图像编解码和文本分类领域中,取得非常好的效果[5]。再者是微软的邓力博士将深度神经网络(Deep Neural Network, DNN)应用在语音识别任务上,获得了非常大的性能提升。随后深度学习在语音,图像和视频领域都有非常广泛的应用,特别是工业界像谷歌,微软,百度这样的巨头,都将深度学习应用在他们的产品中,极大地促进了深度学习在学术中的研究[6]。而在语音分离任务上,能否用深度学习技术结合大数据在说话人独立的条件下实现比较好的性能表现是一个研究重点。在各种语音分离的方法中,除了会利用到空域信息的麦克风阵列技术以外,单通道语音增强是其中非常重要的一个领域,这也是本课题的主要研究内容。
受污染的语音,由于破坏了信号的结构、增添了干扰成分,一方面会导致人类主观听觉感受质量的下降甚至是疲劳和厌恶;另一方面严重影响语音内容的可懂度。互联网,尤其是移动互联网和智能设备的快速普及,使得语音数据的收集越来越方便,这为各种训练学习类算法的实现提供了丰富的数据原料。基于此,也由于传统语音解混响和降噪方法的局限性和对非平稳干扰噪声的处理能力有限,出现了有监督学习条件下的单通道语音增强技术。结合近些年来兴起并迅速发展的字典学习和稀疏表示理论和方法,针对单通道语音降噪以及解混响和降噪问题进行了研究,提出了三种新的算法应用于语音增强中[7]。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。