一、课题背景和意义
中国的语音识别研究起始于上世纪五十年代,进入八十年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术也在沉寂多年以后再次成为研究的热点。1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题,从此中国的语音识别技术进入了一个前所未有的发展阶段。
至今,关于语音的研究也在向着规模化、规范化的方向进行,长期以来一直是人们研究的热点,是集声学、语音学、语言学、计算机技术、信息处理和人工智能等诸领域的一项综合技术。经过多年的研究,语言识别技术以嵌入式芯片的方式应用于各种电子产品,将会有很大的发展前景。
目前语音识别技术研究的最终目的是让计算机能够听懂并理解人类的语言,不再需要人类向计算机输入命令,人类和计算机之间的信息交互直接依靠语音指令来完成。当前的语音识别系统已经能够实现对纯净的语音进行高精度的识别,所以目前语音识别系统面临的主要挑战是在噪声环境下的识别性能。因此在本课题中,研究的主要内容是语音及乐音的特征对比分析,通过对于乐音以及语音的频谱分析和倒谱分析,对比不同类型的声音在频谱及基因频率上的差异,通过对语音信号的基本操作为日后关于噪声消除及语音分离的研究打下基础。
二、国内外研究现状
1、语音识别面临窘境及解决措施
- 噪声鲁棒性
做声环境下的鲁棒语音识别一直是语音识别大规模应用的主要绊脚石,如何在噪声较大的场景下提高语音识别的精确度是具有挑战性的。
现有的许多单一抗噪技术,如信号空间的语音增强算法、特征空间的特征调整算法、模型空间的噪声补偿算法等,都需要先根据信噪比估计环境噪声[1],然后再对特定噪声做去噪或补偿处理。当环境中噪声已知或只存在平稳噪声时,这类方法能够达到不错的降噪效果,比如基于电话信道的说话人识别系统。但当说话人识别技术[2]应用到更复杂的环境中时,噪声往往是未知的,且会随着时间的变化而发生变化,这就会导致系统识别率严重下降。为解决上述问题,目前的相关研究从系统的特征空间和模型空间两个方面切入,对实际环境中的抗噪声鲁棒性[1]算法做了深入的研究。首先,在特征空间研究了一种基于语音增强和特征缺失结合的鲁棒性算法,通过从增强信号中获得的重要信息自动生成缺失的特征掩模,用于检测可靠的说话人特征。其中,为了增强输入的说话人语音信号,并进一步为计算缺失特征掩模[3]提供有用的信息,采用最佳修改的对数频谱幅度(OM-LSA)语音估计[3]与最小控制递归平均(MCRA)噪声估计[3]结合的鲁棒性增强算法。MCRA估计噪声功率谱[4]可以做到计算有效且偏差较小,因此对于低输入信噪比和存在潜在加性噪声[5]的情况是鲁棒的,其最大的优点在于能够快速跟踪噪声谱中的突变。OM-LSA估计器也表现出良好的噪声抑制[5]特性,去除噪声的同时仍然保留了弱语音分量。此外,为了解决噪声引起的训练与识别环境失配的问题,在模型空间引入了并行模型合并(PMC)算法[6],通过在识别阶段将估计的加性噪声和卷积噪声叠加到纯净语音训练的说话人模型上的方法,达到解决上述问题的目的。
- 适应性差、环境依赖性高
该问题主要表现在语音识别系统的性能受许多因素影响,如不同的说话人、说话方式、环境噪音、传输信道等。由于训练与识别环境的差异,同一个识别系统对于不同的用户、不同的使用需求、不同的声学环境下性能差异可以达到30%,使得语音识别技术的应用范围受到很大限制。
针对上述适应性较差[7]的问题,目前采用较多的是将人工神经网络(ANN)技术运用到语音识别领域中。人工神经网络[8]是由结点互连组成的计算网络,本质上是对人类大脑神经元活动的模拟,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。该技术适合用于处理一些环境信息复杂、背景知识模糊、推理规则不明确的问题,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。
- 语音识别算法演化
在过去几十年中,混合高斯模型与隐马尔可夫模型(GMM-HMM模型)相结合[9]的声学模型一直占据着语音识别技术领域当中的主导地位,该模型的主要优势在于其固有的统计框架:从有限语音训练集数据中训练出模型近似参数的简单易行;模型可根据特殊的词汇、声音等改变认知系统的大小、种类或模型的架构的灵活多变;实现整个认知系统的简单方便。但随着语音数据变得越来越庞大,语音识别的应用环境越来越复杂,传统模型作为浅层模型的不足逐渐显露出来。为解决传统模型带来的问题,深度神经网络(DNN)作为深层网络模型被提出,该模型可以更好的处理复杂数据的建模问题。虽然深度学习(DL)作为近年来最受关注的机器学习模型,在语音识别、图像处理等多个领域取得了惊人的成果。但是,深度神经网络(DNN)作为目前主流的声学模型,由于网络层数过深会破坏语音信号特征,因此在一定程度上影响了语音识别的效果。进而一中新的研究手段卷积神经网络(CNN)被提出,卷积神经网络[10]中特有的卷积池化层能够有效地减少训练过程中的参数量,从而可以更好的应对大量数据处理过程,降低模型复杂度,提高语音识别的准确率。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。