语音信号中浊音与清音的语谱图特征分析文献综述

 2022-11-28 16:48:41

一、课题背景和意义

语音是人类获取信息的重要来源和利用信息的重要手段。语音信号处理是一门发展十分迅速、应用十分广泛的前沿交叉学科,同时又是一门跨学科的综合性应用研究领域和新兴技术。近年来,语音信号处理已经为人类社会带来了重大的经济和社会效益,今后它在理论上会有更深入的发展,在应用上也将成为科学研究、社会生产乃至人类生活中不可缺少的有用工具。

如何高效地实现语音传输、存储或通过语音实现人机交互,是语音信号处理领域中的重要研究课题。本课题旨在利用语音分析方法研究语音信号中浊音与清音的语谱图特征,以便于分析浊音与清音的差异,方便后续的研究。

二、国内外研究现状

语音信号处理涉及数字信号处理、语言学、语音学、生理学、心理学、计算机科学以及模式识别、人工智能等诸多学科领域,是目前信息科学技术学科中发展最为迅速的一个领域。

近20多年来,语音处理技术取得了一系列重大进展,语音编码、语音合成、语音识别和说话人识别等方向的研究成果不断推出;同时,微电子技术的迅猛发展和数字信号处理(DSP)芯片性能不断提高,为实时实现更高复杂度的高性能语音处理算法提供了可能。目前市场上已有不少语音处理的应用产品,并且不断有许多新产品推出,语音处理技术的应用前景和市场潜力十分巨大。

近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。在语音合成技术的发展中,早期的研究主要是采用参数合成方法。从Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980)到基音同步叠加(PSOLA)使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初,基于PSOLA技术的文语转换系统研制成功。最近几年,一种新的基于数据库的语音合成方法正引起人们的注意,只要语音数据库足够大,合成语句的清晰度和自然度都将会非常高。国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成[1]、LPC合成[2]至应用PSOLA技术[3]的过程。1998年中国科技大学研制成功KD-863汉语文语转换系统。和采用国内外流行的PSOLA技术的系统相比,在输出语音的音质和自然度上有了突破性的提高。最近中国科技大学又推出了KD-2000汉语文语转换系统,使得汉语文语转换系统的整体性能有很大提高。

在语音识别领域,DNN[4]、RNN/LSTM和CNN[5]是语音识别中几个比较主流的方向。

其实 CNN 被用在语音识别中由来已久,在 12、13 年的时候 Ossama Abdel-Hamid 就将 CNN 引入了语音识别中。IBM、微软、百度等多家机构相继推出了自己的Deep CNN模型,提升了语音识别的准确率。

而这些语音技术的广泛使用都离不开对语音的分析,对语音信号的解码技术。

1.语音处理的研究方法

语音处理主要从基础理论、算法实现及实际应用等几个方面来研究。对语音处理的基础理论及各种处理算法的研究主要包括两个方面:一是从语音产生和语音感知来研究,二是将语音作为一种信号进行处理。

目前,对于整个语言链的物理层(包括发声器官和人耳的功能)已经研究得比较透彻,而对于神经元活动和大脑语言中枢的工作原理还有待今后进一步研究。对于语音信号的研究,在20世纪60年代形成了一系列对数字信号处理的方法和算法,如数字滤波器[6]、FFT[7]等。后来出现的线性预测编码技术[8]成为语音信号最有效的处理方法之一被广泛应用于各个语音应用领域。80年代出现的分析合成法、码激励线性预测(CELP)[10]、矢量量化(VQ)[11]、以及隐马尔可夫模型(HMM)[12]等一系列算法和模型极大地推动了语音编码和语音识别技术的研究。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。