基于谱减法的语音增强技术研究(毕业论文doc).doc
《基于谱减法的语音增强技术研究(毕业论文doc).doc》由会员分享,可在线阅读,更多相关《基于谱减法的语音增强技术研究(毕业论文doc).doc(31页珍藏版)》请在沃文网上搜索。
1、基于谱减法的语音增强技术研究摘 要: 本文主要研究目的是增强语音质量,减少语音失真和提高其可懂度。首先介绍了语音增强的发展状况及研究意义,详细对比分析了各种语音增强算法的优缺点,着重研究了语音增强的相关基本理论。在以上研究分析的基础上,本文采用了谱减法进行语音增强,给出谱减法的基本原理和实现过程。此外,本文采用语音激活检测(VAD)方法进行噪声估计。整个算法用MATLAB进行模拟仿真,仿真结果表明,所提出的算法在去除背景噪声的同时,保证了较小的语音失真,主观测听效果也比较理想。关键词:语音增强;谱减法;噪声估计;语音激活检测IIStudy of Speech Enhancement Techn
2、ology Based on Spectral SubtractionAbstract: The purpose of this paper is to improve speech quality, to reduce speech distortion, and improve speech intelligibility. We first introduce the development and significance of speech enhancement, and give a detailed comparison of various speech enhancemen
3、t algorithms. Especially, we study the basic theories of speech enhancement. Then, on the analysis above, we use spectral subtraction to improve speech quality, and also introduce basic principle of spectral subtraction. Furthermore, we adopt the noise estimator based on Voice Activity Detection (VA
4、D) to estimate noise. In the experiment of this paper, the speech enhancement algorithm is implemented on computer with MATLAB. The simulation result indicates that the algorithm can eliminate noise very well, ensure the smaller voice distortion and also more pleasant to a human listener.Key words:
5、speech enhancement; spectral subtraction; noise estimation; VAD成都理工大学毕业设计(论文)目 录第1章 前 言11.1 课题研究背景11.2 语音增强的历史和发展现状21.3 本文主要研究内容4第2章 语音增强的理论基础62.1 人耳感知特性62.2 语音特性分析62.3 噪声分类及其特性72.4 语音信号的短时处理82.4.1 语音信号预处理82.4.2 语音信号加窗分帧92.4.3 语音信号的短时傅立叶变换92.5 语音增强性能102.5.1 语音质量的主观评价102.5.2 语音质量的客观评价11第3章 基于谱减法的语音增强
6、技术133.1 谱减法的基本原理133.2 谱减法建立的假设153.3 “音乐噪声”的产生163.4 语音端点检测技术163.5 基于谱减法的语音增强算法流程183.6 实验结果与分析19结 论23致 谢24参考文献25附 录26第1章 前 言1.1 课题研究背景人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号1。例如,安装在汽车、飞机或舰船上的电话,街道、机场的公用电话,常受到很强背景噪声的干扰,严重影响通话质量。又如,室内会议电话的交混回响随同
7、语音广播到每个会议地点,影响收听效果。再如深海潜水员在氦-氧面罩内讲话引起的失真,语言障碍残疾人的语音失真,有历史价值的旧唱片、旧录音带的噪声和失真等,都是带噪语音信号的例子。环境噪声污染使许多语音处理系统的性能急剧恶化。例如,语音识别2己取得重大进展,正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低速率语音编码,特别是参数编码,也遇到类似问题。由于语音生成模型是低速率参数编码的基础,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,语音增强作为一种预处
8、理手段,不失为解决噪声污染的一种有效途径。在实际需求的推动下,早在上个世纪60年代语音增强这个研究课题就引起人们的注意,此后40多年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟,70年代曾形成一个理论研究高潮,取得了一些基础性成果,并使语音增强发展成为语音信号处理的一个重要分支。进入80年代后,DSP(数字信号处理)技术的发展和成熟为语音增强的实时实现提供了可能。语音增强不但与语音信号数字处理理论有关,而目涉及到人的听觉感知和语音学范畴。再者,噪声的来源众多,随应用场合而异,它们的特性也各不相同。即使在实验室仿真条件下,也难以找到一种通用的语音增强算法能适用于各种噪声环境,所
9、以必须针对不同噪声,采用不同的语音增强对策。目前,某些语音增强算法在实际应用中己经证明是有效的,它们大体上可分为四类2:噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪音,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法,可以显著地降低背景噪声,改进语音
10、质量,但并不能提高语音的可懂度,甚至略有下降。语音增强是语音信号处理的一个重要分支,该技术已广泛应用于无线电话、电话会议、场景录音和军事窃听等领域。语音增强技术无论在日常生活中,还是在军事领域,或者在语音信号处理技术中都很有应用价值。因此研究语音增强算法有很重要的实用价值。1.2 语音增强的历史和发展现状语音增强方法的研究始于20世纪70年代中期,随着数字信号处理理论的成熟,语音增强发展成为语音信号处理领域的一个重要分支。1978年,Lim和Oppenheim提出了语音增强的维纳滤波方法。1979年,Boll提出了谱减方法来抑制噪声。1980年,Maulay和Malpss提出了软判决噪声抑制方
11、法。1984年,Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法。在近30年的研究中,各种语音增强方法不断被提出,奠定了语音增强理论的基础,并使之逐渐走向成熟。近些年来,随着VLSI技术的发展和高速DSP芯片的出现,使语音增强的实时实现成为可能。语音增强方法逐步走向实用,同时新的语音增强方法又相继涌现,如基于小波变换的方法,基于人耳掩蔽效应的方法3等。目前常用的语音增强算法分为如下几类4:基于谱减法的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络
12、的语音增强方法。语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通道的语音增强算法。单通道语音系统在实际应用中较为常见,如电话,手机等。这种情况下语音与噪声同时存在一个通道中,语音信息与噪声信息必须从同一个信号中得出。一般这种语音系统要求噪声要比较平稳,以便在非语音段对噪声进行估计,再依据估计出来的噪声对带噪声的语音段进行处理。如果语音系统是一个多通道的语音系统,各个通道之间存在着某些相关的特性,这些相关特性对语音增强的处理十分有利。如在自适应噪声对消法的语音增强方法中,采用了两个话筒作为输入,一个采集带噪的语音信号,另一个用来采集噪声。从噪声通道所采集的噪声直接当作带噪语音的噪
13、声,并将它从带噪声语音信号中减去就可得到纯净的语音。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同独立的信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也会不同,再根据这些信号将各个独立信号分离出来。有关多通道谱减法以及其他消除噪音方法不是本文重点,故不再提及,下面就只简单介绍一下单通道输入的语音增强算法。1) 谐波增强算法由于语音中的浊音具有明显的周期性,这种周期性反映到频域中则为一系列分别对应基频(基音)及其谐波的一个个峰值分量,这些频率分量占据了语音的大部分能量,我们自然可以利用这种周期性来进行语音增强。这时可采用自
14、适应梳状滤波器来提取基音及其谐波分量,抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。2) 基于短时谱估计的语音增强算法基于语音短时谱估计的增强方法种类繁多,如谱减法、维纳滤波法、最小均方误差法等。这种方法力图获得语音信号频谱幅度的最优估计,是从观测序列中以最小均方误差准则估计语音信号正交展开系数的模值。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。尽管该方法研究比较早,但仍具有很强的生命力,成为应用最广泛的语音增强方法。3) 基于语音生成模型的增强算法语音的发声过
15、程可以建模为一个线性时变滤波器,对于不同类型的语音采用不同的激励源,如对于浊音,激励源为周期与基音相同的周期性脉冲串;而对于清音,激励源为高斯白噪声。在语音的生成模型中,应用最广泛的是全极点模型。基于语音生成模型可以得到一系列语音增强方法,比如时变参数维纳滤波及卡尔曼滤波方法。维纳滤波的背景噪声白化效果很好;卡尔曼滤波能有效消除有色噪声,而且可以进行在线处理。但基于语音生成模型的增强方法运算量比较大,系统性能也有待于进一步提高。4) 基于小波分解的增强算法小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的,随着小波理论研究的不断深入,小波分析的应用范围越来越广。在语音去噪方面,主要
16、有两个算法:一是S.Mallat和S.Zhong于1992年提出的模极大值法;二是由D.L.Donoho和LM.Johnstone于1995年提出的小波阀值去噪法。5) 基于听觉屏蔽的增强算法听觉屏蔽法是利用人耳的听觉特性的一种增强算法。人耳可以在强噪声的干扰下分辨出需要聆听的信号,也可以在多个说话者同时发声时分别将它们提取出来。正是由于以上这些原因,人们对听觉屏蔽法寄予了厚望,有理由相信,随着人们对人耳特性了解的加深,听觉屏蔽法会更深入的发展。对于基于人耳掩蔽效应的语音增强方法,主要有两种思路:一种是以对谱减法的改进为出发点,利用估计得到掩蔽门限;另一种是以对噪声的直接掩蔽为基本思路,以估计
17、得到的掩蔽门限建立一种原则。6) 两态软判决最大似然包络估计器在实际中语音信号是随机出现于观测信号中的,如果能考虑语音信号存在的不确定性,则应能得到更好的估计器,两态软判决最大似然包络估计就是基于这种考虑得出的,在两态软判决最大似然包络估计器中有体现语音事件发生的概率因子。1.3 本文主要研究内容本文分析采用基于语音激活检测(Voice Activity Detector)噪声估计方法进行噪声估计,并采用了递归平滑的方法更新噪声谱,在此基础上应用谱减法进行语音增强,对谱减后的语音谱进行了递归平滑处理,从而使处理后的语音更为接近纯净语音信号,取得了较好的语音增强效果。本论文用MATLAB语言实现
18、了整个算法的仿真试验,试验结果表明,该算法可以很有效的提高语音听觉质量,其计算复杂度也不高。论文章节安排如下:第一章 介绍了语音增强的研究意义,概述了国内外语音增强和谱减法的语音增强的研究概况,最后给出了本文的主要研究内容。第二章 对语音增强相关理论基础进行了研究。在这一部分我们首先分析了人耳感知、语音特性和噪声特性,然后介绍了语音增强性能。第三章 对谱减法的语音增强技术作了深入分析研究,结合语音激活检测(Voice Activity Detector)噪声估计方法进行噪声估计,给出算法实现流程,使用MATLAB模拟实现了整个语音增强功能。最后对论文进行了总结,并提出了对论文进一步研究的建议。
19、第2章 语音增强的理论基础2.1 人耳感知特性因为语音增强效果最终取决于人的主观感受,所以语音感知对语音增强研究有重要作用。人耳对背景噪声有很大的抑制作用,了解其机理大大有助于语音增强技术的发展。语音感知问题涉及到生理学、心理学、声学、和语音学诸多领域,其中有很多问题有待进一步研究。目前已有一些结论可用于语音增强4:*人耳对语音的感知主要是通过其幅度谱获得的,而对相位谱不敏感。*人耳对频率高低的感受近似于该频率的对数值成正比。*人耳具有掩蔽效应,即强信号对弱信号有抑制作用,能够将其掩盖。*共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会
20、对可懂度产生影响。*人耳在两个以上的说话环境中能够分辨出它所需要的声音。*人耳对频谱分量强度的感受是频率与能量谱的二元函数,响度与频谱幅度的对数成正比。2.2 语音特性分析语音是人们讲话时发声器官发出的一种声波,具有声音的物理特性。然而它又是一种特殊的声音,是人们用来交流信息的工具,因此语音是声音和语言的组合体。语音和语言是研究人类话语的一门学科,它具有一定的音色、音调、音强和音长。在研究和分析各种语音信号处理技术之前,必须了解语音信号的一些基本特征。浊音在时域上呈现出明显的周期性;在频域上有共振峰结构,而且能量大部分集中在较低频段内,而清音段没有明显的时域和频域特征,类似于白噪声。人类的发声
21、系统的生理结构的变化速度是有一定限度的,在一段时间内(1030ms)人的声带和声道形状具有相对稳定性,可以认为其特性是不变的,因而语音的短时谱分析也有相对稳定性,在语音增强中可以利用短时谱的这种稳定性。语音信号是非平稳、时变的,但又是准平稳、慢变的,因此短时处理技术是合适的。语音信号的时域特征参数主要有短时能量,短时过零率和短时能量比等。时域分析具有简单、运算量小、物理意义明确等优点,便于我们直观的认识语音信号。时域特征提取简单,但它的缺点是不能压缩维数,且不适于表征幅度谱特性。短时分析应用于频域就是短时傅立叶变换。相应的频谱称为“短时谱”,即有限长度的傅立叶变换。频域参数对于语音识别系统来说
22、更为有效,这是因为频域特征参数能从不同角度反映幅度谱的特征,例如,频谱、频谱包络、倒谱系数、共振峰等。2.3 噪声分类及其特性噪声来源于实际的应用环境,因而噪声特性可以说是千变万化。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过变换转变成加性噪声,例如,乘性噪声(或卷积噪声)可以通过同态变换而成为加性噪声。又如,某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。加性噪声大体上可分为以下几种5:白噪声、周期性噪声、脉冲性噪声、宽带噪声和同声道其它语音的干扰等。周期性噪声的特点是有许多离散的窄谱峰,它往往来源于发动机等周期性运转的机械设备。周期性噪声
23、引起的问题可能最少,因为可以通过功率谱发现并通过滤波或变换技术将其去掉。但是,其中交流噪声的抑制很困难,因为其频率成分不是基音(因为它在语音信号有效频率以下),而是谐波成分(它可能以脉冲形式覆盖整个音频频谱)。冲击噪声表现为时域波形中突然出现的脉冲,它通常是放电的结果。消除这种噪声可以在时域进行,即根据带噪语音信号幅度的平均值确定阈值。当信号幅度超出这一阈值时,判别为冲击噪声,在对其进行衰减甚至完全消除。如果干扰脉冲之间不太靠近,还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉。宽带噪声通常可以假定为高斯噪声和白噪声,它的来源很多,包括风、呼吸噪声和一般随机噪声源。量化噪声通常作
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 减法 语音 增强 技术研究 毕业论文 doc