算法在语音信号处理的应用 .doc
《算法在语音信号处理的应用 .doc》由会员分享,可在线阅读,更多相关《算法在语音信号处理的应用 .doc(39页珍藏版)》请在沃文网上搜索。
1、武汉科技大学本科毕业论文CELP算法在语音信号处理的应用摘要语音信号处理属于信息科学的一个重要分支,随着通信技术的发展以及互联网语音实时传输技术的迅速发展的需要,为了使同样的信道容量传输更多路的语音信号和节省存储空间,语音编码技术取得了很大的进展。其中线性预测编码(CELP)是中、低速率下比较成功的编码算法。CELP算法采用分帧技术进行编码,帧长一般为30ms,并将每一语音帧分为4个子帧,把在每个子帧内搜索到的最佳的码矢量作为激励信号。CELP使用的是FS-1016标准,该标准基于合成分析(ABS)、感知加权矢量量化(VQ)和线性预测(LP)等技术。它采用10阶线性预测滤波器来模拟语音信号的短
2、时频谱或声道特性,并且采用了两种码本:自适应码本和随机码本。自适应码本用来模拟长时信号或基音的周期激励;固定的随机码本用来逼近经过了矢量量化的短时线性预测和长时预测后的预测误差。译码端合成部分的激励信号由自适应码本和随机码本经过增益加权后得到,感知加权滤波利用人耳的掩蔽效应来提高语音的质量。研究表明,基于FS-1016的CELP编码器能较好地还原语音的时间波形包络,但合成语音的波形图与原始语音波形图有一定的差别,也就是说存在一定的失真现象,所以合成语音质量只能达到通信质量。合成语音在共振峰和基音周期结构上与原始语音比较一致,他们反映了语音信号的主要特征,所以合成语音具有比较良好的可懂度。关键字
3、:CELP算法;自适应码本;固定码本AbstractSpeech Signal Processing information is an important branch of information science.With the needs of the development of communication technology and the rapid development of the Internet voice transmission in real-time technology, in order to make the same channel capacity
4、of the voice signal path transmite more and save storage space, considerable progress of voice coding technology has been made. Among those the linear predictive coding (CELP) is a successful low-rate coding algorithm. CELP algorithm uses sub-frame coding,the length of a frame is usually 30ms, and e
5、ach voice frame is divided into 4 sub-frames, regarding the best code vector signal searched in each sub-frame as an incentive. CELP using the FS-1016 standard, the standard bases on synthetic analysis(ABS), perceptual weighted vector quantization (VQ) and linear prediction (LP) techniques. It uses
6、10-order linear prediction filter to simulate the short-time spectrum or channel characteristics of speech signal, and it uses two types of code: adaptive codebook and random codebook. Adaptive code book is used to simulate the long signal or cycle incentive of pitch; fixed random code is used to cl
7、ose the short-term linear prediction after vector quantization of and the forecast error after long-term forecast .The synthesized excitation signal of decoding part gains from the adaptive codebook and random codebook after weight gain.Perceptual weighting filter using the human ears masking effect
8、 to improve the quality of voice. Studies have shown that the FS-1016-based CELP coder can restore the voice waveform envelope well, but the synthetic speech waveform have a certain difference with the original voice waveform diagram, that is to say there are some distortion phenomenon, so the synth
9、esized voice can only reach communication quality. Synthetic voice agrees with original voice in the formant structure and pitch structure,.They reflect the main features of the speech signal.So it has a comparative good voice intelligibility.Key words:linear predictive coding (CELP); adaptive codeb
10、ook ; random codebook绪论11.1 引言11.2 语音编码技术11.2.1 语音编码技术分类11.2.2 语音编码的发展方向21.2.3 语音编码器的性能指标和质量评测方法31.2.4 论文研究的内容及章节安排42 语音信号的产生模型42.1 语音的发声机理及语音感知42.2 语音信号模型52.2.1 激励模型52.2.2 辐射模型62.2.3 声道模型72.3 本章小结83 语音信号的分析83.1 语音信号的短时分析83.1.1 语音信号的短时能量、短时平均幅度和短时过零率83.1.2,语音信号的短时自关函数和短时频谱93.2 短时基音周期估计113.2.1 基于求短时自
11、关函数的基音周期估计113.3 语音信号同态处理133.4 语音信号线性预测分析153.4.1 线性预测分析的基本原理153.4.2 自相关法183.4.3 基于杜宾递推算法的自相关计算204 4.8kb/s码激励线性预测语音编码204.1 FS-1016标准编码原理204.1.1 编码框图与编码过程214.1.2 线性预测分析与量化214.1.3 CELP码本搜索算法244.1.4 自适应码本搜索与编码264.1.5 固定码本搜索与编码284.1.6 编码参数的比特分配304.2 FS-1016标准译码原理304.2.1 译码框图与译码过程304.2.2 后置滤波与语音合成314.3 本章小
12、结325 结论33参考文献34致 谢35IV绪论1.1 引言 语音编码技术始于1939年Dudley发明的声码器。20世纪80年代的研究主要集中在局域网上的语音通信,1988年美国公布了4.8kbps的码激励线性预测编码(CELP)语音编码标准算法,其音质能达到很高的质量。进入20世纪90年代,随着Internet在全球范围内的兴起和语音编码技术的发展,IP分组语音通信技术获得了突破性的进展和实际应用。就语音编码技术而言,它的根本作用是使语音通信数字化,目前已广泛应用于数字通信系统、移动无线通信、保密语音通信等方面。语音编码技术也可应用于呼叫服务,如数字录音电话、语音信箱、电子留言簿等。与模拟
13、语音通信系统相比,数字语音通信系统具有抗干扰性强、保密性好,易于集成化等优点。在当前正在蓬勃发展的移动通信中,语音编码技术是非常重要的技术。随着通信技术的发展,卫星、微波和光通信系统提供了很宽的频带,但是在很多情况下仍然有着节省频带的需要,同时,利用多余码字对语音信号进行极其复杂的加密的可能性也极大地推动了语音压缩编码在许多方面的应用。1.2 语音编码技术1.2.1 语音编码技术分类语音编码方式有很多种划分方法。从数码率的角度可以将语音编码划分为5大类:高速率(32kbps以上)、中高速率(16kbps32kbps)、中速率(4.8kbps16kbps)、低速率(1.2kbps4.8kbps)
14、和极低速率(1.2kbps以下)。从采用的编码方法的角度还可以分为3类:波形编码、参数编码和混合编码。1.波形编码波形编码是根据语音信号的波形导出响应的数字编码形式,其目的是尽量保持波形不变,使接收端能够忠实地再现原始语音。由于编码器不限于语音,所以很容易给许多非语音信号,背景噪声和多哥讲话音量提供必要的条件,因此必须为这种“声音鲁棒性”付出非常高的数码率,一般为16kbps64kbps。2.参数编码参数编码又称为声码器技术,它通过对语音信号进行分析,提取参数来对参数进行编码。在接收端能够用解码后的参数重构语音信号,参数编码主要从听觉感知的角度注重语音的重现,即让解码语音听起来与输入语音是相同
15、的,而不是保证其波形相同。参数编码语音合成模块的参数集相对较小,能够有效地量化传输,一般对数码率的要求要比波形编码低得多。3.混合编码混合编码是上述两种方法的有机结合,同时从两个方面构造语音编码:一方面增加语音的自然度,提高语音质量;另一方面相对于波形编码实现较低的数码率指标。混合编码使用了精选的激励代表,应用于中等位绿,介于参数编码器和波形编码器之间。1.2.2 语音编码的发展方向21世纪初的语音编码总体上有三个大的发展方向。一个方向是语音编码进一步低速率化,在现代通信中,信道利用的有效性和经济性仍是研究的重要目标,极低速率语音编码技术是语音通信中不可缺少的一个研究方向。另外一个方向是变速率
16、语音编码,随着移动通信的发展,尤其是第三代移动通信的发展,对语音编码算法提出了更高的要求,不但要求编码码率较低以增加系统容量,而且要求合成音质较高以保证通话质量。在这种形势下,提出了变速率语音压缩编码的方法。它可以根据需要动态地调整编码速率,在合成语音质量和系统容量中取得灵活的折衷,最大限度地发挥系统的效能。当然,还有一个发展方向就是语音不压缩,这是因为目前传输带宽增长很快,传输成本大幅度下降,为语音编码付出的费用与所节省的传输费用相比变得不合算了,语音不压缩传输所需费用反而更低。(1)极低速率语音编码极低速率语音编码是指比特率低于2400bit/s的语音编解码器,在保密通信、语音邮件、网络通
17、信、IP电话等领域有广泛的应用前景,特别是在信息化战场上广泛应用于单兵作战通信设备上。近年来,极低速率语音压缩编码有了很大的发展。2.4kbit/s的语音编码算法逐渐成熟,出现了一些成功的算法,例如多带激励(MBE)声码器,混合激励线性预测(MELP,Mixed Excitation Linear Prediction)声码器等。但是如何在更低的速率上,获得较高质量的合成语音,仍然是一个巨大的挑战。在进一步降低速率时,由于没有足够比特描述谱包络和残差信号,合成语音质量会受到严重影响。另外一些研究者提出的极低速率语音编码算法是在2.4kbit/s LPC(Linear Predictive Co
18、ding,线性预测编码)声码器的基础上,利用矢量量化技术和帧间相关性作进一步的数据压缩。(2)变速率语音编码变速率语音编码是指在通信过程中,通信系统根据需要动态地调整语音编码速率,在合成语音质量和系统容量中取得灵活的折衷,最大限度地发挥系统的效能。在当前应用广泛、前景广阔的码分多址(CDMA)移动通信系统中,采用的变速率语音编码算法对于系统的容量和通话质量有非常重要的影响。随着技术的成熟,它的应用领域也越来越广阔,不仅限于移动通信系统,在IP电话、互联网和卫星通信中都有很好的应用前景。(4)不压缩语音编码极低速率语音编码和变速率语音编码是21世纪初语音编码的主要发展方向,但也有一些通信系统仍然
19、采用不压缩语音编码。这是因为目前传输带宽增长很快,特别是光纤通信的发展,使得传输成本大幅度下降,为语音编码付出的费用与所节省的传输费用相比变得不合算了,语音不压缩传输所需费用反而更低。因此这些系统就采用了不压缩的语音编码算法,大多数直接利用PCM编码进行传输,这样可以保证很高的语音通信质量和比较简单的通信设备,大大的降低了通信费用。不压缩语音编码主要应用于地面微波通信和光纤通信系统中。由于这种算法简单,对于侦察和分析都十分容易,因此在这里就不再作详细介绍。当然,语音编码除了上述三个总体的发展方向以外,寻找最佳的语音激励模型和对人类听觉系统机理的不断认识将是近一段时间内的基础性研究工作。1.2.
20、3 语音编码器的性能指标和质量评测方法 一般通过衡量比较各种语音编码器或语音编码算法的性能指标来评价语音编码器的好坏.这些指标包括编码速率、语音质量顽健性、时延计算复杂性和算法的扩展性等。1. 编码速率降低编码速率往往是语音编码的首要目标,它直接关系到传输资源的有效利用和网络容量的提高,又称比特率,可以用“比特/秒(b/s)”来度量。在语音通信系统中,它决定编码器工作时占用的信道带宽。一般普通电话的速率为16 kb/s 64kb/s,数字蜂窝移动电话和卫星电话编码器的编码速率为3.3 kb/s13 kb/s,保密电话的编码速率为0.8 kb/s4.8 kb/s。2. 顽健性编码器的顽健性(ro
21、bustness)是通过取多种不同来源的语音信号进行编码解码,并对输出语音质量进行比较测试得到的一种指标。例如:取不同发音人的语音、各种背景噪声下的语音、用各种麦克风或不同频响的放大器录制的语音、非语音声音等。在应用于通信系统时,编码器要适应各种各样的情况。3. 时延编码器时延由4部分组成:算法时延、计算时延、复用时延、传输时延,这四部分之和称为单向系统时延,粗略估计至少为3个帧长。语音通信对于时延有较高的要求。对于交互式通信来说,单向延时大于150ms就可感受到通信连续性受到影响,最大可容忍时延为400ms500ms,超过此值只能进行半双工通信。对于具有回声的情况,单向时延不能超过25ms,
22、否则就需要装备回声抑制功能。4. 计算复杂度计算复杂度是指在算法实时实现的容易程度。其主要影响实现的成本。目前,随着高速数字处理器件(DSP)和大规模集成电路技术(VLSI)的发展,关于计算复杂度的矛盾不再突出,而编码算法的压缩比、顽健性、合成语音音质等,是现今低速率语音编码技术研究的主要矛盾。5. 编码质量语音编码质量是衡量语音编码算法优劣的关键性能之一。它的评价方法归纳起来有两类,即客观评价方法和主观评定方法。客观评定方法用客观测量的手段来评价语音编码质量。常用的方法有信噪比、频率失真以及谱包络失真等。客观评价标准计算方法相对简单,不能完全反映人耳对语音质量的感觉,这个问题在速率16kb/
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法在语音信号处理的应用 算法 语音 信号 处理 应用