基于MATLAB的语音端点说明书.doc
《基于MATLAB的语音端点说明书.doc》由会员分享,可在线阅读,更多相关《基于MATLAB的语音端点说明书.doc(37页珍藏版)》请在沃文网上搜索。
1、桂林电子科技大学毕业设计(论文) 第 2 页 共 2 页摘 要语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离,因此在语音识别、语音增强、语音编码、回声抵消等系统中得到广泛应用。 目前端点检测方法大体上可以分成两类,一类是基于阈值的方法,该方法根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,然后把这些特征值与设定的阈值进行比较,从而达到语音端点检测的目的,该方法原理简单,运算方便,所以被人们广泛使用,本文主要对基于阀值的方法进行研究。另一类方法是基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行检
2、测。由于基于模式识别的方法自身复杂度高,运算量大,因此很难被人们应用到实时语音信号系统中去。端点检测在语音识别中占有十分重要的地位,直接影响着系统的性能。本文首先对语音信号进行简单的时域分析,其次利用双门限算法、倒谱算法、谱熵算法进行语音端点检测,并对这几种算法进行端点检测,并进行实验分析。文中比较各算法检测思路:首先分别用各算法对原始语音信号进行端点检测,并对各算法检测结果进行分析和比较。其次再对语音信号加噪,对不同信噪比值进行端点检测,分析比较各算法在不同信噪比下的端点检测结果,实验结果表明谱熵算法语音端点检测结果比其他两种方法好。关键词:语音信号处理;语音端点检测;双门限;倒谱;谱熵Ab
3、stractEndpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and o
4、ther systems are widely used.In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method based on the different characteristics of speech signal and the noise signals, a voice signal for each extracted feature, and then set the values of these t
5、hresholds compare with the values to achieve the endpoint detection purposes, This method is simple, it convenient operation, it is widely used, the main in this paper is based on the method of threshold method. Another method is based on the method of pattern recognition , it needs to estimate the
6、speech signal and the noise signal model parameters were detected. Because is based on the method of pattern recognition and high self-complexity, a large amount of computation, so it is difficult to be use in real-time voice signal system for people.The Endpoint detection is take a very important p
7、osition in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algori
8、thms, and experimental analysis points. The paper compared the algorithm detects the merits of ideas: Firstly, the algorithm were used to the original speech signal detection, and the algorithm to analyze and compare results. Secondly, the speech signal and then adding noise, SNR values for differen
9、t endpoint detection, analysis and comparison of various algorithms under different SNR endpoint detection results, experimental results show that the spectral entropy of speech endpoint detection algorithm results better than the other two methods. Key word:Signal processing; voice activity detecti
10、on; double threshold; cepstrum; spectral entropy 目 录第一章 绪论11.1 研究背景及意义11.2 语音端点检测研究现状及存在的问题31.3 本文主要研究内容4第二章 语音信号处理42.1 语音信号特点42.2 语音信号预处理52.2.1预加重52.2.2加窗分帧62.3 语音信号分析72.3.1短时时域分析72.3.2频域分析8第三章 语音端点检测算法原理及实验仿真分析93.1 语音端点检测算法原理93.2 基于短时能量和短时过零率的语音端点检测113.2.1短时平均能量113.2.2短时过零率133.2.3基于短时能量和短时过零率的双门限端
11、点检测原理153.2.4双门限语音端点检测实验分析163.3 基于倒谱特征的语音端点检测193.3.1倒谱特征193.3.2倒谱距离193.3.3基于倒谱距离的端点检测算法原理193.3.4基于倒谱语音端点检测实验分析243.4 基于谱熵的语音端点检测253.4.1谱熵定义263.4.2谱熵特征263.4.3谱熵语音端点检测原理273.4.4谱熵语音端点检测实验分析283.5 算法比较30第四章 总结与展望32致 谢34参考文献35桂林电子科技大学毕业设计(论文) 第 34 页 共 34页第一章 绪论语音,即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义,语言依靠
12、语音实现它的社会功能。语音是人们交流思想和进行社会活动的最基本手段,因此我们要对语音信号进行处理分析,优化人类通信交流。语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。语音信号的好坏、语音识别率的高低,都取决于语音信号处理的好坏。因此,语音信号处理是一项非常有意义的研究课程,而语音端点检测是语音语音信号处理中非常重要的一步。语音端点检测是语音分析、合成和识别中的一个重要环节,目的是从包含语音的一段信号中找出语音的起始点及结束点,从而只存储和处理有效语音信号。有效的端点检测不仅可以减少数据的存和处理时间,而且能排除无声段的噪声干扰。端点检测的困难在于无声段或者语音段前后
13、人为呼吸等产生的杂音、语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,这些使得语音的端点比较模糊,需要综合利用语音的各种信号特征,从而确保定位的精确性,避免包含噪音信号和丢失语音信号。近年来出现了很多种端点检测的方法如短时能量、短时过零率、传统的双门限法、倒谱特征的检测方法、谱熵的检测方法法、分形法等。本文根据语音和噪声和静音在能量、过零率、倒谱距离、信息熵值、和分形维数等特点的不同来进行语音端点检测,在这些算法中在纯语音和高信噪比的情况下都检测得比较好,但在低信噪比下有些算法检测结果就不尽人意。尽管语音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率,但是在实际应用时由于声的引入和环境的
14、改变通常会使系统性能显著下降。研究表明,即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其是噪声环境下语音的端点检测,实验室的研究结果与复杂的实用环境下的语音端点检测仍存在一定的差距,它的准确性很大程度上直接影响着后续的工作能否有效进行,如何准确地检测出带噪语音的端点至今仍是一个难题。1.1 研究背景及意义语音是语言的声学表现形式,语言是人类特有的功能,声音是人类常用的信息交流工具,通过声音传递信息是人类最重要、最有效、最准确、最方便、最自然的信息交换的方式。语音信号处理是一门涉及面很广的交叉科学,包含计算机科学、语
15、音学、语言学、声学、生理学、心理学和数学等诸多领域的内容。随着现代科学的蓬勃发展,人类社会越来越显示出信息社会的特点,犹如衣、食、住、行对于人类是必要的一样,通信和信息交换也成为了人类社会存在的必要条件,不但在人与人之间,而且在人与机器之间每时每刻都需要进行大量的信息交换。让计算机听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。计算机越来越向便携化方向发展,计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚。在电子计算机和人工智能机器的广泛应用中,人们发现,人和机器之间最好的通讯方式是直接进行语言通讯,实现人机自由对话,赋予机器以听觉,辨别话音的内容或者辨别说话人的身份,使机器能够按
16、照人的意志进行各种操作,把人类从繁重或危险的劳动中解脱出来。用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展十分重要。语音技术的应用己经成为一个具有竞争性的高新技术产业,它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。语音处理内容涉及到计算机科学、模式识别、信号处理、生理学、语音学、心理学等学科,还涉及到信号和信息处理系统、通信和电子系统等具体应
17、用领域。多媒体技术的发展,使语音技术逐渐在越来越多的场合中推广使用,语音信号处理技术发展迅速,其研究成果具有重要的学术及应用价值,涉及一系列前沿课题。语音信号处理与信息科学中最活跃的前沿科学密切联系,并且共同发展。例如,神经网络理论、模糊集理论、小波理论是当前热门的研究领域,这些领域的研究常常把语音处理任务作为一个应用实例,而语音处理研究者也从这些领域的研究进展中找到突破口,使语音处理技术研究取得进展l。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话
18、人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响,性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰。例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段。语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点。端点检测是语音识别、语音增强以及语音编码等中的一个重要环节。有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后
19、续工作的性能得以较大提高。语音端点检测的准确性对于语音识别系统的性能有着较大的影响。在一个完整的语音识别系统中,许多相关因素影响着整个系统的识别精度和效率,由于在自然环境中,纯净的语音信号总伴随着各种不同类型的噪声,而语音识别系统处理的对象是有效的语音信号,因此,由于噪声的干扰,往往使得整个系统的识别率下降,有学者用一个多话者的数字识别系统做了如下一个实验。首先对所有记录的语音用手工找出准确的端点,得到它们的识别率;然后逐帧(帧长为15ms)加大端点检测的误差,在每次加大误差的同时得到它们的识别率。结果表明在端点检测准确时识别率为93%的系统,当端点检测的误差在士60ms(4帧)时,识别率降低
20、了3%;在士90ms(6帧)时,降低了10%;而当误差在进一步加大时,识别率急剧下降。研究表明,即使在安静环境下语音识别系统中一半以上的识别错误都是因为语音端点检测的不准确所造成的。所以,对于语音识基于强背景噪声下的语音端点检测算法及实现别系统来说,有效的端点识别不仅能够减轻系统的运算负载,使得处理时间减少,提高了系统的实时性,而且能够去除静音时背景噪声的干扰,从而大大提高系统的识别性能。因此,从混有不同噪声的信号中准确提取纯净的语音信号就成了语音识别系统中的一个重要的环节。另外在通信系统中,典型的会话信道大约有40%的时间真正用于传输语音,其余60%的时间传输的都是静默和背景噪声。由于可利用
21、的频谱资源随着移动用户的飞速发展而急剧下降。如何开发其余60%被浪费的信道资源就成为了提高系统容量的有效手段之一。如果在发送端设立一个语音端点检测器来区分语音和静默以及背景噪声,在接收端用舒适噪声发生器来重构背景噪声,这样就可以极大的提高信道的利用率,而且也能保证重构语音的可懂度和自然度,因此准确的语音端点检测是非常重要的。1.2 语音端点检测研究现状及存在的问题语音端点检测和语音增强不同,它的任务是判断待处理信号是语音还是非语音。语音端点检测作为一种语音信号预处理技术,在实际应用中起着非常重要的作用,有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别
22、的正确率,因此它广泛应用于语音识别、语音增强、语音编码、回声抵消等系统中。而语音增强的目的是在语音和干扰中增强语音部分,同时抑制干扰,对语音检测的研究最早可以追溯到上个世纪的50年代。当时是在一个实时语音翻译系统中,为了解决语音段和无语音段的检测问题而提出来的。那时的算法名称叫VAD(Voice Aotivity Detection),指的是将语音段和无语音段分开的处理过程。传统的语音端点检测算法都是针对实验室安静环境,直到近年来,噪声环境下的语音端点检测才开始研究。开发出了许多不同的算法,有基LPC倒谱距离的算法,自相关系数,基于能量、基音检测、过零率和频能比等各种语音特征的算法,基于自适应
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MATLAB 语音 端点 说明书