基于倒谱的带噪语音端点检测的研究毕业论文.doc
《基于倒谱的带噪语音端点检测的研究毕业论文.doc》由会员分享,可在线阅读,更多相关《基于倒谱的带噪语音端点检测的研究毕业论文.doc(63页珍藏版)》请在沃文网上搜索。
1、摘要语音信号处理中,端点检测指从背景噪声中准确检测出语音信号的起止点,从而在语音识别中提高识别精度及减少识别时间。本文首先总结了语音信号数字化处理过程,分析了常用的几种端点检测方法,包括短时能量、短时平均过零率的检测方法及基于倒谱的语音端点检测方法,用软件实现了时域上的端点检测方法,并与基于倒谱距离的方法进行了比较。大多数实际的语音识别系统需工作在低信躁比情况下,一些常规的端点检测方法 ,例如基于能量的端点检测方法在噪声环境下不能有效地工作。本文利用倒谱特征来检测语音端点,提出了带噪语音端点检测的算法,即利用倒谱距离代替短时能量作为判决的门限,实验结果表明本方法可得到高正确率的带噪语音端点检测
2、.基于倒谱距离的端点检测方法,实现起来简单,环境适应性较好。最后,本文对给出的方法进行了总结,指出了今后研究中需要改进的问题及端点检测未来的发展方向。关键词 语音识别;端点检测;短时能量;短时平均过零率;倒谱距离AbstractSpeech endpoint detection is accurately detecting the beginning and ending of speech signle from background noiseIn speech signal processing,the accurate endpoint detection can improve t
3、he speech recognition accuracy and recognition speedIncluding short-time energy,short-time average zero-crossing rate of the detection method and cepstrum-based speech endpoint detection method, time-domain software implementation of the endpoint detection method and the cepstral distance-based meth
4、ods.Firstly,the digital speech signal processing and some common speech endpoint detection methods are summarized and analysedMost practical ASR systems must work with a small SNR,and the conventional speech detection methods based on some simple features such as energy cannot work well in noisy env
5、ironments. In this paper,cepstrum is used as the feature to detect the voice activity. One algorithm for endpoint detection of noisy speech signal is proposed. The one takes the cepstral distance as the decision thresholds instead of short-time energy. The experiments show high accurate rates can be
6、 obtained.The method which is based on cepstral distance can be achieved easily and has better environmental adaptability. At the end of the paper,these proposed methods are summarizedQuestions which should be improved in the future and the perspective of endpoint detection are pointed out.Keywords
7、Speech recognition;Endpoint Detection;Short-time energyShort-time average zero-crossing rate;Cepstral Distance 目 录摘要IAbstractII第1章 绪论11.1 课题背景11.1.1 选题背景11.1.2 语音信号端点检测的研究现状31.2 语音识别概述41.3 本课题的研究内容6第2章 时域端点检测方法82.1 端点检测82.1.1 端点检测介绍92.1.2 预处理92.2 基于短时能量的端点检测102.2.1 短时能量定义102.2.2 基于短时能量的端点检测112.3 基于短
8、时平均过零率的端点检测122.4 短时能量和短时平均过零率双门限的端点检测142.5 时域预期研究方向152.6 本章小结16第3章 基于倒谱的端点检测方法183.1 倒谱概述183.2 倒谱距离定义183.3 基于倒谱距离的检测算法203.4 本章小结21第4章 本课题的仿真实验结果与分析234.1 实验条件及结果234.2 两种端点检测的比较和分析254.2.1 结果分析比较254.2.2 存在的问题及改进284.3 本章小结28结论30参考文献31附录134附录238附录342附录457IV第1章 绪论1.1 课题背景1.1.1 选题背景语音信号处理是研究数字信号处理技术对语音信号进行处
9、理的一门学科,是一门新兴的学科,是在多门学科基础上发展起来的综合性技术。它涉及到数字信号处理,模式识别,语言学,语音学,生理学,心理学及认知科学和人工智能等许多学科领域。语音信号处理是目前发展最为迅速的信息科学研究领域中的一个分支,研究设计一系列前沿课题,且处于迅速发展之中。其研究成果具有重要的学术和应用价值。但同时它也是一门理论性强,实用面广,内容新,难度大的交叉学科。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。用数字化的方法进行语音的传送、储存、识别、合成、增强等使整个数字化通信网中最重要、最基本的组成部分之一。同时,自
10、然语言作为一种理想的人机通信方式,可谓计算机、自动化系统等建立良好的交互环境,提高社会的信息化和自动化程度。目前,语音技术处于蓬勃发展时期,有大量产品投放市场,并且不断有新产品被开发研制,具有广阔的市场需要和应用前景。语言是人们产生思想和情感交流的的必要手段,是人类特有的也是最重要的交际手段,是人类相互之间进行交流使用最多、最基本也是最重要的信息载体之一。虽然人类可以通过多种手段获取外界信息,但最重要、最精细的信息源只有语言、文字、图象三种。在一些通信、数据压缩编码、识别系统等方面,语音信号处理还是起到举足轻重的作用。语音信号处理的研究,起源于发声器官的模拟1。最早的工作可追溯到1876年贝尔
11、发明的电话,该电话首次使用声电、电声转换技术实现了远距离的语音传输。1939年,美国人HDudely研制成功第一个声码器2,它显示了一个简单的发声过程的模拟系统,利用该模型可以对语音信号进行各种频谱和参数的分析,同时也可根据分析获得的频谱特征或参数变化的规律,合成语音信号,实现机器的语音合成,因此此项工作奠定了语音产生模型的基础,在语音信号处理领域具有划时代的意义。1952年贝尔实验室的Davis等人首次研制成功能说不是个英语数字的实验装置3。1956年Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。20世纪60年代初由于Faut和Ste
12、vens的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。20世纪60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器,快速傅里叶变换等成为语音信号数字处理的理论和技术基础。20世纪80年代,由于矢量量化,隐马尔科夫模型和人工神经网络等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性进展。进入20世纪90年代以来,语音信号处理在实用化方面取得了实质性的研究进展。其中,语音识别逐渐由实验室走向实用化4。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音端的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点
13、。另一方面,为了语音识别实用化的需要,听觉模型、快速搜索识别算法,以及进一步的语言模型的研究课题受到很大的关注。在语音识别方面,很多专业人员对其理论和应用进行了广泛的研究,有关这方面的文献浩如烟海。然而,语音识别是一项综合性的、难度很大的高科技项目,从语音中提取满意的信息的过程是一项艰巨复杂的任务。语音识别研究中一直面临着难以解决的问题,可以说存在着无穷无尽的困难。目前是语音识别研究的黄金时期,该领域的研究得到了前所未有的重视,国内外均投入了大量的人力物力,语音识别因而成为科学与技术研究的热点。语音识别与语言学及人工智能有很大关系。有人认为,语音识别的重大进展可能并不来自对信号的分析、自适应的
14、模式匹配和计算机运算方面的进一步研究(虽然这些领域对语音研究提供了很有价值的技术);而是来自对语言感知、语言产生、语音学、语言学、和心理学的研究。要使语音识别系统能够接近热闹的能力,必须更多地了解全部言语过程。近年来,循环神经网络(Recurrent Neurd Network,RNN)在一些语音识别系统中被采用5。1.1.2 语音信号端点检测的研究现状在人们的生活中,语音起到了特殊作用以及重要的地位,使得人们重视对语音信号和语音通信的研究。社会的进步对语音通信提出了更高的要求,需要更高的语音质量和更低的数码率,从而推动语音编码技术的发展。而自动控制和计算机科学的发展又要求用语音实现人和机器的
15、信息交流,要求机器能听懂人说话和模仿人说话。甚至还能辨别说话人,这又推动了语音识别和语音合成技术的研究,使得语音信号处理技术得到迅速的发展。实际环境中没有完全纯净的语音信号,往往都伴有噪声或其他干扰,而语音识别系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,这就需要从输入信号中找到语音部分的起止点。在实际应用中,首先通常要求对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点,这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。在语音识别中,通常是先根据一定的端点检测算法,对语音信号中的有声片段和无声片段进行分割,而后再针对有声片段,依据语音的某些特征进行识别。
16、研究表明,即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键不容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。可以说,语音信号的端点检测至今仍是有待进一步深入研究的课题端点检测(Endpoint Detection)的目的就是从包含语音的一段信号中确定出语音的起点及终点,又称语音活动检测(VAD,Voice Activity Detection) 6。端点检测是语音识别系统预处理阶段遇到的第一个关键技术。长期以来,传统的语音端点检测方法都是针对实验室安静环境的,直到近十年,人们才开始研究
17、噪声环境下的语音端点检测。有关抗噪声技术的研究以及实环境下的语音信号处理系统的开发,在国内外作为语音信号处理的非常重要的研究课题,已经做了大量的研究工作,取得了丰富的研究成果。目前国内外研究成果大体分为三类解决方法。一类是采用语音增强算法等;第二类方法是寻找稳健的语音特征;第三类方法是基于模型参数适应化的噪声补偿算法。然而,解决噪声问题的根本方法是实现噪声和语音的自动分离,尽管人们很早就有这种愿望,但由于技术的难题,这方面的研究进度很小。近些年来,随着声场景分析技术和盲分离技术的发展,利用这些领域的研究成果进行语音和噪声分离的研究取得了一些进展。1.2 语音识别概述语音识别是语音链中的一环,它
18、是研究是机器能准确地听出人的语音内容的问题,即准确的识别所说的话。语音识别的最终目的是使计算机能够听懂任何人、任何内容的讲话。语音识别属于多维模式识别和智能计算机接口的范畴。语音识别技术是一项集声学、语音学、计算机、信息处理、人工智能等领域的综合技术,在计算机、信息处理、通信与电子系统、自动控制等领域中,在工业、军事、交通、医学、民用诸多方面有着广泛的应用。语音识别是近二十几年发展起来的新兴学科,特别是近十年来国内外竞相研究的热点。科技、工业及国防部门投入大量人力和财力来研究语音识别的动力是信息产业迅速发展的迫切要求,其中包括计算机、办公自动化、通信、国防、机器人等。 语音识别系统具有重要的应
19、用价值,它好似人机通信的自然媒介。语音识别和语音合成相结合,可构成“人-机通信系统”。随着语音识别技术的成熟,各类语音产品应运而生。语音识别产品在人机交互应用中,已经占到越来越大的比例。语音识别是机器将语音信号转变为相应的文本文字或命令的技术,即将语音信号逐字逐句的翻译为相应的书面语言,或对语音所包含的要求和命令做出正确的响应,其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应7。语音识别的系统根据不同的要求,可以有不同的分类方法:(1)按词汇量的大小分 通常可以分为小词汇量、中词汇量和大词汇量。(2)按发音的方式分 语音识别可以分为孤立词识别
20、、连接词识别、连续语音识别以及关键词检出等。(3)按识别对象的类型来看 语音识别可以分为特定说话人识别和非特定说话人。(4)按语音识别的方法分 有模板匹配法、随机模型法和概率语法分析这些方法都属于统计模式识别方法。语音识别技术主要包括端点检测技术、特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别是一种特殊的模式识别,模式识别是指计算机对事物的认识。这里模式是对被认知事物的概括,包括语音、文字、图机器的运行状态等。根据模式匹配原理构成的语音识别系统如图1-1所示。本课题研究语音端点检测技术,其中端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开
21、始及结束,一般的信号流都存在一定的背景噪声,而语音识预处理判决专家知识库测度估计参考模式库距离测度特征提取输入语音 识别结果 训练,聚类图1-1 语音识别的原理图别的模型都是基于语音信号训练的,语音信号和语音模型进行模式匹配才有意义。对于汉语语音识别,本质上与其它语言没有区别,也有其特点。主要是它宜于用音节作为基本研究对象,从而使特征的提取、字节的分割、动态时间匹配方法的选曲等也具有特点。但是中文同音字多,又有声调不明、界限不清、新词不断出现等诸多特点,汉语语音识别别其他语言难度更大。1.3 本课题的研究内容本课题的研究目标主要是要认真学习倒谱的理论知识,学习运用倒谱理论进行语音端点检测的各种
22、方法。在噪声环境下运用倒谱特征对语音进行端点检测,并比较在不同的噪声条件下,基于倒谱的端点检测与传统的端点检测方法的优劣性。以便我们可以更有效的对带噪语音进行端点检测,为后续的语音识别减少计算量。本课题的研究意义:语音信号端点检测是为了从连续采样得到的数字信号中检测出语音信号段和噪声信号段,准确的语音端点检测不仅提高了系统处理效率,同时也能够提高系统的识别率。此外,端点检测的目的还在于:(1)减少识别器的数据处理量 可以大量减少信号传输量及识别器的运算负荷,对于语音对话的实时识别有重要作用。(2)拒绝非语音信号 对非语音的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。(3
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语音 端点 检测 研究 毕业论文