模式识别-基于ARM的声纹识别系统设计.doc
《模式识别-基于ARM的声纹识别系统设计.doc》由会员分享,可在线阅读,更多相关《模式识别-基于ARM的声纹识别系统设计.doc(8页珍藏版)》请在沃文网上搜索。
1、项目综述基于ARM的声纹识别系统一.声纹识别的基本原理 声纹识别的工作过程一般可分为两个阶段:训练阶段和识别阶段。在训练过程中,系统提取出最能代表说话人个性特征的特征参数,并对所提取出来的特征参数进行学习训练,建立声纹模板或语音模型库。在识别过程中,根据系统已有的声纹模板或语音模型库对输入用语音的特征参数进行模式匹配,判别,得出结果。三.语音信号的倒谱特征分析的主要理论方法根据所分析的参数类型,语音信号分析包括两个方面:时域和变换域。时域直接对语音信号的波形进行分析,得到信号幅度,能量,过零率及自相关函数等。变频域可以使信号某些在时域上无法表现出来的特征变得特别明显。最常用的是傅里叶变换,为了
2、能够分析处理非平稳信号,提出短时傅里叶变换。同态信号分析处理:语音信号是由激励信号源和声道响应相卷积的结果,是非加性信号,不能用线性系统来处理。同态信号分析就是将非线性转化为线性问题来处理,便于分析。同态分析的基本思想就是对语音信号解卷积,从而将声门激励和声道特征分离开来,分离的方法是对语音信号在频域上取对数,再反变换到时域中。倒谱(Cepstrum)就是从同态分析处理中引出来的概念。“倒谱特征”利用了对语音信号做适当的同态滤波可以将激励信号和声道信号加以分离的原理,它是用来表征不同说话人最有效的个性特征之一。 设语音信号为s(n),声门脉冲激励为e(n),声道响应为v(n),根据语音信号产生
3、模型,语音信号为声门激励与声道响应的卷积,通过以下运算,可以得到倒普: 在实际应用中,Z变换难以实现,所以常常忽略倒普运算中的虚数部分,用快速傅里叶变换FFT来做近似计算经过同态处理后,s(n)的高频部分代表了激励的特性,而低频部分代表了声道的特性,容易被分离开来。三.信号的预处理3.1 语音的采样和量化(AD转换)对声音信号进行数字化。语音经音频采集设备如麦克风,进行声电转化变为模拟信号,然后经由A/D进行采样,量化变为数字信号。一般采用8kHz的采样频率。降低采样率可以减少数据量,这在嵌入式系统中尤其珍贵。当采样率从16KHZ降到8KHZ,所造成的识别率下降不超过1,但可以节省语音识别前端
4、50的动态存储空间,减少运行时识别前端25的计算量。综合以上因素,在实际采样中我们都采用8KHZ采样率。如果是对已经录好音的文件进行处理,实际上就跳过了采样与量化这两步。3.2语音信号的预加重800Hz高频部分会出现一定的衰落。预加重就是加强高频部分,使信号的高频部分变得平坦,便于进行频谱分析或者声道参数分析用一阶数字滤波器实现:Hz=1-z-1其离散表达式为yn=xn-x(n-1)3.3 分帧(短时分析方法)此时的语音信号实际上是一个时变信号,而它只有在短时间内才能表现出准平稳特性。我们假设语音信号在l0ms-30ms短时间内是平稳的。每一个短时间段称为一帧,为了从语音信号中提取N帧特征数据
5、,我们需要采用有限长度的窗函数序列w(n)。分帧其实就是加矩形窗。3.4加窗为了减少语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过度到零,就要使语音帧乘以一个窗函数。理想的窗函数的频率响应要求主瓣无限狭窄且滑旁瓣(即无频谱泄露),但这种窗函数在实际工程中不存在。根据不同的作用,常采用以下几种窗函数来逼近理想的频率响应。一般常用矩形窗和汉明窗。3.5端点检测(时域)语音端点检测一般步骤如下:1将语音信号分成相邻有重叠的语音段,称为语音帧;2采用一种判决准则,例如门限判决或模式分类,来检测语音帧和非语音帧;3对有效的语音帧进行相应的标识,得到有效语音段的全部区间;一般常采
6、用两种时域特征:短时能量和短时过零率,通过设定它们的门限进行检测。短时能量有以下几个方面的应用:首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大的多:其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等等。在说话人识别中,主要用于对有声段和无声段进行判定。短时过零率则是指一帧语音信号中波形穿越零电平的次数。由于语音信号包括有静音段和有效语音段,静音段的由于只包含随机噪声,其波形变化大小较缓慢,而有效语音段由于有声带的振动及气流在口腔中的摩擦、冲击等影响,造成波形在幅度上的变化比较剧烈,短时过零率即是用来描述这种变化的剧烈程度。过零率可以用于判断有语和
7、无语,但很容易受到低频信号干拢而引起误判。为了解决这个问题,可以改为过正负门限,为了进一步提高判断准确率,可以采用多门限过零端点检测算法。四.特征向量的提取特征参数提取的目的就是从说话人语音中提取出能够表征说话人特定器官结构或习惯行为的特征参数。这也是语音识别与声纹识别的差别所在。语音信息中包含有具有共性的语音内容信息,也有具有差异的个性声音特征。语音识别是要提取出语音内容而屏蔽掉个性差异;声纹识别则需要提取出反映个性差异的信息而忽略语音内容的影响。人的声道特征的参数有:LPC系数、声道截面积比、基音频率、共振峰等;根据人的听觉特性导出来的参数有MFCC等;反映人后天发音习惯的有:基频包络、S
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 基于 ARM 声纹 识别 系统 设计