一种改进的DTW语音识别系统
2024-03-21
来源:飒榕旅游知识分享网
中国西部科技2011年01月(上旬)第10卷第01期总第234期一种改进的DTW语音识别系统苏昊王民李宝(西安建筑科技大学,陕西西安710055)摘要:动态时间规整(DynamicTimeWarping,DTW)是语音识别的一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。这里改进了传统的DTW算法,将其应用到实时语音识别系统中,并在计算机上进行了仿真。实验结果表明,改进后的算法,能有效提高孤立词的识别性能。关键词:语音识别;动态时间规整;模板匹配;孤立词DOI:10.3969/j.issn.1671-6396.2011.01.018AnImprovedDTWSpeechRecognitionSystemSUHao,WANGMin,LIBao(Xi’anUniversityofArchitecture&Technology,Xi’an,Shaanxi710055)Abstract:Dynamictimewarping(DynamicTimeWarping,DTW)isasimpleandeffectivespeechrecognitionmethod.Thealgorithmisbasedondynamicprogrammingtosolvethepronunciationofdifferentlengthsofthetemplatematchingproblem,whichisthespeechrecognitionappearedearlier,moreclassicalanalgorithm.ThisstudyimprovedthetraditionalDTWalgorithm,applieditintoreal-timespeechrecognitionsystemsandintocomputersimulation.Experimentalresultsshowedthattheimprovedalgorithmcaneffectivelyimprovetheperformanceofisolatedwordrecognition.Keywords:Speechrecognition;Dynamictimewarping;Templatematching;Isolatedword1语音识别系统的基本结构开来。这里采用短时平均幅度方法进行端点检测,精确地检测到语音的起点和终点,从而保证了系统的高识别率。2.3特征提取常用的语音特征参数有LPCC和MFCC。LPCC参数是根据声管模型建立的特征参数,主要反映声道响应。MFCC参数是基于人的听觉特性利用人听觉的临界带效应,在Mel标度频率域提取出来的倒谱特征参数。本文识别系统中,主要采用了美尔倒谱系数(MFCC)进行识别。MFCC参数的提取过程如下图所示:连续语音预处理分帧加窗一个典型的语音识别系统如图1所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、断点检测、预加重等。语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。训练模板测度估计识别语音预处理输入训练参考模板范本库专家知识特征提取识别决策结果识别FFTMel滤波器组对数运算DCT图2MFCC参数提取过程图1语音识别系统2语音识别的实现步骤(1)对输入的语音信号进行分帧、加窗,然后作离散傅里叶变换,获得频谱分布信息。设语音信号的DFT为:2.1预处理预处理就是对输入的原始语音信号进行处理,滤除其中不必要的信息及噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧和预加重处理等工作。2.2端点检测语音端点检测就是检测语音信号的起点和终点,因此也叫起止点识别。它是语音处理技术中的一个重要方面,其目的是要在一段输入信号中将语音信号同其它信号分离收稿日期:2010-11-11修回日期:2010-12-11——(式1)式中x(n)为输入的语音信号,N表示傅里叶变换的点数。(2)求出频谱平方,即能量谱,并用1组三角Mel带通滤波器对能量谱进行带通滤波。这组带通滤波器的频率可以按照中心频率选取。每个滤波器的三角形2个底点的频率分作者简介:苏昊(1986-),男,汉族,陕西城固籍,硕士,研究方向为信号与信息处理。38开发应用别等于相邻的2个滤波器的中心频率。由于每一个频带中的分量作用在人耳中是叠加的,因此将每个滤波器频带内的能量叠加。(3)计算每个滤波器组输出的对数能量:算法可以提高程序的运行效率。对于两个时间序列,它们的长度分别为M和N,X轴上的数据点和Y轴上的数据点将搜索范围限制为一个平行四边形,其四个顶点分别为0(0,0),A(a,2a-1)B(b,(b+1)/2),E(N,M)。在斜率要求大于1/2且小于2的限制条件下,所围成平行四边形如下图阴影部分所示。——(式2)其中Hm(k)为三角滤波器的频率响应。(4)将每个滤波器的输出取对数,得到相应的对数功率谱,并进行反离散余弦变化,得到L个MFCC。(5)上述得到的MFCC特征参数称为静态特征参数。在该系统中,将16阶MFCC参数和一阶差分参数△MFCC(16阶)合并为一个矢量(去掉最前面两帧和最后两帧,因为它们的差分为0),记为MFCC+△MFCC,共28阶,作为一帧语音信号参数。2.4识别方法2.4.1DTW算法原理DTW算法的原理图如图3所示,把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点表示测试模式中某一帧与训练模式中某一帧的交汇。如上图所示,在限定了斜率范围的情况下,事先保存OD边上各点纵坐标的值,依据OD边上的坐标值以及OD边与其它三条边0A,AC以及BC的关系,可以达到有效地限制弯曲路径的范围和减少运算次数的目的,并且整个过程只需要很少的存储空间;在运行DTW算法的过程中,减少了对OD边的计算,从而使得算法的运算速度有所提升。图3DTW算法原理图虽然DTW技术已经比较成熟,但还存在着以下的问题:(1)运算量大。由于要找出最佳匹配点,因此要考虑多种可能的情况,从而使识别速度减慢。(2)识别性能过分依赖于端点检测。端点检测的精度随着不同音素有所不同,有些音素的端点检测精度较低,由此影响识别率的提高。(3)没有充分利用语音信号的时序动态信息。2.4.2DTW算法的改进针对DTW算法存在的问题,在这里对它进行一些改进,当运行DTW算法时,参与比较的两个时间序列长度较长时,重复性的操作比较多,会影响识别速度。针对以上问题,我们可以事先建立长度为其中一个时间序列长度的查找表,保存搜索范围的下边界,每一次运算时,只需到查找表中查找出限制范围的下边界,在确定的坐标范围内,根据斜率可以推导出限制范围的上边界。这样只需要在事先建立的查找表中进行一次性地查找,由于计算机中进行一次查表只需一个指令周期,而且将原来多次重复性的操作减少为一次性的计算来完成,这在理论上保证了改进后的同时还可以取消DTW算法中对语音首尾严格对齐的要求,也就是说某一次发音的第一帧可以和另一次发音的开始帧中任意一帧匹配。同样,最后一帧也可以与另一次发音的末尾帧匹配。保留原先模板发音的所有帧和待识别发音的所有帧的相互距离,记为D(n×m),其为一个n×m的距离矩阵。起点为D(1,i),D(i,1)的最小值,而选d(n,i),d(i,m)间一个最小值作为两音间的总距离。这样以(下转第94页)39中国西部科技2011年01月(上旬)第10卷第01期总第234期的工作状态,还可以促进工作人员的积极性,更好地为读者服务。3提高服务能力,加强职业道德建设3.1服务能力服务能力是图书管理员能力要求的出发点和归宿。学习能力的培养、创新能力的建设、信息技术能力的造就,都是为了提高图书管理员的服务能力。21世纪图书馆将摆脱传统的以书为中心的管理模式,转向以人为本,围绕读者用户的广泛多样的需求,有针对性地开展各种形式的服务活动,图书管理员的服务能力将得到更大的发挥和考验。3.2职业道德素质良好的职业道德,是做好一切工作的基础,也是对图书管理员素质的最基本要求。图书馆工作的突出特点是看似简单又相当繁重,看似平淡又十分繁琐,各部门工作内容复杂,涉及面广。这就要求图书管理员要树立正确的职业道德,有强烈的事业心和高度的责任感,有一丝不苟的工作态度,爱岗敬业,乐于奉献,忠于职守,有积极的进取意识。只有具备了良好的职业道德素质,才能营造良好的信息服务环境,同时也助于图书馆形象的树立。此外,图书管理员要有较好的人际沟通能力,通过与读者的良好沟通,了解读者的各种需求,有针对性地提供个性化的服务,才能更好地满足读者需要。参考文献:(略)图书管理人员自我教育的同时,要通过政治理论学习、社会实践锻炼,举办岗位培训班等深入持久地开展爱岗敬业、读者第一、全心全意为读者服务的教育。管理人员应端正服务态度,热情周到,尽量满足师生的要求,使进馆的师生具有自主选择和自由活动的权利,在图书馆工作人员的服务过程中获得满足感和愉悦感。2.2提高图书管理员的综合水平图书馆是一个有多学科、多类型、多层次综合发展的场所,21世纪是一个集信息化、多元化为一体的时代,新时期图书管理员在信息服务中承担更多的角色。所以图书管理员必须广学博览,不但要熟练掌握图书管理学、目录学、情报学、文献学等基础知识,还要掌握与本学科相关的多种学科知识,以增强服务的针对性。2.3提高外语水平随着因特网的广泛普及与应用,图书馆的许多工作都是通过网络完成。高校图书馆作为网络中的一个节点联入网络并开展网络信息服务,使得科技信息的交流打破了国界地域的限制。而网络中流动的信息中英文信息量占有相当大的比例,中文信息量占有比例很小。要想在网络中畅游,有效地开发利用网络信息资源,则需要非常高的外语水平,尤其是英语水平。2.4加强工作考核对于图书管理人员的工作考核也是必不可少的。图书馆应对图书管理人员每年制定一定量的硬性工作计划,年终再进行量化考核,这样不仅可以准确地了解图书管理员(上接第39页)来,使得端点检测的精度降低了,因而识别性能得到了提高。3识别结果及分析对改进的DTW算法进行实验。在实验中就改进的DTW算法和传统DTW算法的性能进行了比较。采用8kHz的采样频率,量化精度为8位,单声道采集0~9,对十个数字的语音进行识别。每个数字识别50次。语音特征参数采用MFCC,每帧语音提取24个特征参数。实验过程中,将十个数字0~9分别统计,每个数字分两组各测试40次,把这400个测试模板逐个与参考模板进行匹配,找到测试模板所对应的数字,在此基础上统计识别率,如上表所示。从表中看出,虽然改进的DTW算法识别率稍低于传统的DTW算法,但是在识别率接近的情况下其识别速度明显优于传统的DTW算法。在改进的DTW算法识别出一个待测模式需要约2秒,而传统的DTW算法却需要大约6秒的时间。这说明该改进算法达到了提高识别速度的目的。4总结本文从DTW算法入手,在选取路径时要求路径搜索范围DTW算法进行了改进,不断地计算矢量的距离以寻找最优的匹配距离路径,在得到的矢量匹配是积累距离最小的规整函数基础上,将模板特征序列和语音特征序列进行特征匹配。通过实验,进行孤立词的识别,在提高识别性能上达到了预期的效果。参考文献:[1]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2003.[2]何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3).[3]荣薇,陶智,顾济华.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213~215.[4]王炳锡,屈丹,彭煊.实用语音识别基础[M].北京:国防工业出版社,2005.[5]息晓静等.语音识别关键技术研究[J].计算机工程与应用,2006,22(11):66~69.[6]李邵梅,刘力雄,陈鸿昶.实时说话人辨识系统中改进的DTW算法[J].计算机工程,2008,34(4):218~219[7]唐尧.基于DSP平台的语音识别算法的研究与实现[D].南京:南京航空航天大学,2007.[8]HUANGXuedong,AAcero,HWHon.Spoken-Language-Processing[M].PrenticeHall,2001.在最大斜率为2和最小斜率为1/2的范围内,并且对传统的94