您的当前位置:首页采用非负矩阵分解的语音盲分离

采用非负矩阵分解的语音盲分离

2020-09-19 来源:飒榕旅游知识分享网
计算机工程与设计ComputerEngineering andDesign 2011,Vo1.32,No.1 251 采用非负矩阵分解的语音盲分离 刘伯权, 曾以成, 邬鑫锋 (湘潭大学光电工程系,湖南湘潭411105) 摘 要:针对多通路语音信号的欠定卷积混合模型,提出一种基于非负矩阵分解(NMF)的语音盲分离方法。该方法使用高斯 分量对源信号的短时傅里叶变换(STFT)进行表示,高斯分量由基于板仓一斋藤(Itakura—Saito(Is))散度的非负矩阵分解的因子 所组成。使用极大期望值算法(EM)求解参数,并对信号进行重组。该方法被应用到双声道立体声信号的盲分离实验,实验 结果表明了该方法的有效性。 关键词:语言盲分离;欠定卷积模型;语音盲分离;板仓一斋藤散度;极大期望值算法 中图法分类号:TN912 文献标识码:A 文章编号:1000—7024(2011)Ol一0251一O4 Blind speech source separation via nonnegative matrix factorization LIU Bo—quan, ZENG Yi—cheng,WU Xin—feng (Department of Optoelectric Engineering,Xiangtan University,Xiangtan 4 1 1 1 05,China) Abstract:A blind speech source separation method for the underdetermined convolutive is proposed via nonnegative matrix factorization (NMF).Each source STFT is given a model inspired from nonnegative matrix factorization(NMF)with the Itakura—Saito divergence, which underlies a statistical model of superimposed Gaussian components.Expectation—maximization(EM)algorithm is used to obtain the parameter and reconstruct the signa1.Our decomposition algorithms are applied to blind stereo speech source separation,the simulation results demonstrate that the proposed separation method is validity. Key words:blind speech source separation;underdetermined convolutive model;blind speech separation;Itakura—Saito divergence; expectation—maximization algorithm 0 引 言 并不合适。原米通过用矩阵表示多路数据的频谱 ,或者在 非负张量分解中引入PARFAC结构 ,以适应多信道的数据情 非负矩阵分解是一种新的特征提取方法(NMF)…,非负矩 况。这些方法取得了 一定的效果,但都使用了后向约束将分 阵分解后的所有分量均为非负矩阵,且能实现维数约减。NMF 量聚类,没有充分利用信道间的冗余,且只适合于瞬时混合模 的心理学依据是对整体的感知由对组成整体的部分的感知构 型。为了解决上述不足,本文使用多路非负矩阵分解(NMF) 成的,这也符合直观的理解:整体是由部分组成的 。因此,它 模型来说明语音信号的欠定卷积混合模型,首先,对语音信 在某种意义上抓住了智能数据描述的本质,在生物医学工程、 号的短时傅里叶变换使用含有非负矩阵分解因子的高斯分 模式识别、计算机视觉和图像工程等方面受到极大的重视,具 量进行定义 ;其次,由于板仓一斋藤(Itakura—Saito(IS))散度具 有很好的应用前景。NMF方法的基本思想:对于任意给定的 有尺度不变性,该特性非常适合于V分量动态范围很大的语 个非负矩阵V,NMF算法能够寻找到非负矩阵w和H,满 音信号 】,所以对混合语音信号使用基于板仓一斋藤散度的非 足V=WH。由于分解前后的矩阵中仅包含非负的元素,囚此, 负矩阵分解;使用极大期望值算法(EM)求解参数,能充分利 原矩阵V中的任意一列矢量可以解释为对左矩阵w中所有 用信道间的冗余,没有信源统计独立和信源非高斯分布的限 列矢量(称为基矢量)的加权组合,而权重系数为右矩阵H中 制 ;在信号重构时使用维纳重构,避免引入音乐噪声。最后, 对应列矢量中的元素。 将本文的方法与其他方法进行信曲比的比较,阐明本文方法 近年,更多的研究是针对两种实际情况的盲分离问题: 的优越性。 一是传声器数目少于声源信号数目的欠定混合模型,二是由 于声源信号在实际传播过程中受到时延和空间、器件滤波效 1语音信号欠定卷积混合模型 应的影响,产生的卷积混合模型。但是,标准的NMF仅适合 在实际环境中,存在观测信号的个数I少于源信号个数J 于单通道的数据,对于现今所需的多通路的语音信号盲分离 的欠定情形,并且源信号经过不同的路径和时间延迟,到达采 收稿日期: 2010-01—21;修订日期:2010.03—24。 基金项目: 湖南省自然科学基金项目(08JJ5031)。 作者简介: 刘伯权(1985一),男,湖南湘潭人,硕士研究生,研究方向为语音信号处理; 曾以成(1962一),男,湖南涟源人,博士,教授,博 士生导师 研究方向为信号处理; 邬鑫锋(1982一),男,广东河源人,硕士研究生,研究方向为语音信号处理。E—mail:stoeky@163.tom 252 2011,Vo1.32,No.1 计算机工程与设计ComputerEngineering andDesign logp Cl 0)=一logp C1 0)一logp(CI ) =集系统,这种情形可以采用欠定卷积混合模型来表示,欠定卷 积混合模型可表示为 ( )=A ( )+ ( ) (1) ∑[1og  lCOV {+ (厂, )一A, , )) cov ,")一 (厂, ))]+ ∑∑(1og( k l,) _ Wkf ,(8) 式中: ——,× 阶矩阵,s(n)=[ ( ),S:("),… ( )…, )]一,z)=[vt( ),v ( ),… (n)…,vK )】——,维噪声向量。 ,维 声源信号向量, ( )=b ( ),施("),…xi(n)…, )]是,维观测向量, 采用EM进行混合语音的分离与重构 ,每一次迭代分成 两步:①充分统计参数的估计与信号重构,即求出充分统计参 数的数学期望;②统计参数的更新,即求出log. Cl 的极值。 其基本思想是:首先在给出缺失数据初值的条件下估计出充分 统计参数值,然后根据参数值估计出缺失数据的值;再根据估 计出的缺失数据值对参数值进行更新,如此反复迭代直至收敛。 对第 个源信号 ,进行短时傅里叶变换可得 ,(厂, ),由文献 【5]知sj(f,n)可由多个符合复高斯分布的分量的和来表示 (厂,”):∑ ~(2) (3) M(O,W- ) 式中:W,hCR , ,口)是均值为 、方差为 的复高斯分布,其 表达式 Ⅳ : ,盯) l 7r盯【 exp[一( ~ ) O- ( 一 )】 (4) 式中: ——复共轭。 2语音分离算法 2.1 目标函数 NMF的基本算法可以简单描述为:对于任意给定的‘个 非负矩阵 通过有限次迭代总能够寻找到一个非负矩阵 和~个非负矩阵 ,满足V=WH,从而将一个非负的矩阵分解 为两个非负矩阵的乘积。由于NMF对分解后的两个矩阵都 作了非负限制,这意味着存合成原始矩阵时只存在加法的组 合,所以就导致了基于“部分”而 基于“整体”的表示方式。 用非负矩阵分解的方法实现语音盲分离即用迭代的方法 寻找最优的 和 ,以恢复源信号5=,。非负矩阵分解通过求D ( l WH)的最小值实现 ,这里有 N F D(Vf 嘲=∑∑ [ f[附】^) (5) I r J 式中:d( I删)——目标函数,本文选择板仓一斋藤(1takura— Saito(IS))散度为目标函数,取 =f f 。第,个源信号的负对数 似然函数与基于板仓.斋藤散度的非负矩阵分解(IS—NMF)关系 可以表示为 Ⅳ , 一logp( l )=∑∑ (1 (厂, )【。l ) (6) 一其中,靠——板仓一斋藤散度,其表达式为 (x lY) 吾 X一1 (7) 其中, =【W, “,Ⅵ , = ,…, 】。 2.2原理 因负对数似然函数与基于板仓一斋藤散度的非负矩阵分 解(IS-NMF)的等价关系,可以用统计参数最优化的方法重组 语音源信号,即对数似然函数的参数最优化。由于logP cl )对于参数0的依赖关系十分复杂 ={ H}),而且在状态空 间模型中,测量数据 是不完全数据(它和C一一起可以看作是 完全数据),因此实现参数的优化很困难。 EM(expection—maximization)算法是一种求参数极大似然 估计的迭代算法,在处理不完全数据中有重要应用。这种算 法利用数据扩张,将比较复杂的似然函数的最优化问题化成 一系列比较简单的函数的优化问题。所以本文通过完全数据 的对数似然函数引出本文中使用的最大期望(EM)算法 ,COV 表示v的协方差,似然函数为 用COV 表示 的协方差,COV 表示分量c的协方差,COY 表 示x的协方差,A’为扩展混合矩阵,A’中的元素 是指当分量 的系数k属于第/个信号时口 = ,Rrv,/、 表示自相关函数 的平均值, 示互相关系数的平均值,G 、 表示Wiener增 益。则算法可表述如下: 充分统计参数的估计与信号重构(E step) =Rxx,=,专∑ , (厂,”) (9) =— 1∑ (厂, ) , ) (1o) ,= ∑ (厂’ (厂’ )+co 一G,AIco (1 1) ' =[bb*+cov ̄一G,AICOV 】 (12) 以上式(9)一(12) §(厂, )=G;c(f, ) Gc=COV A*fCOVe- (13) =G ̄x(f, ) Gc=co A *Icov; (14) COVx=AIco A +COV (15) COY =diag([∑ W。m (16) COV =diag([Wfl,・ h] ) (17) 统计参数的更新(M step) ,= √R (18) COV :Rxx,j--A/R — +AjRssjAs* (19) 坳 专 考 古 (z0) 避免矩阵分解中的scalling问题,可令∑.1 ,I:1,∑ w =1。 3 实验结果及讨论 实验用混合音乐信号为双声道立体声信号,该段节选的 音乐信号由风笛声、笛子声和吉他声组成,其采样频率为 16KHz。图1为纯音乐信号分离的结果,图(a)为混合信号,图 (b)、(c)、(d)为分离出来的信号,分离出来的信号仍然可保持双 声道立体声效果。 应用该基于非负矩阵分解的语音盲分离方法进行语音信 号的分离时,由于语音信号的变化性强于音乐信号,所以参数 K值的设置要增大。 混合语音信号是双声道立体声信号,由3个语音源信号 混合而成,采样频率为10KHz。图2表示语音源信号,3个语 音源(a,、(b)、(c)分别来自3个不同的人随机说出的语句。图3 表示语音信号分离的结果,(a)为混合信号,(b)、(c)、(d)为分离出 来的信号,分别对应着图2巾的语音源信号(a)、(b)、(c) 将语 音源信号(图2)与分离后的语音信号(图3)相比较,二者在波 刘伯权,曾以成,邬鑫锋:采用非负矩阵分解的语音盲分离 2011,Vo1.32,No.1 253 O O O 0 0 O 0 0 0 O 0 O 0 O 0 O O O O 0 0 O O O O 0 0 O O% 0 % ∞ 叭 O 叭 ∞ ∞ 叭 0 叭 ∞ ∞ 叭0叭 0 2 4 6 8 1O l2 l4 l6 时间/s (a)混合音乐 。 I l‘II I- I k I rr 1f 0 2 4 6 8 1O 12 l4 16 时间/s (b)风笛 0 2 4 6 S 10 12 14 l6 时问/s (c)笛子 (d)吉他 图1 纯音乐信号的分离 形上十分相似,从两图的比较中可以看出其分离结果十分理 想。本文还将使用该方法分离出来的语音信号与最具代表性 的Weiss的方法和Sawada的方法” 进行定量比较,使用信曲 比(sDR)作为衡量标准,以说明该方法的优越性。 式(22)给出了信曲比的定义,采用信曲比(sDR)进一步证 明本算法的有效性 。信曲比越高,则分离的效果越好,将本 文的方法与最具代表性的Weiss的方法和Sawada的方法 进 行比较, 表示最小平方投影, 表示估计出的信号的第,个源 信号的第i个声道的信号。从表l中可以明显看出,使用该方 5 2 5 1 5 O 5 1 5 2 ln 一 l 一J I _r 一1 F  ,0 0.5 l 1 5 2 2.5 3 3 5 4 4.5 5 时间/s (c)语音c 图2语音源信号 法分离出来的语音信号的信曲比得到了极大的提升。 (力= (力+ (,)+e 力+ f) (21) SDRj=1010g,o P = )(『)一S ( (23) e f)=P ̄all(;lJ)( 一 (§ (,) (24) P l,(f)= ( 一 P )( (25) 4结束语 本文针对语音信号的欠定卷积混合模型,提出了基于非 负矩阵分解的混合语音信号盲分离的方法。该方法的目标函 数为板仓 斋藤(Itakura—Saito(IS))散度,使用极大期望值算法 (EM)求解对数似然函数,该方法实质上是一个优化算法,所涉 及的理论简单,能充分利用信道间的冗余。运用该语音盲分 离算法进行语音信号的盲分离,没有信源统计独立和信源非 高斯分布的限制,避免了在信号重组时引入音乐噪声,取得了 254 201 1,Vo1.32,No.1 计算机工程与设计Computer Engineering and Design 0.5 0 4 I 0 3 0 2 0.1 l l ‘lI 1 .J L l 『 l I 0 0.1 .O 2 f lII f ‘1}I】l I ’Iy 8 T 0.3 .0 4 0 0 5 1 1 5 2 2 5 3 3 5 4 4 5 5 时间/s (a)混合语音 0 5 0.4 0.3 0 2 0 l JL l -lI lIk IIl 1 0 .0 1 0.2 ’ I 1『 1 .0 3 .0 4 0 0 5 1 】5 2 2 5 3 3 5 4 4.5 5 时间/s (b)分离出的语音a 时间/s (c)分离出的语音b 0 4 0 3 0 2 0 1 0 “ “ L一 .O.1 可 f 一 f 0 2 0.3 0 0 5 I 1 5 2 2 5 3 3 5 4 4 5 5 时间/s (d)分离m的语音C 图3语音信号的分离 很好的效果。采用信曲比(sDR)与两种最具代表性的方法进 行比较,其结果大大优于其他的方法。 表1信曲比(SDR)的比较 语音样本 {ji去 信曲 ̄L(SDR) Ⅵ,eiss 2.8 1 Sawada 4.1 本文方法 22.6 Weiss 2 2 2 Sawada 3.0 本文的 法 16 8 Weiss 2.4 3 Sawada 3.8 本文方法 1 8 6 参考文献 【1]LEE D D,SEUNG H S.On the convergence ofmultiplicative up— date algorithms for nonnegative matrix factorization fJ],IEEE Transactions on Neural Network,2007,18(6):1589—1596. [2] Yun—Xian Ho,Laurence T Maloney.The effect of viewpoint on perceived visual roughness[J].Journal ofVision,2007,7(1):1—16. 【3】Parry R M Essa I A.Estimating the spatial position of spectral— components in audio[C].Charleston SC,USA:Proc 6th lnterna— tional Conference on Independent Component Analysis and Blind Signal Separation,2006:666—673. [4】 FitzGerald D,Cranitch M,Coyle E.Non—negative tensor factori— zation for sound source separation[C].Dublin:Proc of the Irish Signals and Systems Conference,2005. [5] Benaroya L,Gribonval R,Bimbot F.Non negative sparserepres— entation for Wiener based source separation with a single sensor [c].Hong Kong:Proc IEEE International Conference on Aeous tics,Speech and Signal Processing,2003:613—616. [6] Fevotte C,Bertin N,Durrieu J L.Nonnegative matrix factori— zationwith the ltakura—Saito divergence.With application to mu— sic analysis[J].Neural Computation,2009,21(3):790—830. [7] Keiji Takai,Yutaka Kano.Test of independence in a 2x2 contin— gency table with nonignorable nonresponse via constrained EM algorithm[J].Computational Statistics&Data Analysis,2008,52 (12):5229—5241. [8] Cemgil A Fevotte C,Godsil S J.Blind separation of sparse sources using variational EM【R].Antalya,Turkey:EUSIPCO, 2005. 【9] Vincent E,Sawada H,Bofill P,et a1.First stereo audio source sepa・ ration evaluation campaign:data,algorithms and results[C].Proe lnt Confon Independent Component Analysis and Signal Separa— tion,2007. [10]Sawada H,Araki S,Makino S.Measuring dependence ofbin—wise separated signals for permutation alignment in frequency—do・- main[C].Circuits and Systems(ISCAS),2007:3247.3250. 

因篇幅问题不能全部显示,请点此查看更多更全内容