3第四章短时傅里叶变换解析.ppt

上传人:得****1 文档编号:75959735 上传时间:2023-03-06 格式:PPT 页数:70 大小:4.29MB
返回 下载 相关 举报
3第四章短时傅里叶变换解析.ppt_第1页
第1页 / 共70页
3第四章短时傅里叶变换解析.ppt_第2页
第2页 / 共70页
点击查看更多>>
资源描述

《3第四章短时傅里叶变换解析.ppt》由会员分享,可在线阅读,更多相关《3第四章短时傅里叶变换解析.ppt(70页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、4.1 概述1n语音的生成模型由线性系统组成,系统输出的傅里叶频谱反映了激励与声道频率响应特性。n语音信号的频谱具有非常明显的语音声学意义,可以获得某些重要的语音特征,如共振峰频率和带宽等。n话音波是一个非平稳过程,标准傅里叶变换不能用来直接表示语音信号。n由于语音信号的特性是随时间缓慢变化的,因而可以假设它在一短段时间内保持不变。短时分析应用于频域分析就是短时傅里叶变换,即有限长度的傅里叶变换。n短时傅里叶变换可以精确地恢复语音波形。短时傅里叶变换最重要的应用是语音分析-合成系统。2短时幅度谱的计算过程短时幅度谱的计算过程4.2.1 短时(加窗)傅立叶变换的定义34.2.1 短时傅立叶变换-

2、定义n定义:短时傅立叶变换也叫短时谱(加窗的方式)n短时谱的特点:1)时变性:既是角频率的函数又是时间n的函数2)周期性:是关于的周期函数,周期为24n短时傅里叶变换是窗选语音信号的标准傅里叶变换。下标n区别于标准的傅里叶变换。w(n-m)是窗口函数序列。不同的窗口函数序列,将得到不同的傅里叶变换的结果。n短时傅里叶变换有两个自变量:n和,所以它既是关于时间n的离散函数,又是关于角频率的连续函数。n与离散时间序列傅里叶变换和连续傅里叶变换的关系一样,若令2k/N,则得离散频率的短时傅里叶变换,它实际上是在频域的取样。4.2.1 短时傅立叶变换-定义5这两个公式都有两种解释:当n固定不变时,它们

3、是序列w(n-m)x(m)(-m)的标准傅里叶变换或标准的离散时间序列的傅里叶变换。此时与标准傅里叶变换具有相同的性质,而Xn(k)与标准的离散傅里叶变换具有相同的特性。当或k固定时,和Xn(k)看做是时间n的函数。它们是信号序列和窗口函数序列的卷积,此时窗口的作用相当于一个滤波器。4.2.1 短时傅立叶变换-定义64.2.1 短时傅立叶变换-定义n频率分辨率f、取样周期T、加窗宽度N三者关系:n窗形状对短时傅立叶变换的影响 矩形窗主瓣窄,衰减慢;汉明窗主瓣宽,衰减快;n窗宽对短时频谱的影响 窗宽长频率分辨率高,能看到频谱快变化;窗宽短频率分辨率低,看不到频谱的快变化;74.2.2 短时傅立叶

4、变换-标准傅里叶变换的解释(n固定,的函数)n短时傅里叶变换可写为n当n取不同值时窗w(n-m)沿着x(m)序列滑动,所以w(n-m)是一个“滑动的”窗口。n由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。与序列的傅里叶变换相同,短时傅里叶变换随着作周期变化,周期为2。84.2.2 短时傅立叶变换-标准傅里叶变换的解释9n根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系n式中*表示复共轭运算。同时功率谱是短时自相关函数 的傅里叶变换。n下面将短时傅里叶变换写为另一种形式。设信号序列和窗口序列的标准傅里叶变换为 均存在。当n取固定值时,w(n-m)的傅里叶变换为 4.2

5、.2 短时傅立叶变换-标准傅里叶变换的解释10如果 被看成是w(n-m)x(m)序列的标准傅里叶变换,同时假设x(m)及w(m)的标准傅里叶变换存在,为:当n固定时,序列w(n-m)的傅里叶变换为:4.2.2 短时傅立叶变换-标准傅里叶变换的解释11n根据傅里叶变换的频域卷积定理,有4.2.2 短时傅立叶变换-标准傅里叶变换的解释语音信号x(n)的标准傅里叶变换移动窗口的标准傅里叶变换短时傅里叶变换12写成卷积积分形式:将改换为-后,可以写成:可见,为了使 能够充分地表现 的特性,要求对于 来说,必须是一个冲激脉冲。13n用波形乘以窗函数,不仅为了在窗口边缘两端不引起急剧变化,使波形缓慢降为零

6、,而且还相当于对信号谱与窗函数的傅里叶变换进行卷积,采样。n为此窗函数应具有如下特性:窗函数应具有如下特性:q 频率分辨率高,即主瓣狭窄、尖锐;(矩形窗)(矩形窗)q 通过卷积,在其他频率成分产生的频谱泄漏少,即旁瓣衰减大。(海明窗)(海明窗)q这两个要求实际上相互矛盾,不能同时满足。n窗口宽度N、取样周期T和频率分辨率f之间存在下列关系f1/NT n可见二者是矛盾的。q窗口宽度频率分辨率 时间分辨率q窗口宽度频率分辨率 时间分辨率4.2.2 短时傅立叶变换-标准傅里叶变换的解释14n第一个零点位置为第一个零点位置为2k/N,显然它与窗口宽度成反比。,显然它与窗口宽度成反比。q矩形窗矩形窗,虽

7、然频率分辨率很高,但由于第一旁瓣的衰减只有13.2dB,所以不适合用于频谱成分动态范围很宽的语音分析中。q海明窗海明窗在频率范围中的分辨率较高,而且由于旁瓣的衰减大于42dB,具有频谱泄漏少的优点,频谱中高频分量弱、波动小,因而得到较平滑的谱。q汉宁窗汉宁窗是高次旁瓣低,第一旁瓣衰减只有30dB。n对语音波形乘以海明窗,压缩了接近窗两端的部分波形,等效于用作分析的区间缩短40%左右,因此,频率分辨率下降40%左右。所以,即使在基音周期性明显的浊音频谱分析中,乘以合适的窗函数,也能抑制基音周期与分析区间的相对相位关系的变动影响,从而得到稳定的频谱。因为乘以窗函数将导致分帧区间缩短,所以为跟踪随时

8、间变化的频谱,要求相邻帧之间一部分区域重叠。4.2.2 短时傅立叶变换-标准傅里叶变换的解释154.2.2 短时傅立叶变换-标准傅里叶变换的解释总结:n以上分析可知,窗傅立叶变换W(ej)很重要。为使Xn(ej)忠实再现X(ej)的特性,W(ej)相对于X(ej)来说必须是一个冲激函数。nN越大,W(ej)的主瓣越窄,则Xn(ej)越接近于X(ej)。n当N时,Xn(ej)X(ej)。n但是N值太大时,信号的分帧已失去了意义。尤其是N值大于语音的音素长度时,Xn(ej)已不能反映该语音音素的频谱了。因此,应折衷选择窗宽N。16n其中图(a)是海明窗的窗选信号,图(b)是其对数功率谱;图(c)是

9、矩形窗下的窗选信号,图(d)是其对数功率谱。n从图(a)可以明显看出时间波形的周期性,此周期性同样在图(b)中表现出来。图中基频及其谐波在频谱中表现为等频率间隔的窄峰。图(b)中的频谱大约在300400Hz附近有较强的第一共振峰,而约在2000Hz附近有一个对应于第二、三共振峰的宽峰。此外,还能在3 800Hz附近看到第四个共振峰。最后,由于声门脉冲谱的高频衰减特性,频谱在高频部分表现出下降的趋势。给出了N500时(取样率10 kHz,窗持续时间50 ms)时直角窗及海明窗下浊音语音的频谱。4.2.2 短时傅立叶变换-标准傅里叶变换的解释17n图4-3给出了N50的比较结果(窗口持续时间为5m

10、s)。n由于窗口很短,因而时间序列(图(a)和(c)及信号频谱(图(b)和(d)均不能反映信号的周期性。n与图4-2相反,图4-3只大约在400、1400及2200Hz 频率上有少量较宽的峰值。它们与窗内语音段的前三个共振峰相对应。比较图4-3(b)及(d)的频谱后,再次表明矩形窗可以得到较高的频率分辨率。4.2.2 短时傅立叶变换-标准傅里叶变换的解释18结论结论:n窗口宽度与短时傅里叶变换特性之间的关系窗口宽度与短时傅里叶变换特性之间的关系n用窄窗可得到好的时间分辨率用窄窗可得到好的时间分辨率n用宽窗可以得到好的频率分辨率。用宽窗可以得到好的频率分辨率。n但由于采用窗的目的是要限制分析的时

11、间以使其但由于采用窗的目的是要限制分析的时间以使其中波形的特性相对稳定没有显著变化,因而要折中波形的特性相对稳定没有显著变化,因而要折衷考虑。衷考虑。4.2.2 短时傅立叶变换-标准傅里叶变换的解释19nw(n)-一个滤波器的单位函数响应n -该滤波器的输出nx(n)-滤波器的输入n过程:调制+滤波4.2.3 短时傅立叶变换-滤波器的解释一(固定,n变化)图4-4 短时傅里叶变换滤波器解释的第一种形式(a)复数运算20 w(n)w(nw(n)是窄带低通滤波器是窄带低通滤波器 将将x(nx(n)的频谱向左搬移的频谱向左搬移了了 ,或等效将,或等效将 频率上频率上的频谱搬移到了零频率处。的频谱搬移

12、到了零频率处。因此为使输出端有:因此为使输出端有:w(nw(n)是是窄带窄带低通滤波器低通滤波器21224.2.3 短时傅立叶变换-滤波器的解释二(分解为实虚部)图4-4 短时傅里叶变换滤波器解释的第一种形式(b)只有实数运算23n令m=n-m 4.2.3 短时傅立叶变换-滤波器的解释三24n 为窄带低通滤波器。第一种形式为低通滤波器;n由于第二种形式中的滤波器单位函数响应为 ,所以它为带通滤波器。4.2.3 短时傅立叶变换-滤波器的解释25n如果将w(n)的滤波运算除外,短时傅里叶变换实际上是信号对复数频率的幅度调制。q第一种形式是在输入端进行调制,x(n)乘以 相当于将x(n)的频谱从移到

13、零频处;而w(n)(直角窗或海明窗等)为窄带低通滤波器。q后一种形式是在输出端进行调制,此时先对信号进行带通滤波,滤波器的单位函数响应为w(n),而调制后输出的是短时谱中心频率为的数值。4.2.3 短时傅立叶变换-滤波器的解释26n 恢复出x(n)的过程称为短时傅里叶反变换,是由短时谱合成语音信号的问题n由于 是n和的二维函数,因而必须对在所涉及的两个变量,即时域及频域内进行取样,取样率的选取应保证 不产生混叠失真,从而能够恢复原始语音信号x(n)。4.3 短时傅立叶变换的取样率27n当当为固定值时为固定值时,是一个单位函数响应为w(n)的低通滤波器的输出。设低通滤波器的带宽为BHz,则 具有

14、与窗相同的带宽。根据取样定理,的取样率至少为2B才不致混叠。n低通滤波器的带宽由w(n)的傅里叶变换 的第一个零点位置01决定,因而B值取决于窗的形状与长度。4.3 短时傅立叶变换的取样率-时间取样率284.3 短时傅立叶变换的取样率-时间取样率n正弦序列的表达式为 q幅值A、初相的含义与模拟正弦信号相同q正弦序列的数字角频率0的含义与一般模拟信号模拟角频率0的概念不同。q离散信号定义的时间为kTs,显然有0=0 Ts,模拟角频率0的单位是rad/s,q数字角频0的单位为rad/s s=rad。0表示相邻两个样值间弧度的变化量。q书上的0用直接表示29n以直角窗和海明窗为例,其第一个零点位置分

15、别为 2/N和4/Nn数字角频率与模拟频率F之间的关系为 (其中T是信号取样周期,fs是取样率),因而用模拟频率表示的 的带宽为4.3 短时傅立叶变换的取样率-时间取样率若使用哈明窗,的近似带宽为304.3 短时傅立叶变换的取样率-频率取样率n当n为固定值时,Xn(ej)为序列x(n)w(n-m)的傅里叶变换。为了用数字方法得到x(n),必须对Xn(ej)进行频域的取样。由于Xn(ej)是关于的周期为2的周期函数,因而只需在2范围内等间隔地取样。设取样点数为L,则各取样频率值为k=2k/L (k=0,1,L-1)n这里L即为取样频率。上式的含义为在单位圆内至少取L个均匀分布的频率,在这些频率上

16、求出相应的Xn(ejk)值。这些频率取样经过反傅里叶变换IDFT恢复出来的时间信号应该是x(n)w(n-m)进行周期延拓的结果,延拓周期为L=2k/k。n为了使恢复的时域信号不产生混叠失真,L值需要大于或等于信号长度N,即02范围内取样至少应有N个采样点,在正常情况下取L=N。314.3 短时傅立叶变换的取样率-总取样率总取样率SR为时域取样率和频域取样率的乘积,即当L=N时,直用窗时,SR2fs,而海明窗时SR 4fs,即短时谱表示所要求的取样率比原信号本身时域的取样率fs要高2或4倍。在大多数实际窗中,B 可以表示为fs/N的倍数,即 其中,k是比例常数,所以SR=2kfsL/N 2kfs

17、N/N=2kfs,即SRmin=2kfs 与一般取样频率相比即得到的“过速率采样比过速率采样比”为 SRmin/fs=2k。如海明窗为4324.3 短时傅立叶变换的取样率-总取样率n虽然推导出的取样率在理论上是信号的最小取样率,但存在一些例外,此时 可以在时间或频率域内欠速率取样,而x(n)仍能准确地恢复。n而增加或减少采样率的问题在语音信号处理中是常见的。某些实际系统致力于使存储量(或传输比特率)为最小,此时欠采样具有实际的重要意义,如通道声码器就是据此压缩传输码率的。n例如,当窗口宽度很大时,B很小,低通滤波器带宽很窄。因此当为固定值时,只需取一个Xn(ej)即可代表k时的Xn(ejk)谱

18、值;声码器只需传送一个参数码。对所有频率(k0,1,L-1)只需传送L个谱值(通常,L值为1016)就可以代表x(m)w(n-m)的频率,即可恢复有良好质量的语音了。334.4 语音信号的短时综合-滤波器组求和法 对于某个频率k,如果已知Xn(ej),则由若令则得344.4 语音信号的短时综合-滤波器组求和法 hk(n)是一个带通滤波器,其中心频率为k。yk(n)是第k个滤波器hk(n)的输出。35式(式(4.28)的图形解释)的图形解释36 定义 (4.28)可得 (4.28)可见,是一个冲激响应为 的带通滤波器的输出,其中心频率为3738带通滤波器的频率响应为 上式用图4.7(b)表示,中

19、心频率为 ,带宽为 ,假定所有通道都使用了相同的窗函数,即 (4.32)(4.32)3940 考虑整个带通滤波器组时,其中每个带通滤波器具有相同的输入,其输出相加在一起,如图4.8所示,输出为y(n),输入为x(n),整个系统的复合频率响应为 (4.33)41 如果 在频率域上正确抽样(NL,L为窗宽),可以证明对于所有都满足 (4.37)作业:证明(4.37),提示:使用傅里叶变换定义.42 (4.37)代入(4.33)可得 (4.38)所以复合系统的冲激响应为:(4.39)所以用滤波器组相加法恢复的信号可以表示为:434.4 语音信号的短时综合-滤波器组求和法 444.4 语音信号的短时综

20、合-滤波器组求和法 LN时,y(n)正比于x(n)且与窗口w(n)的形状无关 LN时,通过合理地选取窗函数,也可以使y(n)得以精确地恢复。45n在实际的实现过程中,Xn(ejk)由于仅有与窗口相同的带宽,所以传输或存储时的取样率可大大降低。即在第k个通道上每输入Dk个抽样计算一次,此时图4-6就变为图4-8。图中,在分析输出后加上抽取器并在综合输入端加上插入器后,Xn(ejk)的取样率降低了Dk倍。n即取样器在每Dk个取样中删去Dk-1个取样,或等效为每隔Dk个取样值计算一次。n而插值是在降低速率后的每个取样之间填充Dk-1个零值,然后再用一个合适的低通滤波器滤波。464.4 短时综合的滤波

21、器组相加法的MATLAB程序实现 程序filterbank1.m对应于图4.6中的(b)图,先调制后滤波,实现流程图见图4.10。图4.6中的(b)图47图图4.10 filterbank1的流程图的流程图YN读入语音数据读入语音数据分帧,不足补零,共分帧,不足补零,共N帧帧 加哈宁窗加哈宁窗 滤波滤波i=165取取k=1帧数据帧数据用用 调制调制 i=165用用 调制调制 i=165k=k+1输出输出 kN?分析综合传输、存储、处理加工4849程序filterbank2.m对应于图4.6中的(a)图,先滤波后调制,实现流程图见图4.12,程序运行结果见图4.13。图4.6中的(a)图50图图

22、4.12 filterbank2的流程图的流程图YN读入语音数据读入语音数据分帧,不足补零,共分帧,不足补零,共N帧帧 各通道各通道 滤波滤波i=165取取k=1帧数据帧数据并分别送入并分别送入165通道的输入端通道的输入端 各通道各通道用用 调制调制 i=165各通道各通道用用 调制调制 i=165k=k+1输出输出 kN?分析综合传输、存储、处理加工51524.4 语音信号的短时综合-快速傅里叶变换求和法nXn(ej)可看作序列x(m)w(n-m)的标准傅叶变换。为实现反变换,可将Xn(ej)进行频域取样,即令k=2k/L(k0,1,L-1),则有若以n为参量,将 Xn(ej)在各 k的值

23、用离散傅里叶反变换的方法求得各n时刻的序列值,然后再除以窗口长度而得到x(n)。但是这种方法由于 Xn(ej)采用了时域欠速率取样而极易产生混叠。534.4 语音信号的短时综合-快速傅里叶变换求和法假设在时间域上用周期为R抽样速率对Xn(ej)取样,则可令上式中r为整数。用各个可求出其离散傅里叶反变换yr(n)显然yr(n)=x(m)w(n-m)n=rR=x(n)w(rR-n)54由上式可见,y(n)仍是x(n)与w(n)的卷积和,只是其中每隔R个样值参与一次运算。对r求和,得(4-49)设RN4,则n取不同值时有555657式中,W(ej0)/R为常系数。上面只是证明了y(n)正比于x(n)

24、,实际上求y(n)时仍要用不难证明,如果w(n)的傅立叶变换频带受限,同时设Xn(ejk)在时间上被正确取样,即R选得足够小以避免混叠,则不论n为何值均满足(4-52)因此式(4-50)变为(4-53)即先将Xn(ej)在频域上离散化为Xn(ejk),再对其进行周期为R的取样,得到,再由上式用快速傅立叶反变换求出yr(n),最后在长度为N的范围内对r求和后得到y(n)。58滤波器组求和法与快速傅立叶变换求和法之间存在着对偶性,即一个与频率取样有关,而另一个却与时间取样有关。滤波器组求和法所要求的频率取样率应能使窗变换满足下面的关系 而快速傅立叶变换求和法要求时间取样应选得使窗满足以下关系 (4

25、-54a)与(4-54b)具有对偶关系。而当Xn(ej)发生变形时(例如传输过程中有噪声,相当于增加一项 En(ej)),滤波器组求和法将比较优越,因为它对噪声的敏感性较小。(4-54a)(4-54b)5960下面给出短时综合的叠接相加法的MATLAB程序实现的运行结果61n语音的时域分析和频域分析是语音分析的两种重要方法。q这两种方法均有局限性:q时域分析对语音信号的频率特性没有直观的了解;q频域特性中又没有语音信号随时间的变化关系。n时间依赖于傅里叶分析的显示图形称为语谱图。q语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的优点,明显地显示出语音频谱随时间的变化情

26、况。4.5 语谱图62n语谱图实际上是一种动态的频谱。q语谱图的纵轴为频率,横轴为时间。任一给定频率成分在给定时刻的强弱用点的黑白度来表示,频谱值大则记录得浓黑一些,反之则浅淡一些。n用语谱图分析语音又称为语谱分析,记录语谱图的仪器就是语谱仪。q语谱仪实际上是使一个带通滤滤器的中心频率发生连续变化,来进行语音的频率分析。q带通滤波器有两种带宽:窄带为45 Hz,宽带为300 Hz。窄带语谱图有良好的频率分辨率及较差的时间分辨率;而宽带语谱图具有良好的时间分辨率及较差的频率分辨率。q窄带语谱图中的时间座标方向表示的是基音及其各次谐波;而宽带语谱图给出语音的共振峰频率及清辅音的能量汇集区;这里,共

27、振峰呈现为黑色的条纹。4.5 语谱图63n所有元音的特征都是强度变化的规则的垂直条纹。q条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。q条纹越密表示基音频率越高,例如“Ten”中的音;而基音周期在“the”字中e音时达到最大。4.5 语谱图 ten above in the suburbs64n声道的共振峰表示基音脉冲的某些频率成分被加强,这在语谱图上呈现为条纹区更宽更黑。q摩擦音如、呈现不规则的条纹,主要在2.5 kHz以上;这些条纹表示存在宽带噪声。“suburbs”开始的s音明显表示它有最大的能量和最高的频率成分,而结尾部分的的能量和频率仅次于s。4.5 语谱图65语谱图

28、This is a test 参数Digital Speech Spectrograms Speech Parameters(“This is a test”):sampling rate:16 kHz speech duration:1.406 seconds speaker:male Wideband Spectrogram Parameters:analysis window:Hamming window analysis window duration:6 msec(96 samples)analysis window shift:0.625 msec(10 samples)FFT size:512 dynamic range of spectral log magnitudes:40 dB Narrowband Spectrogram Parameters:analysis window:Hamming window analysis window duration:60 msec(960 samples)analysis window shift:6 msec(96 samples)FFT size:1024 dynamic range of spectral log magnitudes:40 dB66语谱图 This is a test67686970

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com