语音处理与语音识别简介ppt课件.ppt

上传人:飞****2 文档编号:92479919 上传时间:2023-06-05 格式:PPT 页数:34 大小:2.18MB
返回 下载 相关 举报
语音处理与语音识别简介ppt课件.ppt_第1页
第1页 / 共34页
语音处理与语音识别简介ppt课件.ppt_第2页
第2页 / 共34页
点击查看更多>>
资源描述

《语音处理与语音识别简介ppt课件.ppt》由会员分享,可在线阅读,更多相关《语音处理与语音识别简介ppt课件.ppt(34页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统语音处理与语音识别简介2014年9月1篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统主要内容主要内容数字音频基础知识音频处理基础知识语音识别技术简介2篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统主要内容主要内容数字音频基础知识数字音频基础知识音频处理基础知识语音识别技术简介3篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是

2、一种得分类型的系统 是指自然声是指自然声 是机械振动在弹性介质中传播的机械波是机械振动在弹性介质中传播的机械波 是随时间连续变化的物理量是随时间连续变化的物理量 声音概念声音概念 振幅振幅 波的高低幅度,表示声音的强弱波的高低幅度,表示声音的强弱 周期周期 两个相邻波之间的时间长度两个相邻波之间的时间长度 频率频率 每秒钟波振动的次数,单位是每秒钟波振动的次数,单位是 Hz 声音特性声音特性4篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统声音的强度声音的强度(响度或音量响度或音量),与声波振幅成,与声波振幅成正比;唱盘、正比;唱盘、

3、CD 盘等声音载体中的音强盘等声音载体中的音强不变,通过播放设备的音量控制可改变聆不变,通过播放设备的音量控制可改变聆听时强度;音频处理软件可提高声源音强听时强度;音频处理软件可提高声源音强声音的特色,主要影响因素是复音;复声音的特色,主要影响因素是复音;复音指具有不同频率和不同振幅的混合声音指具有不同频率和不同振幅的混合声音,其中最低频率是音,其中最低频率是“基音基音”,是声音的,是声音的基调,其他频率的声音为基调,其他频率的声音为“谐音谐音(泛音泛音)”代表声音的高低,与频率有关;使代表声音的高低,与频率有关;使用音频处理软件对声音的频率进行用音频处理软件对声音的频率进行调整时,其音调也会

4、随之发生变化调整时,其音调也会随之发生变化 声音的三要素声音的三要素 音调音调 (高低高低)音强音强 (强弱强弱)音色音色 (特质特质)5篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 声音的频率范围声音的频率范围6篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统数字音频数字音频声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连续变化的物理量表示,称之为模拟音频。续变化的物理量表示,称之为模拟音频。在计算机内

5、部,所有的信息均以数字表示,代表声音信号的物理量在计算机内部,所有的信息均以数字表示,代表声音信号的物理量也用一系列数字表示,称之为数字音频。也用一系列数字表示,称之为数字音频。模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时间上不具备连续性,因此只能是断续的。间上不具备连续性,因此只能是断续的。当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值,称之为波形上取一个电压幅度值,称之为采样采样采样采样。采样得到的表示声音强弱的模拟电压幅值是连

6、续的,把无穷多个电采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电压幅值用有限个数字表示,称之为压幅值用有限个数字表示,称之为量化量化量化量化。7篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 采样采样采样过程采样过程按固定间隔按固定间隔采样声音波形采样声音波形采样声音波采样声音波形之后的结果形之后的结果声波是连续信号,声波是连续信号,或称连续时间函数或称连续时间函数 x(t)。用计算机处理这些信号时应先用计算机处理这些信号时应先离散化,即按一定的时间间隔离散化,即按一定的时间间隔(T)取值,得到取值,得到 x(nT)(n

7、为整数为整数),T 称采样称采样周期,周期,1/T 称采样频率称采样频率(每秒钟采样次数每秒钟采样次数),x(nT)称采样值称采样值(或离散信号或离散信号)采样概念采样概念8篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统设连续信号设连续信号 x(t)的频谱为的频谱为 x(f),以采样间隔,以采样间隔 T 采样得到离散信号采样得到离散信号 x(nT)如果满足:当如果满足:当|f|fc(fc 是信号高端截止频率是信号高端截止频率)时,有时,有T 1/(2fc)或或 fc 1/(2T)则可由则可由 x(nT)完全确定完全确定 x(t)。当

8、当 fN=1/(2T)时,称时,称 fN 为奈奎斯特频率为奈奎斯特频率采样定理采样定理奈奈奎奎斯斯特特(Nyqust)采采样样定定理理:只只要要采采样样频频率率大大于于或或者者等等于于信信号号中中所所包包含含的的最最高高频频率率的的两两倍倍;即即当当信信号号是是最最高高频频率率时时,每每个个周周期期至至少少采采样样两两个个点,则理论上就可以完全恢复原来的信号。点,则理论上就可以完全恢复原来的信号。采样采样采样方法采样方法语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围内的信号感兴趣,就可以对经滤波限带的音频信号采样。这

9、样,在采样内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样前,用一个锐截止模拟低通滤波器对音频信号进行滤波。前,用一个锐截止模拟低通滤波器对音频信号进行滤波。9篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 量化量化通过采样得到的表示声音强弱的函数通过采样得到的表示声音强弱的函数 x(nT)是连续的,为把是连续的,为把 x(nT)存入计存入计算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合 x(nT)量化概念量化概念量化原理量化原理先将整个幅度划分成为

10、有限个小幅度先将整个幅度划分成为有限个小幅度(量化阶距量化阶距)的集合,把落入某个阶距的集合,把落入某个阶距内的样值归为一类,并赋予相同的量内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,称化值。如果量化值是均匀分布的,称为均匀量化。设为均匀量化。设 为量化阶距,量化为量化阶距,量化器最大范围是器最大范围是 Xmax,则:,则:=2Xmax/2B量化电压幅量化电压幅值之后的结果值之后的结果10篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 编码编码音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对音频模拟信

11、号经过采样与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程编码概念编码概念PCM 编码编码一种最方便简单的编码方法是脉冲编一种最方便简单的编码方法是脉冲编码调制,常称为码调制,常称为 PCM(Pulse CodeModulation)编码。是一种未经压缩编码。是一种未经压缩的数字音频信号,常作为一种参考信的数字音频信号,常作为一种参考信号,以便其他编码方法与之比较,或号,以便其他编码方法与之比较,或者在此基础上作进一步压缩编码处理者在此基础上作进一步压缩编码处理11篮球比赛是根

12、据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声 码码流流速速率率指指的的是是音音频频信信号号编编码码后后每每秒秒钟钟产产生生的的数数据据流流量量,以以kbit/s 为为单单位位表表示示,也也可可以以表表示示为为 kbps。例例如如对对普普通通模模拟拟话话音音用用 8kHz 的的频频率率采采样样并并以以 8 位位量量化化和和

13、编编码码,所所形形成成的的音音频频数数字字信信号号的码率便是的码率便是 64kbps。量量化化噪噪声声是是由由量量化化失失真真引引起起的的噪噪声声,通通常常表表示示为为量量化化后后的的音音频频信信号号噪噪声声比比,简简称称信信噪噪比比。每每增增加加 1 位位量量化化精精度度,信信噪噪比比即即提提高高 6db。例例如如在在高高保保真真音音响响系系统统中中,要要求求信信噪噪比比大大于于 90db,则则量化精度必须在量化精度必须在 16 位以上。位以上。编码编码12篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 声道声道声道声道(Soun

14、d Channel)(Sound Channel)是指声音在录制或播放时在不同空间位置采集或回是指声音在录制或播放时在不同空间位置采集或回是指声音在录制或播放时在不同空间位置采集或回是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。回放时相应的扬声器数量。回放时相应的扬声器数量。回放时相应的扬声器数量。单单声声道道(mono):只只

15、有有一一个个声声道道。普普通通的的单单声声道道录录放放系系统统使使用用一一只只话话筒筒录录音音,信信号号录录在在一一条条轨轨迹迹上上,放放音音时时使使用用一一路路放放大大器器和和一一只只扬扬声声器器,所所以以重重放放出出来来的的声声音是一个点声源。音是一个点声源。声道声道 立立体体声声(stereo):有有两两个个声声道道。在在录录制制声声音音时时,在在不不同同的的位位置置用用两两只只话话筒筒进进行行录录音音,而而在在重重放放时时则则使使用用两两路路独独立立的的放放大大器器和和两两个个扬扬声声器器,从从而而使使听听者者可可以以较较准准确确地地判判断断出出录录音音中中不不同同音音源源的的准准确确

16、位置。位置。13篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统14篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统l WAV为微软公司(为微软公司(Microsoft)开发的一种声音文件格式开发的一种声音文件格式非压缩,直接存储(采样、量化、非压缩,直接存储(采样、量化、PCM编码后的)原始数据;编码后的)原始数据;如如 果采样率高,其音质极佳;果采样率高,其音质极佳;数据量大,与采样频率、量化位数、声道数成正比。数据量大,与采样频率、量化位数、声道数成正比。波形音频文件(

17、波形音频文件(WAV)数字音频文件格式数字音频文件格式15篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统16篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 Windows PCM WAV文件头格式文件头格式偏移地址大小字节数据块类型内容00H03H44字符资源交换文件标志(RIFF)04H07H4长整数从下个地址开始到文件尾的总字节数08H0BH44字符WAV文件标志(WAVE)0CH0FH44字符波形格式标志(fmt),最后一位空格。10H13H4整数过滤字节(一般为0

18、0000010H)14H15H2整数格式种类(值为1时,表示数据为线性PCM编码)16H17H2整数通道数,单声道为1,双声道为218H1BH4长整数采样频率1CH1FH4长整数波形数据传输速率(每秒平均字节数)20H21H2整数DATA数据块长度,字节。22H23H2整数PCM位宽24H27H44字符数据标志符(data)28H2BH4长整型DATA总数据长度字节17篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 Windows PCM WAV文件头格式文件头格式18篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此

19、,篮球比赛的计时计分系统是一种得分类型的系统主要内容主要内容数字音频基础知识音频处理基础知识音频处理基础知识语音识别技术简介19篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统l 在音频信息处理领域,在音频信息处理领域,特征提取特征提取是一个非常重要的问题。是一个非常重要的问题。l 特征提取的任务:特征提取的任务:从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原又能表征相同音频内容不同样本之间的声学

20、相似性的信息,同时减少原始信号的信息冗余。始信号的信息冗余。音频特征提取音频特征提取20篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统l 时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有 相对的稳定性。相对的稳定性。l 因此在对其进行分析时,可以假定语音信号在一个因此在对其进行分析时,可以假定语音信号在一个时间帧(时间帧(frame)内是平稳的。通常一帧在内是平稳的。通常一帧在1030ms之间,视实际情况而定,而且分帧可连续,之间,视实际情况而定,而且分帧可

21、连续,也可采用交叠分段的方法。也可采用交叠分段的方法。分帧分帧10ms25ms10ms25ms21篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统l 短时能量(短时能量(STE:Short Time Energy)是一帧的总能量)是一帧的总能量l 短时能量说明了音频信号的强度,可用于静音的检测。短时能量说明了音频信号的强度,可用于静音的检测。例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值低于一个事先设定的阈值,则可判定该短时帧为静音。低于一个事先

22、设定的阈值,则可判定该短时帧为静音。l对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一条曲线,我们将该曲线称为能量包络(条曲线,我们将该曲线称为能量包络(Energy Envelop)曲线。)曲线。短时能量短时能量22篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统l MFCC全称为美尔频标倒谱系统(全称为美尔频标倒谱系统(Mel-Frequency Cepstral Coefficients),是语音处理中常用的特征。),是语音处理中常用的特征。l MF

23、CC正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行其频域进行Mel尺度变换,以更符合人类的听觉特征。尺度变换,以更符合人类的听觉特征。MFCC23篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统主要内容主要内容数字音频基础知识音频处理基础知识语音识别技术简介语音识别技术简介24篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统根据处理的语音数据和识别结果分类连续语音识别(Continuous Speec

24、h Recognition)孤立词识别(Isolate Word Recognition)关键词检测(Key Word Recognition,Key Word Spotting)根据针对的发音人分类特定人语音识别(SD:Speaker Dependent)非特定人语音识别(SI:Speaker Independent)6/5/202325篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统特征提取特征提取语言模型语言模型自适应自适应第一遍第一遍识别识别声学模型声学模型前端处理前端处理第第n遍遍识别识别语音识别结果识别结果系统框架6/5/

25、202326篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统前端处理消除个体的影响声道长度归一(VTN:Vocal Tract Length Normalization)端点检测短时能量高阶谱算法子带能量语音增强(去噪)维纳滤波6/5/202327篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统FFT频谱频谱LogDCT39维声学特征向量维声学特征向量美标度三角滤波器组美标度三角滤波器组倒谱均值减倒谱均值减6/5/202328篮球比赛是根据运动队在规定的比赛时间里得分多少来决

26、定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统声学模型确定发音串P(O|A)主流方法CHMMHMM的单元:三音子(Tri-Phone)注:Phone(Phoneme):音子,b,t,a Syllable:音节,ba,ti,tao Bi-Phone:二音子,b-a-t-a,b-a-t-a Tri-Phone:三音子 w-o-sh-i-sh-u-i,w-o-sh-i-sh-u-i6/5/202329篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统语言模型已知发音串写出词串P(S|LP)P(P|L)P(L|W)P(W|A)P(A

27、)其中,W是字串,A是读音串,L是词串,P是词性串,S是词义串主流方法三元语法:n-gram6/5/202330篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统搜索(解码)识别的主要过程通过搜索找到某一概率(P(W))最大化的字串W主流方法Viterbi搜索:HMM内部词网格搜索:HMM之间6/5/202331篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统说话人自适应根据新的语音重新调整模型参数特定人和非特定人之间的一种折衷主流方法MLLR(最大似然线性回归)对模型参数寻找一个最优线性变换y=Ax+bMAP(最大后验概率)求使得后验概率最大的参数max P(|x)6/5/202332篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统声学模型调整HMM参数带噪声训练方言库训练语言模型计算N-gram概率数据稀疏问题6/5/202333篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统谢谢!34

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com