声音探伤.ppt-得力文库

资源描述

《声音探伤.ppt》由会员分享，可在线阅读，更多相关《声音探伤.ppt（40页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、运用呼吸系统发出的声音决定呼吸系统状况的方法与装置专利介绍装置构成v1、格式化格式化该声音的数字信号为至少一个区块的装置;v2、从该声音的格式化的数字信号来计算一参数计算一参数的装置;v3、利用隐藏马氏链来计算该参考模块参考模块的装置;v4、以计算在该参数与参考模块之间的相似度相似度，来比较该参数与该代表呼吸系统已知状况的参考模块的装置;v5利用该参数与该参考模块间的相似度，决定该参数是否与该参考模块一致，并做出正确正确选择选择的模块。详细步骤v1、接收表示呼吸系统声音的声音信号v2、将该声音信号转换为数字信号v2.1、格式化该数字信号为至少一个区块，该区块由大概25毫秒的数字数毫秒的数字数据

2、与大概据与大概10毫秒的重叠数据毫秒的重叠数据所组成v3、从该声音的格式化的数字信号来计算该参数v3.1、从该数字信号计算MFCC系数v3.1.1、使用一FFT转换v3.2、计算约39个参数个参数v4、利用一维ViterbiDecoder来计算该参数与参考模块间的相似度v5、提供一个该呼吸系统的已知状况为输出v6、利用HMM来计算该参考模块v7、储存储存与该呼吸系统已知状况相对应的参考模块于一储存装置中诊断疾病明细输入与AD转换v输入包括一个麦克风麦克风vAD转换模块接收该模拟声音信号，对该接收到的模拟声音信号进行取样，并且将该模拟声音信号转换为数字信号。v在一个示范的实例中，该AD模块以大

3、约每秒大约每秒16000个取样个取样的取样率对模拟声音信号进行了20秒的取样秒的取样。产生了一组足够铸出正确分析的数字信号。然而，品质差的模拟声音信号可能需要更多的数字信号。v对于该数字信号进行了处理，即将该数字信号切割成一连串的区块，每一个区块期间为区块期间为25ms，在连串区块间插有10ms的重叠数据的重叠数据以提供流畅的数据提供流畅的数据形态形态。求取声音数字信号参数MFCC(Mel-Frequency Cepstrum Coefficient)vMFCC：Mel频率倒谱系数。vMel频率是基于人耳听觉特人耳听觉特性性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)

4、则是利用它们之间的这种关系，计算得到的Hz频谱特征。v功率谱的对数值的逆傅氏变换称为倒谱倒谱计算与参考模块的相似度Viterbi DecodervViterbi算法是一种最大最大似然译码算法似然译码算法。vViterbi算法的基本思路是：以断续的接收码流断续的接收码流为基础，逐个计算它与其他所有可能出现的、连续的格状图路径的距距离离，选出其中可能性(概率)最大的一条作为译码估值输出计算、学习、训练参考模块 HMM(Hidden Markov Model)v隐马尔可夫模型是一个二重马尔可夫随机过程，包括具有状态转移概率状态转移概率的马尔可夫链和输出观测值的一般随机过程一般随机过程，其状态只有通

5、过观测序列的随机过程才能表现出来。v一个HMM 包含两层：一个可观察层可观察层和一个隐藏层隐藏层。得出诊断结果语音特征提取v特征提取就是指从说话人的语音信号中获得一组能够描述语音信号特征参数的过程。v通过不断的实验和探索，人们发现语音信号是声道频率特性声道频率特性和激励信号源激励信号源两者的共同结果，后者对于某一信号来说常带有一定的随机性随机性，而说话人的个性特征在很大程度上取决于说话人的发音声v因此，音特征参数可以是能量、共振峰值、基音频率能量、共振峰值、基音频率等语音参数目前，在语音识别中较为常用的特征参数为MEL倒谱系数MFCC与线性预测倒谱系数LPCC，两者都是将语音从时域变换到倒谱

6、域倒谱域上，前者构造人的听觉模型听觉模型，以语音通过滤波器组的输出为声学特征，直接通过离散傅立叶变换(DFT)进行变换；后者从人的发声模型发声模型角度出发，利用线性预测编码(LPC)技术求倒谱系数vMFCC的分析符合人类的听觉特性，人耳具有一些特殊的功能，能在嘈杂的环境中以及各种异变情况下分辨出各种语音，其中耳蜗耳蜗起了关键作用 v耳蜗实质上就相当于是一个滤波器组，耳蜗滤波作用是在对数频率尺度上进行的，1 000 Hz以下是线性尺度，以下是线性尺度，1 000 Hz以上是对数尺度以上是对数尺度，这就使人耳对高频敏感根据这一原则研究了一组类似于人耳蜗作用的滤波器即Mel频率滤波器vMFCC是使用

7、傅立叶分析提取傅立叶分析提取的语音特征参数，是类似于指数的形式，它和实际频域之间的关系见下式v v 1 2v式中，Fmel是以MEL为单位的感知频域，FHz是以Hz为单位的实际频域将语音信号的频谱变换到感知频域中，能更好地进行模拟听觉过程的处理vMFCC和LPCC特征参数在说话人识别中的研究1vSpeech Production Based on the Mel-Frequency Cepstral Coefficients2MFCCMFCC分析v不同三角滤波器的实现原理图。v该过滤器或是均匀分布在变形的Mel频率谱上，其优点是：下述三角滤波器都具有相同的形状，可放置在Mel-warped s

8、pectrum均匀。另一方面，离散化可能会由于过大的功率谱动态范围是特别困难。v或是非均匀的分布在原来的频谱上。但过滤器就可能不是三角形和对称的了，而是弯的。v如果使用余弦形过滤器，我们有时会看到更低的词错误率 vComputing Mel-frequency cepstral coefficients on the power spectrumv预加重预加重：通过一个一阶有限激励响应高通滤波器一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响。预加重用于消除唇辐射的影响和声门效应，进行高频提升高频提升。v分帧：根据语音的短时平稳特性，语音可以以帧为单位进行处理，实验

9、中选取的语音帧长为25ms，帧叠为10ms。v加窗加窗：采用hamming窗窗对一帧语音加窗，以减小吉布斯效应的影响。v快速傅立叶变换快速傅立叶变换(Fast Fourier Transformation,FFT)：将时域信号变换成为信号的功率谱功率谱。v三角窗滤波三角窗滤波：用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器)，对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽模拟人耳的掩蔽效应效应。v求对数求对数：对三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果。v离散余弦变换离散余弦变换(Discrete Cosine

10、 Transformation,DCT)：去除各维信号之间的相关性，将信号映射到低维空间。v倒谱均值减倒谱均值减(Cepstrum Mean Subtraction,CMS)：CMS可以有效地减小语音输入信道对特征参数的影响。v差分参数差分参数：大量实验表明，在语音特征中加入表表征语音动态特性征语音动态特性的差分参数，能够提高系统的识别性能。v线性鉴别分析(linearity distinction analysis)注释v吉布斯效应吉布斯效应(Gibbs effect)将具有不连续点的周期函数（如矩形脉冲)进行傅立叶级数展开后，选取有限项进行合成。当选取的项数越多，在所合成的波形中出现的峰起

11、越靠近原信号的不连续点。当选取的项数很大时，该峰起值趋于一个常数，大约等于总跳变值的9%。这种现象称为吉布斯效应。vDCT 离散余弦变换离散余弦变换（Discrete Cosine Transform，简称DCT变换）是一种与傅立叶变换紧密相关的数学运算。在傅立叶级数展开式中，如果被展开的函数是实偶函数，那么其傅立叶级数中只包含余弦项，再将其离散化可导出余弦变换，因此称之为离散余弦变换。基于乘积基于乘积HMM的双模态语音识别方法的双模态语音识别方法基于基于FMFCC和和HMM的说话人识别的说话人识别MFCC分析v人耳可听频率范围是20Hz到到20KHz.vMFCC因为采取的是对数转换，所以在高

12、频段容易造成较严重的失真，一般采用低频低频MFCC，忽略中高频MFCCLSP算法分析v线谱对线谱对(LSP:line spectrum pairs)参数由于其良好的内插特内插特性和量化特性性和量化特性,广泛应用于语音编码、语音识别等领域.多种窄带低码率声码器均采用10 阶线谱对参数作为编码参数.v计算线谱对参数的方法有很多种,有些方法在域域进行,有些在x 域域进行.但现有的算法中,绝大多数方法为了保证足够高足够高的精度的精度,造成计算方法复杂、计算量大计算方法复杂、计算量大,实际应用中对实时处理的影响较大.v针对该问题,本文结合实根埃特金迭代法实根埃特金迭代法和多项式综合除法多项式综合除法在x

13、域求取LSP 参数,首先利用埃特金迭代法求x=(x)的一个实数根,再采用多项式综合除法降阶,最后运用费拉里算法费拉里算法求解一元四次方程的根,即可得到LSP 系数.理论分析和实验结果表明,本文提出的方法APF(Aitken iterative with polynomial synthesis division and Ferraris solution)能够有效、快速地计算LSP 参数,并且在精度提高1 000倍的情况下,计算量增加得很少.v一种语音信号线谱对参数的优化算法一种语音信号线谱对参数的优化算法LSP 线性频谱对(Line Spectrum Sairs)v线谱对(LSP)的属性。

14、v当P(z)的和Q(z)的根是交错并当且仅当根是单调递增单调递增的时候，滤波器是稳定滤波器是稳定的。此外，两个根越近，过滤器在相应的频率谐振越发明显。因为LSP对于噪声的量化并不敏感对于噪声的量化并不敏感，稳定性是很容易保证，LSP被广泛用于LPC滤波器量化。线谱频率(LSF)可以进行插值运算。LSP 线性频谱对(Line Spectrum Sairs)PLP知觉性线性预测(Perceptual Linear Predictive)v知觉性线性预测(PLP)技术作为一项语音分析的新技术，在提出的已经得到实践审查。v这种技术采用来自听觉系统的精神物理学中的三个概念来估计语音频谱。v(1)关键波段

15、光谱分辨率关键波段光谱分辨率，v(2)平等响度曲线平等响度曲线，v(3)强度响度功率法则强度响度功率法则。v它先对语音信号的频谱进行一系列的修正，由一个自回归全极点模型自回归全极点模型来近似语音频谱。v五阶的全极点模型五阶的全极点模型有利于抑制语音频谱有关细节对于扬声器的依赖。与传统的线性预测(LP)的分析比较，PLP的分析更符合人类的听觉，具有极高的一致性。有效的第二共振峰第二共振峰F2和3.5巴克谱峰巴克谱峰的元音知觉融合理论都有很好的应用。vPLP的分析计算有较高的效率并产生低维的语音表示。这些特性多被用于不依赖扬声器的自动语音识别。vPerceptual linear predicti

16、ve(PLP)analysis of speechPLP分析v提取PLP特征时，语音信号的频谱通常先进行傅立叶变换傅立叶变换，然后再在频域上应用Bark频率频率上均匀分布的滤波器组来得到仿人类听觉特性的频谱分辨率v这样处理的缺点在于，由于傅立叶变换的频率分辨率在0，2pi上是均匀的，当傅立叶变换的点数不够多时，可能会造成低频部分滤波器组包含的频率信息不够充分，从而影响识别的效果这个现象在相似音的识别中更为明显v基于此，我们采用WDFT根据人类的听觉特性对频谱选择进行改进，选择合适的翘曲参数来拟合频域上非均匀分布的滤波器组，使全通变换前后频率之间的非线形关系和BarkHz之间的非线形关系趋于一致

17、临界带域中的单位精度Bark和频域中的单位精度Hz的转换关系式为v 频率轴转换到bark频率轴 v基于WDFT的语音PLP特征提取算法注释v翘曲离散傅立叶变换v(Wrapped Discrete Fourier Transform，WDFT)是非均匀DFT较为简便的一种它通过应用全通变换翘曲频率轴全通变换翘曲频率轴来改变频点位置，使得在翘曲频率轴上均匀分布的频点等同于原频率轴上非均匀分布的频点，由此实现在单位圆上非均匀的频率采样通过择翘曲参数，能在不增加DFT长度N 的条件下，将选定频率范围内采样点之间距离拉近，从而得到更高的精度v传统的傅立叶变换在0，2pi的频率范围上只能提供按2pi/N等

18、分的固定频率分辨率，因此在一些需要非均匀频率分辨率的应用中，其性能并不理想。LPCC线性预测倒谱系数(Linear Prediction Cepstrum Coefficient)v线性预测倒谱系数LPCC在语音识别系统中，通常使用由LPC系数推导出另一种参数，LPCC作为特征参数倒谱倒谱实际上是一种同态信号处理方法，标准的倒谱系数计算流程需要进行FFT变换、对数操变换、对数操作作和相位校正相位校正等运算，运算比较复杂v在实际计算中，当序列x(n)为最小相位的情况下，可以利用序列x(n)及其复倒谱系数C(n)的递推关系来简化计算MFCC与PLCC的比较v(1)MFCC参数将线性频标转化为ME

19、L频标频标，强调语音的低频信息低频信息，从而突出了有利于识别的信息，屏蔽了噪声的干扰屏蔽了噪声的干扰 LPCC参数是基于线性频标线性频标的，它在所有的频率上都是线性的逼近语音，而这与人的听觉特性是不一致的，而且LPCC包含了语音高频部分的大部分噪音细节，这些都会影响系统的性能v(2)MFCC参数无任何前提假设无任何前提假设，在各种情况下均可使用而LPCC参数假定所处理的信号为AR信号信号，对于动态特性动态特性较强的辅音辅音，这个假设并不严格成立另外，当噪声存在时，AR信号会变为ARMA信号信号：vAuto-Regressive and Moving Average Model自回归模型/滑动平

20、均模型 v其中，H(w)为受噪声污染的信号功率谱信号功率谱，n0为噪声功率，这会给LPC分析的结果带来较大误差因此，对于语音的低频部分MFCC参数的抗噪声能力抗噪声能力优于LPCC参数v(3)LPCC参数也继承了LPC的优点，保证了系统的稳定性，并且对元音元音有较好的描述能力，但对辅音的描述能力比较差；而MFCC是采用滤波器组的方法计算出来的，所以具有良好的识别性能v对于低频语音的识别部分，采用MFCC特征参数在屏蔽噪音和抗噪声两方面的能力都优于采用LPCC特征参数的说话人识别，所以在传统的说话人识别系统中多数都会采用MFCC作为语音特征vMFCC和LPCC特征参数在说话人识别中的研究SBC次

21、频带编码(Sub Band Codec)vSBC能在中等比特率下中等比特率下传输高质量音频数据的音频编解码算法。编码和解码算法采用余弦变换滤波器进行子带分解和综合子带分解和综合，子带信号采用动态比特分配的方法进行量化。vSBC由于其固有的分层性可十分方便地用于实现变速率语音编码变速率语音编码。而SBC方案由分带引入的附加时延时延可通过采用IIR 型分带滤波器得到部分克服。v根据语音分布特点，其主要能量集中在低频部分能量集中在低频部分，因此基带(即对应原语音。0-1kHz频率范围)最重要。事实上，我们在实验中发现，即使仅有这一带，只要讲话速度不太快，已可达相当的可懂度与自然度。所以我们应将有限的

22、比特率优先分配给基带。v将声音数字信号抽样后产生两个子带信号，对这两个子带信号再做一次分带，即得到等问隔划分的四个子带语音信号。或者更多的sub band。v有设计模型的子带涉及几个问题：v1)定义频率子带，v2)在每个子带使用的数字特征，v3)信息应该在哪些时间单元合并，v4)合并技术。SBC次频带编码(Sub Band Codec)vsimple static cubic-root compressed short-term critical-band power spectrum energies as the sub-band features for most of the isol

23、ated digit experimentsv我们用简单的静态立方根压缩短期关键频段功率谱能量作为每个sub band的数字特征vSub-band based recognition of noisy speechViterbi Decoder维特比解码器vViterbi算法是一种最大似然译码算法最大似然译码算法它并不是在网格图上一次比较所有可能的2条路径(序列)，而是接收一段，计算、比较一段，选择一段最有可能的码段(分支)，从而达到整个码序列是一个有最大似然函数的序列 vViterbi算法的基本思路是：以断续的接收码流断续的接收码流为基础，逐个计算它与其他所有可能出现的、连续的格状图路径的距

24、离，选出其中可能性(概率)最大的一条作为译码估值输出v从时间单位m至L，网格图中2mk个状态中的每一个有一条幸存路径，共有2mk条但在L+m时间单位后，网格上的状态数目减少，幸存路径也相应减少最后到第L+m单位时间，网格图上的状态数目减少，因此仅剩下一条幸存路径这条路径就是要找的具有最大似然函数的路径，也就是译码器输出的估值序列vViterbi Decoder就在网格图上得到一条最大似然路径。vViterbi译码算法改进Viterbi Decoder维特比解码器DTW动态时间归整法(Dynamic Time Warping)v在孤立词语音识别中，最为简单有效的方法是采用DTW(Dynamic

25、Time Warping，动态时间归整)算法，该算法基于动态规划动态规划(DP)的思想，解决了发音发音长短不一的模板匹配长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。v用于孤立词识别孤立词识别，DTW算法在训练阶段需要提供大量的语音数据，通过反复计算才能得到模型参数，而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中，DTW算法仍然得到广泛的应用。v对于单个词汇的识别，DTW显然就是一个好的选择。v参考模板可表示为vR=R(1),R(2),R(m),R(M)v测试模板可表示为vT=T(1),T(2),T(n),T(N)v参考模板与测试模板一般采用相同类型的特征

26、矢量（如MFCC，LPC系数）、相同的帧长、相同的窗函数和相同的帧移。v采用动态规划（动态规划（DP）的方法 v把测试模板的各个帧号n=1N在一个二维直角坐标系中的横轴上标出，把参考模板的各帧号m=1M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络，网络中的每一个交叉点（n，m）表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径，路径通过的格点即为测试和参考模板中进行计算的帧号。v为了使路径不至于过倾斜，可以约束斜率约束斜率在0.52的范围内 DTW动态时间归整法(Dynamic Time Warping)VQ矢量量化（Vector Qu

27、antization）v矢量量化（VQ Vector Quantization）是70年代后期发展起来的一种数据压缩技术基本思想：将若干个标量数据组构将若干个标量数据组构成一个矢量，然后在矢量空间给以整体量化成一个矢量，然后在矢量空间给以整体量化，从而压缩了数据而不损失多少信息矢量量化编码也是在图像、语音信号编码技术中研究得较多的新型量化编码方法，它的出现并不仅仅是作为量化器设计而提出的，更多的是将它作为压缩编码压缩编码方法方法来研究的。在传统的预测和变换编码中，首先将信号经某种映射变换变成一个数的序列，然后对其一个一个地进行标量量化编码。而在矢量量化编码中，则是把输入数据几个一组地分成许多组

28、，成组地量化编码，即将这些数看成一个k维矢量，然后以矢量为单位逐个矢量进行量化。矢量量化是一种限失真编码，其原理仍可用信息论中的率失真函数率失真函数理论来分析。而率失真理论指出，即使对无记忆信源，矢量量化编码也总是优于标量量化。hwkk=w*hii原始数据码字(code-word)码本(code-book)(索引表)压缩数据寻找最近的码字矢量量化就是把一个k维输入矢量x映射为另一个k维量化矢量即VQ矢量量化（Vector Quantization）v在矢量量化编码中，关键是码本的建立码本的建立和码字搜索算法码字搜索算法。v码本的生成算法有两种类型，一种是已知信源分布特性的设计算法；另一种是

29、未知信源分布。v码字搜索是矢量量化中的一个最基本问题，矢量量化过程本身实际上就是一个搜索过程，即搜索出与输入最为匹配的码矢。矢量量化中最常用的搜索方法是全搜索算法全搜索算法和树搜索算法树搜索算法。VQ矢量量化（Vector Quantization）VQ码字搜索方法v全搜索矢量量化器v定义：将输入矢量与码书中的每一个码字每一个码字进行比较，根据所选择的失真测度寻找失真最小的码字作为重构矢量v树搜索矢量量化器v定义：逐步求近似逐步求近似的过程，中间的码字是起指引路线的作用。v树搜索VQ是以提高空间复杂度换空间复杂度换取时间复杂度的降低取时间复杂度的降低，性能次于全搜索VQHMM隐性马氏链（Hi

30、dden Markov Model）v隐马尔可夫模型是一个二重马尔可夫随机过程，包括具有状态转移概率状态转移概率的马尔可夫链和输出观测值的一般随机过程一般随机过程，其状态只有通过观测序列的随机过程才能表现出来。v一个HMM 包含两层：一个可观察层可观察层和一个隐藏层隐藏层。v可观察层是待识别的观察序列，隐藏层是一个马尔可夫过程，即一个有限状态机，其中每个状态转移都带有转移概率。一阶隐马尔可夫模型做了如下两个重要假设两个重要假设：其前提对于一个随机事件，有一个观察值序列O=v1,v2,vm，该事件隐含着一个状态序列S=s1,s2,sn。v假设假设1：t时刻的状态q，向t+1时刻的状态qt+1转移

31、的概率仅仅与qt 有关，而与以往任何时刻的状态无关，即隐藏的状态序列构成一阶马尔可夫链，v假设假设2：在t时刻输出观测值ot的概率，只取决于当前时刻t所处的状态qt,而与其他的状态无关vHMM在自然语言处理领域中的应用研究在自然语言处理领域中的应用研究 HMM隐性马氏链（Hidden Markov Model）vHMM可以用3元组来表示：=(A,B,)，其中A是状态Si到Sj的转移概率矩阵，B是状态的观察输出概率密度，是状态的初始分布概率。vHMM需要研究的3个基本问题是：v1)评估问题评估问题：给定观察值序列和模型参数，即给定模型和观察值序列，求从模型生成观察值序列的概率P。v另：已知HMM

32、模型的各参数，求某一观察序列O在该模型下的极大似然率，即：O=O1Ot，t为观察序列长度；v2)解码问题解码问题：给定观察值序列和模型参数，求最可能的状态序列。v另：在给定的HMM模型的条件下，求观察序列O最有可能历经的状态序列s；v3)学习问题学习问题：对于给定的观察值序列，如何调整模型参数，使得观察值出现的概率P最大。v另：在已知样本集合的条件下，如何根据样本集合训练模型并获得模型参数。v问题1可以由前向或者后向算法解决，问题2是典型的状态空间搜索问题，经典的算法有基于动态规划的Viterbi算法,，问题3是统计学习过程，其学习算法有Baum-Welch算法、梯度算法、Maximum

33、Likelihood算法等.v基于FMFCC和HMM的说话人识别 HMM在自然语言处理领域中的应用研究HMM解决问题的基本步骤vHMM在自然语言处理领域中的应用研究HMM分析vHMM处理新的数据具有很好的鲁棒性鲁棒性，并且有一套成熟的算法成熟的算法。隐马尔可夫模型的优点是它有强壮的概率统计概率统计作为基础vHMM有个明显的缺点就是模型的建立比较困难模型的建立比较困难。而模型的构建恰是使用HMM的关键步骤。vHMM也不是一个非常完美的模型，由于HMM是在假设的前提下成立的，这与实际情况并不相符v多阶的HMM 方法DTW与HMM的比较v目前,语音识别的匹配主要应用HMM和DTW两种算法。vDTW算法由于没有一个有效地用统计方法进行训练的框架，也不容易将低层和顶层的各种知识用到语音识别算法中，因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。vHMM是一种用参数表示的,用于描述随机过程统计特性的概率模型。而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大,又由于DTW算法本身既简单又有效，但HMM算法要复杂得多。它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。注释v欧氏距离(适于短时谱或倒谱参数)，也可以用对数似然比距离(适于参数)

展开阅读全文