语音识别技术的关键问题研究.docx

上传人:88****9 文档编号:12762 上传时间:2017-10-25 格式:DOCX 页数:59 大小:719.12KB
返回 下载 相关 举报
语音识别技术的关键问题研究.docx_第1页
第1页 / 共59页
语音识别技术的关键问题研究.docx_第2页
第2页 / 共59页
点击查看更多>>
资源描述

《语音识别技术的关键问题研究.docx》由会员分享,可在线阅读,更多相关《语音识别技术的关键问题研究.docx(59页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 学位论文原创性声明 本人声明所呈交的学位论文是我在导师的指导下进行研宂工作所取得的研宄 成果。尽我所知,除文中已经注明引用的内容和致谢的地方外,本论文不包含其 他个人或集体已经发表或撰写过的研宄成果,也不包含本人或他人已申请学位或 其他用途使用过的成果。对本文的研宄做出重要贡献的个人和集体,均己在文中 作了明确说明并表示谢意。 本学位论文若有不实或者侵犯他人权利的,本人愿意承担一切相关的法律责 任。 作者签名: 曰 期 : 年 0 (-l,x() 对于随机或周期性信号的定义描述为: (4.11) R(k) = X! x(m)x(m+k) (4.12) 根据公式的表达,我们可以看到语音信号的延

2、迟 A点的信号与原来的信号的 相似性。自相关函数是一种便利的信号特征描述方法。自相关函数具有以下性质: )如果语音信号是周期性信号,自相关函数也为周期性,且同周期。 2)自相关 函数为偶函数时,语音信号和自身自相关性最大时欠 = ,且函数值是确定信号的 能量或随机信号的平均功率。 因而,对于自相关函数来说,相当于特殊情况下的能量,自相关函数也提供 了周期获取的方法。因此,在周期信号的整数倍上的自相关函数的值是最大的, 可以通过第一个最大值的位置来估计信号的周期。因而在语音信号的处理中使用 自相关函数来获得短时自相关 函数是非常有用的。 4.2.6端点检测 无论是孤立词的识别系统还是连续词的识别

3、系统都要进行语音的分段来找出 24 第 4章语音识别的关键算法 语音段的开始和结束点,因而在语音信号样本获得之后,可使用短时能量和过零 率来进行端点的检测。 据语音的特性我们可以知道,连续的语音段中声和无声的部分可根据有声的 语音信号的能量值比较大而在无声的语音信号时的过零率比较高,因此可以使用 短时能量的方法来进行语音信号的端点的大致判断,再通过短时过零率找出相对 精确的位置从而获得对整体语音进行分段。端点检测可分为静音段、过渡段、语 音段和语音结束四个部分:在系统中,定义一个变量来保存当时的语音状态。静 音段时,当短时能量或者短时过零率超过所设定的门限 T时,变量标记为开始状 态;此时进入

4、到过渡段,由于参数的数值较小,无法判定是否己处于真正的语音 段,此时,若存在两个参数值都回到低门限时则可判定为信号仍为静音状态,若 有一个超出高门限就可以确认为语音段的开始;在语音信号的预处理阶段,有效 语音段截取和端点检测对于准确性在语音识别的准确率有很大的影响。 4.3语音信号的 特征参数 4.3.1线性预测编码 ( LPC) 线性预测编码 ( Linear Predictive Coding, LPC)是语音信号处理和分析的核心 技术,是低位速编码获得高质量的语音编码的重要方法,在推动现代语音信号的 处理发展中有着不可无视的低位。在当前的语音识别领域中有着广泛的应用,目 前仍占有一席之地

5、。线性预测分析在基音共振峰频谱声道截面积函数语音的参数 估计方面,是一种非常重要的技术手段 |34。 1) LPC模型 在现代谱估计的中,线性预测分析法作为一种参数模型法被广泛应用,在实 现过程中 ,一 般使用自回归 ( AR)模型、移动平均 ( MA)模型及自回归 -移动平 均 ( ARMA)模型这三种模型:其中 AR模型为全极点模型, MA模型是全零点模 型, ARMA模型则是混合模型。在语音数字信号的处理中,对于 AR模型的求解 过程是一组线性方程的正则方程,而 MA和 ARMA模型则是对非线性方程的求解。 同时, AR模型与基于级联无损声管的语音产生模型紧密相连,因而 AR模型在实 际

6、应用中使用广泛。在数字语言信号处理中,一个 p阶的 AR模型等效于一个; ? 阶的线性预测器。因此,目前对于 AR模型的求解及性能的讨论都是基于线性预测 25 陕西师范大学硕士学位论文 理论的。其基本思想是利用过去的若干样本来逼近当前的样本信号,使用最小均 方差逼近的来对模型的参数进行 估计。 2) 线性预测的基本原理 参数模型功率谱估计定义为:将语音信号 x), 当作输入序列 W()通过全极点 系统模型 /(z)后得到的输出。在图 4.6中: () - - 阶差分 - 图 4. 6语音信号的模型化 其 传 递 函 数 定 义 为 : Hz) = (4.13) G为增益常数,为实系数, p为模

7、型阶数。该模型是以系数和增益 G为模 型参数的全极点模型, AR模型。于是我们可以利用系数可定义一个 P阶线性 预测器 F(z), 其表达如下: (4,4) 因此,可用信号的前 P个样本来对当前样本的预测,表达如下: xn) = Yua: x (415) ; =1 由于 AR模型的系数 a,构造成现在的线性预测器 /-),从另一个角度来看, AR模型又是最小均方差上对数据的拟合,因而此时最佳的预测器就非线性预测器 F(z)莫属,其预测误差短时能量最小。 根据这一性质,线性预测分析从语音信号 x()出发,以最小均方误差准则取预 测一组线性预测器的系数沁 ,即 AR模型参数。而这些系数则被称为 L

8、PC系数。 在噪声情况下,信号不能达到全极点模型的要求,因此估计质量会有所下降,同 时低的信噪比也会导致线性预测频谱的畸变。 4.3.2 LPCC 线性预测倒谱参数 ( Linear Predictione Coeffieient, LPCC)是线性预测系 26 第 4章语音识别的关键算法 数 (LPC)在倒谱中的表示,该特征是基于语音信号为自回归信号的假设,利用线性 预测分析获得倒谱系数。 M。 说话者的语言发音必须遵守一定的发音规则才能让接受者完全的识别,因而 这个规则必须是一个固定的模式,而不是随机的发生,所以说语音的信号在发生 过程中可以认为是准稳定的。由于线性预测模型对于声管模型的具

9、有非常合适的 描述,因此全极点的LPC在语音识别中有很好的描述 .肺部气流引起的振动可以 作为信号的激励源;声带的振动与不振动则产生清音和浊音两种发音效果,在线 性预测模型中的极点则对应于相应的声管。一般来说,对于语音信号的完整描述 1216个极点数就足够了。因此一般的语音识别系统中, LPC系数取 12,这样既 可以降低语音信号的冗余又可以使得识别过程中的计算量和存储量减少。由于线 性预测系数可以准确地对语音谱进行估计,因此可以作为语音特征的重要参数 来 使用,在语音分析中具有重要的作用,为语音识别及语音压缩奠定了基础。 在实际的语音识别系统应用中, LPC系数很少被直接使用,而是采用其推导

10、 出的另一个参数来进行,这种参数称为线性预测倒谱系数 ( LPCC)。 倒谱是一种 同态信号处理方法,一般的标准倒谱需要使用 FFT计算、以及相位校正等一系列 的流程,其运算过程比较复杂。但由于其在识别中具有很好的识别效果,因此很 多的语音识别系统都采用倒谱参数作为语音的特征。 LPCC是描述说话者声道特性 的重要系数,在实际运算过程中,当序列 x()处于最小相位时,利用序列 x()及其 倒谱系数 c()的递推关系进行简化。递推关系: 0, ”0 (4.16) LPCC不是原始的语音信号序列 x()直接得到,而是通过 LPC系数如经过一 定的运算推导而来, LPC到 LPCC的推导关系如下:

11、c = l gG2 (4.17) ,lKHz, 使得 其中, _为滤波器的中心频率。 图 4. 8 Mel刻度滤波器 6)对各个频带能量进行计算并取的对数得到 : -i wy = , gio ?=/时,有限状态自动 陕西师范大学硕士学位论文 机所处的状态 xt只取决于它的前一个状态 XH, 与 /-I前的其他时刻的状态无关, 因此该有限状态机的状态序列构成一条离散时域的一阶马尔可夫链,进行修改如 下: P(x,x2,.,xr) = P(xl)fP(xl (4.32) 1=2 对于自动机在第一个状态时所处的状态则有初始的概率矢量 2, ., vN)所决定,其分量 表示为 A等于 &的概率: 71

12、丨 =Ix=Sl),l = U (4.33) 相邻的两个时刻中,前一时刻状态 &已知时,后一个状态的概率 &的概率可 以用一个维的 j = 来表不,即 fljfXn+ijlXnj),( /, y=l,2, .,A。 因此一 个离散一阶马尔科夫链的状态变化全过程可以使用一个初始状态和转移矩阵 d 来表不。 2) 隐马尔可夫模型 由于语音信息的复杂性,包含了音调、音量、语法等多种语音结构信息,在 使用马尔可夫链的方法对语音信号进行描述的时候,存在着一些不确定的因素: 如信号的时变规律无法确定,因此在模型和信号发生变化时不能根据时长来进行 同步。因此在此基础上,又提出了 HMM的方法。隐马尔可夫模型

13、既可以保证短 时信号平稳性的描述又能解决短时平稳信号的跳转问题。因而在语音识别的问题 中,隐马尔可夫模型以概论和统计范畴的理论的方法在识别短时平稳信号段的不 同参数和短时信号之间的跳转的跟踪问题上获得了巨大的成功。 隐马尔可夫模型是一种双随机过程,既可以描述非平稳状态的短时平稳特征 又可以解决短时信号的跳转的动态性特征,语言的表达过程中,也存在这样的随 机性。通过不断的实验过程,我们可以使用 HMM对语音信号的产生过程进行很 好的描述。 在任何时刻 f时,外部都无法对系统的状态进行观测,只能看到一条与状态相 关的随机输出矢量这样就构成了有限状态自动机的一个一阶马尔科夫模型。 状态 x,无法直接

14、看到 被隐藏起来,输出矢量 Q的密度函数或概率分布和时间 /无 关只和 x,的状态相关,可以是连续分布又可以是离散分布的。那么便构成一个 7V 个时刻的矢量,即 “ 输出独立性假设 ” ,它和马尔可夫假设成为 HMM的两个前提 假设: B = b o),b2(o),.,bN(o), 34 第 4章语音识别的关键算法 (4.34) b丨 ( ) = = P( , x, = = ps (o), i = H.N HMM的特征包括初始状态概率矢量、状态转移矩阵 d和概率输出矢量 5, 满足下式: 可以表示为: =( 义 5),其中亟需解决的几个问题是:评估问题、解码 问题和学习问题:即对于观察序列 0

15、 = 1, 2, ., 7和 111/11模型 2 = (;?, , 5),怎样 得到由 ;I产生观察序列 0的概率 P(0|A)。 这是 HMM的第一个问题;如何寻找最 佳状态序列使得观察序列 0的概率最大是第二个问题;以及怎样对参数; L进行调 整 使 得 概 率 | A)达到最大值。 3) _的结构 对于图 4. 11,我们可以看到 _的基本结构。 在 (a)图中,状态矩阵的每个元素都可能非零,初始的状态和终结的状态可以 进行选择,状态发生在任意两个状态之间,是一个全连接模型。 ( b)中的模型,限 定初始状态为 1,从左到右进行逐个的跳转,每个时刻状态的行为只能是自身或者 向下一个状态

16、跳转,符合说话人的语音特征:状态矩阵上只有主对角线和右副对 角线上有元素,运算 量小。 4) _模型算法 -前向后向算法 自动机任何时刻的状态序列 X2, , XT的概率总和为 A的观察序列 0vA (02).V,M0r) ullrX afiX (4.38) 为了减少计算量我们定义前向概率 : a,i)P v 7,- l,x, = s, | A) (4.39) 对于模型 A,我们从获得 1到 Z时刻的观察值: ,,办 ., T时 /时刻状态停留 在 的概率,得到到 Cf,的递推关系,运算量从 0(277Vt)减少到 9(7V27)。 HMM的前向算法如下: 初始化过程为: (4.40) 递推如

17、下: ,+1 (j) = Z ata ( K1 ),tT-UjN f= 最终结束: ?(0|A)Xr ) 7=1 (4.41) (4.42) 与前向概率相对应,由后向概率,表示为对参数 A,观察序列在 /时刻的状态 输出部分观察序列 t+1, l+2, ., T的概率。其定义为: (4.43) /3r(/) = P(o,o,+P.,o7 ,x, =5, | A) 递推公式计算如下 : (1)状态初始化: /3r(i).iN (4.44) 36 第 4章语音识别的关键算法 (2)迭代计算过程: A (0 = I . ,MHU),tT-,jN (4.45) 在此利用前向和后向概率将观察序列在 HM

18、M的输出概率变为两个概率的乘 积,且都有其各自的递推公式,从而简化计算,其概率计算为: P(01 A) = a, (i)P, (/) = r (/), 1 / J -1 /= /=! 另一种表达为 : A (0 = i E ( -+.)A+ (7)?1 / r -1 (4.46) (4.47) 一般情况下,先对每个时间和状态进行前向概率和后向概率的计算计算,然 后用公式 ( 4.47)计算模型的输出概率,它们构成全概率公式。 4. 5实验与分析 语音识别目前在各行业中有着广泛的应用,如何利用上述的各种方法来为自 己所用是我们研宄的出发点。根据英语专业口语考试的要求出发,选用一种基于 MFCC特

19、征参数以 VQ和 HMM两种方法来对陕西师范大学的口语考试环境中获 得的语音信号进行实验,希望获得有用的信息。 本实验由外国语学院 12级翻译班学生提供,为】 - 0的英文发音,人数 30, 其中训练样本为 250个, 25组;测试样本为 50个, 5组,实验环境为普通语音实 验室。识别系统环境为:操作系统: win7, CPU: 15, 3.4GHz, 内存: 4G, 硬盘 1T。 本次的实验对象女生占 90%,男生占 10%,实验环境为正常教学状态的语音 实验室。在信号采集过程中,个人录音中夹杂着整体录制的发音。为了减少数据 因噪音的影响发生大的偏差,因此又从朗文英语语音数据库中找出 1-

20、10的英文 女 声发音文件以及我个人的封闭实验环境下的录音文件进行训练,共 320个文件。 在这里将实验分 2部分进行,一部分为无处理下带噪的语音训练及测试,另 一部分则在预处理阶段对信号进行噪音消除,从而减小噪音对语音信号的干扰, 然后再进行训练和测试。实验流程图如 4.12所示: 37 陕西师范大学硕士学位论文 图 4. 12语音识别系统流程图 4.5.1语音库 语音库是决定语音识别准确率的一个重要部分,我们在第二章和第三章都提 到过,语音信号源的多样化会使得语音识别准确率产生很大的影响,在这里以非 特定人孤立词为例进行 实验。除了现成的语音数据库文件外,我们所收集的语音 信号文件是统一进

21、行录制的,录音设备为北京东方正龙数字技术有限公司的语音 实验室 Newclass的耳麦和录音软件,在教室里统一进行录制。录制结束后为每个 学生生成一个录音文件,录制的文件为一个独立的文件,而这一个文件中包含 10 个英文数字词汇。由于原始文件为连续文件不能满足孤立词汇的要求,在开始之 前需要将这些文件进行分割, 本实验中样本数量不是特别多,再者由信号的收集在普通教室环境下同时发 第 4章语音识别的关键算 法 音获取,背景噪音比较大,使用程序分割误差较大,在此我们使用第三方软件 cooledit 2.1软件进行分割,使用人为干预对于端点的选择比较准确。于是每个原 始文件分割为 10个独立小文件,

22、这样就会有 300个独立文件。采样率 8k, 16bit。 在后面的实验中要区分噪音的影响,我们建立 2个大的文件夹 ,一 个为原始噪音 文件夹,一个为消除噪音文件夹。原始噪音文件夹分好之后不做处理,消除噪音 文件夹中的文件需要在分割后由软件消噪。效果如图 4.13所示。可以看到,在该 环境下无论是设备还是背景音所产生的噪音非常大。 图 4. 13 five发音的信号和嘶声消除后的波形图 4.5.2信号预处理 在信号的预处理阶段我们主要对信号进行分割和噪音的消除。原始的语音信 号在人为的基础上切割而成,静音阶段的资料较少可忽略不计,因此端 点的检测 部分不用处理。仅仅通过 FIR高通数字滤波器

23、来预加重参数 a =0.95,如图 4.14. 帧长为 32ms,步长 6ms,加窗使用汉明窗。 39 陕西师范大学硕士学位论文 _ 一御卿购 wr1 iLi iH r, ; i: . *; 图 4. 14信号滤波 4.5.3特征值提取及模式识别 经过预处理的语音样本后,分析这段语音获取特征值就显得很重要了。特征 值分析有多种方法,本实验采用了 MFCC参数作为特征值。我们采用一下的步骤 来完成:首先将语音的波形文件分帧,帧长 32,帧移 16,通过 MFCC特征参数提 取出 25阶和 16阶系数。实验中采用 25组系数训练,得到初始状态分布、状态转 移矩阵、高斯正态分布的均值和方差以及混合矩

24、阵等信息作为特征参数。 识别的过程与训练的过程有些相似,也是要首先取得语音的特征值,取得这 些数据后,与训练所得的模型进行比较,找出相似概率最大的一个。在本实验中 采用矢量 量化方法和隐马尔科夫方法进行识别然后进行比较分析。 4.5.4实验结果 由于样本的采集在教室里集体采集,因此存在着很大的噪音,因此我们分别 对于原始噪音环境下的音频样本和经过适当的噪音消除后的样本进行比较。 40 第 4章语音识别的关键算法 样本数 320个,其中无噪音文件 20个,带噪文件 300个,男声文件 20个, 女声文件 300个; MFCC特征阶数为 25;每个单词 32个录音文件,训练样本每个 单词 27遍,

25、测试样本 5个。实验数据表如表 4.1所示。 表 4. 1 MFCC特征参数下 VQ及 _模型的实验结果 参数和模型 训练样本 测试样本 带噪 消噪 16阶 25阶 16阶 25阶 MFCC/ VQ 270 50 0.733 0.812 0.825 0.88 MFCC/HMM 270 50 0.741 0.835 0.842 0.895 4.5.5结果分析 由于样本数量相对较小,加之背景噪音的含量比较大,因此在实验过程中虽 然进行了消噪的处理,实验的数据结果仍然有比较大的误识率。但我们仍然可以 看出哪些因素对于语音识别准确率有比较大的影响。 1) 噪音因素 在实验室结果中,由于在预处理前我们对

26、原始的信号进行了初步的消噪处理, 在实际的实验当中, 16阶特征参数的带噪音下的识别率比消噪情况下的识别率差 出近 10%,而25阶特征参数的带噪识别率比消噪识别率差近 5%。可见噪声的引 入对于信号特征参数的提取有很大的影响,本实验中的背景噪音主要来源于其他 同学的声音,且这些声音都或多或少有相似音,因而在预处理阶段是用谱减语音 增强进行处理之后效果仍不是特别明显。 2) 特征参数 在这里我们选用 16阶 MFCC特征参数和 25阶 MFCC特征参数对语音信号进 行特征的提取,众所周知,信 号的特征阶数越大,包含原始的语音信息越多越能 表现语音信号的本质。然而高阶数也会引起大的计算量和反应时

27、间的延长。实际 的应用中,要使用较低的阶数达到较好的识别率才是我们想要的结果。表中的使 用相同的 MFCC特征参数对于不同的阶数进行的比较可以看到, 25阶比 6阶无 论从带噪信号还是消噪信号来说都有明显的优势。小型的语音数据库下的特征参 数在本实验中表现不是特别清楚,在大型语音数据库中,不同阶数下的特征参数 在一定的范围之内就可以达到相似的识别率,这时我们就可以选择比较小的阶数 作为应用中使用的阶数,使得相对 高的识别率下有高的运行效率和快的响应时间。 陕西师范大学硕士学位论文 3) 识别模型 表中的数据中包含两个语音识别模型,即矢量量化 ( VQ)和隐马尔科夫模型 (HMM)。对于孤立词的

28、非特定人语音识别,可以看到两种识别模型的区别,在 不计低的实验结果的前提下,矢量量化的识别率比例比隐马尔科夫模型的识别效 果较差。在语音识别的应用中, VQ模型通常使用在特定人的语音识别中,实验中 的样本则是以非特定人为出发点,实际中表现在噪音下情况更差。 HMM模型表现 的比较稳定,在消噪的情况下可以达到比较好的效果。目前在理想实验环境中大 型语音数据库下, HMM模型的识别率可以达到 95%以上的识别效果。 4.6本章小结 本章的主要内容是对语音识别系统的重要算法和识别模型方法进行了描述, 通过实验来观察影响语音识别的关键问题。主要描述语音信号的预处理过程中的 预加重,分帧,加窗,端点检测

29、等问题;再对语音信号的特征参数进行讨论,主 要探讨 LPC, LPCC, MFCC这几种主流的参数,然后,对语音识别的模型方法 VQ, WDT, HMM等技术进行了讨论。最后通过实验来观察在 VQ和 HMM对 MFCC 特征参数下的识别率进行了对比。 42 结论 结论 由于目前的工作主要和语音和声音有关,因此在选择题目的时候我选择了语 音识别技术,一方面由于我所学的是数据挖掘,另一方面也希望在此过程中能够 有一些收获。通过开题到现在这一年多的时间,查阅了很多资料,也不断的进行 代码编写方面的学习,在语音识别方面的确有了很多的收获。 总结 1) 本文分别从语音识别的外因和内因等几个方面的因素出发

30、,探讨了影响语 音识别识别准确率的几个关键点:即信号源的不定性使得语音识别库的多样性; 语音信号的采集过程的外界噪音影响对于信号频域的干扰及端点检测点定位的影 响;语音信号特征参数提取和模型算法的选用对于识别率的影响。 2) 信号源的多样性及信号采集在初期阶段的噪音影响使得识别的难度大幅度 提升。在某些对象和场景下,正常的自然人在交流过程中都有可能产生对所接收 到的信息错误的判断。因此对于非标准模式和大噪音环境的识别就会引起低的识 别率。在建立语音库的时候,可以考虑到不同的情况建立各种语音库,如根据实 际的应用建立方言语音库、男 女声语音库、童声语音库、老人语音库等。这些都 或多或少在实际的使

31、用过程中可以减少识别的误识,提高准确率。 3) 实验环境和正常场景下的样本采集对于实验结果的准确率有很大的影响。 根据实验的结果我们可以看到,噪音环境下的识别率比实验环境下效果差的多。 4) 各种算法的优劣性的在不同的实验数据中表现为不同的结果,高维数据的 效果比低维数据的效果更加好,而模型算法的准确率也随之发生变化。 工作展望 本文所做的工作是以语音信号的发生源起到识别模型整个过程的关键部位进 行入手点,每一个环节的出入都会对识别的结果产生巨大的影响,正所谓 “ 差之 毫厘,失之千里 ” 就是说明语音识别技术其实是由每个关键的点共同构建而来, 陕西师范大学硕士学位论文 缺一不可。通过学习整个

32、语音识别的过程及实验的分析,我认为未来还有更广阔 的领域要我们去学习。 在语音信号的前期处理阶段,对于信号端点的准确定位至关重要,特别是在 连续语音识别的过程中如果端点的检测稍微有偏差就会引起整个句子的识别结果 以及语义的变化。其次对于噪音的处理是我们要长期研宄的问题,噪音的 随机性 导致很难使用某种固定的算法对其进行处理。目前的去噪方法主要有:信号空间 的消噪,提取抗噪性强的特征和模型补偿三种方法。采用何种方法或者有更新的 方法才能获得更高的识别率同样也是我们要研宄探讨的问题。 无论是语音特征参数的提取阶段还是模型识别的过程,使用参数的不同、采 用的算法差异都会产生很大的识别差异。随着新的算

33、法的不断出现,小波分析方 法和神经网络方法的引入使得语音识别准确率不断得到提升,与此同时对于语音 识别的更高要求也在不断的提出。即使当语音识别的准确率达到 00%时,对于语 言的口误、语义的 理解等需求也会越来越高,这也是语音识别技术不断向前发展 的目标。机器不仅仅是完成对于语音信号的准确识别,更是要对人类自然语言的 理解,从听出说什么话到听懂说什 么话。 未来语音识别技术的发展,是一条前景广阔的道路,它吸引着我们一步一步 的向前追求探索。 44 参考文献 参考文献 1 吴朝晖,杨莹春 .说话人识别模型与方法 M.北京:清华大学出版社, 2009: 3-15. 2 张雪英 .数字语音处理及 M

34、ATLAB仿真 M.北京:电子工业出版社, 2010:189-189. 3 禹琳琳 .语音识别综述及技术应用 J.现代电子技术, 2013,( 36): 43-45. 4 徐波 .语音识别技术与应用发展趋势 .中国计算机学会通讯, 2008,( 2): 54-57. 5 刘加,刘润生 .语音识别技术及应用 J.世界电子元器件, 2001,(11): 21-23. 6 语音识别技术 .百度百科 . http:/baike.baidu.eom/l ink ?url=l 9-veasrpEzIUfGM-454Peo0Cj782joFVY15J9vlp 5cmxg0n0vCr2akh9CQ7e0u6z

35、TyTlkLR8hJcj5J1 NX4iNK, 2014/03/02 7 语音识别技术 .维基百科 . http:/zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88 %AB#cite_note-l, 2014/03/02 8 何湘智 .语音识别的研宄和发展 J.计算机与现代化, 2002,( 3) :3-6. 9 Garcia-Moral, A. I., Solcra-Urena. Data Balancing for Eificient Training of Hybrid ANN/HMM Automatic Speech Rec

36、ognition SystemsJ.IEEE transactions on audio, speech, and language processing, 2011, (19): 468-481. 10 IBM中国研究中心语音研宄小组 .语音识别技术和应用 J. PCW0RD CHINA,1997, (11): 41-53. 11 马志欣,王宏 .语音识别技术综述 J.昌吉学院学报, 2006, (3): 93-97. 12 语音识别技术 .维基百科 . http:/zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%8 8%AB#cit

37、e_note-1. 13 李宏梅,伍小芹 .有关语音识别技术的研宄 J.现代电子技术, 2010, (8): 138-144. 14 李伯约,赛丹 .自然语言理解的心理学原理 M.上海:学林出版社, 2007: 45 5-9. 陕西师范大学硕士学位论文 15 韩纪庆,张磊,郑铁然 .语音信号处理 M.北京:清华大学出版社: 11-13. 16 世界语言 .百度百科 . http:/ 22zOvRW4qCsYxBfdqMr2J5NaEDdQzi3ZekmRR58GoHycUYL5jonuq. 17 李宇明 .权威方言在语言规范中的地位 J.清华大学学报 ( 哲学社会科学 版), 2004, (5

38、) : 24-29. 18 李伯约,赛丹 .自然语言理解的心理学原理 M.上海: 学林出版社, 2007: 32- 33. 19 李伯约,赛丹 .自然语言理解的心理学原理 M.上海:学林出版社, 2007: 33- 34. 20 赵力 .语音信号处理 M.北京:机械工业出版社, 2009: 5-10. 21 王炳锡 .实用语音识别基础 M.北京:国防工业出版社, 2005: 1-9. 22 赵晓群,数字语音编码 M.北京:机械工业出版社, 2007: 1-3. 23 赵晓群,数字语音编码 M.北京:机械工业出版社, 2007: 13-21. 24 Alexandras Tsilfidis, I

39、osif Mporas, John Mourjopoulos, et al. . Automatic speech recognition performance in different room acoustic environments with and without deriverberation preprocessing. Computer Speech and Language, 2013, (27): 380-395. 25 Yifan Gong. Speech recognition in noisy environments: A surveyJ, Speech Comm

40、unication, 1995, (26): 261-291 . 26 杨大利 , 许明星,吴文虎 .噪音环境下的语音识别研宄 J.计算机工程与 应用,2003,( 20): 350-354. 27 谢锦辉 .非特定人普通话孤立数字音识别系统 J.华中理工大学学 报,1994, ( 22): 36-39. 28 赵力 .机械工业出版社 M.北京:机械工业出版社, 2009: 286-288. 29 Hui Jiang. Confidence measures for speech recognition: A surveyJ, Speech Communication, 2005. (45):

41、 455170. 30 王金明 , 张雄伟 .说话者识别系统语音特征参数的研宄与仿真 J.系统仿 真学报,2003,( 9) : 1276-1278. 31 M. Benzeghiba, R. De Mori, O. Deroo. et al. . Automatic speech recognition and speech variability: A reviewJ. Speech Communication. 2007. (49) : 763-786. 46 参考文献 32 王宏志,徐玉超,李美静 .基于 MFCC相似度的语音端点检测算法 J.吉 林大学学报 ( 工学版 ) , 201

42、2, (42): 1 - 5. 33 舒倩,李银国 .基于 MFCC的语音端点检测方法 J.通信技术, 2007, (llh 374-378. 34 ZHANG Ling-hua, ZHENG Bao-yu, YANG Zhen. A Study of Feature Parameters Based on LPC Analysis with Applications to Speaker IdentificationJ. JOURNAL OF NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS, 2005, 25(6): 1-6. 35 Oo

43、i Chia Ai, M. Hariharan, Sazali Yaacob, Lim Sin Chee. Classification of speech dysfluencies with MFCC and LPCC featuresJ. Expert Systems with Applications. 2012, (39): 2157-2165. 36 Chuan Xie, Xiaoli Cao, Lingling He. Algorithm of Abnormal Audio Recognition Based on Improved MFCCJ. Procedia Engineer

44、ing, 2012, (29): 731-737. 37 文翰,黄国顺 .语音识别中 DTW算法改进研宄 J.微计算机信息, 2001, ( 26): 195-197. 38 曾昭才 .VQ和 HMM在语音识别中的应用 D.南京:东南大学, 2006. 39 Takashi Nose, Takao Kobayashi. Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequencyJ. Speech Communication, 2011, (53):

45、 973-985. 40 史东承,韩玲艳,于明会 .基于 HMM/SVM的音频自动分类 J.长春工业大学 学报(自然科学版 ), 2008, (29): 178-182. 47 陕西师范大?硕上学位论文 48 致谢 致谢 时间如白驹过隙,很快三年的研宄生生活就要结束,回想这几年来的点点滴 滴和自己所有的经历,我不禁想起今年最流行的那句话 : “ 时间都去哪儿了 ” 。在 本论文完成之际,我感到非常的兴奋和激动,因为在此期间曾多次因为无法进行 下去而感到万分苦恼。最后终于完成了,从开题,搜集资料,到最后完成论文得 到了很多人的帮助和支持,在此对他们表示感谢! 首先,感谢我的导师裘国永老师。他不仅

46、是我大学期间的良师更是我工作之 后及研宄生的益友。无论从学习还是生活中,他都时常给与我帮助,为我前行大 道路点亮一盏盏明灯。从论文的开题到论文的结束都得到了老师的悉心指导。正 因为有了导师的严格把关,才使我能够顺利地完成自己的学位论文。 其次,感谢我的同事及同学。感谢我们单位的领导和老师在我学习期间给我 更多的个人时间来完成我的学业,同时也在工作和生活中给 我很多的帮助和支持, 他们给我提供了很多的便利条件,帮助我完成对语音信号的采集和处理。他们是: 王文、薛金强、牛亮羽、邢俊升、王佐、李骏、马维华、周彦伟、郭丽、巢玥。 还有我的研宄生同学,在学习中时常给我帮助,为我提供学习的资料,帮我完成

47、对课程的理解。他们是:王艳娥、周俊秀、白艺娜、马海鹏等。 最后,感谢我的家人。他们给与我精神上的支持和生活上的照顾,让我能够 有时间和动力继续在研宄生的道路上学习。他们的时刻提醒使得我在懈怠的时候 不断鞭策自己,及时抓紧时间完成论文的撰写。 衷心的感谢各位专家教授在百忙之中为我的论文评审、答辩和指导付出的辛 苦,在此表示诚挚的谢意! 卢永辉 2014年 4月 5日 49 陕西师范大学硕士学位论文 50 研宄成果 攻读硕士学位期间的研究成果 论文: 1 卢永辉 .语音识别技术在外语口语训练中的应用 J.电脑知识与技术, 2014, (4): 836-843. 2 卢永辉,邢俊升 .教育游戏在外语教学中的应用 J.中国科

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 毕业论文

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com