语音信息处理及相关的语言信息处理幻灯片.ppt

上传人:石*** 文档编号:70112807 上传时间:2023-01-16 格式:PPT 页数:39 大小:4.64MB
返回 下载 相关 举报
语音信息处理及相关的语言信息处理幻灯片.ppt_第1页
第1页 / 共39页
语音信息处理及相关的语言信息处理幻灯片.ppt_第2页
第2页 / 共39页
点击查看更多>>
资源描述

《语音信息处理及相关的语言信息处理幻灯片.ppt》由会员分享,可在线阅读,更多相关《语音信息处理及相关的语言信息处理幻灯片.ppt(39页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、语音信息处理及相关的语言信息处理第1页,共39页,编辑于2022年,星期二语音信息处理语音信息处理及相关的语言信息处理及相关的语言信息处理语音信息处理是人机交互的重要组成部分。主要包括语音合成和语音识别。l语音合成语音合成是将文字转换成语音;l语音识别语音识别是将识别语音转写成文字。2第2页,共39页,编辑于2022年,星期二演示演示Chinese TTVSVoice masker3第3页,共39页,编辑于2022年,星期二什么是语音合成什么是语音合成?l语音合成就是让计算机象人那样讲话。l语音合成的研究目标是:可懂、清晰、自然、具有表现力。某人问你:你愿意和我一起去看电影吗?你的回答可能是:

2、“是的,我很高兴和你一起去看电影。”(肯定,高兴)“抱歉,我不能和你一起去看电影,因为我要去开会。”(无可奈何)“不去,还是你自己去看吧。”(否定)人们用语言进行交流时,用声音来表达事实事实,也表达意向、情感意向、情感。计算机也应该像人那样讲话。4第4页,共39页,编辑于2022年,星期二语音合成系统的发展语音合成系统的发展讲话机(Wolfgang)1791年年1990年代年代数据驱动数据驱动拼接合成拼接合成(Festival)1980年代年代规则驱动规则驱动共振峰合成共振峰合成(DecTalk)合成语音可懂与清晰目前目前高表现力的高表现力的语音合成语音合成合成语音自然且表现丰富高表现力的合成

3、可懂度、清晰度高可懂度、清晰度高自然度较好,语调平缓自然度较好,语调平缓表现力(情感、风格、表现力(情感、风格、个性化)欠佳)欠佳自然语音计算机生成语音合成算法韵律表现5第5页,共39页,编辑于2022年,星期二l文语转换(TTS)是语音合成技术的延伸,它能把计算机内的文本转换成连续自然的语声流。lText To Speech synthesis involves the computation of a speech signal from input text.文字-语音转换(Text To Speech)6第6页,共39页,编辑于2022年,星期二什么是语音识别什么是语音识别?l语音识别

4、就是让计算机听懂人的讲话。l语音识别的研究目标是:听懂连续自然、非特定人。7第7页,共39页,编辑于2022年,星期二语音信息处理语音信息处理及相关的语言信息处理及相关的语言信息处理l语音是语言的外壳,文字是语言的转写。l韵律、语法和语义均为语言信息处理的内容。它们相互联系、相互制约,共同构成语言理解的基础。然而对上述语言信息的分析和研究是独立展开的。介绍语音信息处理的基本组成和原理,特别关注语音信息处理中与文字相关的问题。8第8页,共39页,编辑于2022年,星期二预处理预处理语言学语言学处理处理波形拼接波形拼接合成合成语音学语音学处理处理文本语音语音语音 数数据库据库TTS的系统结构文本分

5、析韵律生成语音合成9第9页,共39页,编辑于2022年,星期二 TTS的系统结构文本分析合成算法基元选取10第10页,共39页,编辑于2022年,星期二文本分析模块流程文本分析模块流程语句切分文本规范化符号处理数字处理词典分词合并韵律词合并韵律短语变音处理参数生成12号的天气的确好。12号的天气的确好/。十二号的天气的确好十二/m 号/q 的/u 天气/n 的确/d 好/a十二号的天气/的确好shi2 er4 hao4 de5|tian1 qi4/di2 que4 hao3/读音韵律信息文本11第11页,共39页,编辑于2022年,星期二文本分析模块流程文本分析模块流程语句切分文本规范化符号处

6、理数字处理词典分词l根据回车、换行、或其他设置的分句符号进行句子的切分。l后续的处理针对当前得到的句子12第12页,共39页,编辑于2022年,星期二文本分析模块流程文本分析模块流程语句切分文本规范化符号处理数字处理词典分词l将语句切分成一个一个的片段Piece,每个Piece具有相同的类别,如:数字、符号、英文字母串(Letter)、汉字等等l患者115万人万人,并且每年又以1500例的例的速度快速大幅增加。13第13页,共39页,编辑于2022年,星期二文本分析模块流程文本分析模块流程语句切分文本规范化符号处理数字处理词典分词l进行相关标点符号的处理l数字中,的处理l12.3、166.11

7、1.68.142lkm、T等量词的处理l年份1998/07/20、97-10-10、1999.07.05等等l时间23:05:03、比值l5、电话中BP机呼号、区号、转分机等等、5、80100、减号等14第14页,共39页,编辑于2022年,星期二文本分析模块流程文本分析模块流程语句切分文本规范化符号处理数字处理词典分词l数字读法的处理l比如年份、公元、日期、电话、电报等等15第15页,共39页,编辑于2022年,星期二文本分析模块流程文本分析模块流程词典分词l分词,标记词性合并韵律词合并韵律短语变音处理参数生成l分词不准确许多年轻人手牵五彩的气球合影留念。l分词单位太大自民党领导人日里诺斯基

8、1946年4月出生。发展中国家l语法词与韵律词不等同语法词与韵律词不等同l我我 买买 了了 八八 本本 书。书。16第16页,共39页,编辑于2022年,星期二文本分析模块流程文本分析模块流程词典分词合并韵律词合并韵律短语变音处理参数生成17第17页,共39页,编辑于2022年,星期二广义的定义:广义的定义:广义地说,韵律结构应当包括重音、节奏和语调三个方面的结构。例如重音的位置分布及其等级差异,韵律边界的位置分布及其等级差异,语调的基本骨架及其跟声调和重音的关系。主要讨论韵律切分问题。包括韵律词的组成与韵律短语切分等等,也就是说话时组词断句的模式,它属于语音的节奏方面的问题。汉语的韵律结构的

9、定义18第18页,共39页,编辑于2022年,星期二 韵律成分从小到大依次是莫拉、音节、音步、音系词(phonological word)、附着语素词组、音系短语(phonological phrase)、语调短语和韵律语句。一个较小的韵律成分包含在一个更大的韵律成分中。汉语的韵律成分19第19页,共39页,编辑于2022年,星期二汉语的韵律成分 LevelTags012345Break Reduced syllabic boundaryNormal syllabic boundaryProsodic word(PW)Prosodic phrase(PPh)Breath group(BG)Pr

10、osodic group(PG)Emphasis ReducedNormalmoderatestrong*Speech Ratevery slowslownormalquickvery quick*Volumevery lowlownormalhighvery high*Pitchvery lowlownormalhighvery high*Rangevery smallsmallnormallargevery large*20第20页,共39页,编辑于2022年,星期二我永遠忘不了一張對日抗戰時的新聞照片,轟炸後的廢墟焦土上,一個衣不蔽體、滿身塵土灰煙的幼兒坐在地上無助的大哭著。那是一再令我

11、熱淚盈眶的鏡頭。新聞攝影中的戰爭傳真已不能只稱是照片了。口语语口语语音的例子音的例子几处停顿?这句话是否结束?台湾:郑秋豫教授21第21页,共39页,编辑于2022年,星期二韵律层级结构:韵律层级结构:韵律词(prosodic word):一般为三个音节以下的语法词或词一般为三个音节以下的语法词或词组,内部不出现节奏边界组,内部不出现节奏边界 韵律短语(Prosodic phrase):):由一个或几个韵律词组成,具有由一个或几个韵律词组成,具有相对稳定的短语语调模式和短语重音配置模式相对稳定的短语语调模式和短语重音配置模式 语调短语(intonation phrase):长于韵律短语。在语法

12、上相当于较长于韵律短语。在语法上相当于较短的句子或较长的短语,韵律短语之间有音高重设短的句子或较长的短语,韵律短语之间有音高重设汉语的韵律结构的定义22第22页,共39页,编辑于2022年,星期二三层韵律层级结构图U:语调短语,PP:韵律短语,PW:韵律词相应的语法结构图S:句子,NP:名词短语,VP:动词短语韵律结构是无递归的:韵律结构是无递归的:韵律词的边界一般是语法词的边界,而韵律短语的边韵律词的边界一般是语法词的边界,而韵律短语的边界一般是韵律词的边界界一般是韵律词的边界韵律词、韵律短语、语调短语分别处于不同韵律词、韵律短语、语调短语分别处于不同的层级上,一般没有嵌套关系的存在的层级上

13、,一般没有嵌套关系的存在平均长度满足,平均长度满足,Len(韵律词韵律词)Len(韵律短语韵律短语)Len(语调短语语调短语)语法结构相对复杂:语法结构相对复杂:短语类型之间存在嵌套的包含关系,比如短语类型之间存在嵌套的包含关系,比如NP内部可以内部可以有更小的有更小的NP等等 汉语的韵律结构与语法结构图23第23页,共39页,编辑于2022年,星期二“语法词”-从句法学的角度定义;词典词的长度为1-13个汉字“韵律词”-从韵律学的角度来定义。韵律词一般是三音节以下的语法词或词组,属于一个音步的结构。l韵律短语一般是四九音节。如假定所有的语法词边界都是韵律词边界,正确率为42.99%;如果都是

14、韵律短语边界,正确率仅为19.20%。韵律与句法24第24页,共39页,编辑于2022年,星期二句法支配韵律句法支配韵律:l韵律边界以句法结构为基础;l 韵律边界层次总是倾向于同句法结构的层 次保持某种程度的一致;l 句法边界不是设置韵律边界的必要条件。韵律与句法句法和韵律间有密切的联系和制约关系。汉语韵律句法学冯胜利25第25页,共39页,编辑于2022年,星期二句法独立于语音!句法独立于语音!但是:但是:“一衣/带水”(一条如衣带一样宽的河水)“而立/之年”(“而”是连词)“种植花”提拔高,浇灌花,阅读报,修改正,获得罪,超越轨“鞠了一个躬”“被攻”“被祸害”(是韵律的产物)韵律与句法汉语

15、韵律句法学冯胜利26第26页,共39页,编辑于2022年,星期二韵律制约句法韵律制约句法:l韵律打乱句法原有的成分结构:“我被/老板/训了”l 韵律可使一些非法句法合法化;l 韵律可制约一些合法的句法变成非法;“种植/花草”可以说,“种花草”也同样合法。l 韵律可在句法不能运作的禁区发生效力;l 语流中语音分段首先服从韵律分界:狗咬/吕洞宾。吕洞宾/吃饭韵律与句法27第27页,共39页,编辑于2022年,星期二l韵律规则:相对轻重原则(一对轻重的组合体)音步二分法(必须至少有两个成分组成)音步的单核原则音节的轻重对立词汇的虚实与轻重l韵律规则之间的协作与冲突:韵律规则之间的协作与冲突:韵律成分

16、与节奏28第28页,共39页,编辑于2022年,星期二轻重音可以消除歧义轻重音可以消除歧义l刘英要煎饼。(jian1bing3:指“把饼煎一煎”/jiang1bing5:指一种食品)l他一个早晨就写了三封信。(“就”轻读时指效率高,能写三封信/“就”重读时指效率低,只写了三封信)韵律与句法29第29页,共39页,编辑于2022年,星期二基于句法信息的韵律成分界定 选取更有效的句法特征则成为提高韵律成分界定正确率的重要保证。在实验中我们选取了词性、词语、词长、词频及句子长度等一些句法信息作为界定韵律成分的特征。30第30页,共39页,编辑于2022年,星期二韵律结构预测实际是一个分类问题:句子韵

17、律结构预测实际是一个分类问题:句子 ,令令 表示表示 和和 的边界类型:的边界类型:语法分词边界、韵律词边界、韵律短语边界语法分词边界、韵律词边界、韵律短语边界。针对韵律词和韵律短语分别设计统计模型针对韵律词和韵律短语分别设计统计模型。综合所有特征的。综合所有特征的 ,计算出,计算出 作为某类边界的作为某类边界的总的概率频度值总的概率频度值F,根据一定的原则及,根据一定的原则及F的大小判断它属于的边界类型。的大小判断它属于的边界类型。统计计算出每个特征取值的概率频度统计计算出每个特征取值的概率频度 ,基于概率频度的统计模型算法基于概率频度的统计模型算法四个步骤:四个步骤:1.1.特征提取特征提

18、取1.词法特征词法特征:语法词:语法词,词频词频2.语法特征语法特征:词性:词性3.长度及位置特征长度及位置特征:词长:词长,句中的位置句中的位置2.2.样本训练样本训练3.3.构建概率频度统计模型构建概率频度统计模型郑敏31第31页,共39页,编辑于2022年,星期二实验数据的准备语料库语料库I是实验室已有的标准语料库,共是实验室已有的标准语料库,共3167个句子,文本来自新闻、小说、散文等个句子,文本来自新闻、小说、散文等各个方面,由专业播音员用正常语速朗读。两名有经验的标注人员通过听录音和参各个方面,由专业播音员用正常语速朗读。两名有经验的标注人员通过听录音和参照录音文本标上两级韵律边界

19、信息,标注的一致率达到照录音文本标上两级韵律边界信息,标注的一致率达到98.5%。该语料覆盖了汉语所有。该语料覆盖了汉语所有的有调音节和词性,的有调音节和词性,总共有总共有总共有总共有5644656446个汉字,个汉字,个汉字,个汉字,3766937669个语法词。个语法词。个语法词。个语法词。1619416194个韵律词边界和个韵律词边界和个韵律词边界和个韵律词边界和72317231个韵律个韵律个韵律个韵律短语边界短语边界短语边界短语边界。语料库语料库I语料库语料库II文本全部来自人民日报,语料库总共包含文本全部来自人民日报,语料库总共包含5403个长句,个长句,17859个子句,个子句,总

20、共有总共有总共有总共有130265130265个汉字,个汉字,个汉字,个汉字,5210652106个语法词,个语法词,个语法词,个语法词,2791727917个韵律词边界和个韵律词边界和个韵律词边界和个韵律词边界和1814818148个韵律短语边界。个韵律短语边界。个韵律短语边界。个韵律短语边界。32第32页,共39页,编辑于2022年,星期二韵律结构预测的综合评价参数韵律结构预测的综合评价参数韵律结构预测的综合评价参数韵律结构预测的综合评价参数人工标注的类型 预测得到的类型LWPWPPLWC00C01C02PWC10C11C12PPC20C21C22C12:人工:人工标标注注类类型型为为PW

21、,被被预测为预测为PP的数目的数目 韵律结构预测的分类混淆矩阵韵律结构预测的分类混淆矩阵 1.语法词预测的正确率:语法词预测的正确率:2.语法词预测的召回率:语法词预测的召回率:3.韵律词预测的正确率:韵律词预测的正确率:4.韵律词预测的召回率:韵律词预测的召回率:6.韵律短语预测的召回率:韵律短语预测的召回率:5.韵律短语预测的正确率:韵律短语预测的正确率:综合评价参数:综合评价参数:7.韵律预测的综合参数:韵律预测的综合参数:33第33页,共39页,编辑于2022年,星期二三种算法的实验结果比较三种算法的实验结果比较三种算法的实验结果比较三种算法的实验结果比较 我们将我们将C4.5归纳学习

22、、归纳学习、TBL转换规则学习算法和基于概率频度的统计模型三种方法进行了比转换规则学习算法和基于概率频度的统计模型三种方法进行了比较实验。在这三种算法中提取了类似的词性、词语、词长、词频等特征,在相同的语料库较实验。在这三种算法中提取了类似的词性、词语、词长、词频等特征,在相同的语料库I和和II上上作了两组比较实验。实验中选取语料库的作了两组比较实验。实验中选取语料库的前前2/3作为训练数据,后作为训练数据,后1/3作为测试数据作为测试数据。算法APWRPWMPWAPPRPPMPPC4.50.8220.8140.8180.8290.7120.766TBL0.8480.7820.8140.613

23、0.8510.713统计模型0.9170.8810.8990.8520.8370.844表表1 统计模型、统计模型、C4.5和和TBL三种算法在语料库三种算法在语料库I上的比较结果上的比较结果算法APWRPWMPWAPPRPPMPPC4.50.8080.7760.7920.7210.6840.702TBL0.8230.7940.8080.6370.7220.677统计模型0.8950.8330.8630.8390.7800.808表表2 统计模型、统计模型、C4.5和和TBL三种算法在语料库三种算法在语料库II上的比较结果上的比较结果34第34页,共39页,编辑于2022年,星期二文本分析模块

24、流程文本分析模块流程l变调:老虎,555,5599l轻声:l多音字l重音?词典分词合并韵律词合并韵律短语变音处理参数生成35第35页,共39页,编辑于2022年,星期二多音字现象多音字现象l存在多音字,多音词l形式上相同,但具有不同语法,语义功能的词。l250万字语料,多音字占8.95l举例如下:1.我们种了茄子 动词,zhong42.一种新的算法 量词,zhong33.你真有种 名词,zhong34.各种各样 包含在词的内部,zhong35.种小明刚刚毕业 作为姓氏,chong2l(Xin,2001)主要利用了语义词典Hownet l(Hong,2001)人工定义的上下文模式和语法信息l问题

25、:使用语义词典,需要语义标注;人工规则费时费力36第36页,共39页,编辑于2022年,星期二中文的多音字词典中包含了中文的多音字词典中包含了682个多音字,大部分有的已经有主要的读音,有的其使用频度较低个多音字,大部分有的已经有主要的读音,有的其使用频度较低,不必要对所有的多音,不必要对所有的多音字读音总结规则字读音总结规则核心多音字选择的标准:核心多音字选择的标准:多音字的使用频度多音字的使用频度 多音字的出现次数相差很大多音字的出现次数相差很大常用多音字覆盖的累计出现频度常用多音字覆盖的累计出现频度多音字字音转换的初始正确率多音字字音转换的初始正确率若初始正确率已接近若初始正确率已接近1

26、00%,则没必要对这类多,则没必要对这类多 音字总结读音规则,音字总结读音规则,如如“会会(hui4,kuai4):100%”多音字主要读音的使用频度多音字主要读音的使用频度 “的的”(de0,di2,di4):其中读音其中读音“de0”占了占了99%“了了”(le0,liao3):其中读音其中读音“le0”占了占了 98%“为为”(wei2,wei4):其中读音其中读音“wei2”占占 58%,读音读音“wei4”占占42%.多音字在语料库中的出现次数一2333为775地582冠38卷32铺31前N个多音字累计出现频度1028.1%5059.6%10078.4%15088.2%20093.9%22095.6%25097.6%不重要的不重要的重要的重要的核心多音字的选择37第37页,共39页,编辑于2022年,星期二连续语音识别 大词汇表连续语音识别基本原理框图 拼音输入法拼音输入法 38第38页,共39页,编辑于2022年,星期二谢谢!第39页,共39页,编辑于2022年,星期二

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com