第四章多媒体数据压缩技术介绍优秀PPT.ppt-得力文库

资源描述

《第四章多媒体数据压缩技术介绍优秀PPT.ppt》由会员分享，可在线阅读，更多相关《第四章多媒体数据压缩技术介绍优秀PPT.ppt（99页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、专业选修课程武汉高校多媒体技术Multimedia Techniques第四章多媒体数据压缩技术4.1多媒体数据压缩技术概述4.2常用多媒体数据压缩方法4.3语音信号编码的标准与方法4.4静态图像压缩编码技术4.5动态图像压缩编码技术第四章多媒体数据压缩技术4.1多媒体数据压缩技术概述数据编码包括：信源编码信道编码信源编码：为了表示和/或压缩从信号源产生出来的信号而进行的编码，主要解决有效性问题。信道编码：为了使处理过的信号在传输过程中不出错或少出错，以及即使出了错也能自动检错或尽量纠错而进行的编码，主要解决牢靠性问题。多媒体数据的压缩主要是对视频数据和音频数据的压缩，二者运用的基本技术是相同

2、的。为什么要压缩数据的冗余性压缩和解压缩过程压缩评价和分类数据压缩常常又称为数据信源编码，或简称为数据编码。数据压缩的逆过程称为数据解压缩，也称为数据信源解码，或简称为数据解码。4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方

3、法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法词典编码分类词典编码分类词典编码的依据：数据本身包含有重复代码序列。属于通用编码技术和无损压缩技术词典编码法分类第一类词典法：查找正在压缩的字符序列是否在前面的输入数据中出现过，假如是，则用指向早期出现过的字符串的“指针”替代重复的字符串。其次类算法：从输入的数据中创建一个“短语词典(d

4、ictionary of the phrases)”。编码数据过程中当遇到已经在词典中出现的“短语”时，编码器就输出这个词典中的短语的“索引号”，而不是短语本身。LZW算法LZW与LZ78的差别：LZW只输出代表词典中的缀-符串(String)的码字(code word)。这意味在起先时词典不能是空的，它必需包含可能在字符流出现中的全部单个字符，即前缀根(Root)。由于全部可能出现的单个字符都事先包含在词典中，每个编码步骤起先时都运用一字符前缀(one-character prefix)，因此在词典中搜寻的第1个缀-符串有两个字符。3.5.5.1编码算法LZW编码是围绕称为词典的转换表来完成

5、的。这张转换表用来存放称为前缀(Prefix)的字符序列，并且为每个表项安排一个码字(Code word)，或者叫做序号。LZW编码器(软件编码器或硬件编码器)通过管理这个词典完成输入与输出之间的转换。LZW编码器运用的分析(parsing)算法，称为贪欲分析算法(greedy parsing algorithm)。贪欲分析算法每一次分析都要串行地检查来自字符流Charstream的字符串，从中分解出已经识别的最长的字符串，也就是已经在词典中出现的最长的前缀Prefix。用已知的前缀Prefix加上下一个输入字符C也就是当前字符(Current character)作为该前缀的扩展字符，形成新

6、的扩展字符串缀-符串String：Prefix.C。新的缀-符串String是否要加到词典中，要看词典中是否存有和它相同的缀-符串String。假如有，那么这个缀-符串String就变成前缀Prefix，接着输入新的字符，否则就把这个缀-符串String写到词典中生成一个新的前缀Prefix，并给一个代码。3.5.5.1LZW编码算法步骤步步骤骤1 1：起先：起先时时的的词词典包含全部可能的根典包含全部可能的根(Root)(Root)，而当前前而当前前缀缀P P是空的；是空的；步步骤骤2 2：当前字符：当前字符(C)(C)：=字符流中的下一个字符；字符流中的下一个字符；步步骤骤3 3：推断：推

7、断缀缀-符串符串P+CP+C是否在是否在词词典中典中把代表当前前把代表当前前缀缀P P的的码码字字输输出到出到码码字流；字流；把把缀缀-符串符串P+CP+C添加到添加到词词典；典；令令P P：=C=C，即，即现现在的在的P P仅仅包含一个字符包含一个字符C C；步步骤骤4 4：推断：推断码码字流中是否字流中是否还还有有码码字要字要译译假如假如“是是”，返回到步，返回到步骤骤2 2；假如假如“否否”，则则把代表当前前把代表当前前缀缀P P的的码码字字输输出到出到码码字流；字流；结结束。束。例位置123456789字符ABBABABAC步骤位置词典输出(1)A(2)B(3)C 1 1(4)A

8、B(1)2 2(5)B B(2)3 3(6)B A(2)4 4(7)A B A(4)5 6(8)A B A C(7)6-(3)被编码字符串 LZW的编码过程 3.5.5.2LZW译码算法步步骤骤1 1：在起先：在起先译码时词译码时词典包含全部可能的前典包含全部可能的前缀缀根根(Root)(Root)；步步骤骤2 2：cWcW：=码码字流中的第一个字流中的第一个码码字；字；步步骤骤3 3：输输出当前出当前缀缀-符串符串string.cWstring.cW到到码码字流；字流；步步骤骤4 4：从前：从前码码字字pWpW：=当前当前码码字字cWcW；步步骤骤5 5：当前：当前码码字字cWcW：=码码字

9、流中的下一个字流中的下一个码码字；字；步步骤骤6 6：推断从前：推断从前缀缀-符串符串string.pWstring.pW是否在是否在词词典中典中 1)1)假如假如“是是”：把从前把从前缀缀-符串符串string.pWstring.pW输输出到字符流；出到字符流；当前前当前前缀缀P P：=从前从前缀缀-符串符串string.pWstring.pW；当前字符当前字符C C：=当前前当前前缀缀-符串符串string.cWstring.cW的第一个字符；的第一个字符；把把缀缀-符串符串P+CP+C添加到添加到词词典；典；2)2)假如假如“否否”：当前前当前前缀缀P P：=从前从前缀缀-符串符串str

10、ing.pWstring.pW；当前字符当前字符C C：=当前当前缀缀-符串符串string.cWstring.cW的第一个字符；的第一个字符；输输出出缀缀-符串符串P+CP+C到字符流，然后把它添加到到字符流，然后把它添加到词词典中。典中。步步骤骤7 7：推断：推断码码字流中是否字流中是否还还有有码码字要字要译译 1)1)假如假如“是是”，就返回到步，就返回到步骤骤4 4；2)2)假如假如“否否”，结结束。束。例（续）步骤代码词典输出(1)A(2)B(3)C 1(1)-A 2(2)(4)A B B3(2)(5)B B B 4(4)(6)B A A B5(7)(7)A B AA B A6(3)

11、(8)A B A CCLZW的译码过程 4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法LPC在语音处理中得

12、到广泛应用，发展了很多算法：多脉冲线性预料编码（MPLPC）规则脉冲激励编码（RPE）码激励线性预料（CELP）代数激励线性预料（ACELP）向量和激励线性预料（VSELP）QCELP（QualcommCELP，变速率CELP）低延时码激励线性预料（LD-CELP）共轭结构代数激励线性预料（CS-ACELP）混合激励线性预料（MELP）间隔同步更新码激励线性预料（PSI-CELP）松弛码激励线性预料（RCELP）残差激励线性预料（RELP）规则脉冲激励长时预料（RPE-LTP）4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方

13、法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法MP3音频压缩编码MP3是一种音频压缩的国际技术标准。MP3格式起先于二十世纪80年头中期，是在德国夫朗和费探讨所（FraunhoferInstitute）起先的，探讨致力于高质量、低数据率的声音编码。1989年，夫朗和费探讨所在德国被获准取得了MP3的专利权，几年后这项技术被提交到国际标准组织(ISO)，整合进入了MPEG-1标准。MP3格式是一个让音乐界产生巨大振动的一个声音格式。MP3的全称是MovingPictureExpertsGroup,AudioLayer3，它所运用的技术是在VCD（MP

14、EG-1）的音频压缩技术上发展出的第三代，而不是MPEG-3。MP3音频压缩编码MPEG代表的是MPEG活动影音压缩标准，MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。MPEG音频文件依据压缩质量和编码困难程度的不同可分为三层（MPEGAUDIOLAYER1/2/3分别与MP1、MP2和MP3这三种声音文件相对应）。MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为4:1和6:1-8:1，而MP3的压缩率则高达10:112:1，也就是说一分钟CD音质的音乐未经压缩须要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。MP3音频压缩编

15、码音乐信号中有很多冗余成分，其中包括间隔和一些人耳辨别不出的信息（如混杂在较强背景中的弱信号）。MP3为降低声音失真实行了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音，接着通过量化的方式将剩下的每一位打散排列，最终形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然它是一种有损压缩，但是它的最大优势是以微小的声音失真换来了较高的压缩比。音频编码标准G.711G.722G.723.1G.728G.729音频编码标准比较G.7111972年CCITT为电话质量和语音压缩制定了PCM标准G.711。其速率为64kb/s

16、，运用律或A律的非线性量化技术，主要用于公共电话网中。G.7221988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准，它运用子带编码(SBC)方案，其滤波器组将输入信号分成凹凸两个子带信号，然后分别运用ADPCM进行编码。G.722能将224kb/s的调幅广播质量的音频信号压缩为64kb/s，主要用于视听多媒体和会议电视等。G.722的主要目标是保持64kb/s的数据率，而音频信号的质量要明显高于G.711的质量。1996年ITU-T通过了G.723标准“用于多媒体传输的5.3kb/s或6.3kb/s双速率话音编码”。它接受多脉冲激励最大似然量化(MP-MLQ)算法，此标准可应

17、用于可视电话及IP电话等系统中。G.728为了进一步降低压缩的速率，CCITT于1992年制定了G.728标准，运用基于低时延码本激励线性预料编码(LD-CELP)算法，其速率为16kb/s，主要用于公共电话网中。G.729ITU-T于1996年3月通过了G.729标准，它运用8kb/s的共轭结构代数码激励线性预料(CS-ACELP)算法，此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。音频编码标准比较第四讲数字语音处理技术数字音频压缩技术三维音效语音识别自然语言理解语音合成三维音效人类的听觉3D音效的分类杜比AC-3DTS人类的听觉人耳的基本声音定位原理是IID（Inter

18、auralIntensityDifference，两侧声音强度差别）和ITD（InterauralTimeDifference，两侧声音时间延迟差别）。IID指距离音源较近的哪一边耳朵，所收到的声音强度比另一侧高，感到声音更大一些。ITD指方位的不同，使声音到达两耳的时间有差别，人们会觉得声音位于到达时间早些的那一边，IID+ITD的结果是把音源定位到以听者两耳这间连线为轴线的锥体范围之内。人类的听觉耳廓（外耳）的作用是滤波器，依据声音的不同角度，加强/减弱音波能量，过滤之后传给大脑，让我们更精确地声源的位置。耳廓的大小有限，因此能够收到的音波范围也有限，通常是20Hz到20KHz，即波长16

19、米到1.6厘米的音波。换言之，低于此范围是次声波，高于此范围是超声波。由于两耳机的距离约为15厘米，当波长大于15厘米时IIT和ITD将会减弱。频率低的声音波长大，因此我们很难推断出低音的位置，却能轻易辨别高音的方位。事实上，耳廓对于声音的定位，是至关重要的一环，没有外耳的人难以推断声音发出的位置。人类的听觉人类依靠一种称为HRTF（Head Related Transfer Function，头部关联传输功能）的系统来推断声音发出的位置。每个人的HRTF都不尽相同，还可以进行交换。HRTF的检测特别简洁，先在人的耳道内放置两个微型麦克风，再在听者旁边放一个音箱，播放确定的信号，同时记录麦克风

20、收到的信号。比较源信号和麦克风的脉冲特性曲线就可以得到其中一个滤波效果。最终于听者旁边的全部位置重复上述过程，即可获得完整的HRTF系统。三维音效人类的听觉3D音效的分类杜比AC-3DTS3D音效的分类3D音效的两个最重要因素是定位和交互。定位即让人们精确地推断出声音的来源，可以通过预选录制声音，再进行特定的解码来实现。实时的定位就是交互，声音并非预选录制好的，而是依据你的限制来确定声音的位置。即时生成的交互式声音对输入设备的要求，比预选录制音轨的放音设备（如：电影）要更强一些。3D音效的分类扩展式立体声它运用声音延迟技术对传统的立体声进行额外处理，扩宽了音场的位置，使声音延展到音箱以外的空间

21、，让我们感觉的3D世界更广袤环绕立体声它接受音频压缩技术(如：杜比AC-3)把多通道音源编码成一段程序，再以一组多扬声器系统来进行解码，实现多区域环绕效果。交互式3D音效交互式3D尽量地复制了人耳在真实世界中听到的声音，并运用确定的算法来播放出来，让我们感到整个三维空间的全部地方都可能产生声音，并随听者的移动而做出相应变更。三维音效人类的听觉3D音效的分类杜比AC-3DTS杜比AC-3为了提高HDTV声音的质量，避开模拟矩阵编码的局限性，提出了双通道的码率供应多通道的编码性能的设想，杜比AC-3就是为了实现这一设想而开发的。杜比AC-3可以把五个独立的全频带和一个超低音通道的信号实行统一编

22、码，成为单一的复合数据流。AC-3的频响为20Hz20kHz 0.5dB(-3dB时为3Hz20.3kHz)，超低声道频率范围是20Hz120Hz 0.5dB。可支持32kHz、44.1kHz、48kHz三种取样频率。数码率可低至单声道的32kb/s,高到多声道640kb/s，以适应不同须要。杜比AC-3AC-3接受基于改良离散余弦变换（MDCT）的自适应变换编码（ATC）算法。ATC算法的一个重要考虑是基于人耳听觉掩蔽效应的临界频带理论，即在临界频带内一个声音对另一个声音信号的掩蔽效应最明显。因此,划分频带的滤波器组要有足够锋利的频率响应，以保证临界频带外的噪声衰减足够大，使时域和频域内的噪

23、声限定在掩蔽门限以下。三维音效人类的听觉3D音效的分类杜比AC-3DTSDTSDTS是“DigitalTheatreSystem”的缩写，是“数字化影院系统”的意思。从技术上讲，DTS与包括DolbyDigital在内的其它声音处理系统是完全不同的。DolbyDigital是将音效数据存储在电影胶片的齿孔之间，因为空间的限制而必需接受大量的压缩的模式，这样就不得不牺牲部分音质。DTS公司用一种简洁的方法解决了这个问题，即把音效数据存储到另外的CD-ROM中，使其与影像数据同步。这样不但空间得到增加，而且数据流量也可以相对变大，更可以将存储音效数据的CD更换，来播放不同的语言版本。DTSDTS系

24、统不仅具有AC-3相像功能，更加强了其纵深定位交叉效果。DTS芯片容量为1536kbps，压缩传输比为4:1；而AC-3芯片容量为448kbps，压缩比为10:1。正是由于DTS信息容量的增加，音色更加美丽。DTS家庭影院的核心是DTS解码器，它可对DVD，CD的杜比数字解码，输出5.1声道信息，也可以选择DTS方式，输出6声道信息。DTS和杜比数字在音质上有着明显的不同，前者声音力度强劲，声音的上升和切入都很尖锐，音场的透亮感清晰可闻，尤其是丰富的低音效果表现得更加激烈火爆。后者在低音方面缺少丰富的力度4.3语音信号编码的标准与方法作业:小结作业试验试验:4.4静态图像压缩编码技术4.5动态图像压缩编码技术小结作业试验作业:小结作业试验试验:人有了学问，就会具备各种分析实力，明辨是非的实力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。”通过阅读科技书籍，我们能丰富学问，培育逻辑思维实力；通过阅读文学作品，我们能提高文学鉴赏水平，培育文学情趣；通过阅读报刊，我们能增长见识，扩大自己的学问面。有很多书籍还能培育我们的道德情操，给我们巨大的精神力气，鼓舞我们前进。

展开阅读全文