第四章多媒体数据压缩技术介绍.ppt-得力文库

资源描述

《第四章多媒体数据压缩技术介绍.ppt》由会员分享，可在线阅读，更多相关《第四章多媒体数据压缩技术介绍.ppt（99页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、专业选修课程武汉大学多媒体技术Multimedia Techniques第四章多媒体数据压缩技术4.1多媒体数据压缩技术概述4.2常用多媒体数据压缩方法4.3语音信号编码的标准与方法4.4静态图像压缩编码技术4.5动态图像压缩编码技术第四章多媒体数据压缩技术4.1多媒体数据压缩技术概述数据编码包括：信源编码信道编码信源编码：为了表示和/或压缩从信号源产生出来的信号而进行的编码，主要解决有效性问题。信道编码：为了使处理过的信号在传输过程中不出错或少出错，以及即使出了错也能自动检错或尽量纠错而进行的编码，主要解决可靠性问题。多媒体数据的压缩主要是对视频数据和音频数据的压缩，二者使用的基本技术是相同

2、的。为什么要压缩数据的冗余性压缩和解压缩过程压缩评价和分类数据压缩常常又称为数据信源编码，或简称为数据编码。数据压缩的逆过程称为数据解压缩，也称为数据信源解码，或简称为数据解码。4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4

3、.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法词典编码分类词典编码分类词典编码的根据：数据本身包含有重复代码序列。属于通用编码技术和无损压缩技术词典编码法分类第一类词典法：查找正在压缩的字符序列是否在前面的输入数据中出现过，如果是，则用指向早期出现过的字符串的“指针”替代重复的字符串。第二类算法：从输入的数据中创建一个“短语词典(dict

4、ionary of the phrases)”。编码数据过程中当遇到已经在词典中出现的“短语”时，编码器就输出这个词典中的短语的“索引号”，而不是短语本身。LZW算法LZW与LZ78的差别：LZW只输出代表词典中的缀-符串(String)的码字(code word)。这意味在开始时词典不能是空的，它必须包含可能在字符流出现中的所有单个字符，即前缀根(Root)。由于所有可能出现的单个字符都事先包含在词典中，每个编码步骤开始时都使用一字符前缀(one-character prefix)，因此在词典中搜索的第1个缀-符串有两个字符。3.5.5.1编码算法LZW编码是围绕称为词典的转换表来完成的。这

5、张转换表用来存放称为前缀(Prefix)的字符序列，并且为每个表项分配一个码字(Code word)，或者叫做序号。LZW编码器(软件编码器或硬件编码器)通过管理这个词典完成输入与输出之间的转换。LZW编码器使用的分析(parsing)算法，称为贪婪分析算法(greedy parsing algorithm)。贪婪分析算法每一次分析都要串行地检查来自字符流Charstream的字符串，从中分解出已经识别的最长的字符串，也就是已经在词典中出现的最长的前缀Prefix。用已知的前缀Prefix加上下一个输入字符C也就是当前字符(Current character)作为该前缀的扩展字符，形成新的扩展

6、字符串缀-符串String：Prefix.C。新的缀-符串String是否要加到词典中，要看词典中是否存有和它相同的缀-符串String。如果有，那么这个缀-符串String就变成前缀Prefix，继续输入新的字符，否则就把这个缀-符串String写到词典中生成一个新的前缀Prefix，并给一个代码。3.5.5.1LZW编码算法步骤步步骤骤1 1：开始时的词典包含所有可能的根(Root)，而当前前缀P是空的；步步骤骤2 2：当前字符(C)：=字符流中的下一个字符；步步骤骤3 3：判断缀-符串P+C是否在词典中把代表当前前缀P的码字输出到码字流；把缀-符串P+C添加到词典；令P：=C，即现在的P

7、仅包含一个字符C；步骤步骤4 4：判断码字流中是否还有码字要译如果“是”，返回到步骤2；如果“否”，则把代表当前前缀P的码字输出到码字流；结束。例位置123456789字符ABBABABAC步骤位置词典输出(1)A(2)B(3)C 1 1(4)A B(1)2 2(5)B B(2)3 3(6)B A(2)4 4(7)A B A(4)5 6(8)A B A C(7)6-(3)被编码字符串 LZW的编码过程 3.5.5.2LZW译码算法步步骤骤1 1：在开始译码时词典包含所有可能的前缀根(Root)；步步骤骤2 2：cW：=码字流中的第一个码字；步步骤骤3 3：输出当前缀-符串string.cW到码

8、字流；步步骤骤4 4：先前码字pW：=当前码字cW；步步骤骤5 5：当前码字cW：=码字流中的下一个码字；步步骤骤6 6：判断先前缀-符串string.pW是否在词典中 1)如果“是”：把先前缀-符串string.pW输出到字符流；当前前缀P：=先前缀-符串string.pW；当前字符C：=当前前缀-符串string.cW的第一个字符；把缀-符串P+C添加到词典；2)如果“否”：当前前缀P：=先前缀-符串string.pW；当前字符C：=当前缀-符串string.cW的第一个字符；输出缀-符串P+C到字符流，然后把它添加到词典中。步步骤骤7 7：判断码字流中是否还有码字要译 1)如果“是”，就

9、返回到步骤4；2)如果“否”，结束。例（续）步骤代码词典输出(1)A(2)B(3)C 1(1)-A 2(2)(4)A B B3(2)(5)B B B 4(4)(6)B A A B5(7)(7)A B AA B A6(3)(8)A B A CCLZW的译码过程 4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音

10、信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法LPC在语音处理中得到广泛应用，发展了许多算法：多脉冲线性预测编码（MPLPC）规则脉冲激励编码（RPE）码激励线性预测（CELP）代数激励线性预测（ACELP）向量和激励线性预测（VSELP）QCELP（QualcommCELP，变速率CELP）低延时码激励线性预测（LD-CELP）共轭结构代数激励线性预测（CS-ACELP）混合激励线性预测（MELP）间隔同步更新码激励线性预测（PSI-CEL

11、P）松弛码激励线性预测（RCELP）残差激励线性预测（RELP）规则脉冲激励长时预测（RPE-LTP）4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法MP3音频压缩编码MP3是一种音频压缩的国际技术标准。MP3格式开始于二十世纪80年代中期，是在德国夫朗和费研究所（FraunhoferInstitute）开始的，研究致力于高质量、低数据率的声音编码。1989年，夫朗和费研究所在德国被获准取得了MP3的专利权，几年后这项技术被提交到国际

12、标准组织(ISO)，整合进入了MPEG-1标准。MP3格式是一个让音乐界产生巨大震动的一个声音格式。MP3的全称是MovingPictureExpertsGroup,AudioLayer3，它所使用的技术是在VCD（MPEG-1）的音频压缩技术上发展出的第三代，而不是MPEG-3。MP3音频压缩编码MPEG代表的是MPEG活动影音压缩标准，MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。MPEG音频文件根据压缩质量和编码复杂程度的不同可分为三层（MPEGAUDIOLAYER1/2/3分别与MP1、MP2和MP3这三种声音文件相对应）。MPEG音频编码具有很高的压缩率，MP1和M

13、P2的压缩率分别为4:1和6:1-8:1，而MP3的压缩率则高达10:112:1，也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。MP3音频压缩编码音乐信号中有许多冗余成分，其中包括间隔和一些人耳分辨不出的信息（如混杂在较强背景中的弱信号）。MP3为降低声音失真采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然它是一种有损压缩，但是它的最大优

14、势是以极小的声音失真换来了较高的压缩比。音频编码标准G.711G.722G.723.1G.728G.729音频编码标准比较G.7111972年CCITT为电话质量和语音压缩制定了PCM标准G.711。其速率为64kb/s，使用律或A律的非线性量化技术，主要用于公共电话网中。G.7221988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准，它使用子带编码(SBC)方案，其滤波器组将输入信号分成高低两个子带信号，然后分别使用ADPCM进行编码。G.722能将224kb/s的调幅广播质量的音频信号压缩为64kb/s，主要用于视听多媒体和会议电视等。G.722的主要目标是保持64kb/s

15、的数据率，而音频信号的质量要明显高于G.711的质量。G.723.11996年ITU-T通过了G.723标准“用于多媒体传输的5.3kb/s或6.3kb/s双速率话音编码”。它采用多脉冲激励最大似然量化(MP-MLQ)算法，此标准可应用于可视电话及IP电话等系统中。G.728为了进一步降低压缩的速率，CCITT于1992年制定了G.728标准，使用基于低时延码本激励线性预测编码(LD-CELP)算法，其速率为16kb/s，主要用于公共电话网中。G.729ITU-T于1996年3月通过了G.729标准，它使用8kb/s的共轭结构代数码激励线性预测(CS-ACELP)算法，此标准将在无线移动网、数

16、字多路复用系统和计算机通信系统中应用。音频编码标准比较第四讲数字语音处理技术数字音频压缩技术三维音效语音识别自然语言理解语音合成三维音效人类的听觉3D音效的分类杜比AC-3DTS人类的听觉人耳的基本声音定位原理是IID（InterauralIntensityDifference，两侧声音强度差别）和ITD（InterauralTimeDifference，两侧声音时间延迟差别）。IID指距离音源较近的哪一边耳朵，所收到的声音强度比另一侧高，感到声音更大一些。ITD指方位的不同，使声音到达两耳的时间有差别，人们会觉得声音位于到达时间早些的那一边，IID+ITD的结果是把音源定位到以听者两耳这

17、间连线为轴线的锥体范围之内。人类的听觉耳廓（外耳）的作用是滤波器，根据声音的不同角度，加强/减弱音波能量，过滤之后传给大脑，让我们更准确地声源的位置。耳廓的大小有限，因此能够收到的音波范围也有限，通常是20Hz到20KHz，即波长16米到1.6厘米的音波。换言之，低于此范围是次声波，高于此范围是超声波。由于两耳机的距离约为15厘米，当波长大于15厘米时IIT和ITD将会减弱。频率低的声音波长大，因此我们很难判断出低音的位置，却能轻易分辨高音的方位。实际上，耳廓对于声音的定位，是至关重要的一环，没有外耳的人难以判断声音发出的位置。人类的听觉人类依靠一种称为HRTF（HeadRelatedTran

18、sferFunction，头部关联传输功能）的系统来判断声音发出的位置。每个人的HRTF都不尽相同，还可以进行交换。HRTF的检测非常简单，先在人的耳道内放置两个微型麦克风，再在听者附近放一个音箱，播放确定的信号，同时记录麦克风收到的信号。比较源信号和麦克风的脉冲特性曲线就可以得到其中一个滤波效果。最后于听者附近的所有位置重复上述过程，即可获取完整的HRTF系统。三维音效人类的听觉3D音效的分类杜比AC-3DTS3D音效的分类3D音效的两个最重要因素是定位和交互。定位即让人们准确地判断出声音的来源，可以通过预选录制声音，再进行特定的解码来实现。实时的定位就是交互，声音并非预选录制好的，而是按照

19、你的控制来决定声音的位置。即时生成的交互式声音对输入设备的要求，比预选录制音轨的放音设备（如：电影）要更强一些。3D音效的分类扩展式立体声它使用声音延迟技术对传统的立体声进行额外处理，扩宽了音场的位置，使声音延展到音箱以外的空间，让我们感觉的3D世界更广阔环绕立体声它采用音频压缩技术(如：杜比AC-3)把多通道音源编码成一段程序，再以一组多扬声器系统来进行解码，实现多区域环绕效果。交互式3D音效交互式3D尽量地复制了人耳在真实世界中听到的声音，并使用一定的算法来播放出来，让我们感到整个三维空间的所有地方都可能产生声音，并随听者的移动而做出相应改变。三维音效人类的听觉3D音效的分类杜比AC-3D

20、TS杜比AC-3为了提高HDTV声音的质量，避免模拟矩阵编码的局限性，提出了双通道的码率提供多通道的编码性能的设想，杜比AC-3就是为了实现这一设想而开发的。杜比AC-3可以把五个独立的全频带和一个超低音通道的信号实行统一编码，成为单一的复合数据流。AC-3的频响为20Hz20kHz0.5dB(-3dB时为3Hz20.3kHz)，超低声道频率范围是20Hz120Hz0.5dB。可支持32kHz、44.1kHz、48kHz三种取样频率。数码率可低至单声道的32kb/s,高到多声道640kb/s，以适应不同需要。杜比AC-3AC-3采用基于改良离散余弦变换（MDCT）的自适应变换编码（ATC）算法

21、。ATC算法的一个重要考虑是基于人耳听觉掩蔽效应的临界频带理论，即在临界频带内一个声音对另一个声音信号的掩蔽效应最明显。因此,划分频带的滤波器组要有足够锐利的频率响应，以保证临界频带外的噪声衰减足够大，使时域和频域内的噪声限定在掩蔽门限以下。三维音效人类的听觉3D音效的分类杜比AC-3DTSDTSDTS是“DigitalTheatreSystem”的缩写，是“数字化影院系统”的意思。从技术上讲，DTS与包括DolbyDigital在内的其它声音处理系统是完全不同的。DolbyDigital是将音效数据存储在电影胶片的齿孔之间，因为空间的限制而必须采用大量的压缩的模式，这样就不得不牺牲部分音质。

22、DTS公司用一种简单的办法解决了这个问题，即把音效数据存储到另外的CD-ROM中，使其与影像数据同步。这样不但空间得到增加，而且数据流量也可以相对变大，更可以将存储音效数据的CD更换，来播放不同的语言版本。DTSDTS系统不仅具有AC-3相似功能，更加强了其纵深定位交叉效果。DTS芯片容量为1536kbps，压缩传输比为4:1；而AC-3芯片容量为448kbps，压缩比为10:1。正是由于DTS信息容量的增加，音色更加优美。DTS家庭影院的核心是DTS解码器，它可对DVD，CD的杜比数字解码，输出5.1声道信息，也可以选择DTS方式，输出6声道信息。DTS和杜比数字在音质上有着明显的不同，前者

23、声音力度强劲，声音的上升和切入都很尖锐，音场的透明感清晰可闻，尤其是丰富的低音效果表现得更加激烈火爆。后者在低音方面缺少丰富的力度4.3语音信号编码的标准与方法作业:小结作业实验实验:4.4静态图像压缩编码技术4.5动态图像压缩编码技术小结作业实验作业:小结作业实验实验:人有了知识，就会具备各种分析能力，明辨是非的能力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。”通过阅读科技书籍，我们能丰富知识，培养逻辑思维能力；通过阅读文学作品，我们能提高文学鉴赏水平，培养文学情趣；通过阅读报刊，我们能增长见识，扩大自己的知识面。有许多书籍还能培养我们的道德情操，给我们巨大的精神力量，鼓舞我们前进。

展开阅读全文