数字视频处理课件(2)精.ppt-得力文库

资源描述

《数字视频处理课件(2)精.ppt》由会员分享，可在线阅读，更多相关《数字视频处理课件(2)精.ppt（76页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、数字视频处理课件第1页，本讲稿共76页3.1.1 3.1.1 视频压缩编码的必要性视频压缩编码的必要性n未经过压缩的原始视频的码率：720p高清电视（30fps，4:2:0）：12807203081.5 316.41Mbps1080p高清电视（60fps，4:2:2）：192010806082 1.85Gbps100分钟的720p高清电视节目（30fps，4:2:0）大小可达约231.74 GB第2页，本讲稿共76页3.1.2 3.1.2 视频压缩编码的可能性视频压缩编码的可能性n信息之所以能进行压缩，是因为信息本身通常存在冗余量n在数据存储或传输时，通过选择优化的信源编码方案，消除了冗余，

2、也就达到了数据压缩目的第3页，本讲稿共76页信源信源/信道信道n信源就是信息的来源，可以是人、机器、自然界的物体等等。信源发出信息的时候，一般以某种讯息的方式表现出来，可以是符号，如文字、语言等，也可以是信号，如图像、声响等等n信道就是信息传递的通道，是将信号进行传输、存储和处理的媒介。信道的关键问题是它的容量大小，要求以最大的速率传送最大的信息量第4页，本讲稿共76页信源编码信源编码/信道编码信道编码n为了减少信源输出符号序列中的冗余度、提高符号的平均信息量，对信源输出的符号序列所施行的变换称为信源编码n对输入信息进行编码，优化信息和压缩信息并且打成符合标准的数据包n信道编码是为了对抗信道中

3、的噪音和衰减，通过增加冗余，如校验码等，来提高抗干扰能力以及纠错能力第5页，本讲稿共76页信息熵信息熵n信息是个很抽象的概念，我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少，直到 1948 年，香农提出了“信息熵”（Entropy）的概念，才解决了对信息的量化度量问题n信息熵是用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量第6页，本讲稿共76页时间冗余时间冗余n在视频序列中，前后两帧图像（时间间隔很短）之间具有较大的相关性，表现出帧与帧之间的重复，因而存在时间冗余n这是视频信号中所经

4、常包含的冗余第7页，本讲稿共76页空间冗余空间冗余n在同一幅图像中，规则物体和规则背景（所谓规则是指表面颜色分布是有序的、而不是完全杂乱无章的）的表面物理特征具有相关性，这些相关性的光成像结构在数字化图像中就表现为数据冗余n同一帧图像中相邻的像素之间具有很强的相关性第8页，本讲稿共76页知识冗余知识冗余n有许多图像的理解与图像所表现内容的基础知识(先验或背景知识)有相当大的相关性，从这种知识出发可以归纳出图像的某种规律性变化，这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解，比如，鼻子上方有眼睛，鼻子又在嘴的上方等第9页，本讲稿共76页结构冗余结构冗余n有些图像从大面积上或整体上看存

5、在着重复出现的相同或相近的纹理结构，例如布纹图像和草席图像，被称为结构冗余第10页，本讲稿共76页其它冗余其它冗余n信息熵冗余（统计冗余、编码冗余）：调整编码（coding）方式可以减少码字的数据量，即编码的效率n视觉冗余：人类的视觉系统实际上只在一定程度上对图像的变化产生敏感，即图像数据中存在着大量人类视觉觉察不到的细节n第11页，本讲稿共76页3.1.3 3.1.3 无损压缩与有损压缩无损压缩与有损压缩n无损压缩可完全恢复数据而不引入失真。由于整个编解码过程中，信源信息的熵始终保持不变，因此无损压缩又被称为熵保持编码，无损压缩的编码效率受信息的熵限制，压缩率通常在2至5倍。无损编码包括：变

6、换编码、游程编码、算术编码等第12页，本讲稿共76页无损压缩与有损压缩无损压缩与有损压缩n有损压缩则是利用人眼视觉特性(HVS:Human Vision System)，对人眼不敏感的某些图像细节信息进行压缩甚至忽略不编码，因此在解码恢复的过程时，不能完全恢复数据的全部信息，引入了失真，但是对于图像的最终接收者（人眼）而言，获得的信息的变化不大（即无大的视觉失真），同时获得较大的压缩率(10到200倍)第13页，本讲稿共76页无损压缩与有损压缩无损压缩与有损压缩n在常用的视频编码应用中，有损编码是与无损编码进行混合编码第14页，本讲稿共76页3.1.4 3.1.4 视频压缩编码的目标视频压缩编

7、码的目标n视频信号由于信息量巨大，存储空间要求高、传输网络带宽要求高，需要将视频信号在传送前先进行压缩编码，即进行视频源压缩编码，然后在网络上进行传送或者存储，以便节省传送带宽和存储空间n视频压缩编码的基本目标要求：n1）必须压缩在一定的带宽内，即视频编码器应具有足够的压缩比第15页，本讲稿共76页视频压缩编码的目标视频压缩编码的目标n2）视频信号压缩之后，应保持一定的视频质量n如果不问质量，一味地压缩，虽然压缩比很高，但压缩后严重失真，显然达不到要求；反之，如只讲质量，压缩比太小，也不符合要求n3）在以上两个要求下，视频编码器的实现应力求简单、易实现、成本低、可靠性高，这也是基本的要求第16

8、页，本讲稿共76页3.1.5 3.1.5 视频压缩编码技术概述视频压缩编码技术概述 n从上世纪80年代开始逐渐形成了混合视频编码(Hybrid video coding/encoding)技术，并成为之后一系列视频编码标准的基础框架第17页，本讲稿共76页视频压缩编码技术概述视频压缩编码技术概述 n视频编码方法与采用的信源模型有关n如果采用“一幅图像由许多像素构成”的信源模型，这种信源模型的参数就是每个像素的亮度和色度的幅度值。对这些参数进行压缩编码技术称为基于波形的编码n如果采用一个分量有几个物体构成的信源模型，这种信源模型的参数就是各个物体的形状、纹理和运动。对这些参数进行压缩编码的技术被

9、称为基于内容的编码第18页，本讲稿共76页视频压缩编码技术概述视频压缩编码技术概述 n由此可见，根据采用信源模型，视频编码可以分为两大类，基于波形的编码和基于内容的编码n它们利用不同的压缩编码（Encoding）方法，得到相应的量化前的参数；再对这些参数进行量化；最后，进行无损熵编码进一步提高效率n解码（Decoding）则为编码的逆过程第19页，本讲稿共76页视频编码分块视频编码分块n为减少编码的复杂性，使视频编码操作易于执行，首先把一幅图像分成固定大小的宏块（Macroblock,MB），以亮度为基准，通常为1616块（每块16行，每行16个像素）n在宏块中可以进一步分块，例如88块（每块

10、8行，每行8个像素）、168块、44块等等，然后对块进行压缩编码处理n色度按照采样或子采样格式对应计算第20页，本讲稿共76页视频编码分块视频编码分块n一个宏块通常由6个块组成（4:2:0子采样）8x8 blocksmacroblockYCbCr第21页，本讲稿共76页基于内容的编码基于内容的编码n基于块的编码易于操作，但由于人为地把一幅图像划分成许多固定大小的块，当包含边界的块属于不同物体时，它们分别具有不同的运动，便不能用同一个运动矢量表示该边界块的运动状态。如果强制划分成固定大小的块，这种边界块必然会产生高的预测误差和失真，严重影响了压缩编码信号的质量第22页，本讲稿共76页基于内容的编

11、码基于内容的编码n于是产生了基于内容的编码技术。这时先把视频帧分成对应于不同物体的区域，然后对其编码n即对不同物体的形状、运动和纹理进行编码。在最简单情况下，利用二维轮廓描述物体的形状；利用运动矢量描述其运动状态；而纹理则用颜色的波形进行描述第23页，本讲稿共76页视频冗余的压缩手段视频冗余的压缩手段n空间冗余：帧内编码n时间冗余：帧间编码n视觉冗余：变换编码、量化n信息熵冗余：熵编码第24页，本讲稿共76页3.1.6 3.1.6 视频质量视频质量n对压缩后的视频质量估计是一件困难的工作n大体上，可分为主观视频质量评定和客观视频质量评定两种估计方法第25页，本讲稿共76页主观质量主观质量n由于

12、个人的视觉系统（HVS）不尽相同，对视频内容的熟悉程度也不一样n为了减少主观随意性，在对视频进行主观评定前，选若干名专家和“非专家”作为评分委员，共同利用五项或七项评分法对同一种视频进行质量评定n最后按加权平均法则对该压缩后的视频质量进行主观评定第26页，本讲稿共76页主观评价分数标准主观评价分数标准第27页，本讲稿共76页主观质量测试系统主观质量测试系统n测试方法可用随机次序请评委观察比较原始图像和压缩编码的图像，国际上称为DSCOS 的测试系统n其中A为原始图像，B为编码解码后的图像，以任意的A、B次序让评委打分评定第28页，本讲稿共76页客观质量客观质量n主观的视频质量评分更接近人的真实

13、视觉感受，但需耗费人力和时间，成本较高n客观质量的测定方法速度快、易实行，但往往不会太符合人眼的视觉感受，只能说大体上的质量。客观质量测定方法应致力于改进其测试标准和测试方法，使其符合人的视觉感受第29页，本讲稿共76页客观质量客观质量n最常用的测试标准是峰值信号与噪声之比（PSNR）：nPSNR(dB)=10 log 10(2n-1)/MSE)n其中MSE(mean square error)为原始和编解码后图像之间的均方误差，(2n-1)为图像中最大可能信号值的平方，n表示每个像素的比特数第30页，本讲稿共76页客观质量客观质量第31页，本讲稿共76页客观质量客观质量n一般讲，PSNR愈高

14、视频质量愈高；反之亦然n但实际上有时并非如此n图(4)的PSNR为27.7dB，其主观评定可能比图(2)、(3)的高，但客观质量PSNR却低于图(2)、(3)的30.6dB和28.3dBn这是因为图(4)中的脸部更清晰，只是背景模糊，而人眼对脸部往往更敏感更重视第32页，本讲稿共76页第三章第三章视频压缩编码基本原理视频压缩编码基本原理n3.1 视频压缩编码概述n3.2 预测编码第33页，本讲稿共76页3.2.1 3.2.1 预测编码的基本概念预测编码的基本概念n预测法是最简单和实用的视频压缩编码方法，这时压缩编码后传输的并不是像素本身的取样幅值，而是该取样的预测值和实际值之差n为什么取像素

15、预测值与实际值之差作为传输的信号？第34页，本讲稿共76页3.2.2 3.2.2 帧内预测编码帧内预测编码n大量统计表明，同一幅图像的邻近像素之间有着相关性，或者说这些像素值相似，邻近像素之间发生突变或“很不相似”概率很小n可以利用这些性质进行视频压缩编码第35页，本讲稿共76页帧内预测编码帧内预测编码n例如，同一帧内邻近像素，当前像素为X，其左邻近像素为A，上邻近像素为B，上左邻近像素为C。显然与X之间的距离近的像素，如A和B与X的相关性强，愈远相关性愈弱，如C、D、E、F等像素第36页，本讲稿共76页帧内预测编码帧内预测编码n以P作为预测值，按与X的距离不同给以不同的权值，把这些像素的加权

16、和作为X的预测值，与实际值相减，得到差值q。由于临近像素之间相关性强，q值非常小，达到压缩编码目的第37页，本讲稿共76页帧内预测编码帧内预测编码n若预测器中参与预测的像素与当前像素在同一帧，则为帧内预测编码n帧内预测通常利用本行和上一行的相邻像素来预测当前像素X1X2X3X4X5X6X7第38页，本讲稿共76页线性预测线性预测n设tn时刻之前的样本值X1，X2，Xn-1与预测值之间呈现某种函数形式n最简单的线性关系（线性预测）第39页，本讲稿共76页线性预测线性预测n不同预测值第40页，本讲稿共76页线性预测方案线性预测方案n若当前像素X用同一扫描行中最邻近的X1像素来预测，即取X的预测值为

17、X1，这称为前值预测n若用X的同一扫描行的前几个已知像素值如X1,X5.等来预测X，则称为一维预测n若用X的同一行和同一帧的前几行若干个已知像素如X1,X5,X2,X3,X4.等来作预测值，则称为二维预测第41页，本讲稿共76页帧内预测编码帧内预测编码n接收端把差值q与预测值（事先已定义好，比当前X早到达接收端的像素，如）相加，恢复原始值X。归纳如下：n编码端：XA=qn解码端：qA=X第42页，本讲稿共76页3.2.3 3.2.3 帧间预测编码帧间预测编码n据测得，对缓慢变化的256级亮度值的视频序列，帧间差超过阈值3的像素不到一帧总像素的4%n对剧烈变化的256级亮度值的视频序列，帧间差超

18、过阈值6的像素平均只占一帧总像素的7.5%n说明什么？第43页，本讲稿共76页帧间差异帧间差异第44页，本讲稿共76页运动估计运动估计(运动搜索运动搜索)/)/运动补偿运动补偿n如何减小帧差和更精确预测当前像素是提高帧间压缩编码效率的关键之处n运动估计（Motion Estimation，ME，或称运动搜索）：对运动物体的位移作出估计。即对运动物体从前一帧到当前帧位移的方向和像素数做出估计（求出最优的运动矢量）n运动补偿（Motion Compensation，MC）：根据求出的运动矢量，找到当前帧的像素的相应位置，从而得到当前帧像素的预测值第45页，本讲稿共76页运动估计运动估计第46页，本

19、讲稿共76页帧间预测编码过程帧间预测编码过程n（1）对于当前编码帧的当前宏块，在该帧的前一帧（参考帧）中寻找与该宏块有最优匹配的图像块（运动估计）第47页，本讲稿共76页帧间预测编码过程帧间预测编码过程n（2）如果找到这样的最优匹配块，则：计算当前块的像素值与参考帧中最优匹配块的像素值之间的差值预测残差(误差)计算当前块与参考块在水平（x）和垂直（y）两个方向上的距离运动矢量然后只需对当前块的运动矢量和预测残差进行编码传输n（3）如果找不到最优匹配块，则必须进行帧内编码第48页，本讲稿共76页帧间预测编码过程帧间预测编码过程n（4）按照宏块次序，重复上述过程，直至当前编码帧中所有宏块全部处理完

20、毕第49页，本讲稿共76页运动估计运动估计n运动估计是去除时间冗余最基础有效的方法，也是各类视频编码算法所普遍采用的一项核心算法n运动估计的优劣直接决定编码效率和重构视频质量：运动估计（运动搜索）越准确，预测残差越小，编码效率越高，在相同码率(bitrate)下的解码视频就具有更好的图像质量第50页，本讲稿共76页运动估计运动估计n运动估计的计算复杂度一般占到编码器的50%以上，为保证视频编码的实时性，运动估计应当具有尽可能低的计算复杂度n如何提高运动估计算法的性能，使运动估计更快速、精确和健壮受到广泛关注第51页，本讲稿共76页3.2.4 3.2.4 运动表示法运动表示法n由于在成像的场景中

21、一般有多个物体作不同的运动，如果直接按照不同类型的运动将图像分割成复杂的区域是比较困难的n最直接和不受约束的方法是在每个像素都指定运动矢量，这就是所谓基于像素表示法。这种表示法是对任何类型图像都是适用的，但是它需要估计大量的未知量，并且它的解时常在物理上是不正确，除非在估计过程中施加适当的物理约束。这在具体实现时是不可能的，通常采用基于块的物体运动表示法第52页，本讲稿共76页帧间运动矢量分布图（像素级）帧间运动矢量分布图（像素级）第53页，本讲稿共76页3.2.4.1 3.2.4.1 基于块的运动表示法基于块的运动表示法n一般对于包含多个运动物体的景物，实际中普遍采用的方法是把一个图像帧分成

22、多个块，使得在每个区域中的运动可以很好地用一个参数化模型表征，这被称为块匹配法，即将图像分成若干个MN块（如1616宏块等），为每一个块寻找一个最优的运动矢量MV和进行运动补偿，实现帧间预测编码第54页，本讲稿共76页基于块的运动表示法基于块的运动表示法n设前一帧搜索区为（M+2Wx,N+2Wy），当前帧块与前一帧块之间的位移为d(i,j)第55页，本讲稿共76页基于块的运动表示法基于块的运动表示法n在4:2:0子采样格式时，宏块中的每个色度分块（Cb和Cr）尺寸宽高都是其对应亮度分块的一半n色度块的分割方法和亮度块同样，只是尺寸上宽高都是亮度块一半（如亮度块是816块尺寸大小，那么色度块就是

23、48，如亮度块尺寸为84，那么色度块便是42等等）。每个色度块的运动矢量的水平和垂直坐标都是亮度块的一半第56页，本讲稿共76页3.2.4.2 3.2.4.2 亚像素位置的插值亚像素位置的插值(interpolation)(interpolation)n帧间编码宏块中的每个分割区域（宏块或块）都是根据参考帧中的同尺寸的区域进行预测，它们之间的位置（位移）关系用运动矢量（motion vector）来表示n由于自然物体运动的连续性，相邻两帧之间的宏块或块的运动矢量不是以整像素为基本单位的，可能真正的运动位移量是以1/4 像素或者甚至1/8像素等亚像素作为单位的第57页，本讲稿共76页亚像素位置的

24、插值亚像素位置的插值n计算得到亚像素位置的像素值的过程就称为插值(interpolation)第58页，本讲稿共76页亚像素位置的插值亚像素位置的插值n图中给出了一个视频序列分别采用1/2像素精度、1/4像素精度和1/8像素精度时编码效率的情况第59页，本讲稿共76页亚像素位置的插值亚像素位置的插值n可以看到1/4像素精度相对于1/2像素精度的编码效率有很明显的提高，但是1/8像素精度相对于1/4像素精度的编码效率除了在高码率情况下并没有明显的提高，而且1/8像素的插值公式更为复杂，因此在H.264的制定过程中1/8像素精度的运动矢量模型逐渐被取消而只采用了1/4像素精度的运动矢量模型第60页

25、，本讲稿共76页3.2.5 3.2.5 匹配准则匹配准则n一个块的匹配误差（最常用的一种）为：nJBlock(MV)SAD(s,c(MV)MOTIONR(MV-MVp)n其中s是当前编码块的原始像素值，c是用于进行运动补偿的参考块的像素值，MV为块的运动矢量，MOTION为拉格朗日常数，MVp 为预测运动矢量，R(MV-MVp)代表了编码运动矢量可能耗费的比特数，x、y为块内的像素坐标第61页，本讲稿共76页3.2.6 3.2.6 运动搜索（运动估计）算法运动搜索（运动估计）算法n全局搜索法（穷尽搜索法）n快速搜索法n分级搜索范围算法第62页，本讲稿共76页3.2.6.1 3.2.6.1 全局

26、搜索算法全局搜索算法n为当前帧的一个给定块确定最优运动矢量的全局搜索算法方法是：在一个预先定义的搜索区域内，把它与参考帧中所有的候选块进行比较，并且寻找具有最小匹配误差的一个。这两个块之间的位移就是所估计的运动矢量MV，这样做带来的结果必然导致极大的计算量第63页，本讲稿共76页全局搜索算法全局搜索算法第64页，本讲稿共76页全局搜索算法全局搜索算法n估计的精度是由搜索的步长决定的，步长是相邻两个候选块在水平或者垂直方向上的距离。通常，沿着两个方向使用相同的步长。在最简单的情况下，步长是一个整数像素，称为整像素精度搜索第65页，本讲稿共76页3.2.6.2 3.2.6.2 快速搜索算法快速搜索

27、算法n快速搜索算法和全局搜索算法相比，虽然可能只能得到次最佳的匹配结果，但在减少运算量方面效果显著第66页，本讲稿共76页3.2.6.2.1 3.2.6.2.1 二维对数搜索法二维对数搜索法n这种算法的基本思路是采用大菱形搜索模式和小菱形搜索模式n从相应于零位移的位置（零点）开始搜索，每一步试验菱形排列的五个搜索点。下一步，把中心移到前一步找到的最佳匹配点并重复菱形搜索。当最佳匹配点是中心点或是在最大搜索区域的边界上时，就减小搜索步长（菱形的半径）。否则步长保持不变第67页，本讲稿共76页二维对数搜索法二维对数搜索法n当步长减小到一个像素时就到达了最后一步，并且在这最后一步检验九个搜索点。初始

28、搜索步长一般设为最大搜索区域的一半第68页，本讲稿共76页3.2.6.2.2 3.2.6.2.2 交叉搜索法交叉搜索法n交叉搜索法是二维对数搜索法的改进，每步搜索使用()型的4个点，而不是二维对数搜索法中(十)型的4个点，且最后一步也只搜索4个点，但可以使用()型或(十)型的4个点n若最后一步的最佳匹配点在中心、右上或左下时，使用(十)型，如图(a)所示；否则使用()型，如图(b)所示第69页，本讲稿共76页交叉搜索法交叉搜索法第70页，本讲稿共76页3.2.6.2.3 3.2.6.2.3 三步搜索法三步搜索法n这种搜索的步长从等于或者略大于最大搜索范围的一半开始n第一步，在起始点和周围八个“

29、1”标出的点上计算匹配误差，如果最小匹配误差在起始点出现，则认为没有运动第71页，本讲稿共76页三步搜索法三步搜索法n第二步，以第一步中匹配误差最小的点（图中起始点箭头指向的“1”）为中心，计算以“2”标出的8个点处的匹配误差。注意，在每一步中搜索步长搜都比上一步长减少一半，以得到更准确的估计n在第三步以后就能得到最终的估计结果，这时从搜索点到中心点的距离（步长）为一个像素第72页，本讲稿共76页3.2.6.2.4 3.2.6.2.4 新三步搜索法新三步搜索法n由于视频图像的平稳特性，图像块出现小运动矢量的概率较大。新三步搜索法对三步搜索法进行了改进n新三步搜索法在原三步搜索法的基础上增加零位

30、移附近的8个点，若最佳匹配点在零点，搜索直接终止n若最佳匹配点在外围的8个点中，进行与原三步搜索法相同的搜索过程第73页，本讲稿共76页新三步搜索法新三步搜索法n若最佳匹配点在增加的8个点中，再计算此点附近的3个像素，然后终止搜索第74页，本讲稿共76页3.2.6.2.5 3.2.6.2.5 菱形搜索法菱形搜索法n搜索模板的形状和大小是影响快速算法性能的主要因素。菱形搜索法使用两种搜索模板，分别是9个检测点的大模板和5个检测点的小模板n开始搜索时使用大模板(a)，当最佳点位于中心点时，再使用小模板(b)n菱形搜索法各步骤之间的相关性较大，由移动模板而新增加的检测点并不多第75页，本讲稿共76页菱形搜索法菱形搜索法第76页，本讲稿共76页

展开阅读全文