【图像编码】【文件格式】
本次团队合作充分将时间的利用率达到了最高化,我们用了2天将思路制定以及内部根据自己的喜好分成2组,有人肯定会说不是给你们题目了么?还制定什么思路?因为这次题目比较宽广,我们需要挑选重点以及难点来进行讲解,况且前期的准备工作充分了,对于后面接下来的过程将会更加得心应手,目的性明确。我们小组里图像编码和文件格式又各分一组,用了3天的时间查找资料以及用了最后2天我们在图书馆以及网上进行了讨论总结。 【图像编码】
1. 为什么要使用图像编码
答: 图像编码主要利用图像信号的统计特性以及人类视觉的生理学及心理学特性,对图像信号进行高效编码,即研究数据压缩技术,目的是在保证图像质量的前提下压缩数据,便于存储和传输,以解决数据量大的矛盾。一般来说,图像编码的目的有单个:1.减少数据存储量2.降低数据率以减少传输带宽3.压缩信息量,便于特征提取,为后续识别做准备。
2. 经典编码技术 2.1熵编码
2.1.1行程编码
2.1.2哈夫曼编码【原理】 2.1.3算术编码
优点:编码过程中按熵原理不丢失任何信息,根据消息出现概率的分布特性而进行
的,是无损数据压缩编码。
缺点: 使用长度不同的比特串对字母进行编码有一定的困难。尤其是,几乎所有
几率的熵都是一个有理数。
2.2预测编码
2.1.1差分脉冲编码调制
2.1.2自适应差分脉冲编码调制 2.1.3帧间预测
优点:在同等精度要求的条件下,就可以用比较少的比特进行编码,达到压缩数据
的目的。
缺点:在于当图像中有运动物体时,两个传输帧在物体经过的区域上不再一一对应,因而引起图像模糊。
2.3变换编码(压缩比最高) 2.1.1 K-L变换
2.1.2离散余弦编码
优点:在时域或空域描述时,数据之间相关性大,数据冗余度大,经过变换在变换
域中描述,数据相关性大大减少,数据冗余量减少,参数独立,数据量少,这样再进行量化,编码就能得到较大的压缩比。
缺点:间接编码编码时间较长,压缩时间复杂度较大。 2.4混合编码
优点:这种方法克服了原有波形编码与参数编码的弱点, 并且结合了波形编码的
高质量和参数编码的低数据率, 取得了比较好的效果。
缺点:不便于解码等工作
3. 第二代编码技术 3.1分型编码
压缩比高,压缩后的文件容量与图像像素数无关,在压缩时时间长但解压缩速度快
3.2小波变换编码
优点:能够很好消除图像数据中的统计冗余,利用了人眼视觉的特性机制。适应于高压缩比应用领域。
缺点:离散余弦变换、弱化各子带的统计特性。 4. 【文件格式】
1. 一般图片有些什么格式
●BMP 是一个无压缩的图片,画面质量比较好,它了包含的图像信息较丰富,支持1, 4, 8, 16, 24, 32位深度,通常用处在于Windows操作系统中的标准图像文件格式 能够被多种Windows应用程序所支持,但是美中不足的就是文件体积大 需要内存空间大。
●Jpeg是一种有损压缩后的图片,用在网络 网页 图形 图像信息显示比较多,用有损压缩方式去除冗余的图像和彩色数据 获得极高的压缩率同时能展现十分丰富生动的图像 用最少的磁盘空间得到较好的图像质量 可以调节压缩的 比率 在质量和大小之间 找到最佳点。这种就类似了我们听音乐的MP3技术,去除一些我们人耳无法识别或者说有没有没有关系的声音,我们的图片也是一样。
●GIF通常用于网络传输和图像交换,他的优点是压缩比高,磁盘空间占用较少,支持动画,GIF图像格式还增加了渐显方式 在图像传输过程中,用户可以先看到图像的大致轮廓 然后随着传输过程的继续而逐步看清图像中的细节部分 从而适应了用户的\从朦胧到清楚\的观赏心理。然而做过网站的都知道一般网站上的图片GIF占多,同样如果分别采用JPEG和GIF的网站,当然他们的图像是一样的,这样说来肯定是打开GIF的网站比较快。
●PNG是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法。PNG是目前保证最不失真的格式 它汲取了GIF和JPG二者的优点 存贮形式丰富 兼有GIF和JPG的色彩模式 它的另一个特点能把图像文件压缩到极限以利于网络传输 但又能保留所有与图像品质有关的信息 因为PNG是采用无损压缩方式来减少文件的大小 这一点与牺牲图像品质以换取高压缩率的JPG有所不同 它的第三个特点是显示速度很快 只需下载1/64的图像信息就可以显示出低分辨率的预览图像。 PNG同样支持透明图像的制作 透明图像在制作网页图像的时候很有用 我们可以把图象背景设为透明 用网页本身的颜色信息来代替设为透 明的色彩 这样可让图像和网页背景很和谐地融合在一起。
●TGA采用了游程编码和行程长度编码的方式它在加压缩和解压缩都非常快是一种无损数据压缩,但是并不适用于连续色调图像的压缩例如日常生活中的照片
2. 矢量图和标量图的区别 色彩空间转换
首先,图像由RGB(红绿蓝)转换为一种称为YUV的不同色彩空间。这与模拟PAL彩色电视传输所使用的色彩空间相似,但是更类似于MAC电视传输系统运作的方式。但不是模拟NTSC,模拟NTSC使用的是YIQ色彩空间。 Y成份表示一个像素的亮度 ? U和V成份一起表示色调与饱和度。 o 这种编码系统非常有用,因为人类的眼睛对于亮度差异的敏感度高于色彩变化。使用这种知识,编码器(encoder)可以被设计得更有效率地压缩图像。 ? ? ? 缩减取样(Downsampling) 上面所作的转换使下一步骤变为可能,也就是减少U和V的成份(称为\缩减取样\或\色度抽样\(chroma subsampling)。在JPEG上这种缩减取样的比例可以是4:4:4(无缩减取样),4:2:2(在水平方向2的倍数中取一个),以及最普遍的4:2:0(在水平和垂直方向2的倍数中取一个)。对于压缩过程的剩余部份,Y、U、和V都是以非常类似的方式来个别地处理。 ? 什么是4:4:4 这也就是各个通道的抽样率(这些知识我相信视频的同学会给大家更好的解释)未经压缩的每个象素3个字节 离散余弦变换(Discrete cosine transform)
将图像中的每个成份(Y, U, V)生成三个区域,每一个区域再划分成如磁砖般排列的一个个的8×8子区域,每一子区域使用二维的离散余弦变换(DCT)转换到频率空间。 如果有一个如这样的的8×8的8-比特(0~255)子区域:
接着推移128,使其范围变为 -128~127,得到结果为
且接着使用离散余弦变换,和舍位取最接近的整数,得到结果为
DCT公式:
量化(Quantization)
人类眼睛在一个相对大范围区域,辨别亮度上细微差异是相当的好,但是在一个高频率亮度变动之确切强度的分辨上,却不是如此地好。这个事实让我们能在高频率成份上极佳地降低信息的数量。简单地把频率领域上每个成份,除以一个对于该成份的常数就可完成,且接着舍位取最接近的整数。这是整个过程中的主要有损运算。以这个结果而言,经常会把很多更高频率的成份舍位成为接近0,且剩下很多会变成小的正或负数。 一个普遍的量化矩阵是:
使用这个量化矩阵与前面所得到的DCT系数矩阵,得到结果为:
举个例子,使用?415(DC系数)且舍位得到最接近的整数
熵编码技术(entropy coding)
各种格式的图像编码



