学位论文 > 优秀研究生学位论文题录展示
基于新一代标准(H.264)的实时视频压缩技术与算法研究
作 者: Jamil-ur-Rehman
导 师: 张晔
学 校: 哈尔滨工业大学
专 业: 信息与通信工程
关键词: 快速帧内预测 并行处理 发送信号模型 系数标志
分类号: TN919.81
类 型: 博士论文
年 份: 2007年
下 载: 865次
引 用: 0次
阅 读: 论文下载
内容摘要
高速传输对于日常生活来说已经很普通了,闪存、硬盘及光盘的存储能力比以往任何时候都强。传输或存储的成本正在持续下降,那么,为什么要视频压缩,又为什么要做那么大的努力来改进视频压缩性能呢?这是因为视频压缩有两个重要的优点:首先,视频压缩使得在某些传输和存储介质中能够使用数字视频,这些介质不能支持未压缩视频;其次,视频压缩使得存储和传输资源的应用更加专业。在过去20多年里,图象和视频压缩已经成为研究与发展的一个活跃课题。各种不同的压缩和解压缩算法和系统已经被设计和开发。为了提升竞争力、增加可选择性,有必要定义标准的编码和解码压缩算法,从而使得不同公司的产品能够相互兼容。这促使了包括JPEG、MPEG和H.26X等一系列标准在内的图象和视频压缩国际标准的产生。视频压缩算法通过除去时间、空间和频率域的冗余来完成。通过消除不同类型的冗余,可以大量压缩数据,但要以一定量的信息丢失为代价。通过对处理的数据使用如Huffman编码或者代数编码等熵编码技术能够获得更多的压缩。比起早期的编码标准(H.263、MPEG-2和MPEG-4),H.264在高、低速码率下都增加了编码性能。按照视觉及编码特性,H.264/MPEG4的第十部使用率失真优化技术以获得最好的结果。为了实现率失真最优化,编译器在不同的预先定义的模式中通过全局搜索最佳模式来对视频进行编码。因此,编译器的计算复杂性显著增加,显然这不利于诸如实时视频通信之类的实际应用。本论文主要致力于研究如何降低在H.264/MPEG4第十部分中相关的计算复杂度,主要研究结果总结如下。改进的帧内和帧间预测技术是H.264成功的主要因素。帧间预测由率失真约束方式决定,它是H.264/AVC帧内编译器中最重要的技术。H.264/AVC帧内编译器在编码性能和计算复杂性方面可以与最新的图象编码标准JPEG2000相匹敌。如果在帧内模式对一个块或宏块进行编码,那么在前面被编码和重建(但是未过滤)块的基础上可形成一个预测块,并在编码之前从当前块中减去这个预测块。在基本档次中,对于亮度(luma)成分,可以为每个4×4子块或16×16宏块形成预测块。对每个4×4 luma块总共有9个可选预测模式,对每个16×16块有4个可选模式。对于色度组成,有4个预测块应用于两个8×8色度块。论文首先提出了利用并行处理来提高帧内块间预测的速度。在实时多媒体情况下,计算复杂性成为一个主要约束,所以人们努力探索快速算法进行块间预测。许多现存的“快速”块间预测算法通过减少参考数量来降低计算量,视频编码器计算复杂性的降低影响解码后视频的质量。H.264算法中的全局搜索与所有模式计算和比较,所以理所当然能选出最好的模式。我们用并行处理来解决这个问题,因为并行算法大量节省了时间,同时提高处理问题的能力。我们选择FPGA(现场可编程门阵列)作为并行处理平台。FPGA这样的电路是并行的,因为每个子电路独立执行自己的功能。文中对4×4大小的块实现了9种模式的预测,在FPGA上实现了串行和并行两种方法。结果表明通过并行处理找到的最优预测模式比串行处理需要的时间少,而且性能没有下降。我们提出了一种有效技术来传输块预测模式的编号。对每个4×4块,必须把块预测模式的编号发送给解码器,这需要大量的比特。然而,对于4×4块邻域的预测模式常常是相互关联的。利用这些相关性,可以用预测编码来对编号进行压缩。在图像帧的边界,由于预测可用的像素有限,我们不能应用所有模式。现在的问题是,使用与9个模型所采取的相同技术标志更少数目的模式可行吗?我们提出不同的方法来传输4×4块预测模式。提出的信号发送帧/片段顶部边界三种模式(1,2和8)的技术如下:编码器为每个4×4块发送一个标志,如果标志为“1”,最可能的预测模式就被使用了;如果标志为“0”,就发送另一个标志,来表明下一个最可能的模式,如果标志仍为“0”,就送出另外1比特来表明剩余的两种模式。我们提出三种不同的技术来发送帧/片段左部边界的四种模式(0,2,3和7)。第一种技术中,我们用2比特编码表示4个值。第二种技术与9种预测模式相似,只是有一点改变,编码器为每个块发送一个标志,如果标志等于1,就使用了最可能的预测模式,如果标志等于0,就发送了另外一个参数(2比特),表示剩余的3种模式。第三种技术与第二种有些微不同,即如果标志等于0,就发送另一个标志表明下一个最可能的模式,如果标志又等于0,就发送另外1比特表示剩余的2种模式。实验结果表明提出的方法优于现有方法(所提出的方法传输预测模式编号的比特数少于现有方法)。此外,我们还提出了另一种技术,通过选择更少的模式,来进行快速块预测模式决策。如我们在前段中所提及的,在帧/片段边界应用所有的4×4 luma块预测模式是不实际的。预测模式减少就可以节省标志块预测模式的比特。例如,仅有三个4×4块预测模式(1,2和8)能够应用于帧/片段顶部边界,四个块预测模型(0,2,3和7)能够应用于帧/片段的左边界,七个4×4块预测模式(1,2,3,4,5,6和8)能够应用于帧/片段的右边界,九个预测模式能够用于4×4块的其他部分。在帧/片段的右边界我们只选择五个模式来代替七个模式,并且计算五个模块不同组合的RD性能。相似的,我们只选择五个模式来代替九个模式,并且计算五个模块不同组合的RD性能。通过分析实验结果我们知道,右边界五个模式(0,1,2,4和8)的组合给出最好的结果,4×4块其他部分五个模式(0,1,3,4和8)的组合有最好的RD性能。同样,我们用上文提出的技术发送帧上边界的3种模式。对于发送帧左边界的4种块预测模式,我们用上文提出的第三种技术,该技术中使用了2个标志。提出的五个块间预测模块信号发送技术如下:编码器为每个4×4块发送一个标志,就是以前的块间4×4预测模块,如果标志为“1”,最可能的预测模式就被使用了;如果标志为“0”,一个剩余块间4×4预测模式参数(2bits)就被发送到信号剩余的四个模块。通过选择较少的模式,我们储存了许多比特来发送块预测模式,但是另一方面,为剩余的系数编码需要更多比特。实验结果表明在相同峰值信噪比的情况下,由于预测模式减少,残差增大,那么对残差系数编码增加的比特与块预测方式减少降低的比特数是相当的。通过使用所提出技术,计算速度(寻找最好的4×4帧内预测模型)能够增加45%,且没有显著的性能损失。最后研究了自适应更新表中的数值来对系数标志进行编码。在新的H.264/AVC标准中,当熵编码模模式为零的时候,其余的数据块使用一个上下文自适应的变长编码(CAVLC)方案来编码。第一个系数标志VLC编码非零系数和曳尾的系数的总数。查找表用于为一个4×4块编码系数标志,它有四种选择。我们论述了自适应地给更可能的对(系数个数,曳尾的系数)分配更短的编码的结果,反之亦然。因为三对( (0,0),(1,1)和(2,2))的概率曲线之间存在较大的差距,所以自适应的概率更新不能得出更好的结果。其他对的概率曲线彼此相交,且自适应的概率更新能够得出更好的结果,但是这样的对的概率很小(≈10 %)。
|
全文目录
摘要 4-7 Abstract 7-18 Chapter 1 Introduction 18-24 1.1 The Aim of Study 18-19 1.2 Overview 19-21 1.3 Literature Survey 21-23 1.4 Thesis Structure 23-24 Chapter 2 Video and its Coding Techniques 24-37 2.1 Digital Video 24-25 2.2 Colour Models 25-28 2.3 Video Quality 28-29 2.4 Video Compression 29-30 2.5 CODEC 30 2.6 Temporal Model 30-32 2.6.1 Motion Estimation and Motion Compensation 31-32 2.6.2 Block size and Sub-Pixel 32 2.7 Spatial Model 32-36 2.7.1 Transform Coding 33 2.7.2 Quantization 33-34 2.7.3 Reordering 34-36 2.8 Entropy Encoder 36 2.9 Summary 36-37 Chapter 3 Video Compression Standards 37-54 3.1 H.264/ MPEG-4 Part 10 38-47 3.1.1 Encoder 38-39 3.1.2 Decoder 39-40 3.1.3 Coding Tools for Video Coding Layer (VCL) 40-41 3.1.4 I, P and B Slices 41-42 3.1.5 SI and SP Slices 42 3.1.6 H.264 Profiles 42-47 3.1.7 Levels 47 3.2 Other Major Video Compression Standards 47-49 3.2.1 H.261 47 3.2.2 MPEG-1 47-48 3.2.3 MPEG-2/ H.262 48 3.2.4 H.263 48 3.2.5 MPEG-4 48-49 3.3 Comparison of Video Compression Standards 49-53 3.4 Summary 53-54 Chapter 4 Intra and Inter Prediction 54-86 4.1 Intra Prediction 54-76 4.1.1 4 ×4 Luma Prediction Modes 55-61 4.1.2 16 ×16 Luma Prediction Modes 61-63 4.1.3 8 ×8 Chroma Prediction Modes 63-64 4.1.4 Signaling intra prediction modes 64-65 4.1.5 Efficient Techniques for Signaling Intra Prediction Modes of H.264/Mpeg-4 Part 10 65-67 4.1.6 Fast Intra Prediction Mode Decision by Adaptively Selecting Fewer Number of Modes 67-72 4.1.7 Fast Intra Prediction Mode Decision Using Parallel Processing 72-76 4.2 Inter Prediction 76-85 4.2.1 Motion Compensation and Estimation 77-78 4.2.2 Motion Vectors 78-80 4.2.3 Interpolated Samples 80-82 4.2.4 Motion Vector Prediction 82-84 4.2.5 Decoded Picture Management 84-85 4.3 Summary 85-86 Chapter 5 Transform, Quantization and De-blocking Filter 86-100 5.1 Transforms and Quantization 86-96 5.1.1 4 ×4 DCT Based Transform and Quantization 87-93 5.1.2 4 ×4 Luma DC Coefficient Transform and Quantization 93-94 5.1.3 2 ×2 Chroma DC Coefficient Transform and Quantization 94-96 5.2 De-blocking Filter 96-99 5.3 Summary 99-100 Chapter 6 Reordering and Entropy Coding 100-113 6.1 Reordering 100 6.2 Entropy Coding 100-112 6.2.1 Exponential Golomb Entropy Coding 102-103 6.2.2 Context-Based Adaptive Variable Length Coding (CAVLC) 103-108 6.2.3 Adaptive Probability Updating of Look-Up Table Values for Encoding Coefficient Token 108-112 6.3 Summary 112-113 Conclusions 113-115 References 115-121 Publications 121-124 Acknowledgments 124-125 Resume 125
|
相似论文
- 多DSP并行航迹规划系统接口驱动程序设计与实现,TP368.12
- 高速数字信号处理硬件设计及频率测量算法的实现,TN911.72
- 基于ADSP21160的SAR实时信号处理技术研究,TP332
- 相控阵三维摄像声纳系统主控板软件设计,U666.7
- 网络处理器并行处理技术研究,TP332
- 基于ADSP-21161的导引头信号处理系统研究、设计与实现,TJ430
- 基于SHARC的PCI总线并行信号处理机的设计与实现研究,U666.72
- 化学数据挖掘技术与药物分子设计应用,TQ460
- 嵌入式视频数字信号处理器,TN911
- 并行技术在雷达信号处理中的实现,TN957.52
- 雷达杂波抑制算法及实现方法的分析与比较,TN957.52
- 多媒体音频数字信号处理及实现,TN911.7
- 开放型数控系统研究,TG659
- RS码编译码及其快速实现,TN911.22
- 新型DSP器件在高速实时并行信号处理中的应用,TN957.52
- 水电厂计算机监控系统现地控制单元图形化界面的研究与开发,TP273.5
- 高速数据采集和目标识别理论及技术研究,TP274.2
- 真实感三维地形绘制与实时漫游,TP391.41
- 车载全数字式跟踪系统的实现技术研究,TP391.41
- 声纳信号实时处理板的研制,U666.7
- 基于FPGA的数字信号处理算法研究与高效实现,TN911.72
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 图像通信、多媒体通信 > 图像编码
© 2012 www.xueweilunwen.com
|