MP4是一套用于音频、视频信息的压缩编码标準,由国际标準化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(Moving Picture Experts Group,即MPEG)制定,第一版在1998年10月通过,第二版在1999年12月通过。MPEG-4格式的主要用途在于网上流、光碟、语音传送(视频电话),以及电视广播。
MPEG-4包含了MPEG-1及MPEG-2的绝大部份功能及其他格式的长处,并加入及扩充对虚拟现实模型语言(VRML , VirtualReality Modeling Language)的支持,面向对象的合成档案(包括音效,视讯及VRML对象),以及数字着作权管理(DRM)及其他互动功能。而MPEG-4比MPEG-2更先进的其中一个特点,就是不再使用宏区块做影像分析,而是以影像上个体为变化记录,儘管影像变化速度很快、码率不足时,也不会出现方块画面。
基本介绍
- 中文名动态图像专家组
- 外文名Moving Picture Experts Group 4
- 制定单位ISO、IEC
- 用途语音传送、电视广播等
分部
MPEG-4由一系列的子标準组成,被称为部 (part)(有时也译为卷),包括以下的部分
第一部分(ISO/IEC 14496-1)系统描述视讯和音频数据流的控制、同步以及混合方式(即混流 Multiplexing,简写为MUX)。
第二部分(ISO/IEC 14496-2)视讯定义了一个对各种视觉讯息(包括自然视讯、静止纹理、计算机合成图形等等)的编解码器。(例如XviD编码就属于MPEG-4 Part2)
第三部分(ISO/IEC 14496-3)音讯定义了一个对各种音频讯号进行编码的编解码器的集合。包括高阶音频编码(AdvancedAudio Coding,缩写为AAC)的若干变形和其他一些音频/语音编码工具。
第四部分(ISO/IEC 14496-4)一致性定义了对本标準其他的部分进行一致性测试的程式。
第五部分(ISO/IEC 14496-5)参考软体提供了用于演示功能和说明本标準其他部分功能的软体。
第六部分(ISO/IEC 14496-6)多媒体传输整合框架(DMIF for Delivery Multimedia IntegrationFramework)
第七部分(ISO/IEC 14496-7)最佳化的参考软体提供了对实作进行最佳化的例子(这里的实作指的是第五部分)。
第八部分(ISO/IEC 14496-8)在IP网路上传输定义了在IP网路上传输MPEG-4内容的方式。
第九部分(ISO/IEC 14496-9)参考硬体提供了用于演示怎样在硬体上实作本标準其他部分功能的硬体设计方案。
第十部分(ISO/IEC 14496-10)进阶视讯编码或称高阶视讯编码(Advanced Video Coding,缩写为AVC)定义了一个视讯编解码器(codec)。AVC和XviD都属于MPEG-4编码,但由于AVC属于MPEG-4 Part10,在技术特性上比属于MPEG-4Part2的XviD要先进。,它和ITU-T H.264标準是一致的,故又称为H.264。
第十二部分(ISO/IEC 14496-12)基于ISO的媒体档案格式定义了一个储存媒体内容的档案格式。
第十三部分(ISO/IEC 14496-13)智慧财产权管理和保护(IPMP for Intellectual Property Management andProtection)拓展。
第十四部分(ISO/IEC 14496-14)MPEG-4档案格式定义了基于第十二部分的用于储存MPEG-4内容的视讯档案格式。
第十五部分(ISO/IEC 14496-15)AVC档案格式定义了基于第十二部分的用于储存第十部分的视讯内容的档案格式。
第十六部分(ISO/IEC 14496-16)动画框架扩充功能(AFX : Animation Framework eXtension)。
第十七部分(ISO/IEC 14496-17)同步文字字幕格式。
第十八部分(ISO/IEC 14496-18)字型压缩和串流传输(针对开放字型格式 Open Font Format)。
第十九部分(ISO/IEC 14496-19)合成材质流(Synthesized Texture Stream)。
第二十部分(ISO/IEC 14496-20)简单场景表示(LASeR for Lightweight Scene Representation。
第二十一部分(ISO/IEC 14496-21)用于描绘(Rendering)的MPEG-J拓展。
第二十二部分(ISO/IEC 14496-22)开放字型格式(Open Font Format)。
第二十三部分(ISO/IEC 14496-23)符号化音乐表示(Symbolic Music Representation)。
第二十四部分(ISO/IEC 14496-24)音频与系统互动作用(Audio and systems interaction)。
第二十五部分(ISO/IEC 14496-25)3D图形压缩模型(3D GraphicsCompression Model)。
第二十六部分(ISO/IEC 14496-26)音讯一致性检查定义了测试音频数据与ISO/IEC 14496-3是否一致的方法(Audioconformance)。
第二十七部分(ISO/IEC 14496-27)3D图形一致性检查定义了测试3D图形数据与ISO/IEC14496-11:2005, ISO/IEC 14496-16:2006, ISO/IEC 14496-21:2006, 和 ISO/IEC14496-25:2009是否一致的方法(3D Graphicsconformance)。
Profiles是在每个部分内定义的,所以对某个部分的一个实作通常不是对该部分的完整实作。
MPEG-1、MPEG-2、MPEG-7和MPEG-21是由MPEG制定的其他MPEG标準。
MPEG-4的特点
(1)对于不同的对象可採用不同的编码算法,从而进一步提高压缩效率;
(2)对象各自相对独立,提高了多媒体数据的可重用性;
(3)允许用户对单个的对象操作,提供前所未有的互动性;
(4)允许在不同的对象之间灵活分配码率,对重要的对象可分配较多的位元组,对次要的对象可分配较少的位元组,从而能在低码率下获得较好的效果;
(5)可以方便的集成自然音视频对象和合成音视频对象。
MPEG-4标準构成
MPEG-4码流主要包括基本码流和系统流,基本码流包括音视频和场景描述的编码流表示,每个基本码流只包含一种数据类型,并通过各自的解码器解码。系统流则指定了根据编码视听信息和相关场景描述信息产生互动方式的方法,并描述其互动通信系统。
系统
MPEG-4系统把音视频对象及其组合复用成一个场景,提供与场景互相作用的工具,使用户具有互动能力。MPEG-4的数据在3个层中进行传输,这3层分别是压缩层、同步层和传输层。其中,压缩层是执行媒体解码的系统组件,接收从同步层传来的压缩数据,并完成解码操作。同步层负责各个压缩媒体的同步和缓冲,一方面接收来自传输层的同步层数据包(SL),从流中提取同步数据,为以后的同步解码和基本流解码的合成做準备;另一方面,实现压缩的数据流和同步信息封装层的同步数据包,并将它们传输到传输层。传输层完成各种传输协定的描述,使用DMIF套用接口,通过接口定义数据流的传输接口,并定义信道建立和断开的信号。MPEG-4的系统终端模型如图所示。
音频
与MPEG-1、MPEG-2相比,MPEG-4不仅支持自然声音(如语音和音乐),还支持合成声音(如MIDI)。MPEG-4音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特徵。
MPEG-4研究比较了现有的各种音频编码算法,支持2~64kbit/s的自然声音编码。如8kHz採样频率的2~4kbit/s的语音编码,以及8kHz或16kHz採样频率4~16kbit/s的语音编码,一般採用参数编码;而6~24kbit/s的语音编码,一般採用码激励线性预测(CELP,CodeExcitedLinearPredictive)编码技术;而16kbit/s以上码率的编码.则採用视频变换编码技术。这些技术实质上借鉴了G723、G728以及MPEG-1和MPEG-2等。下图给出了MPEG-4音频支持2~64kbit/s信道语音编码範围。
MPEG-4引入两个有力的编码技术文本到语音编码(TTS,Text-to-Speech)和乐谱驱动合成语音编码。事实上,合成语音编码技术是一种基于知识库的参数编码技术。乐谱驱动合成技术中,解码器由一种特殊的合成语言—结构化音频管弦乐团语言(SAQL,StructuredAudioOrchestraLanguage)驱动。“管弦乐团”由不同“乐器”组成,解码器不具有某“乐器”时,MPEG-4还允许解码器从编码器下载该“乐器”以恢複合成声音。
视频
MPEG-4支持对自然和合成视觉对象的编码。合成视觉对象包括2D、3D动画和人面部表情动画等。对于静止图像,MPEG-4採用零树小波算法,以提高压缩比,还提供多达11级的空间解析度和质量的可伸缩性。对于运动视频对象的编码,MPEG-4的编码结构如下图所示,包括形状编码、运动补偿和文理编码。其中的主要技术是运动估计补偿、DCT变换和混合的DPCM等。
套用
由于MPEG-4是一个公开的平台,各公司、机构均可以根据MPEG-4标準开发不同的制式,市场上出现了很多基于MPEG-4技术的视讯格式,例如WMV 9、Quick Time、DivX、Xvid等。MPEG-4大部份功能都留待开发者决定採用是否。这意味着整个格式的功能不一定被某个程式所完全函括。,这个格式有所谓配置(profile)及级别(level),定义了MPEG-4套用于不同平台时的功能集合。