没有合适的资源?快使用搜索试试~ 我知道了~
首页媒体编解码深度解析:概念与技术综述
本文档深入探讨了音视频编解码的学习详解,针对媒体业务在互联网,特别是移动互联网中的重要性,尤其是在运营商和应用开发商中的应用需求。作者分享了自己在理解和研究媒体编解码过程中遇到的问题,如不同运营商规范的不一致性以及某些过时的要求。为了解决这些问题,作者不仅查阅了豆丁网和中文维客(天下维客),还参考了英文版的wiki,以获取更为全面和准确的信息。 文章首先定义了编解码器,它是能够对信号或数据流进行编码和解码的工具,常见于视频会议和流媒体等领域。编码通常用于压缩数据便于传输或存储,而解码则是将压缩的数据恢复成原始形式,以便于人类观看或处理。 容器的概念在这个领域中显得尤为重要,因为音频、视频和可能的字幕等多媒体数据在传输或存储时通常会被封装在一个统一的格式中,如.mp4、.avi等。这些文件格式不仅决定了支持的编解码器类型,还能提供数据同步等功能。FourCC(Four-CharacterCodes)作为一种四字节代码,用于标识视频数据流的特定格式,如在.wav和.avi文件中的应用。 作者强调了在学习音视频编解码时,对不同标准、文档和源进行对比分析的重要性,同时也提醒读者在获取资料时要注意版权问题,尊重原始作者的劳动成果。本文的笔记内容主要来自公开的wiki和网络博客,但作者提醒如果信息经过多次转手,可能难以追溯最初的来源。 这篇文章提供了关于音视频编解码的入门指南,涵盖了编解码的基本原理、容器的作用、FourCC的应用以及在实际工作中如何处理不同规范和标准的策略,对于从事媒体处理、应用开发或相关技术领域的专业人士来说,是一份有价值的参考资料。
资源详情
资源推荐
传的音频压缩技术。
MPEG-1
有下面几个部分:
第一部分(
Part 1
):系统;
第二部分(
Part 2
):视频;
第三部分(
Part 3
):音频;定义
level1
,
level2
,
level3
,并在
MPEG-2
中定义了扩展。
第四部分(
Part 4
):一次性测试;
第五部分(
Part 5
):参考软件;
MPEG
-1的缺点:
1
个音频压缩系统限于两个通道(立体声)
没有为隔行扫描视频提供标准化支持,且压缩率差
只有一个标准化的
“profile”
(约束参数比特流),
不适应
更高分
辨率的视频。
MPEG - 1
可以支持
4k
的视频,但难以提供更高分辨率
的视频编码并且标识硬件的支持能力。
支持只有一个颜色空间,
4:2:0
。
MPEG-2
MPEG-2
内容介绍
MPEG-2
作为
ISO/IEC 13818
正式发布,通常用来为广播信号提
供视频和音频编码,包括卫星电视、有线电视等。
MPEG-2
经过少量修
改后,也成为
DVD
产品的内核技术。
MPEG-2
有
11
部分,具体如下:
第一部(
Part 1
):系统
-
描述视频和音频的同步和多路技术
正式名称是
ISO/IEC 13818-1
或
ITU-T
中的
H.222.0
MPEG-2
的系统描述部分(第
1
部分)定义了传输流,它用来一套
在非可靠介质上传输数字视频信号和音频信号的机制,主要用在广播电
视领域。
定义了两个不同但相关的容器格式,
MPEG transport stream
和
MPEG program stream
,也就是图中的
TS
和
PS
。
MPEG
传输流
(
TS
)为携带可损数字视频和音频,媒体流的开始和结束可以不标识
出来,就像广播或者磁带,其中的
例子包括
ATSC
,
DVB
,
SBTVD
和
HDV
。
MPEG-2
系统还定义了
MPEG
节目流(
PS
),它为以文件为基础
的媒体设计一个容器格式,用于
硬盘驱动器,光盘
和闪存。
MPEG-2 PS
(节目流)是为在存储介质保存视频信息而开发的。
MPEG-2 TS
(传输流)是为在网络传输视频信息而开发的。目前,
MPEG-2 TS
最广泛地应用是
DVB
系统。
TS
流与
PS
流的区别在于
TS
流
的包结构是固定度的,而
PS
流的包结构是可变长度。
PS
包与
TS
包在
结构上的这种差异,导致了它们对传输误码具有不同的抵抗能力,因而
应用的环境也有所不同。
TS
码流由于采用了固定长度的包结构,当传
输误
码破坏了某一
TS
包的同步信息时,接收机可在固定的位置检测它
后面包中的同步信息,从而恢复同步,避免了信息丢失。而
PS
包由于
长度是变化的,一旦某一
PS
包的同步信息丢失,接收机无法确定下一
包的同步位置,就会造
成失步,导致严重的信息丢失。因此,在信道
环境较为恶劣,传输误码较高时,一般采用
TS
码流;而在信道环境较
好,传输误码较低时,一般采用
PS
码流由于
TS
码流具有较强的抵抗传
输误码的能力,因此目前在传输媒体中进行传输的
MPEG-2
码流基本上
都采用了
TS
码流的包格。
第二部(
Part 2
):视频
-
视频压缩
正式名称是
ISO/IEC 13818-2
或
ITU-T H.262
。
提供隔行扫描和非隔行扫描视频信号的压缩编解码器。
MPEG-2
的第二部分即视频部分和
MPEG-1
类似,但是它提供对隔
行扫描视频显示模式的支持(隔行扫描广泛应用在广播电视领域)。
MPEG-2
视频并没有对低位速率(小于
1Mbps
)进行优化,在
3Mbit/s
及以上位速率情况下,
MPEG-2
明显优于
MPEG-1
。
MPEG-2
向后兼容,也即是说,所有符合标准的
MPEG-2
解码器也能够正常播放
MPEG-1
视频流。
MPEG-2
技术也应用在了
HDTV
传输系统中。
MPEG-2
不光运用于
DVD- Video
,现在大部
分
HDTV
(高清电视)也采用
MPEG-2
编
码,分辨率达到了
1920x1080
。由于
MPEG-2
的普及,本来为
HDTV
准备
的
MPEG-3
最终宣告放弃。
MPEG-2
视频通常包含多个
GOP
(
GroupOf Pic t ures
),每一个
GOP
包含多个帧(
frame
)。帧的帧类(
frame type
)通常包括
I-
帧
(
I-frame
)、
P-
帧(
P-frame
)和
B-
帧(
B- f rame
)。其中
I-
帧采用
帧内编码,
P-
帧采用前向估计,
B-
帧采用双向估计。一般来说输入视
频格式是
25
(
CCIR
标准)或者
29.97
(
FCC
)帧/秒。
MPEG-2
支持隔行扫描和逐行扫描。在逐行扫描模式下,编码的基
本单元是帧。在隔行扫描模式下,基本编码可以是帧,也可以是场
(
field
)。
原始输入图像首先被转换到
YCbCr
颜色空间。其中
Y
是亮度,
Cb
和
Cr
是两个色度通道。
Cb
指蓝色色
度,
Cr
指红色色度。对于每一通道,
首先采用块分区,然后形成
“
宏块
”
(
macroblocks
),宏块构成了编码
的基本单元。每一个宏块再分
区成
8x8
的小块。色度通道分区成小块的
数目取决于初始参数设置。例如,在常用的
4:2:0
格式下,每个色度宏
块只采样出一个小块,所以三个通道宏块能够
分区成的小块数目是
4+1+1=6
个。
对于
I-
帧,整幅图像直接进入编码过程。对于
P-
帧和
B-
帧,首先做
运动补偿。通常来说,由于相邻帧之间的相关
性很强,宏块可以在前
帧和后帧中对应相近的位置找到相似的区域匹配的比较好,这个偏移量
作为运动向量被记录下来,运动估计重构的区域的误差被送到编码器中
编码。
对于每一个
8×8
小块,离散余弦变换把图像从空间域转换到频域。
得到的变换系数被量化并重新组织排列顺序,从而增加长零的可能性。
之后做游程编码(
run-length code
)。最后作哈夫曼编码
(
Huffman Encoding
)。
I
帧编码是为了减少空间域冗余,
P
帧和
B
帧是为了减少时间域冗
余。
GOP
是由固定模式的一系列
I
帧、
P
帧、
B
帧组成。常用的结构由
15
个帧组成,具有以下形式
IBBPBBPBBPBBPBB
。
GOP
中各个帧的比例
的选取和带宽、图像的质量要求有一定关系。例如因为
B
帧的压缩时间
可能是
I
帧的三倍,所以对于计算
能力不强的某些实时系统,可能需要
减少
B
帧的比例。
MPEG-2
输出的比特流可以是匀速或者变速的。最大比特率,例如
在
DVD
应用上,可达
10.4 Mbit/s
。如果要使用固定比特率,量化尺度
就需要不断的调节以产生匀速的比特流。但是,提高量化尺度可能带来
可视的失真效果。比如马赛克现象。
第三部(
Part 3
):音频
-
音频压缩
MPEG-2
的第三部分定义了音频压缩标准。
MPEG-2 BC
(
Backwards compatible
),后向兼容
MPEG-1
音频。该部分改进了
MPEG-1
的音频压缩,支持两通道以上的音频,可高达
5.1
多声道。
MPEG-2
音频
压缩部分也保持了向后兼容的特点(也称为
MPEG - 2
BC
),允许的
MPEG - 1
音频解码器解码两个主立体声组件。还定义音
频
MPEG-1 Layer I,II ,III
额外的比特率和采样频率。
例如
mp2
,是
MPEG- 1 Audio level 2
,标准有:
ISO/IEC
11172-3, ISO/IEC 13818-3
。
MPEG-1Layer II
定义在
ISO/IEC
11172-3
,也就是
MPEG-1
的第三部分,在
ISO/IEC 13818-3
,也就
是
MPEG-2
的第
3
部分定义扩展。
第四部(
Part 4
):测试规范
描述测试程序。
第五部(
Part 5
):仿真软件
描述软件仿真系统。
第六部(
Part 6
):
DSM-CC(Digital Storage Media
Commandand Control)
扩展
描述
DSM- CC
(数字存储媒体命令及控制)扩展。
第七部(
Part 7
):
Advanced Audio Coding (AAC)
MPEG-2
的第七部分定义了不能向后兼容的音频压缩(也成为
MPEG-2 NBC
)。也成为
MPEG-2 NBC
(
not- bac kwards
c ompatible MPEG-1Audio
)。该部分提供了更强的音频功能。通常
我们所说的
MPEG-2 AAC
指的就是这一部分。
AAC
即
Advanced
Audio Coding
。
AAC
是比以前的
MPEG
音频标准的效率,并在某个程
度上没有它的前任
MPEG-1 Layer3
(
MP3
)复杂,它没有复杂的混合
滤波器(
hybrid filt er bank
)。它支持从
1
到
48
个通道,采样率从
8-
96
千赫,多渠道,多语种和多节目(
mult iprogram
)能力。
AAC
也在
MPEG-4
标准的第
3
部分描述。
第八
部(
Part 8
):
已取消。
第九部(
Part
9):实时接口扩展
实时接口扩展。
第十部(
Part 10
):
DSM-CC
一致性扩展
DSM- CC
一致性扩展。
第十一部(
Part 11
)
:
IP
知识产权管理(
IPMP
)。
XML
定义在
ISO/IEC23001-3
。
MPEG-
2
内核技术大约涉及
640
个专利,这些专利主要集中在
20
间公司和一间
大学。
MPEG- 2
音频
MPEG
-
2提供新的音频编码方式。在第3部分和第7部分介绍。
第三部分
MPEG-2 BC (backward compatible with MPEG-1 audio
formats)
,使用一半的取样速率处理低位速率的音频,
(MPEG-1
Layer 1/2/3 LSF)
,多通道编码达到
5.1
个通道。
第七部分
MPEG-2 NBC (Non-Backward Compatible)
,提供
MPEG-
剩余55页未读,继续阅读
darkGer
- 粉丝: 31
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功