端到端深度学习视频压缩：以图像插值为基础的编解码器

81 浏览量更新于2024-06-20 收藏 1.79MB PDF 举报

"视频压缩的端到端深度图像插值编解码器" 视频压缩是现代数字通信和多媒体消费的核心，特别是在互联网流量中占据主导地位。传统视频压缩算法，如MPEG-4第2部分和H.264，依赖于人工设计的组件，包括块运动估计、残差颜色模式以及离散余弦变换和熵编码的结合。这些方法虽然经过精心优化，但并未实现整体的端到端联合优化，也没有充分利用深度学习的优势。本文提出了一种新颖的视角，将视频压缩视为重复的图像插值过程，从而引入了端到端深度学习编解码器的概念。这个编解码器首先使用深度图像压缩技术对关键帧（锚帧）进行编码。随后，它利用深度图像生成和插值的最新研究成果，重建其余的帧，这些帧被视为相邻锚帧之间的插值图像。这种策略不仅简化了视频压缩的复杂性，而且能够利用深度学习模型在图像处理方面的强大能力。作者Chao-Yuan Wu、Nayan Singhal和Philipp Krähenbühl来自德克萨斯大学奥斯汀分校，他们的工作展示了深度学习在视频压缩领域的潜力。通过将视频压缩问题转化为图像插值问题，他们能够利用现有的深度学习框架，例如在图像生成和插值领域的进步，来提升压缩效率和图像质量。在实验结果中，他们的端到端深度图像插值编解码器在多个评估指标上表现出色，例如在结构相似度指数（MS-SSIM）上取得了0.946、0.980和0.984的高分，这表明其在保持图像质量和压缩效率之间找到了良好的平衡。这种新方法对于未来视频压缩技术的发展具有重要意义，因为它提供了一种可能替代现有编解码器的途径，可以实现更高效率的视频流传输，尤其是在带宽有限或存储资源紧张的环境中。此外，通过深度学习模型的进一步优化，这种方法可能会推动视频压缩技术达到新的高度，支持更高质量的实时视频流、云游戏和3D/360度视频等应用。因此，这项研究为视频压缩领域开辟了新的研究方向，即利用深度学习技术实现整体的端到端优化，有望在未来改变我们处理和传输视频数据的方式。

Cha

Yuan

，

ghal

，

Phili

réahe

nbuéh

视频压缩。手工

设计的视频压缩算法，如H.263，

H.264或HEVC（H.265）[13]基于两个简单的想法：它们将每个帧分解

为像素块，称为宏块，并且它们将帧划分为图像（I）帧和参考（P或

B）帧。I帧使用图像压缩直接压缩视频帧视频编解码器的大部分节省

来自参考帧。P帧从前面的帧借用颜色值。它们存储每个宏块的运动

估计和高度可压缩的差分图像。B帧还允许双向引用，只要不存在循

环引用。H.264和HEVC都以分层方式对视频进行编码。I-帧形成层次

结构的顶部在每个连续级别中，P帧或B帧参考更高级别处的解码帧

传统视频压缩的主要缺点是需要密集的工程努力和联合优化的困难。

在这项工作中，我们使用深度神经网络构建了一个分层视频编解码

器。我们端到端地训练它，没有任何手工设计的算法或过滤器。我们

的关键见解是，参考（P或B）帧是图像插值的特殊情况。

基于学习的视频压缩在很大程度上是未开发的，部分原因是建模

时间冗余的困难。Tsai

等人

提出了一种深度后处理滤波器，用于在特

定领域的视频中对H.264的错误进行编码[26]。然而，目前还不清楚过

滤器是否以及如何在开放域中推广。据我们所知，本文提出了第一个

用于视频压缩的通用深度网络

图像内插和外推。

图像插值试图

在两个参考帧之间产生一个看不见的

帧。大多数图像插值网络构建在编码器-解码器网络架构上，以通过时

间移动像素[9，10，14，18]。 Jia

等人

[9]和Niklaus

et al.

[18]估计空间

变化卷积核。Liu

等人

[14]给出了一个流场。然后，所有三种方法组合

两种预测，即时间上的向前和向后，以形成最终输出。图像外推更雄

心勃勃，并从几帧[15]或静止图像[27，32]预测未来的视频。图像内插

和外推都适用于小时间步长，例如。用于创建慢动作视频[10]或预测未

来几分之一秒然而，当前的方法在更大的时间步长上挣扎，其中内插

或外插不再是唯一的，并且需要附加的边信息在这项工作中，我们扩

展了图像插值，并纳入了一些可压缩位的边信息重建

原始视频。

初步

设

（

）

∈

表示一系列框架，其中t∈ {0

，

. . . {\fn方正粗倩简体

\fs12\b1\bord1\shad1\3cH2F2F2F}我们的目标是

将一个

矩阵

（

）

构造成一

个二进制

码

（

）

∈

{

，

}

。

一

个

代码

：

{

（

）

，

（

）

，

. . .

}

→

{

（

）

，

（

）

，

. . .

}

，

并

将

：

{

（

）

，

（

）

，

. . .

}

→

{

（

）

，

（

）

，

. . .

}

压缩

和压缩可实现特定的视频压缩

。

和D都

有

竞争

力

目标：最小化总比特率

，并将原始视频重建为

ossi

lee

，

（

，

）

−

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

端到端深度学习视频压缩：以图像插值为基础的编解码器

模具状态监测行业发展趋势：预计到2030年市场规模为5.06亿美元

Kubernetes DevOps实践工作坊-从理论到实战操作脚本集（含源码）.zip

基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明（高分毕设）

欧姆龙NX1P2系列总线plc程序 自动检测机，plc程序，无触摸屏程序 1.多工位DDR马达转盘控制，多工位同时加工 2.多产品配方功能程序 3.各种实用型自制功能块程序，可重复调用，成熟设备

企业微信最全养号、防封、加人机制.pdf

LLM 友好的异步爬虫框架

毕设Python春节电影信息爬取与可视化分析源码+项目说明+全部资料.zip

2019厦门国际银行数创金融杯源码+竞赛策略报告文档.zip

基于Android Studio开发的安卓的记事本app项目源码（高分期末大作业）

基于java的小区智能卡管理系统设计与实现.docx

最新资源

欧姆龙NX1P2系列总线plc程序自动检测机，plc程序，无触摸屏程序 1.多工位DDR马达转盘控制，多工位同时加工 2.多产品配方功能程序 3.各种实用型自制功能块程序，可重复调用，成熟设备