说话头的深度音频辅助视频解压缩方法

113 浏览量更新于2023-10-24 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12335DAVD-Net：说话头的深度音频辅助视频解压缩席张1吴晓林2<$翟新良3先野本3成杰图4上海交通大学1麦克马斯特大学2山东大学3腾讯419930818@sjtu.edu.cnxwu@ece.mcmaster.caxinliangzhai@mail.sdu.edu.cnchengjietu@tencent.combenxianye@sdu.edu.cn摘要特写谈话头部是视频内容中最常见和最显著的对象，诸如社交媒体中的面对面交谈、电话会议、新闻广播、脱口秀等。由于人类视觉系统对人脸的高度敏感性，说话头部视频中的压缩失真是非常明显和令人讨厌的。为了解决这个问题，我们提出了一种新的深度卷积神经网络方法，用于说话头部的极低比特率视频再现。关键的创新是一种新的DCNN架构，可以利用音频-视频相关性来修复面部区域的压缩缺陷。我们通过在DCNN中嵌入视频压缩标准的编码器信息并在网络中引入约束投影模块来进一步提高重建质量。大量的实验表明，所提出的DCNN方法优于现有的最先进的方法对说话的头部的视频。1. 介绍视频约占所有IP流量的80%，并且仍在上升。他们正在并将继续对通信带宽和内容存储施加压力。这使得视频压缩成为当今数字互联社会中不可或缺的支持技术。为了可接受的成本效益，流行的视频压缩方法（例如，MPEG-4 [24]、H.264 [31]、HEVC [25]）必须充分压缩视频数据，以实现带宽和存储所需的节省。对于高压缩比或低比特率，有损视频压缩不可避免地产生令人讨厌的伪像，诸如块效应、模糊、振铃和锯齿。最近提出了很多深度学习方法来消除视频压缩伪影。与用于视频压缩的纯端到端DCNN方法相比[19，14]，†通讯作者。仅压缩图像音频辅助地面实况图1.在不考虑和考虑音频信号阻抗的情况下，分别得到了重建结果.在不使用音频信息重建的帧中，下齿完全缺失。压缩伪像去除的ODS [35，20，37]具有与现有视频压缩标准兼容的操作优点，因为它们本质上是通过标准恢复已经解码的视频的后处理步骤。我们称之为基于CNN的视频恢复策略深度视频解压缩。在这项工作中，我们专注于基于CNN的恢复严重压缩的人脸视频与音频侧信息。可以说，在日常互联网视频通信中，会说话的头是最常见和最突出的对象。例如，会话面部是社交媒体、电话会议、互联网脱口秀（TED等）、自媒体等中的焦点中心。压缩视频中人脸的高重建质量对于令人满意的用户体验至关重要，特别是当网络通信信道拥塞和不定时时。与算法或CNN设计者的优势相比，说话的脸具有非常强的先验知识，可以大大减少视频恢复的底层逆问题的解空间。首先，对象是一张脸，一个高度结构化的对象;在许多情况下，脸是已知的一个特定的人。此外，发言人的音频也是可用的。从生理上讲，面部肌肉，特别是嘴唇上的肌肉，将声音和气流塑造成语音。这就是为什么人们可以读唇语，即，即使没有声音也能通过观察说话人的嘴唇来识别说出的话。通过将上述所有先验知识应用到深度解压缩CNN的设计中，可以在多大程度上提高压缩人脸视频的感知质量，这将是一件有趣的事情。为了推进这一调查路线，我们设计了一个12336新的神经网络架构，称为深度音频辅助视频解压缩网络（DAVD-Net），用于实现即使在非常低的比特率下也能获得最佳质量的头部视频（见图1）。1）。DAVD-Net的成功取决于网络如何有效地利用一个人除了伴随的音频之外，视频压缩标准中编码器的结构信息，例如编码块组织、量化表等，还提供了强先验以减少潜在视频恢复问题的不确定性如果在DAVD网络中使用得当，这些先验可以进一步提高视频重建质量，但它们被现有的方法所忽视为了利用编码器的结构先验信息，我们在DAVD网络中引入了约束投影模块它通过对视频压缩标准中定义的预测残差的地面真实DCT系数施加上界和下界来细化网络输出结果。总之，本研究的主要贡献如下：（1）用于对讲话头部视频进行深度解压缩的基线CNN方法，其优于用于去除压缩伪影的现有CNN方法，特别是在非常低的比特率下。(2)DAVD-Net架构设计利用联合音频-视频统计数据，从说话的头部视频和相关语音的相关性中提取超过我们的基线方法的额外性能增益。(3)DAVD-Net方法的系统性能评估和分析，具有不同优势的先验：DAVD-Net被训练用于特定已知说话者的压缩视频，具有和不具有他/她的声音，以及用于具有和不具有伴随声音的通用讲话头部。在广泛网络化的虚拟社区中，即使不考虑大众社交媒体所带来的传播带宽压力，这项研究也将具有持久的现实意义。随着面对面交谈的数据量从语音到视频按数量级增加，即使对于大型社交媒体服务提供商来说，备份所有对话视频也是DAVD-Net技术允许这样的视频内容以积极压缩的形式存档，而没有保真度损失的风险，因为它能够在将来召回时修复压缩缺陷。本文的其余部分组织如下。在第二节简要回顾了相关工作之后，我们在第三节介绍了我们的网络设计的理由和细节。在第4节中，我们描述了我们的实验设计，解释了所使用的数据集，并报告了我们的实证研究结果。实验结果表明，所提出的DAVD-Net优于现有的国家的最先进的方法，对说话的头部视频压缩伪影减少。第五节是论文的总结。2. 相关工作图像压缩伪影减少。有大量关于去除图像中压缩伪影的文献[11，40，18，3，8]。由于JPEG是目前使用最广泛的有损压缩标准，因此对JPEG图像进行后处理以消除压缩噪声的研究大多数集中在这方面。受图像增强中深度学习成功的启发，开发了许多基于CNN的压缩伪影去除方法[9，27，13，12]。借用CNN的超分辨率（SRCNN），Dong et al.[9]提出了一种伪影减少CNN（ARCNN）。ARCNN有三层结构：特征提取层、特征增强层和重构层。这种CNN结构是根据稀疏编码的原理设计的Svoboda等人对此进行了改进[27]他结合了残差学习和对称权重初始化。Guo et al.[13] and Galteri et al.[12]提出通过生成对抗网络（GAN）减少压缩伪影，因为GAN能够生成更清晰的图像细节。Zhang et al [38，39]提出在网络设计中加入一个“∞”保真度标准，以保护近无损图像压缩框架中的小而独特的结构压缩视频的深度恢复。所有上述用于图像压缩伪影减少的方法可以被视为用于视频恢复的单帧方法，而不使用相邻帧之间的任何时间相关性。Yang等人[37]介绍了第一个基于CNN的多帧方法来恢复压缩视频，该方法利用了相邻帧中的信息。Xue等人。[35]提出了一种多任务学习方法来联合执行运动估计和视频恢复任务。He等人。[15]利用编码器结构的编码块信息来指导视频解压缩过程。陆等人[20]将视频伪影减少任务建模为卡尔曼滤波过程，并通过深度卡尔曼滤波网络恢复解码帧。其主要思想是利用噪声较小的先前恢复的帧，而不是直接解码的帧作为时间参考。最近，徐等。[34]在ConvLSTM中引入了一种非局部策略来跟踪视频序列中的时空依赖性，并实现了最先进的性能。联合音视频生成和处理。Suwa- janakorn等人[26]提出了一种有趣的技术，在不同的讲话中，利用由他自己的音频引导的精确的嘴唇同步来自动编辑给定讲话者的视频。Chung等人[5]提出了一种根据音频信号对人脸图像进行动画处理的方法。Vou- gioukas等人。[29]建议用时间GANS做语音驱动的动画。Chen等人。[4]提出了一种利用空间注意力进行语音驱动的面部动画的方法。Afouras等人[1]设计了一个深度视听语音分离器，12337音频双向LSTMA子网重构帧代码流空间注意力融合重建约束模块投影对准&融合V子网解码的帧视频功能编码信息Auido特色图2.拟议的DAVD网络的框架该网络能够将说话者的语音从给定说话者的伴随视频的嘴唇区域的噪声背景中分离出来Shlizerman等人[23]提出了一种方法，该方法获得小提琴或钢琴演奏的音频作为输入由于语音和面部运动之间的强相关性，所以信号是用于视频播放的有用信息为了将音频因素考虑在内，视频重建问题应重新表述为：ing，并生成骨架预测的视频以动画化乐器演奏化身。Wiles 等人[32]建议Xt=G（Yt±n，At±m）（2）一种神经网络，使用另一个人的头部视频来控制给定面部的姿势和表情。所有上述CNN方法都侧重于在伴随音频或视频的帮助据我们所知，还没有关于使用联合音频-视频统计来减少视频伪影的基于深度学习的方法的研究报告。3. 方法3.1. 概述生成原始视频序列{X，|t=0，1，2. }的情况下，{Xt}必须通过视频压缩标准（例如H.264/265）进行压缩，该标准去除空间和时间冗余以提高传输和存储效率。然后将压缩视频解压缩以获得解码的视频序列，由{Yt|t=0 ， 1 ， 2. {\fn 方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}在深度解压缩任务中，目标是通过最大限度地去除Yt中的压缩伪影来从解码帧Yt计算精细重建Xt。为了为了利用时间信息，现有的方法大多以当前解码帧和相邻帧作为输入，输出一个恢复的当前帧，即：Xt=G（Yt±n）（1）其中Yt± n={Yt− n，.，Yt+n}表示连续的（2n+1）个压缩帧，G是要优化的网络。在Talking Heads视频的背景其中At± m={At− m，.， At+m}是在时间上以A t为中心的连续音频信号。拟议的DAVD网络的整体架构如图所示。二、它由两个分支组成，分别用于音频和视频。在音频处理分支中，我们应用双向LSTM来提取音频特征，并将其馈送到生成网络，该生成网络生成一组2D特征图，以准备与视频特征图相结合。在视频处理分支中，在相邻解码帧的对齐和融合之后，我们使用多个残差块来提取对齐帧的特征。其次，我们设计了一个空间注意力融合模块来动态地融合音频和视频特征。由10个残差块的级联组成的重构模块对融合的视频和音频特征进行操作。最后，在输出之前，重构视频由投影模块细化，该投影模块通过视频压缩标准的变换域中的量化边界来约束解空间。接下来，我们详细介绍了拟议的DAVD-Net的各个组件。3.2. 音频特征提取在我们的设计中，音频信号由标准的Mel频率倒谱系数（MFCC）表示[33，22]。当一个人说话时，在每个时刻t，面部图像，特别是在嘴周围的部分，不仅取决于当前音频帧At，而且取决于先前和未来的音频帧。因此，网络需要12338不不图4.提出了空间注意力融合模块的详细架构图3. 左图：A子网的架构布局。右图：上采样ResBlock的详细架构。连续音频特征序列{At-m，.， At+m}作为输入，以便从高阶统计依赖中受益。音频和视频之间的差异。为了准备与视频特征相结合的音频特征，我们使用称为A子网的网络块来提取和组织2D形式的音频特征我们不直接使用MFCC系数来生成2-D特征图。相反，我们采用三层双向LSTM模块来提取MFCC系数的特征。也就是说，Lt± m= LSTM（At± m），其中Lt± m={Lt− m，.，Lt+m}是所提取的长度等于At± m的LSTM特征序列。A子网将Lt± m作为输入，并输出与视频帧大小相同的2-D特征图的聚类。该子网络由一个线性层和五个上采样残差块组成，如图1所示。3 .第三章。3.3. 视频特征提取为了充分利用视频信号中的时空相关性，我们的网络采用一组连续的（2n +1）个压缩帧{Yt-n，...，Yt+n}作为第二输入。由于动议3.4. 空间注意力融合在提取时间相关的音频和视频特征后，下一个任务是有效地融合它们，以便于去除压缩伪影。一种简单的方法是直接连接音频和视频功能。然而，观察视频中说话的头部揭示了语音音频与嘴周围的图像部分嘴唇、脸颊和下巴），而不是整个脸。也就是说，从音频信号生成的2-D特征图在空间维度上的贡献并不相等，它们应该被用来指导嘴部区域的重建。然而，说话时头部的自然运动会改变说话者嘴巴的位置甚至方向为了捕捉这种动态，网络需要在像素级上对音频特征图和视频特征图进行时间调整。为此，我们引入了一个空间注意力融合模块，以允许随时间变化的音频和视频特征的关联，如图所示。4.第一章在我们的设计中，网络从音频和视频特征计算注意力地图，范围从0到1，其中0表示该位置的音频特征对恢复完全无用，1表示非常有帮助。注意力图Mt被公式化为：M=Sigmod（Linear（[Fv，Fa]））（3）相机或/和对象（在我们的情况下是头部），当前帧tt tYt及其相邻帧未对准。对准其中Fv和Fa是从视频生成的特征图这些视频帧有助于CNN块的功能ex-t t t牵引力，以更准确地学习或预测空间细节。在最近的视频超分辨率研究中，Tian et al.[28]和Wang et al.[30]提出了使用可变形卷积[7]来将每个相邻帧与参考帧对齐，并且在视频超分辨率任务中实现了最先进的性能。受其成功的启发，我们还采用了可变形卷积来对齐曲线，andaudio音频，respect尊重ivel v el y. [·，·]表示连接操作sigmoid激活函数用于限制输出Mt在[0，1]中。接下来，音频特征图Fa以逐像素的方式乘以注意力图，然后使用几个卷积层与视频特征图Fv聚合，即：Fagg=Conv（[Fv，Mt<$Fa]）（4）t t在DAVD-Net中的租赁帧及其相邻帧在对齐之后，被称为V子网的网络块被设计成从对齐的视频帧中提取特征V子网是5个残余块的级联。其中Fagg是聚合特征图。然后，如图2所示，我们将聚合的特征图Fagg馈送到由10个残差块组成的重建模块中。线性4x4x64通道ResBlock，最高8x8x64通道ResBlock，最高16x16x64通道ResBlock，最高32x32x64通道ResBlock，最高LSTM特性二维特征ConcatReLU上采样上采样1x1转换3x3转换ReLU添加3x3转换音频特征关注地图逐像素乘法视频特征线性Concat线性乙状融合转换12339不不不不不不不不不t tt3.5. 约束突起大多数现有的用于减少视频压缩伪影的方法仅对解码的帧序列进行操作，而忽略了包含在码流中的编码器信息。一些研究人员[15，20，10]确实意识到，包含在压缩视频流中的编码器先验信息可以帮助提高视频恢复的性能。然而，它们仅将编码先验（如预测残差或未过滤的帧）与解码帧一起馈送到神经网络中，这是直接的，但效果有限。一条潜在的高利润信息被闲置：DCT共同-图5.约束投影模块的体系结构。对DCT系数Et=Yt−Pt的约束：有效的量化间隔，可以从压缩标准码流中提取出来。开发F（Edct）=i，j），E∈ct（i，j），E<$dct（i，j）L（i，j）E<$dct∈[L（i，j），U（i，j）]（七）在先验信息中加入了投影模块;它的作用是通过变换域中的量化边界来约束解空间，以进一步抛光重构的t不U（i，j），不Edct（i，j）>U（i，j）视频. 该投影模块可以使用其中L=Edct−Q/2和U=Edct+Q/2，i和j是t t分段线性激活函数嵌入神经网络网络在现代视频压缩标准中，基于预测的编码是核心操作。在基于代码的预测中，DCT域中的索引。投影功能F（·）可以在神经网络中实现为分段线性行为。最后，重构帧Xt为给出给定要编码的原始帧Xt，帧间/帧内使用帧预测技术来获得预测Xt=IDCT（F（Edct））+Pt（八）Xt的标架，记为Pt。然后，预测残差Et=Xt-Pt将被变换到DCT域并被量化，随后是熵编码。在编码阶段，Et的DCT系数（用Edct表示）被量化表Q划分，然后被舍入到最接近的整数。在解码时，解码器执行解-通过在DCT域中乘回量化表Q来整个量化和去量化过程可以用公式表示为：为了实现所提出的投影模块，编码器的结构信息，如DCT变换块分区，预测帧和预测残差图像是必需的。在视频压缩标准中，像素由分层块结构组织，并且变换块是基本编码单元。与固定的JPEG采用8×8的变换块大小，H.264/265等视频编码标准采用不同的变换块大小不同区域的大小，根据Edct=ΣΣ（Edct）/Q中国（5）到图像内容。然而，常见的视频解码工具如FFmpeg不能提取DCT变换，其中[·]表示舍入操作，并且E_d_c_t表示预测残差块的解码的DCT系数。解码后的帧通过逆DCT得到变换并添加预测帧，即Yt=Pt+Et，其中Et=IDCT（Edct）。当量5意味着以下DCT系数范围约束：Edct−Q/2≤Edct≤Edct+Q/2（6）也就是说，从预测误差的解码DCT系数，我们可以导出预测残差的原始DCT系数的上下界。我们可以通过在DAVD网络的决策中插入一个投影模块来强制DCT系数边界，最后的输出（见图5）。设Y不是重建模块、投影模块公司简介重构帧代码流DCT投影IDCT12340从码流中形成块划分等编码信息。为了克服这一困难，获得投影模块所需的所有编码器先验信息，我们设计了一个工具来提取压缩码流中的编码信息，包括变换块划分、预测帧和预测残差等。264的一些编码信息（预测帧、预测残差和变换单元（TU）分区）在图1中示出。六、4. 实验为了系统地评估和分析DAVD-Net方法在不同强度先验条件下的性能，我们对两个数据集进行了广泛的实验：Obama数据集（单人）和VoxCeleb 2数据集（多人）[21，6]。在这两组实验中，针对压缩视频训练DAVD网络12341图6. H.264视频压缩标准的编码器信息说明。左：Y通道中的预测帧。中间：Y通道中的预测残差图像。右：变换单元（TU）分区。具有和不具有他的声音的特定已知说话者，以及分别用于具有和不具有伴随声音的通用讲话头。4.1. 数据准备奥巴马数据集。我们从YouTube上收集了198个高质量的奥巴马每周讲话视频。每段视频长度约3至6分钟，总计790分钟。该数据集分为两个部分：160个视频用于培训/验证，其余38个视频用于测试。我们从每帧中检测并裁剪人脸区域，然后将其调整为128×128分辨率。VoxCeleb2数据集。VoxCeleb2是一个视听由人类语音的短片段组成的数据集，提取上传到YouTube的采访视频它包含来自不同种族、口音、职业和年龄的演讲者的演讲。所有说话的面部轨迹都是在“野外”捕捉的，背景聊天，笑声，重叠的语音，姿势变化和不同的照明条件。具体而言，VoxCeleb2包含6，112位名人的超过100万条话语。由于计算资源有限，我们使用从Vox-Celeb 2开发集中随机选择的子集（200个名人）来训练模型，并使用VoxCeleb 2测试集来测试训练后的模型压缩后的视频全部由FFmpeg生成，采用x264视频编解码器，速率控制参数CRF=42和CRF=45。4.2. 培训详细信息我们对DAVD-Net中的所有模块进行端到端的训练每个残差块中的信道大小被设置为64。 A子网中的upsample模块采用反卷积实现。小批量设置为32。我们使用裁剪的RGB大小为128×128和224×224的人脸图像分别作为Obama数据集和VoxCeleb数据集的输入的视频信号的窗口大小是5，音频信号的窗口大小是21。也就是说，Yt±2={Yt−2，Yt−1，Yt，Yt+1，Yt+2}并且At±10={At−10，At−9，.，At+9，At+10}。训练损失被设置为仅L1损失，定义为L1（Xt，Xt）=||Xt−Xt||1 .一、我们使用Adam优化器[17]通过设置β1= 0来训练DAVD-Net。9和β2= 0。999，初始化学习率为1×10-4。我们在PyTorch [16]中实现了所提出的DAVD训练需要大约2天（50个epoch）来收敛VoxCeleb2数据集。4.3. 与现有技术方法的我们将DAVD-Net与几种最先进的视频恢复方法进行了比较：[36]，DKFN [20]，MFQE [37]，EDVR.其中DSCNN、DKFN和MFQE是专门为视频压缩伪影消除任务而设计的，EDVR被认为是一个统一的框架，可扩展到各种视频压缩任务。为了证明定制的语音网络的优势，说话的头在一般的对象，我们比较我们的网络与DKFN和MFQE模型预训练的作者使用一般的视频（只有两个预训练模型提供给我们）。在奥巴马和 VoxCeleb 2 数据集上，DAVD-Net的性能优于DKFN和MFQE高达2.5dB。这并不奇怪，因为其他两个网络都是使用Vimeo-90 K [35]或JCT-VC [2]等通用视频数据集训练为了找出不同训练集的影响并进行公平的比较，我们在实验中使用相同的数据集（Obama和VoxCeleb2）从头开始重新训练了com组中的所有CNN网络在表1和表2中分别示出了关于Obama数据集和Vox-Celeb 2数据集的定量结果。在obama数据集上，我们的DAVD-Net的性能大大优于现有方法，这意味着如果网络针对特定的已知人进行训练，则伴随语音的消除可以在人脸视频恢复任务中实现显着的性能增益。在Vox-Celeb 2数据集上，所提出的DAVD-Net相对于现有的最先进的方法实现了合理的性能增益。这意味着通过使用大型数据集进行训练，12342[37]第20话：我的世界，我的世界图7.比较组中不同方法在Obama数据集上的定性结果[37]第20话：我的世界，我的世界图8.VoxCeleb2数据集上比较组中不同方法的定性结果12343表1.压缩质量参数CRF=42和CRF=45的Obama数据集的平均定量结果（PSNR/方法CRF=42CRF=45DSCNN [36]32.91/0.931131.19/0.9142DKFN [20]33.15/0.934831.40/0.9180MFQE [37]33.21/0.936531.48/0.9183EDVR [30]33.45/0.940231.64/0.9217DAVD（我们的）33.94/0.946832.08/0.9272表2.压缩质量参数CRF=42和CRF=45的VoxCeleb 2数据集的平均定量结果（PSNR/ SSIM）方法CRF=42CRF=45DSCNN [36]29.18/0.860227.61/0.8231DKFN [20]29.49/0.866127.85/0.8259MFQE [37]29.54/0.868327.91/0.8264EDVR [30]29.73/0.871028.03/0.8289DAVD（我们的）30.12/0.874128.39/0.8335神经网络包含了各种各样的人和伴随的声音，可以找出人脸动态和说话声音之间的共同关系，并利用它来指导人脸的恢复。定性结果见图1和图2。7和8如果针对特定的人进行训练，在伴随的声音的帮助下，DAVD可以比其他方法更好地恢复面部特征（注意更清晰的牙齿，更锐利的嘴唇和肌肉轮廓），如图所示。7.第一次会议。如果针对一般的说话头部进行训练，则感知图像质量的改善尽管如此，DAVD的结果似乎仍然优于其他方法，见图10中的嘴部区域。8.请参阅补充材料，以获得更多的定性结果，包括图像和视频。4.4. 消融研究在本小节中，我们测试了我们的完整架构的各种消融，以评估拟议网络的每个组件的效果。声音的消融研究。在这里，我们评估的 effec-ventilation使用的声音在人脸视频恢复。我们构建了一个基线，它只包含视频特征提取分支和重建模块，然后使用奥巴马和VoxCeleb2数据集。基线的性能显示在表3和表4的第一行中。正如预期的那样，我们的基线的性能与EDVR相当，因为它们具有相似的结构和复杂性。然后，我们将音频特征提取分支合并到网络中，并使用简单的卷积层融合音频和视频特征如表3和表4的第二行所示，伴随的语音可以显著提高恢复的人脸的质量，在Obama数据集中为0.25dB，在VoxCeleb2数据集中为0.17dB。12344表3.奥巴马数据集消融研究的定量结果（PSNR/ SSIM）VPB：视频处理分支; APB：音频处理分支; SAF：空间注意融合; CPM：约束投影模块。VPBAPBSAFCPMPSNR/ SSIMC33.42/0.9401CC33.67/0.9445CCC33.78/0.9452CCCC33.94/0.9468表4.VoxCeleb 2数据集上消融研究的定量结果（PSNR/SSIM）VPB：视频处理分支; APB：音频处理部门; SAF：空间注意融合; CPM：约束投影模块。VPBAPBSAFCPMPSNR/ SSIMC29.71/0.8702CC29.88/0.8731CCC29.97/0.8735CCCC30.12/0.8741空间注意融合的消融研究。我们进一步评估所提出的空间注意力融合模块的有效性。通过使用空间注意力模块而不是简单的卷积层来聚合音频和视频特征，恢复性能在 Obama 数据集中增加了约 0.11dB ，在VoxCeleb2数据集中增加了约0.09dB，如表3和4的第三行所示。限制性投射的消融研究。如表3和表4的最后一行所示，通过在网络中引入约束投影模块，在Obama数据集中和VoxCeleb2数据集中，投影性能分别提高了0.16dB5. 结论我们提出并证明了一种新的DCNN设计，用于恢复高度压缩的视频说话的头。关键在于一种新的DCNN架构，该架构可以利用音频-视频相关性来修复面部区域中的压缩缺陷。我们还将视频压缩标准中编码器的结构信息嵌入到我们的网络中，并在网络中引入约束投影模块以进一步提高恢复。实验结果表明，所提出的DAVD明显优于现有的方法。鸣谢。本研究得到了加拿大自然科学与工程研究委员会（NSERC）、山东省重点研究发展计划（重大科技攻关项目，NO.2019JZZY010119）的资助。这项研究也得到了111计划B07022的部分支持。12345引用[1] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man.对话内容：深度视听语音增强。arXiv预印本arXiv：1804.04121，2018。2[2] Frank Bossen 等人常见测试条件和软件参考配置。JCTVC-L1100，12，2013年。6[3] Huibin Chang，Michael K Ng，and Tieyong Zeng.减少jpeg 解压缩中的伪像通过一个学习字典。 IEEEtransactions on signal processing，62（3）：718- 728，2014。2[4] Lele Chen ， Ross K Maddox ， Zhiyao Duan ， andChenliang Xu.具有动态像素丢失的分层跨模态说话人脸生成。在IEEE计算机视觉和模式识别会议论文集，第7832-7841页2[5] Joon Son Chung、Amir Jamaludin和Andrew Zisserman。你这么说的？arXiv预印本arXiv：1705.02966，2017。2[6] Joon Son Chung ， Arsha Nagrani ， Andrew Zisserman.Voxceleb2 ：深度说话人识别。arXiv预印本 arXiv：1806.05622，2018。5[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。4[8] Yehuda Dar，Alfred M Bruckstein，Michael Elad，andRaja Giryes.通过序列去噪对压缩图像进行后处理。IEEE Transactions on Image Processing ， 25 （ 7 ）：3044-3058，2016。2[9] Chao Dong ， Yubin Deng ， Chen Change Loy ， andXiaoou Tang.通过深度卷积网络减少压缩伪影。在IEEE计算机视觉国际会议论文集，第576-584页，2015年。2[10] 冯龙涛，张新丰，王善社，王悦，马四维。基于编码先验的压缩视频高效编码。在2019年IEEE图像处理国际上，第769-773页IEEE，2019。5[11] Alessandro Foi ， VladimirKatkovnik ， and KarenEgiazarian.用于灰度和彩色图像高质量去噪和去块效应的逐点形状自适应 dct 。 IEEE Transactions on ImageProcessing，16（5）：1395-1411，2007. 2[12] 莱昂纳多·加尔泰里，洛伦佐·塞代纳里，马可·贝尔蒂尼，阿尔-贝托·德尔宾博.深度生成对抗压缩伪影去除。arXiv预印本arXiv：1704.02518，2017。2[13] 郭军，赵宏阳。一对多网络，用于减少视觉上令人愉悦的压缩伪影。arXiv预印本arXiv：1611.04994，2016年。2[14] Amirhossein Habibian 、 Ties van Rozendaal 、 Jakub MTom-czak和Taco S Cohen。使用率失真自动编码器的视频压缩。在IEEE国际计算机视觉会议集，第70331[15] Xiaoyi He ， Qiang Hu ， Xiaoyun Zhang ， ChongyangZhang，Weiyao Lin，and Xintong Han.用分区屏蔽卷积神经网络增强hevc压缩视频。2018年第25届IEEE图像处理国际会议（ICIP），第216-220页IEEE，2018年。二、五[16] 尼基尔·凯特卡Pytorch简介使用Python进行深度学习，第195-208页。Springer，2017. 6[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[18] Yu Li ，Fangfang Guo ， Robby T Tan ，and Michael SBrown.具有jpeg伪像抑制的对比度增强框架欧洲计算机视觉会议，第174-188页。Springer，2014. 2[19] 郭璐，欧阳万里，徐东，张晓云，蔡春雷，高志勇.Dvc：端到端深度视频压缩框架。在IEEE计算机视觉和模式识别会议论文集，第11006-11015页1[20] Guo Lu，Wanli Ouyang，Dong Xu，Xiaoyun Zhang，Zhiyong Gao，and Ming-Ting Sun.用于视频压缩伪影减少的深度卡尔曼滤波网络在欧洲计算机视觉会议（ECCV）的会议记录中，第568-584页，2018年。一、二、五、六、七、八[21] Arsha Nagrani ， Joon Son Chung ， Andrew Zisserman.Voxceleb：一个大规模说话人识别数据集。arXiv预印本arXiv：1706.08612，2017. 5[22] Md Sahidullah和Goutam Saha。用于说话人识别的mfcc计算中基于块的变换的设计、分析和实验评价SpeechCommunication，54（4）：543-565，2012. 3[23] Eli Shlizerman，Lucio Dery ，Hayden Schoen，and IraKemelmacher-Shlizerman. 音频到身体动力学。在IEEE计算机视觉和模式识别会议的论文集，第7574-7583页3[24] 托马斯·西科拉。mpeg-4 视频标准验证模型。IEEETransactionsonCircuitsandSystemsforVideoTechnology，7（1）：19-31，1997。1[25] Gary J Sullivan 、 Jens-Rainer Ohm 、 Woo-Jin Han 和Thomas Wiegand。高效率视频编码（hevc）标准概述。IEEE Transactions on circuits and systems for videotechnology，22（12）：1649-1668，2012. 1[26] Supasorn Suwajanakorn ， Steven M Seitz ， and IraKemelmacher-Shlizerman. 合成奥巴马：从音频中学习对口型。ACM Transactions on Graphics（TOG），36（4）：95，2017。2[27] 帕维尔·斯沃博达，米哈尔·赫拉迪斯，大卫·巴里纳和帕维尔·泽姆西克。使用卷积神经网络去除压缩伪影。arXiv预印本arXiv：1605.00366，2016年。2[28] Yapeng Tian，Yulun Zhang，Yun Fu，and Chenliang Xu.Tdan：用于视频超分辨率的时间可变形对齐网络。arXiv预印本arXiv：1812.02898，2018。4[29] 康斯坦丁诺斯·沃尤卡斯，斯塔夫罗斯·佩特里迪斯，还有玛雅·潘提克. 端到端的语音驱动的人脸动画与时间gans。arXiv预印本arXiv：1805.09313，2018。2[30] Xintao Wang，Kelvin CK Chan，Ke Yu，Chao Dong，and Chen Change Loy. Edvr：使用增强的可变形卷积网络进行视频恢复。在IEEE计算机视觉和模式识别研讨会会议集，第0-0页，2019年。四、六、七、八[31] Thomas Wiegand，Gary J Sullivan，Gisle Bjontegaard，and Ajay Luthra. H的概述。264/AVC视频编码标准12346糟透了IEEE Transactions on circuits and systems for videotechnology，13（7）：560-576，2003. 1[32] 奥利维亚·怀尔斯，索菲亚·科普克，安德鲁·齐瑟曼。X2face：一个网络，用于控制面部生成使用图像，音频和姿势代码。在欧洲计算机视觉会议（ECCV）的会议记录中，第670- 686页，2018年。3[33] 徐敏，段玲玉，蔡剑飞，贾良田，徐长生，齐天。基于HMM的音频关键词生成。在环太平洋多媒体会议上，第566-574页Springer，2004. 3[34] Yi Xu，Longwen Gao，Kai Tian，Shuigeng Zhou，andHuyang Sun.用于视频压缩伪影减少的非局部卷积。在IEEE计算机视觉国际会议论文集，第7043-7052页，2019年。2[35] Tianfan Xue，Baian Chen，Jiajun Wu，Donglai Wei，and William T Freeman.具有面向任务流的视频增强。国际计算机视觉杂志，127（8）：1106-1125，2019。一、二、六[36] 任阳，徐迈，王祖林。利用可缩放卷积神经网络的解码器侧hevc质量增强。在2017年IEEE多媒体和博览会国际会议上，第817-822页IEEE，2017年。六、八[37] 杨仁，徐迈，王祖林，李天翼。压缩视频的多帧质量增强。在IEEE计算机视觉和模式识别会议论文集，第6664-6673页，2018年。一二六七八[38] 张曦和吴晓琳。通过深度神经网络实现的近无损无∞约束图像解压缩。2019年压缩会议（DCC），第33-42页。IEEE，2019。2[39] 张曦和吴晓琳。超高保真度图像压缩，具有超∞约束编码和深度解码。 arXiv 预印本 arXiv ： 2002.03482 ，2020。2[40] Xinfeng Zhang ， Ru

下载后可阅读完整内容，剩余1页未读，立即下载