内容感知特征调制实现紧凑的神经视频传输

182 浏览量更新于2023-10-14 收藏 20.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

46310通过内容感知特征调制实现紧凑的神经视频传输0刘佳明 1 � ，陆明 2* † ，陈凯欣 1* ，李晓琪 1* ，王世尊 1* ，王兆庆 1 ，吴恩华 3 ，陈玉荣 2 ，张闯 1 ‡ ，吴明 101 北京邮电大学 2 英特尔实验室中国 3 中国科学院计算机科学国家重点实验室，澳门大学FST{liujiaming,zhangchuang}@bupt.edu.cn,lu199192@gmail.com0摘要0近年来，互联网视频传输经历了巨大的增长。然而，视频传输系统的质量在很大程度上取决于互联网带宽。最近，深度神经网络（DNN）被用于提高视频传输的质量。这些方法将视频分成块，并将LR视频块和相应的内容感知模型流式传输到客户端。客户端运行模型的推理来超分辨率处理LR块。因此，为了传输视频，需要流式传输大量的模型。在本文中，我们首先仔细研究了不同块的模型之间的关系，然后巧妙地设计了一个联合训练框架，以及内容感知特征调制（CaFM）层，以压缩这些模型，用于神经视频传输。通过我们的方法，每个视频块只需要传输不到原始参数的1％，即可实现更好的超分辨率性能。我们在各种超分辨率主干网络、视频时长和缩放因子上进行了广泛的实验，以展示我们方法的优势。此外，我们的方法也可以看作是一种新的视频编码方法。在相同的存储成本下，我们的初步实验结果显示，与商业的H.264和H.265标准相比，我们的方法实现了更好的视频质量，展示了该方法的巨大潜力。代码可在以下链接找到：https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV20210� 相等贡献。†本工作是刘佳明在英特尔实验室中国实习期间在陆明的指导下完成的。‡负责通信的是张闯。01. 简介0近年来，互联网视频取得了爆炸性的增长，这给视频传输基础设施带来了巨大的负担。视频的质量严重依赖于服务器和客户端之间的带宽。双方的技术随着时间的推移而不断发展，以应对互联网规模下的可扩展性挑战。受到客户端/服务器计算能力的增加和深度学习的最新进展的启发，提出了几种将深度神经网络（DNN）应用于视频传输系统的方法[14,30]。这些方法的核心思想是从服务器向客户端流式传输低分辨率视频和内容感知模型。客户端运行模型的推理来超分辨率处理低分辨率视频。通过这种方式，在有限的互联网带宽下可以获得更好的用户体验质量（QoE）。与当前的单图像超分辨率（SISR）[24, 8, 20, 32,15]和视频超分辨率（VSR）[2, 26,3]方法相比，内容感知DNN利用神经网络的过拟合特性，并使用训练准确性来实现高性能。具体而言，首先将视频分成几个块，然后为每个块训练一个单独的DNN。低分辨率块和相应的训练模型通过互联网传输到客户端。可以使用不同的主干网络[24, 8, 20, 32,15]作为每个块的DNN。这种基于DNN的视频传输系统与WebRTC[14]等商业视频传输技术相比，取得了更好的性能。尽管将DNN应用于视频传输是有希望的，但现有方法仍然存在一些限制[18]。一个主要限制是它们需要为每个块训练一个DNN，导致长视频需要大量的单独模型。这带来了额外的存储和带宽消耗。46320对于实际视频传输系统而言，计算成本是一个重要的考虑因素。在本文中，我们首先仔细研究了不同块的模型之间的关系。尽管这些模型是为了过拟合不同的块而训练的，但我们观察到它们的特征图之间的关系是线性的，并且可以由内容感知特征调制（CaFM）层建模。这激发了我们设计一种方法的动机，该方法允许模型共享大部分参数，并仅保留每个块的私有CaFM层。然而，直接微调私有参数无法获得与单独训练模型相比的竞争性能。因此，我们进一步设计了一种巧妙的联合训练框架，同时为所有块训练共享参数和私有参数。通过这种方式，我们的方法可以相对于单独训练的模型获得更好的性能。除了视频传输，我们的方法还可以被视为视频编码的一种新方法。我们进行了初步实验，将所提出的方法与商业H.264和H.265标准在相同的存储成本下进行比较。由于过拟合特性，我们的方法可以实现更高的PSNR性能，显示了所提出方法的巨大潜力。我们的贡献可以总结如下：0•我们提出了一种新颖的联合训练框架，以及用于神经视频传输的内容感知特征调制层。0•我们在各种SR骨干、视频时长和缩放因子上进行了广泛的实验，以展示我们方法的优势。0•我们将其与商业H.264和H.265标准在相同的存储成本下进行比较，并展示了由于过拟合特性而取得的有希望的结果。02. 相关工作0基于DNN的图像超分辨率 SRCNN[8]是将DNN引入SR任务的开创性工作。他们的DNN包括三个阶段，即特征提取、非线性映射和图像重建。随着DNN的发展，按照SR-CNN的流程，提出了许多基于DNN的方法来改进SISR的性能。例如，VDSR[15]使用非常深的DNN学习图像残差而不是HR图像。受ResNet [10]的启发，SRResNet[17]引入了残差块到SR中，并提高了DNN的能力。EDSR[20]修改了SRResNet的结构，并去除了批归一化层[12]，进一步提升了SR结果。RDN[33]提出采用密集连接[11]，以充分利用先前层的信息。RCAN [32]研究了注意机制，并提出了更深的SRDNN。然而，RCAN0计算复杂，限制了其实际应用。为了降低计算成本，许多工作提出了高效的SR方法。ESPCN[24]使用LR图像作为输入，并通过DNN末端的PixelShuf�e层上采样特征图。LapSRN[16]提出了用于快速和准确SR的Laplacian金字塔网络，逐步重建HR图像的子带残差。FALSR[6]使用神经架构搜索（NAS）来搜索轻量级和准确的SR网络。LAPAR[19]提出了一种基于线性组装的像素自适应回归网络的方法，该方法学习SR的逐像素滤波器核。所有这些方法都是外部方法，它们在大规模图像数据库（如DIV2K[1]）上训练模型，并在特定的基准数据库上进行测试。然而，外部方法无法探索DNN的过拟合特性，这对于实际视频传输系统非常有用。0基于DNN的视频超分辨率与图像超分辨率相比，视频超分辨率还可以利用时间信息进行SR。因此，时间对齐在其中起着重要作用，并且应该进行广泛的研究。VESPCN[2]估计相邻帧之间的运动，并在将相邻帧输入SR网络之前进行图像扭曲。然而，精确估计光流通常是不可行的。TOFlow[28]提出了一种针对特定视频处理任务的任务定制流。他们以自监督的方式联合训练运动估计组件和视频处理组件。DUF[13]通过训练一个网络来生成动态上采样滤波器和残差图像，避免了精确的显式运动补偿。EDVR[26]从两个方面改进了VSR的性能。首先，他们设计了一个对齐模块来处理大运动，在特征级别上使用可变形卷积以粗到细的方式进行帧对齐。其次，他们在时间和空间上都应用了注意机制，以强调后续恢复的重要特征。为了降低VSR的计算成本，FRVSR[23]提出了一个循环框架，使用先前的SR来超分辨率后续帧。他们的循环帧自然地鼓励时间上的一致性，并通过仅在每一步中扭曲一幅图像来降低计算成本。TecoGAN[5]探索了基于GAN的VSR的时间自监督。他们提出了一种时间对抗学习方法，可以在不牺牲空间细节的情况下实现时间上的一致解决方案。BasicVSR[3]通过重新使用一些现有组件并进行最小的重新设计，重新考虑了VSR的一些最基本的组件。与最先进的算法相比，他们在速度和恢复质量方面取得了令人满意的改进。所有这些VSR方法也属于外部方法，无法探索DNN的过拟合特性。除了Video Decode46330块-1 块-n0更新0模型-i0分辨率分辨率训练模型0视频长度视频长度0服务器0客户端客户端客户端0服务器客户端0输入（LR）0iii. 使用模型对LR块进行超分辨率处理0输出-i（SR）目标-i（HR）0ii. 流式传输LR块 + 模型0i. 为每个LR块训练模型s0块-i0图1.采用内容感知DNN进行视频传输的整个过程。首先将视频分成几个块，服务器为每个块训练一个模型。然后服务器将LR视频块和模型传送给客户端。客户端运行推理来超分辨率处理LR块并获得SR视频。0因此，处理时间对齐带来了巨大的额外计算和存储成本，这限制了它们在资源有限的设备（如手机）上的实际应用。神经网络视频传输NAS[30]是一种新的有前途的实际互联网视频传输框架，它集成了基于DNN的质量增强。它可以在互联网带宽拥塞时解决视频质量下降的问题。NAS可以通过共享大部分参数来提高平均体验质量（QoE），并使用相同的带宽预算提供43.08%的增强性能，或者在提供相同用户QoE的同时节省17.13%的带宽。其核心思想是利用DNN的过拟合特性，并使用训练准确性来提供高增强性能。许多后续工作都提出将NAS的思想应用于不同的应用，如无人机视频流媒体[27]，直播[14]，360度视频流媒体[7,4]，体积视频流媒体[31]和移动视频流媒体[29]等。在本文中，所提出的方法可以通过在视频块之间共享大部分参数进一步减少带宽预算。因此，每个视频块只需传输一小部分私有参数。03. 提出的方法0神经网络视频传输[14,30]旨在利用DNN在传输互联网视频时节省带宽。与传统的视频传输系统不同，它们用LR视频和内容感知模型替换HR视频。如图1所示，整个过程包括三个阶段：（i）在服务器上为视频块训练模型；（ii）将LR块与内容感知模型一起从服务器传送到客户端；（iii）在客户端上对LR块进行超分辨率处理。然而，该过程需要为每个块流式传输一个模型，导致额外的带宽成本。在本部分中，我们首先在第3.1节中分析了视频块模型之间的关系。然后我们引入了一个内容感知特征调制（CaFM）层来模拟这种关系。0然而，在每个块上微调CaFM模块无法取得竞争性的结果。因此，我们在第3.3节提出了一个联合训练框架。03.1. 动机0在这部分中，我们采用了流行的EDSR[20]架构，并分析了在视频块上训练的模型。根据之前的工作[30,14]，我们将一个视频分成n个块，并相应地训练n个EDSR模型S1，S2 ... Sn。然后，我们通过输入DIV2K[1]的随机选择的图像来经验性地分析S1，S2 ...Sn。我们在图2中可视化了这些n个EDSR模型的特征图。每个图像表示某个通道的特征图，为了简单起见，我们只可视化了EDSR的一层。具体来说，我们将特征图表示为fi，j，k∈RH×W，其中i表示第i个模型，j表示第j个通道，k表示EDSR的第k层。对于随机选择的图像，我们可以计算fi1，j1，k和fi2，j2，k之间的余弦距离，这衡量了这两个特征图之间的相似性。对于图2中的特征图，我们计算了fi，：，k，f2，：，k和f3，：，k之间的余弦距离矩阵。如图3所示，我们观察到尽管S1，S2 ...Sn是在不同的块上训练的，但根据图3中矩阵的对角线值，相应通道之间的余弦距离非常小。我们计算了S1，S2和S3在所有层上的余弦距离的平均值，结果分别约为0.16和0.04。这表明尽管不同的模型是在不同的块上训练的，但f1，j，k和f2，j，k之间的关系可以近似地由线性函数建模。上述观察结果激发了我们对S1，S2 ...Sn的大部分参数进行共享，并使用内容感知特征调制（CaFM）来私有化每个DNN的想法，这将在下一部分详细介绍。f2,1,kf2,2,kf2,3,kf2,4,kf2,5,kf2,6,kf2,7,kf2,8,kf2,9,kf1,1,k f1,2,k f1,3,kf1,5,kf1,4,kf1,7,kf1,6,kf1,8,k f1,9,kf2,1,kf2,2,kf2,3,kf2,4,kf2,5,kf2,6,kf2,7,kf2,8,kf2,9,kf3,1,k f3,2,k f3,3,kf3,5,kf3,4,kf3,7,kf3,6,kf3,8,k f3,9,kLi =S ��Ii,sHRIi,sSRL =n46340f 2,:,k0f 1,:,k0f 3,:,k0图2. 不同模型 S 1 − n 的特征图可视化0(a)0(b)0图3. 图2中 f 1 , : ,k , f 2 , : ,k 和 f 3 , : ,k 的余弦距离矩阵03.2. 内容感知特征调制0在本部分中，我们将内容感知特征调制（CaFM）层引入基线模型，以使每个视频块的DNN私有化。整体框架如图4所示。如前所述，CaFM旨在操作特征图并使模型适应不同的块。因此，不同块的模型可以共享大部分参数。我们将CaFM表示为通道级线性函数：0CaFM ( x j ) = a j � x j + b j , 0 < j ≤ C (1)0其中 x j 是第 j 个输入特征图，C 是特征通道数，a j 和 b j是通道级的缩放和偏置参数。我们添加CaFM来调制基线模型的输出特征。以EDSR为例，CaFM的参数占EDSR的约0.6％。因此，对于一个具有n个块的视频，我们可以将模型的大小从n个EDSR减小到1个共享的EDSR加上n个私有的CaFM。因此，与基线方法相比，我们的方法可以显著降低带宽和存储成本。03.3. 联合训练框架0如上一节所述，我们可以使用CaFM使每个块的DNN私有化。然而，微调添加的CaFM模块无法与单独训练的模型达到竞争性的结果。因此，我们进一步提出了一种联合训练框架，同时训练视频块的模型。给定一个LR图像 I i,s LR ，其中 i表示第 i 个视频块，s 表示该块中的第 s个样本，我们可以得到SR图像：0I i,s SR = g ( I i,s LR ; W s , W i ) (2)0其中 W s 是共享参数，W i 是第 i个视频块的CaFM参数。对于每个视频块，我们可以定义重构损失：0s =10S (3)0因此，联合训练的损失函数可以表示为：0i =1 L i (4)0在训练过程中，我们均匀采样视频块中的图像来构建训练数据。所有图像都用于更新共享参数 W s ，而第 i个视频块的图像用于更新相应的CaFM参数 W i 。46350块-10块-i0块-n0共享卷积0共享卷积0CaFM-10CaFM-i0CaFM-n0共享Relu0共享卷积0CaFM-10CaFM-i0CaFM-n0共享卷积0共享上采样模块0共享卷积0元素0逐通道求和0元素0逐通道求和0联合训练联合训练016个残差块0开始结束LR块0标签0更新0图4. 联合训练框架及CaFM04. 实验0在本节中，我们进行了大量实验来展示我们方法的优势。为了评估所提出的方法，我们构建了一个包含4K视频的视频流数据集（VSD4K）。VSD4K的详细信息、训练协议和模型结构在第4.1节中给出。在第4.2节中，我们比较了基于EDSR [20]和EDVR[26]的外部学习和内容感知学习的性能。在第4.3节中，我们报告了我们的方法在不同视频长度和缩放因子下的结果。我们还在第4.4节中进行了全面的消融研究，以评估每个组件的贡献。为了展示我们工作的泛化能力，我们在第4.5节中使用了各种流行的SR架构进行结果报告。最后，由于我们的方法也可以被视为一种视频编码方法，我们在第4.6节中将其与商业H.264和H.265标准进行了比较。04.1. 实验细节0视频流数据集4K 公共视频数据集如Vimeo-90K[28]和REDS[21]只包含相邻帧序列，不适合视频传输。因此，我们从YouTube收集了几个4K视频，以模拟实际的视频传输场景。我们使用双三次插值生成LR视频，遵循之前的工作[20,32]。我们选择了6个热门视频类别构建VSD4K。每个类别包含不同长度的视频，包括：15秒、30秒、45秒、1分钟、2分钟、5分钟。关于VSD4K的详细信息可以在补充材料中找到。训练细节由于神经视频传输依赖于DNN的过拟合特性，我们在同一个视频上进行训练和测试。为了减少计算成本，我们在测试时每10帧采样1帧。我们使用48×48的HR补丁和相应的LR补丁进行训练。我们采用Adam优化器，β1=0.9，β2=0.999，ε=10^-8。采用L1损失作为损失函数。学习0学习率设置为10^-4，并且在不同迭代次数上的衰减取决于视频长度。此外，我们为不同的视频长度设置不同的小批量大小，以保持计算成本与S1-n的总和相同。模型结构由于我们的方法可以应用于不同的SR架构，我们使用各种流行的网络（EDSR、VDSR、ESPCN和SRCNN）进行了广泛的实验。我们报告了大部分消融研究结果都是基于EDSR的，考虑到简单性。我们将提出的CaFM模块添加到EDSR的每个卷积层的输出中。CaFM模块是通过1×1的深度卷积实现的。其他SR架构可以相应地进行修改。04.2. 内容感知学习评估0在这部分中，我们展示了利用DNN的过拟合特性进行视频传输的好处。像EDSR和EDVR这样的方法在大规模数据集上训练DNN，并使用训练好的DNN进行超分辨率处理。我们称这种训练方式为外部学习。然而，对于神经视频传输来说，视频是事先已知的。因此，我们可以训练模型过拟合每个视频，并实现更好的SR性能。这种训练方式可以称为内容感知学习。除此之外，一个视频可以进一步划分为视频块，并为每个块单独训练一个DNN。我们在表1中比较了外部学习和内容感知学习的性能。从结果可以看出，内容感知学习相比外部学习可以取得更好的结果。特别是，采用内容感知学习的EDSR在性能上明显优于采用外部学习的EDVR。这些结果证明了内容感知学习相比外部学习更适合视频传输。04.3. VSD4K数据集评估0在本节中，我们报告了在VSD4K上的结果。我们主要展示了15秒、30秒、45秒、1分钟、2分钟的结果。game-45svlog-45sinter-45sEDSR-MDIV2K36.0231.2029.0046.8542.7040.4138.1332.0028.96EDVR-LREDS--29.45--40.42--27.30EDVR-LVimeo-90K--30.01--42.04--30.06sport-45sdance-45scity-45sx2x3x4x2x3x4x2x3x4EDSR-MDIV2K46.2541.2338.0740.5537.7235.5137.3232.2029.73EDVR-LREDS--40.31--36.84--31.91EDVR-LVimeo-90K--41.38--35.74--32.28game-15sgame-30sgame-45sM042.2435.8833.4441.8435.5433.0542.1135.7533.33S1n42.8236.4234.0043.0736.7334.1743.2236.7234.32vlog-15svlog-30svlog-45sM048.8744.5142.5847.7943.3841.2447.9843.5841.53S1n49.1044.8042.8348.2043.6841.5548.4844.1242.12inter-15sinter-30sinter-45sM044.8537.8934.9443.0635.3732.3042.7334.4931.34S1n45.0638.3835.4743.5036.4833.4243.3135.8032.67sport-15ssport-30ssport-45sM048.2042.5639.6650.3644.7241.8647.8142.2839.16S1n48.4343.0440.3850.6745.4542.9448.3443.0140.34dance-15sdance-30sdance-45sM044.3537.5736.1844.8537.9936.6745.4938.2637.32S1n44.4837.6936.4044.9938.1336.9345.7138.6137.67city-15scity-30scity-45sM037.8932.3229.3638.9033.1530.3538.6733.4430.86S1n38.1432.6129.6739.8534.1531.3039.8734.6231.97game-1mingame-2mingame-5minM041.8235.2532.6141.8935.7233.2740.6234.5932.14S1n43.2436.5633.5243.2037.0034.4742.4736.0833.5346360方法模型数据集 x2 x3 x4 x2 x3 x4 x2 x3 x40外部学习 EDVR-M REDS - - 28.72 - - 41.28 - - 28.900内容感知学习 EDSR-M VSD4K 42.11 35.75 33.33 47.98 43.58 41.53 42.73 34.49 31.340内容感知学习* EDSR-M VSD4K 43.22 36.72 34.32 48.48 44.12 42.12 43.31 35.80 32.670外部学习 EDVR-M REDS - - 40.10 - - 35.93 - - 31.520内容感知学习 EDSR-M VSD4K 47.81 42.28 39.16 45.49 38.26 37.32 38.67 33.44 30.860内容感知学习* EDSR-M VSD4K 48.34 43.01 40.34 45.71 38.61 37.67 39.87 34.62 31.970表1.内容感知学习与外部训练的比较。EDVR-M，EDVR-L，EDSR-M分别具有10、40、16个resblocks。*表示为每个视频块训练一个内容感知DNN。红色和蓝色表示最佳和次佳结果。0缩放因子 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的 43.13 37.04 34.47 43.08 36.94 34.22 43.32 37.19 34.610差距 0.31 0.62 0.47 0.01 0.21 0.05 0.10 0.47 0.290缩放因子 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的 49.30 45.03 43.11 48.35 43.94 41.90 48.45 44.11 42.160差距 0.20 0.23 0.28 0.15 0.26 0.35 -0.03 -0.01 0.040缩放因子 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的 45.35 38.66 35.70 43.65 36.30 33.28 43.37 35.62 32.350差距 0.29 0.28 0.23 0.15 -0.18 -0.14 0.06 -0.18 -0.320缩放因子 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的 48.48 43.06 40.43 50.74 45.31 42.73 48.24 42.93 40.210差距 0.05 0.02 0.05 0.07 -0.14 -0.21 -0.10 -0.08 -0.130缩放因子 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的 44.71 37.82 36.61 45.30 39.66 37.22 45.97 39.96 37.840差距 0.23 0.13 0.21 0.31 1.53 0.29 0.26 1.35 0.170缩放因子 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的 38.17 32.65 29.68 39.70 34.01 31.18 39.75 34.48 31.870差距 0.03 0.04 0.01 -0.15 -0.14 -0.12 -0.12 -0.14 -0.100缩放因子 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的 43.49 37.18 34.33 43.49 37.47 34.80 43.01 36.65 34.070差距 0.25 0.62 0.81 0.29 0.47 0.33 0.54 0.57 0.540表2.我们方法在VSD4K上的综合结果。我们对不同的视频长度和缩放因子进行了实验。我们还展示了我们方法与S 1 − n [30]之间的差距。0和5min跨缩放因子×2，×3和×4。我们将我们的结果与其他两种方法进行比较。第一种方法训练整个视频的内容感知DNN，表示为M0。第二种方法将视频分为n个块0为每个块和训练一个DNN [30]。我们将第二种方法称为S 1− n。与S 1 − n[30]相比，我们的方法显著减少了模型的参数。如表2所示，我们的方法可以稳定地获得OriginalGTBicubicH264H265OursM0S1-ngame-45svlog-45sinter-45sH.26439.2636.9935.5243.4542.0741.3137.9936.0735.06H.26539.7737.7136.4244.2443.0942.3138.3136.5135.58sport-45sdance-45scity-45sH.26440.3038.0936.8331.1128.3226.7636.6034.1832.89H.26541.3539.6638.6732.6230.4029.1837.1735.1034.0346370图5. VSD4K 数据集上的定性比较。最佳观看效果为放大4倍。0方法 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的方法 43.32 37.19 34.61 48.45 44.11 42.16 43.37 35.62 32.350存储（MB） 19.9 12.6 9.8 19.5 12.5 9.8 19.5 12.4 9.80方法 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的方法 48.24 42.93 40.21 45.97 39.96 37.84 39.75 34.48 31.870存储（MB） 19.8 12.6 9.9 19.6 12.6 9.8 20.4 12.9 10.10表3. 与 H.264/H.265 的比较。红色和蓝色表示最佳和次佳结果。0与 S 1 − n [30]相比，我们的方法在参数更少的情况下表现出稍好的性能。我们还在图5中展示了定性比较。04.4. 消融研究0CaFM 的变体由于我们将 CaFM 实现为 1 × 1深度卷积，我们还研究了不同深度卷积核大小的影响。我们比较了 1 × 1、3 × 3、5 × 5 和 7 × 7的结果，如表5所示。我们还在表5中显示了 CaFM 参数与EDSR的比例。总体而言，较大的卷积核可以实现稍微更好的性能，但会导致更多的参数。0参数。然而，使用 1 × 1 卷积核的 CaFM已经达到了竞争性能。联合训练的好处如上所述，联合训练对于我们的方法达到良好性能非常重要。为了评估联合训练的好处，我们首先从头开始训练特定视频的 DNN，记为 M0。然后我们冻结参数并为每个块添加CaFM。我们微调 CaFM的参数以过拟合每个块。这个结果在表6中被标记为FT。我们还将为每个块训练单独的 DNN 的结果报告为 S 1− n[30]。我们的结果优于其他方法的结果，证明了联合训练的好处。M035.4230.6328.6543.1236.6234.9538.6431.9728.3245.7141.4039.20ESPCNS35.5530.6728.7443.2736.7235.0938.8132.1428.6145.8141.5239.29M035.0530.5028.5942.6736.7934.6038.6631.7828.2545.8741.5839.29SRCNNS35.1530.5528.6142.6936.9034.6938.7931.9328.3845.9541.6639.36M040.2934.5331.2845.0337.9536.5741.9933.8030.3447.6142.9240.94VDSRS41.3734.9232.4245.1838.0536.8242.4034.5331.1047.8843.3341.23M042.1135.7533.3345.4938.2637.3242.7334.4931.3447.9843.5841.53EDSRS43.2236.7234.3245.7138.6137.6743.3135.8032.6748.4844.1242.1246380数据 game-45s dance-45s inter-45s vlog-45s0模型尺度 x2 x3 x4 x2 x3 x4 x2 x3 x4 x2 x3 x40我们的方法 36.09 31.06 29.05 43.56 36.89 35.30 38.88 32.22 28.75 46.19 41.72 39.520我们的方法 35.49 30.63 28.66 43.06 37.01 34.86 38.88 32.02 28.48 46.18 41.85 39.520我们的方法 41.92 35.56 33.16 45.41 38.24 37.16 42.86 34.49 30.95 48.00 43.50 41.380我们的方法 43.32 37.19 34.61 46.00 39.96 37.84 43.37 35.62 32.35 48.45 44.11 42.160表4. 我们的方法在各种超分辨率架构上的泛化能力。0数据集：game-15s 1x1 3x3 5x5 7x70PSNR：x2 43.13 43.16 43.17 43.23 x3 37.04 37.0937.10 37.18 x4 34.47 34.45 34.50 34.540百分比：x2 0.66% 2.20% 4.62% 8.19% x3 0.58% 1.96%3.74% 7.23% x4 0.60% 1.67% 3.83% 7.40%0表5.上部分显示了15s游戏视频中不同核大小的PSNR。下部分展示了CaFM相对于EDSR的参数百分比。0M0 S 1 − n FT 我们的0x2 42.24 42.82 42.30 43.13 游戏-15s x3 35.88 36.4235.93 37.04 x4 33.44 34.00 33.49 34.470x2 44.35 44.48 44.37 44.71 舞蹈-15s x3 37.57 37.6937.59 37.82 x4 36.18 36.40 36.22 36.610表6. 联合训练的好处。04.5. 我们方法的泛化性0如表4所示，我们展示了我们的方法应用于不同的SR骨干的结果。我们选择了四个45s的视频，并采用了4个流行的SR骨干：SRCNN [8]，ES-PCN [24]，VDSR [15]和EDSR[20]。这些实验旨在研究我们方法的泛化能力。结论与上述结果一致。联合训练框架以及CaFM可以很好地推广到其他SR架构，验证了我们方法的泛化能力。04.6. 与H.264/H.265的比较0我们的方法也可以看作是一种视频编码方法。因此，我们进行了初步实验，将我们的方法与商业H.264和H.265标准进行比较。对于H.264和H.265，我们降低了视频的比特率，同时保持分辨率，以获得与我们方法（LR视频和模型）大小相同的视频。我们将我们的SR视频与H.264和H.265的低比特率视频进行比较。我们随机选择了六个视频。0我们使用VSD4K与H.264和H.265进行比较。定量结果如表3所示。我们的结果在大多数情况下优于H.264和H.265。我们还在图5中展示了定性比较。这个初步实验显示了我们方法的巨大潜力。此外，由于所提出的CaFM每个块只需要不到原始参数的1％，我们相信通过将视频分成更多块，我们的方法可以取得更好的结果。然而，这将相应地导致更长的训练时间。05. 未来工作0尽管我们的方法利用了DNN的过拟合特性来实现显著的SR性能，但它需要为每个视频块训练一个网络。这增加了网络训练的额外成本。为了进一步改进视频传输系统，我们认为减少训练时间是一个有前途和重要的未来工作。像MAML[9]这样的学习方法可以用于加速SR网络的训练过程。最近，MAML已经应用于零样本图像SR [22,25]，旨在减少DNN训练的计算成本。06. 结论0在本文中，我们研究了将DNN应用于视频传输的问题。神经视频传输采用DNN的过拟合特性，通过为每个视频块训练一个模型。为了避免为每个视频块流式传输一个模型，我们提出了一种新颖的联合训练框架以及CaFM模块。通过我们的方法，每个视频块只需要流式传输不到原始参数的1％，就可以实现更好的SR性能。我们对我们的方法进行了全面的分析，以展示其优势。此外，我们还与商业H.264和H.265标准进行了比较，展示了我们方法的潜力。我们希望我们的工作能够激发将来将DNN应用于视频传输的工作。致谢。本工作得到了NSFC Grant No. 62072449的支持。46390参考文献0[1] Eirikur Agustsson和Radu Timofte。Ntire2017单图像超分辨率挑战：数据集和研究。在计算机视觉和模式识别（CVPR）研讨会上，2017年7月。0[2] Jose Caballero，Christian Ledig，AndrewAitken，Alejandro Acosta，Johannes Totz，ZehanWang和WenzheShi。具有时空网络和运动补偿的实时视频超分辨率。在计算机视觉和模式识别的IEEE会议记录中，页4778-4787，2017年。0[3] Kelvin CK Chan，Xintao Wang，Ke Yu，ChaoDong和Chen ChangeLoy。Basicvsr：在视频超分辨率和更多领域中寻找基本组件。arXiv预印本arXiv：2012.02181，2020年。0[4] Jiawen Chen，Miao Hu，Zhenxiao Luo，ZelongWang和DiWu。Sr360：通过超分辨率提升360度视频流。在第30届ACM网络和操作系统支持数字音频和视频研讨会论文集上，页1-6，2020年。0[5] Mengyu Chu，You Xie，Jonas Mayer，Laura Leal-Taixé和NilsThuerey。通过自我监督学习学习时间一致性，用于基于GAN的视频生成。ACM图形学交易（TOG），39（4）：75-1，2020年。0[6] Xiangxiang Chu，Bo Zhang，Hailong Ma，RuijunXu和QingyuanLi。通过神经架构搜索实现快速，准确和轻量级的超分辨率。arXiv预印本arXiv：1901.07261，2019年。0[7] Mallesham Dasari，Arani Bhattacharya，SantiagoVargas，Pranjal Sahu，Aruna Balasubramanian和Samir RDas。使用超分辨率的流式360度视频。在IEEE INFOCOM2020-IEEE计算机通信会议上，页1977-1986。IEEE，2020年。0[8] Chao Dong，Chen Change Loy，Kaiming He和XiaoouTang。学习用于图像超分辨率的深度卷积网络。在欧洲计算机视觉会议上，页184-199。Springer，2014年。0[9] Chelsea Finn，Pieter Abbeel和SergeyLevine。用于快速适应深度网络的模型无关元学习。在机器学习国际会议上，页1126-1135。PMLR，2017年。0[10] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集上，页770-778，2016年。0[11] Gao Huang，Zhuang Liu，Laurens Van DerMaaten和Kilian QWeinberger。密集

下载后可阅读完整内容，剩余1页未读，立即下载