E-NeRV：基于时空背景的内隐神经视频表征方法

60 浏览量更新于2023-11-30 收藏 3.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文→E-NeRV：通过时空背景的李子章，Mengmeng WangXiang ，Huaijin Pi，Jianbiao Mei，and YongLiu†浙江大学{zzli，mengmengwang，hjpi，kcxu，jianbiaomei}@yongliu@iipc.zju.edu.cn zju.edu.cn抽象的。最近，视频的图像式隐式神经表示NeRV因其有前途的结果和快速的速度而受到欢迎，与常规的像素式隐式表示相比然而，网络结构内的冗余参数可能会导致在为了期望的性能而按比例放大时模型尺寸较大。这种现象的关键原因是NeRV的耦合公式，它直接从帧索引输入输出视频帧的空间和时间信息。在本文中，我们提出了E-NeRV，它大大加快了NeRV分解成单独的空间和时间背景的图像式隐式神经在新公式的指导下，我们的模型大大减少了冗余的模型参数，同时保留了表示能力。实验结果表明，该方法可以用较少的参数在很大程度上提高算法的性能，从而使算法的收敛速度提高8倍代码可在https://github.com/kyleleey/E-NeRV上获得。关键词：内隐表征，神经视频表征，时空解纠缠1介绍内隐神经表征（INR）在最近几天变得流行。它提出了一种将连续信号表示为f θ：RmRn的新方法，该方法将信号属性编码为映射m维输入的函数（例如，坐标）到期望的n维输出（例如，RGB值、亮度、密度），并且该函数由具有权重θ的深度神经网络参数化。与常规的网格表示不同，紧凑的INR被证明适用于复杂场景[30]和任意尺度采样[6]，以及许多3D任务[30，24，37，34]和图像表示[43，6，27，59，57，40，64]。尽管INR的流行，很少有工作研究兼容的INR视频信号。在过去的INR工作中，视频被视为图像的额外补充[43，27]。他们通常采用三维时空坐标A：平等的贡献。†：通讯作者。arXiv：2207.08132v1 [cs.CV] 2022年7+v：mala2255获取更多论文→×2Z. Li等人帧输出业绩++图1.一、我们提出的方法的主要动机。我们可以通过引入具有光网络的解纠缠时空表示来大大减少参数的大小此外，我们分布保存的参数，以增加卷积块中的信道维度，从而产生具有类似或更少参数但性能更好的E-NeRV模型（x，y，t）作为输入和输出RGB值。以下大多数关注视频INR的作品[41，63]都采用这种配置。然而，当处理大分辨率、多帧的视频序列时，这类视频INR的训练和推理速度将以三次方的数量级增加。相比之下，最近提出的方法NeRV [2]将视频信号的INR重新公式化为f θ：RR3×H×W。基于视频是平铺的概念NeRV呈现与其他像素级视频INR不同的图像级视频INR。以时间轴上的帧索引作为输入，NeRV直接输出所需的帧图像。训练和推理速度被证明是比以前的方法[43，47]实验[2]快得多。NeRV将卷积架构的成功与GAN的NeRV块网络设计相结合，赋予了高保真重建大分辨率帧的能力。通过改变NeRV Blocks中的通道尺寸，我们可以得到一系列不同尺寸的NeRV模型（参数越多的NeRV模型自然表现越好）。然而，随着通道尺寸的增加，模型尺寸将迅速增加。这一缺陷主要来自于NeRV模型的结构，它带来了许多不必要的和冗余的参数（当通道尺寸增加25%时，模型尺寸增加2个）。我们将其归因于NeRV的设计动机：NeRV以混合方式考虑位于每个帧图像中的空间和时间信息，并且直接从一个特定的时间帧索引生成，这导致沉重的模型和次优性能。受分解内容和运动信息的视频GAN研究[50，14，62]的启发，我们提出了图像式视频INR，其明确地解开时空上下文并将其融合用于最终预测，NERV重MLP层帧索引输入特征图和时空语境NeRV块0空间坐标解缠结光融合网络更少的参数E-NeRV更多频道更多参数…+v：mala2255获取更多论文×∈××E-NeRV 3相应地重构原来的NeRV网络。基于这一动机（如图1所示），我们可以有效地降低基线模型的参数大小（从12 M降至5 M），同时保持大部分性能。我们进一步在卷积块中引入时间嵌入以促进表示能力。此外，我们还发现了NeRV块中存在的冗余设计，并对其进行了改进，我们将其命名为E-NeRV，因为它从视频隐式表示的角度出发，对原来的NeRV进行了改进。我们系统地研究了多种设计选择，并将我们的方法与基线NeRV模型进行了比较。我们的贡献总结如下：– 我们确定的冗余结构的图像明智的视频INR NeRV，这是它的主要限制时，扩大以获得更好的性能，并将此缺点归因于其混合制定。– 我们提出了E-NeRV，一种新的图像式视频INR与解开时空背景。– 我们证明了我们的方法在收敛速度（8）和性能方面始终优于NeRV基线，参数较少。此外，其优越的性能在不同的视频INR下游应用中具有一致性2相关工作2.1内隐神经表征近年来，隐式神经表示（INR）因其在建模各种信号方面的强大功能而它通过一个函数来参数化特定信号，该函数输出所提供的类似坐标的输入的所需属性，并采用深度神经网络（通常是多层感知器，MLP）来近似该函数。因此，信号被隐式地编码在网络例如，图像[6，27，43]可以定义为每个像素位置的RGB值，并且3D对象或场景可以表示为每个3D点的位置[29，38]，符号距离[35]或辐射场[30]INR主要用于三维视觉任务，如重建[22，33，52，36，39，19，56]和新视图合成[30，61，1，60，45]。在这种趋势下，视频的内隐表征尚未得到深入研究。常规视频隐式表示通常采用像素的空间和时间索引，即（x，y，t）R3，作为输入和输出的RGB值，在特定帧中的特定像素的使用。这种简单的定义适合图像尺寸较小的短视频剪辑，如7224224在[43，27]。[41]此外，估计连续视频表示的光流。但这种设置不再适用于包含数百帧图像分辨率的大规模视频，这需要很长时间的优化和推理[2]，因为增加的帧和像素的数量。此外，提出的范式[27]中的上下文嵌入也不能支持具有大量帧的视频。视频INR的另一条研究路线集中在生成+v：mala2255获取更多论文4 Z. Li等人对抗网络（GAN）[9]。DiGAN[62]不是直接从潜在代码生成视频，而是从上下文和运动潜在代码生成视频INR的参数StyleGAN-V[44]进一步利用卷积算子进行大规模图像合成。然而，在这项工作中，我们专注于将INR与特定视频相匹配，而不是在基于GAN的方法中生成不同的内容。最近提出的NeRV[2]采用了视频的图像式隐式表示，而不是之前的像素式表示通过将隐式表示与图像合成卷积的进步相结合，NeRV在训练和推理时间更短的情况下取得了令人满意的结果继NeRV之后，我们的E-NeRV通过一个解纠缠的公式进一步改进了该架构，以获得卓越的性能和快速收敛。2.2INR的优化尽管INR的表达能力获得成功，但它们自然需要花费很长时间以优化可观的性能。已经提出了许多方法来缓解这个问题，也获得了更好的表示能力。从函数特性的角度，可以分为研究最佳编码方法和应用网络正则化。鉴于INR倾向于使用更高维的网络输入来学习更好的映射函数，许多后续工作都集中在更好的编码方法上。径向基函数（RBF）[7]利用嵌入式RBF编码的加权和傅立叶特征网络（FFN）[47]中提出的位置编码（PE）采用一组傅立叶函数将输入投影到高维中，后续工作[21，13]采用频率上的粗到细策略以实现更好的收敛。与使用现有函数不同，SPE[53]使用可学习的样条函数，最新的instant-ngp[31]为共享嵌入空间构建了一个至于正则化，在视图合成中已经研究了关于3D属性的许多一致性约束[16，8，32][46]通过元学习方法正则化域内初始化基于分布的[40]和基于Lipschitz的[23]正则化可以应用于MLP关于平滑先验的正则化，以获得更好的收敛和泛化。从网络体系结构的角度来看，最近的一些工作旨在加速3D INR的训练和/或推理，其具有关于3D稀疏性的精心设计的体系结构。一种常见的方法是将MLP的特征存储在预定义的体素空间[23]，点云[58]或八叉树结构[60]中，从而减少训练和推理中的点查询数量。在更大的范围内，SIREN[43]用正弦激活函数取代了现有MLP中常用的MPLU激活，并显示了对复杂信号的可靠拟合能力。ACORN[26]和CoordX[20]旨在通过不同的方法减少对基于坐标的模型的查询数量：ACORN[26]采用分层方式分解多尺度坐标，而CoordX[20]设计了一种拆分的MLP架构，以利用输入坐标点之间的局部性。下面的MINER[42]通过跨尺度相似性先验改进了ACORN。+v：mala2255获取更多论文t=1∈∈∈×× ×∼E-NeRV 5我们的工作加速NeRV从架构的角度来看，我们观察到现有的不必要的和冗余的结构。通过引入我们的解纠缠公式，我们证明了所得到的模型具有更少的参数可以保持大部分性能，甚至超过NeRV基线。当扩展到与基线NeRV模型相同的大小时，我们的E-NeRV显示出更好的性能和更快的收敛速度。3个房间NeRV[2]作为图像表示，将视频表示为由网络权重θ参数化的映射函数fθ：R→R3×H×W。给予对于具有T个帧的视频V={vt}T，输入是标量帧索引值，被归一化为t[0， 1]，并且输出是整个对应帧图像vtR3×H×W。通过仔细观察其架构，该公式可以分为两个部分：ft=RESHAPE（F（γ（t）∈RC×h×w，vt= G（ft）.γ（t）表示[30]中提出的规则频率位置编码（一）γ（ t）= （ sin （ b0πt ）， cos （ b0πt）， ... ， sin （ bl−1πt ）， cos（bl−1πt）），（2）其中b和l是超参数。函数F代表MLP，而函数G代表卷积生成器。更具体地说，它包含一系列NeRV块，具有卷积和像素混洗层，用于上采样和图像生成目的。该网络首先将输入帧索引的位置编码映射到一维特征向量，然后将该向量重新整形为二维特征映射ftRC×h×w，其中在NeRV的设置中（h，w）=（9，16）。接下来的卷积和像素混洗操作逐渐将特征图转换为原始图像大小。并且与S形的11卷积生成归一化RGB值的期望的三个通道NeRV的成功有几个原因。它采用了逐图像表示，避免了逐像素的训练和推理。[2]中的定量比较表明，与像素表示相比，训练和推理速度有了很大的提高。包含卷积和像素重排的NeRV块适合于图像生成，并导致约40的最终性能的PSNR，优于其他视频隐式神经表示。[2]中提供了一系列不同尺寸和性能的模型。更大的模型可以获得更好的性能，并且扩大模型大小的方法是增加NeRV块内的通道尺寸。然而，这种模式仍然存在缺陷。第一层是MLP的最后一层。为了生成一个特征向量，该向量可以被重新整形为大小为C h w（105）的特征图，MLP的最后一层可能是广泛的，并且一些幼稚的解决方案将导致大的每比特率下降（详见第节）。5.4）。然后，卷积核也可以是巨大的，因为下面的大比例因子像素重排层。NeRV认为+v：mala2255获取更多论文∈6个Z。Li等人时间帧索引输入空间��MLPℝ��MLP⊙��块× 5网格坐标固定0ℝ��×�� ×��ℝ��×�� ×��∈ ℝ��×ℎ×��帧输出��∈ ℝ3×�� ×��图二、拟议E-NeRV的架构。我们的空间-时间特征图是从具有较少参数的分离的空间和输入时间上下文生成的（第二节）。4.1）。时间信息也被引入到卷积阶段作为归一化过程（第11节）。4.1）以获得更好的性能。此外，我们重新设计了NeRV块，以进一步删除冗余结构（第节）。4.2）。将逐图像视频隐式表示作为索引到图像公式化，而我们将其视为具有解纠缠公式化的生成过程，并且帧索引仅表示时间上下文。在第节中。4.在第四节中，我们尝试了用时空解纠缠来升级冗余结构，并定量和定性地说明了我们的方法的显著性能和收敛速度。五、4方法所提出的E-NeRV的整体架构如图2所示。本节将介绍我们处理冗余参数和结构的方法更具体地说，在部分。4.1我们陈述了如何理清空间和时间的表述以及由此产生的表述和架构。而在科。4.2我们阐述我们的NeRV大楼的升级设计。4.1解纠缠图像式视频INRNeRV中的第一个冗余部分出现在MLP的最后一层例如，NeRV-L模型具有12. 5M参数，其大小的近70%来自最后一个MLP层，其输出为ftR112×9×16。虽然特征图的高度和宽度相对较小，但它需要较大的通道数来保证最终性能。在实验中（部分。5.4），我们展示了一些微不足道的修改，这些修改可能会缓解参数的大尺寸，但会导致和我们的相比性能大幅下降我们声称这种结构需要存在，因为NeRV直接并且仅从输入t生成帧特征映射ft，这意味着从时间输入一起导出空间和时间信息。ConvPixel-ShuffleConv实例规范+v：mala2255获取更多论文∈·≪ × ×∈∈∈E-NeRV 7作为一种替代方案，我们建议解开时空信息，并让时间输入成为一个特征向量来操纵空间空间。详细地说，我们将ft的生成重新公式化如下：ft= F θ（F（γ（t））<$S）.（三）这里F仍然代表MLP网络，但参数要少得多因为在我们的方法中，F的输出只是一个d维向量，其中d C h w。我们将时空信息分解为在F（γ（t））中编码的时间信息和在空间上下文嵌入SRd×h×w中编码的空间信息。然后采用轻量级网络Fθ将分离的时空信息融合到时空嵌入中。由于S被期望包含空间上下文，因此我们使用归一化网格坐标对其进行初始化。相应地，我们得到初始化的空间上下文S0R2×h×w。首先，我们使用等式中的类似频率位置编码γ（）将S 0 in编码为S 0 in。二、然后，我们采用一个小型Transformer [49]，头部自关注和剩余连接，以促进空间位置之间的特征融合，以获得空间上下文S：S=Φ（S0）=softmax（qTk）v+S0=softma x（fq（S0）Tfk（S0））fv（S0）+S0。（四）其中，f代表将输入特征图的通道维度投影到期望维度的不同投影网络q、k、v表示查询、Transformer的键和值。现在，S可以被认为是包含所需的空间背景。并且当表示不同的视频时，Φ中的可学习参数是不同的。换句话说，我们在Φ的权重中参数化视频中的空间信息。接下来，在解开程序之后，我们需要融合时间向量-对F（γ（t））Rd与空间上下文SRd×h×w进行变换，以获得时空信息。首先，我们将时间向量与来自S中所有位置的每个特征向量逐元素相乘。然后，我们利用Fθ进一步融合的功能在一起。这里的Fθ可以是任何操作，只要它可以促进空间和信道特征融合。我们采用了一种类似于Φ的微型多头张力Transformer网络，它具有远程建模和特征融合的能力。在实验中，我们进一步比较了这种选择与其他替代品（节。5.4）。此外，我们观察到NeRV中的时间信息仅与等式中函数G开始处的特征图相关1. 因此，我们进一步将时间上下文融合到G中的每个NeRV块中，以充分和彻底地利用时间嵌入。在实验中，我们发现这种设计可以进一步提高性能。具体而言，我们从GAN [15]的设计中获得灵感，并将时间上下文视为风格向量的概念。与使用逐元素乘法得到粗时空特征图不同，这里的时间信息只起分布移动的作用。中所示+v：mala2255获取更多论文不··≤≈≤× ××× ×不不八Z。Li等人图的上部2、采用极小的MLP（约 0.2M）生成时间特征lt∈Rd0。然后对于第i个块（i = 1，. . . ，5），线性层Mi相应地生成每通道平均值μ i和标准差σ i。我们将第i个块的输入特征图表示为fi。这个新生成的分布将特征图作为具有时间上下文的实例归一化进行移动：. f i− µ（f i）其中μ（fi）和σ（fi）是跨空间维度计算的此操作t t在每个块的开始处进行，以让时间信息引导生成相应的帧。4.2更新的NeRV Block如第3节所述，另一个冗余结构位于NeRV块中。是-由于卷积需要产生足够的通道用于进一步的像素混洗操作，如果输入特征m的通道维数为C1，期望的输出维数为C2，上采样比例因子为s，核大小为3×3，则无论偏差如何，可训练权重的大小为C1 C2sS33.当规模因子s较大，例如，在第一个NeRV块中s = 5，如果我们为了更好的性能而按比例放大输入和输出通道尺寸，则大小可以是巨大的（高达整个模型的65%）。为了解决这个问题，我们用一个微妙的设计修改了NeRV块：我们用两个连续的小通道卷积核代替卷积核然后，我们把像素洗牌操作在中间，并引入一个中间维度C0。通过使用conv（，）来表示具有相应输入和输出通道维度的卷积核，我们的新架构可以公式化为：conv（C1，C0× s × s）→ pixel-shuffle（s）→ conv（C0，C2），（6），新公式中的参数为：3 × 3 × C0×（C1× s × s + C2）.在实践中，我们设置C0=min（C1，C2）/4。如果C1C2，参数的比值目标大小为（C1/4C2+1/4s2）C1/4C2四分之一。我们发现用这种设计替换第一个NeRVBlock可以大大简化尺寸，同时保持大部分性能（见第节）。5.2）。原因是第一块的比例因子等于5，因此导致模型过大。以下因子等于2的块将不会从此修改中受益太多，因此在我们的最终设置中，我们将第一个NeRV块替换为我们的升级版本。5实验5.1数据集和实施细节我们对从scikit-video和UVG[28]数据集收集的8个不同视频序列进行了定量和定性比较实验，类似于不不IN（fi）=σiσ（fi）+µi（5）+v：mala2255获取更多论文××不不不不不E-NeRV 9PSNRParams6.3M5.5M7.92MNeRV-L替换MLP按比例放大通道块重新设计按比例放大通道添加IN模块图三. 将原始的12.57M NeRV-L（PSNR为39.63）逐渐转换为E-NeRV（参数略少，但性能更好）的过程。在“Bun n n y“视频上测试PSNR结果。请看章节。 5.2详细描述实验设置[2]。每个视频序列包含约150帧，分辨率为1280 ×720。我们为模型的每个块设置了5， 2， 2， 2， 2的比例因子，以从大小为16 9的特征图重建1280 720的图像。我们遵循原始NeRV实现的培训时间表进行公平比较。我们使用Adam optimizer [17]训练模型。每个模型在每个视频序列上训练300个epoch，除非指定，batchsize为1。我们采用12.57M参数的NeRV-L作为我们的基线。对于我们模型中与我们的修改正交的部分，我们遵循与NeRV相同的设置对于空间和时间特征融合，我们设置d = dt = 256，对于时间实例归一化，设置d0= 128。我们将我们模型中的所有位置编码层设置为与等式中公式化的NeRV的位置编码相同。2，我们使用b= 1。25和l= 80，如果没有另外指明。对于训练目标，我们使用与[2]相同的L1和SSIM损失组合L=1α||vt=1-v||+（1−α）（1−SSIM（v，v<$））。（七）将α设置为0。在图7中，T表示帧的总数，vt表示重构的帧图像，而vt表示其对应的地面真值。请参阅补充材料了解更多实施细节、实验、结果和可视化。42.3042.8741.7040.6139.6338.04逐步将NeRV-L转换为E-NeRV36.0512.57M12.44M12.11M12.44M不1+v：mala2255获取更多论文10 Z。Li等人表1. NeRV-L和我们的方法之间的PSNR（越大越好）比较在相同的训练时间表下给出了相似的模型大小。最后一行表示我们的方法带来的性能改善。我们的方法在不同类型的视频序列上始终优于基线模型。Bunny Beauty Bosphorus Bee Jockey SetGo Shake Yacht NeRV-L 12. 57 M 39. 63 36. 06 37. 35 41. 2338.1431.8637.22三十二点四十五我们的12.49 M42.8736.7240.0641.7439.3534.6835.58↑3.24↑0.66↑2.71↑0.51↑1.21↑2.82↑2.10↑3.135.2去除冗余部件并按在这一节中，我们展示了如何用我们提出的方法替换冗余的结构和参数，并在卷积阶段逐渐将保存的参数分配给通道，这最终导致E-NeRV具有更少的参数，但性能更好。整个过程如图3所示。我们首先取代了沉重的MLP与我们的解纠缠公式方程。3、相应的结构。该步骤可以将参数从12.57M减小到5.5M，而得到的模型仍然可以得到38.04的PSNR。相比之下，[2]中的NeRV-M模型在参数较多的情况下只能达到36.05的PSNR。然后，我们首先放大卷积块中的通道，用于大小类似于到NeRV-L，缩放后的模型可以得到41.70的PSNR。在第一次缩放之后，另一个冗余结构出现了：具有放大因子5和大通道尺寸的NeRV如图3所示，最终模型减少了37%的参数。值得注意的是，所获得的模型已经具有较少的参数（7.92Mvs. 12.57M），但更好的性能（40.61Mvs. 39.63M）与原始NeRV-L相比。然后，我们再次扩大通道，并添加时间实例归一化分支，最后为我们提出的E-NeRV。5.3主要结果我们在表中提供了我们的方法和NeRV的比较1.一、我们参考[2]以进一步比较像素级视频INR，如SIREN [43]和FFN [30]，这表明NeRV在性能和速度方面都优于这些方法。虽然我们提出的E-NeRV具有类似的速度和参数，但它在不同的视频序列上的表现始终优于NeRV。由于我们提出的E-NeRV的设计不采用任何类型的数据之前，我们声称这种改进存在时，使用E-NeRV表示任何视频序列。值得注意的是，我们的方法可以为表1中具有更多动态内容的视频带来更大的推广，例如，“兔子”和“游艇”视频。我们假设这是因为我们解开的隐式表示可以更好地为具有更多动态内容的视频的空间和时间变化建模。+v：mala2255获取更多论文×× ××E-NeRV 11(a) “兔子”视频上的PSNR（b）“游艇”视频上的PSNR见图4。PSNR vs.时代。NeRV-L和我们的方法在“兔子”和“游艇”视频上的比较。我们的方法由于训练INR以适应视频序列是一个过拟合过程，因此更长的时间表自然会带来更好的性能。换句话说，如果所提出的方法的性能优于具有相同时间表的另一种方法，则它同时保证了更好的性能和更快的收敛速度。在图4中，我们提供了我们的方法和NeRV在不同训练时间表的“兔子”和“游艇”视频上的比较我们的方法它也超过了基线的性能在2400epoch，8收敛速度更快。实际上，我们的方法我们在附录中提供了详细的结果5.4与替代品的我们比较了我们的方法与四种替代方法，试图删除冗余参数或进行融合的Fθ方程。第三章：NeRV-C S：由于输出大小为C × h × w的MLP的最后一层会导致压倒性的参数，因此我们添加了一个低于C的中间通道维度C S。MLP输出大小为CS h w的特征图，11卷积将信道维度增加到C，作为NeRV块之前的原始设置。NeRV-Split：受[20]中split架构的启发，我们重新设计了MLP结构，让它输出大小为C×（h+w）的张量，然后将其分成大小分别为C×h和C×w的两部分。然后进行张量积以相应地生成所需的C×h×w特征映射ft。E-NeRV-MLP：由于函数Fθ负责空间和时间上下文的特征融合，因此任何融合操作都适用。我们用空间通道（h×w）和特征通道（C）上的两个连续MLP替换了我们的原始设置，即具有注意力机制的小Transformer块+v：mala2255获取更多论文×12号Z。Li等人表2. 方案比较文档大小PSNR ↑ MS-SSIM↑NeRV-CS5.8M33.720.9562我们的-1 <$5.8M0.9738NeRV-Split7.2M0.9724我们的-2 <$7.2M0.9782E-NeRV-MLP 12M0.9861表3. 组件消融研究Φ FθIN PSNR↑ MS-SSIM↑NeRV-L-36.74 0.9802变式1变式2变体3E-NeRV-Conv 12.5M 38.67 0.9865E-NeRV 12.5M38.79 0.9866E-NeRV澳门新萄京38.79 0.9866E-NeRV-Conv：我们使用3 - 3卷积块来代替Transformer块。卷积块融合窗口区域内的特征，并以滑动窗口的方式扫描整个特征图。结果见表。二、为了公平地比较如何降低参数的大小，我们建立了两个版本的方法：我们删除部分在卷积块阶段引入时间上下文的结构如4.1所述，因为它可以进一步提高性能，并降低卷积的通道尺寸，以使所得模型的参数大小与两个备选方案的大小相同。可以看出，我们的方法优于这些替代方案给出类似的参数设置。对于Fθ中的特征融合方法，Transformer比MLP或Conv能带来更大的性能增长。然而，这三种型号都可以以较大的优势击败NeRV-L。解纠缠表示和结构本身可以显着降低大小，因此我们可以将保存的参数分配给卷积以获得更好的性能。随着视觉Transformer研究的快速增长[10]，任何其他更复杂的结构，如Transformer和卷积的组合，也是很好的，并可能进一步提高性能。我们声称，在一些内容几乎静止的视频上，如“Beauty”和“Bee”，与更动态的视频相比，每个替代方案之间的差异很小。由于指标是所有视频的平均值，因此表中的备选方案之间的差异也可能是递增的。2，但偏序关系在8个视频上是相同的。5.5消融研究在本节中，我们研究了我们提出的方法的三个新组件的效果：网络开始时的空间融合函数Φ，空间和时间融合Fθ以及在每个卷积块中引入时间上下文的时间实例归一化方法。对所有视频序列执行消融实验，并对获得的度量进行平均。如表所示。3、E-NeRV在逐步增加这些模块的情况下获得了更好的性能，并且这种增加的特性在所有的实验视频序列上都存在。值得注意的是，+v：mala2255获取更多论文E-NeRV 13表4. 我们的方法和NeRV的去噪（左）和压缩（右）结果比较。PSNR噪音28.60NeRV 34.69E-NeRV36.23卷积级中的时间上下文仍然可以在不同视频序列之间的更具体地说，简单地使用所提出的解纠缠公式来减少冗余参数并将其分配到后续卷积块，所获得的具有相似参数的模型已经可以超过NeRV-L。我们认为这在某种程度上进一步5.6下游应用结果除了表示能力之外，我们还比较了E-NeRV结果见表。四、这两个实验都遵循NeRV的管道，我们进一步对不同的压缩修剪比进行了消融。PSNR度量是所有视频序列之间的平均值在去噪结果中，“噪声”指的是任何去噪之前的噪声帧。这里我们只与NeRV进行比较，因为他们在论文中击败了E-NeRV的去噪结果也证明了我们的解纠缠空间表示的优势，它可以作为视频去噪中的空间先验。对于压缩实验，两种方法的性能都随着压缩比的增加而下降（图中的稀疏度），但E-NeRV在所有不同的压缩比下都保持了更好的性能结果还表明，逐帧视频INR的压缩能力，即。在压缩视频序列时修剪网络权重的流水线详细的总体结果见补充资料。5.7时频分析傅立叶特征映射的频率可以极大地影响INR的表示能力[47]。较小的频率可能导致输入之间的平滑性并适合于插值，但也会降低INR在这一节中，我们研究了不同频率对解纠缠表象的影响。我们将视频以3：1的比例分为可见和不可见+v：mala2255获取更多论文×14 Z. Li等人(a) NeRV（b）我们的空间（c）我们的时间（d）我们在IN中的图五. 不同编码的频率变化：（a）NeRV的输入t，（b）我们的空间地图S0，（c）E-NeRV中的输入t和（d）IN的t。帧，并调整频率为1。25在我们的生活中结果见图1A。五、从NeRV的插值（39. 3/28。58.频率1。25，我们可以看到，由于NeRV以耦合的方式考虑空间和时间，降低频率可以提高插值，但也会导致所见帧的性能下降（图5（a））。相反，我们的解纠缠表示允许在三种编码中操纵频率：空间网格坐标，时间输入t和时间IN中使用的t。具体地说，在IN模块中将频率从1. 25比1 05的最优插值，同时保持训练点上的性能（图5（d）），这可以被认为是我们的解纠缠结构的另一个优点。补充资料中提供了更多的数据集分区细节、插值结果和可视化6结论在本文中，我们提出了E-NeRV，图像明智的视频隐式表示与解开的空间和时间的背景。在之前的图像式视频INR[2]之后，与像素式视频INR[47，43，27]相比，我们的方法保留了其在训练和推理速度方面的优势，但大幅提高了性能和收敛速度。我们定量地表明，我们提出的退纠缠结构与其他修改一起，可以大大减少原来不必要的和冗余的参数。通过重新分配保存的参数，我们的方法与较少的参数可以执行得更好，与8快的收敛速度。我们实验分析的功能，在我们的方法在不同的视频序列中的每个组件。最后，我们注意到我们的方法可以进一步改进，通过应用一个更有效和复杂的特征融合方法，我们解开表示。在未来的工作中，我们计划将我们的图像视频INR应用于其他下游任务，如光流估计和视频超分辨率。致谢。我们感谢所有作者和评论者的贡献。本研究得到了国家自然科学基金项目U21A20484）。+v：mala2255获取更多论文E-NeRV 15引用1. 巴伦，J.T.，Mildenhall，B.，Tancik，M.，Hedman，P.，马丁-布鲁阿拉河Srini- vasan，P.P.：Mip-nerf：抗混叠神经辐射场的多尺度表示。IEEE/CVF计算机视觉国际会议论文集。pp. 58552. 陈洪，他，B.，王，H.，Ren，Y.，Lim，S.N.，Shrivastava，A.：Nerv：视频的神经信息处理系统进展34（2021）3. 陈，T.，Kornblith，S.，Norouzi，M.，Hinton，G.：视觉表征对比学习的一个上一篇：机器学习国际会议pp. 1597-1607. PMLR（2020）4. 陈旭，丁，M.，王，X.，Xin，Y.，Mo，S.，王玉，汉，S.，Luo，P.，Zeng，G.，中国农业科学院，王杰：用于自监督表示学习的上下文自动编码器。arXiv预印本arXiv：2202.03026（2022）5. 陈旭，他，K.：探索简单的连体表征学习。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 157506. 陈玉，Liu，S.，Wang，X.：用局部隐式图像函数学习连续图像表示。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 86287. 达什C.S.K. Behera，A.K.，Dehuri，S.，Cho，S.B.：径向基函数神经网络：最新技术综述。开放计算机科学6（1），33-63（2016）8. Deng，K.，Liu，A.，Zhu，J.Y.，Ramanan，D.：深度监督削弱：更少的视图和更快的免费训练。arXiv预印本arXiv：2107.02791（2021）9. 古德费洛岛， Pouget-Abadie ， J. ，米尔扎， M. ， Xu ， B. ， Warde-Farley，D.，Ozair，S.，Courville，A.，Bengio，Y.：生成对抗网。神经信息处理系统的进展27（2014）10. 汉，K.，王玉，陈洪，陈旭，郭杰，刘志，唐，Y.，Xiao，A.，徐，C.，徐， Y. ，等：视觉 Transformer 综述。 arXiv 预印本 arXiv ： 2012.12556（2020）11. 他，K.，陈旭，Xie，S.， Li，Y.，多尔拉尔山口， Girshi ck，R.： Maskedaut oencoders是可扩展的视觉学习器。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1600012. 他，K.，Fan，H.，吴，Y.，Xie，S.，Girshick，R.：用于无监督视觉表征学习的动量对比在：IEEE/CVF计算机视觉和模式识别会议论文集。pp.972913. Hertz，A.，Perel，O.，吉里耶河Sorkine-Hornung，O.，Cohen-Or，D.：Sape：用于神经优化的空间自适应渐进编码神经信息处理系统进展34（2021）14. Hsieh，J.T.，刘，B.，黄地方检察官菲菲，L.F.，尼布尔斯，J.C.：学习分解和解开视频预测的表示神经信息处理系统的进展31（2018）15. 黄，X.，Belongie，S.：任意风格的实时传输，具有自适应的实例规范化。在：IEEE计算机视觉国际会议论文集。pp. 150116. Jain，A.，Tancik，M.，Abbeel，P.：把nerf放在一个饮食：语义一致的少数镜头视图合成。在：IEEE/CVF计算机视觉国际会议论文集。pp. 5885+v：mala2255获取更多论文16 Z. Li等人17. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法ArXiv预印本arXiv：1412.6980（2014）18. Lai，Z.，Liu，S.，埃夫罗斯，匿名律师，Wang，X.：视频自动编码器：静态3d结构和运动的自监督解缠。IEEE/CVF计算机视觉国际会议论文集。pp.邮编：973019. Li，Z.，尼克劳斯，S.，Snavely，N.，Wang，O.：动态场景时空视图合成的神经场景流场。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 649820. 梁河，孙，H.，Vijaykumar，N.：Coordx：用分裂的mlp架构加速隐式神经表示。arXiv预印本arXiv：2201.12425（2022）21. Lin，C.H.，妈妈，W. C.，Torralba，A.，Lucey，S.：Barf：束调节神经辐射场。在：IEEE/CVF计算机视觉国际会议论文集。pp. 574122. Littwin，G.，沃尔夫，L.：用于形状表示的深Meta泛函。IEEE/CVF计算机视觉国际会议论文集。pp. 182423. 刘，H.T.D.，Williams，F.，Jacobson，A.，Fidler，S.，Litany，O.：利用lipschitz正则化学习光滑神经函数。arXiv预印本arXiv：2202.08345（2022）24. 刘，L.，顾，J.，Zaw Lin，K.，Chua，T.S.，Theobalt，C.：神经稀疏体素场。神经信息处理系统进展33，1565125. Liu，Y.，Wang，K.，刘，L.，Lan，H.，Lin，L.：Tcgl：用于自监督视频表示学习的时间对比图。IEEE图像处理学报31，197826. Martel，J.N.，Lindell，D.B.，Lin，C.Z.，陈急诊室蒙泰罗，M.，韦茨斯坦，G.道：Acorn：用于神经场景表示的自适应坐标网络。arXiv预印本arXiv：2105.02788（2021）27. 梅塔岛，Gharbi，M.，巴恩斯角，Shechtman，E.，Ramamoorthi河，Chandraker ， M. ：可推广的局部功能表示的调制周期性激活。IEEE/CVF计算机视觉国际会议论文集。pp. 1421428. Mercat，A.，Viitanen，M.，Vanne，J.：Uvg数据集：50/120 fps 4k视频序列，用于视频编解码器分析和开发。第11届ACM多媒体系统会议论文集。pp. 29729. 梅谢德湖 Oechsle ， M. ， Niemeyer ， M. ， Nowozin ， S. ， Geiger ， A. ：Occupational Networks：学习函数空间中的3D重建。IEEE/CVF计算机视觉和模式识别会议论文集。pp.

下载后可阅读完整内容，剩余1页未读，立即下载