SIGNET：光场的高效神经表示

49 浏览量更新于2023-10-14 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14224×个SIGNET：光场的高效神经表示Brandon Yushan Feng，AmitabhVarshney马里兰大学帕克分校{yfeng97，varshney} @ umd.edu摘要我们提出了一种新的光场内容的神经表示，使紧凑的存储和容易的本地重建与高保真度。我们使用一个全连接的神经网络来学习每个光场像素的坐标与其对应的颜色值之间的映射函数由于神经网络，简单地采取在原始坐标是无法准确地学习包含细节的数据，我们提出了一个输入变换策略的基础上的Gegenbauer多项式，以前显示出理论优势的傅立叶基础。我们进行的实验表明，我们的基于Gegenbauer的设计与正弦激活函数相结合，导致比各种网络设计更好的光场重建质量，包括那些由先前的作品介绍的此外，我们的正弦Gegenbauer网络，或SIGNET，可以表示光场场景更紧凑比国家的最先进的压缩方法，同时保持相当的重建质量。SIGNET还由于其功能设计而固有地允许对编码光场像素的我们进一步证明了SIGNET1. 介绍光场为静态和动态场景提供了信息丰富的媒介。然而，其广泛采用的显著障碍是缺乏这种高维数据的足够紧凑的表示，使得其对于高效存储、编辑和流式传输是不实用的。例如，在相机上捕获的1080 p 60-fps光场视频可以是在相机上捕获的1080 p 60-fps光场视频10 10摄像机网格很容易需要几千兆字节的存储空间来存储每一秒的内容。压缩光场的直接解决方案是应用现有的、广泛使用的压缩方法，诸如JPEG和MPEG。然而，由于在光场中捕获的图像的绝对量，这些基于单视图的方法的压缩率远不能令人满意[48，49]。因此，拥有一个小巧的图1：SIGNET概述。我们训练一个MLP来近似从每个像素的坐标到其颜色值的映射函数基于Gegenbauer多项式的输入变换策略使MLP能够更准确地学习高维映射函数。一种利用光场中重叠和重复的视觉图案来表示光场的方法广泛的研究已经致力于设计紧凑的光场表示的基础上的补丁为基础的压缩策略，在JPEG标准的表现。这些方法将每个图像块表示为小的基函数字典的加权和，并且目标是找到新的方法来构造实现更好的压缩结果的基函数字典。然而，先前的努力在使得能够容易地传输和操纵光场内容方面具有有限的成功深度学习的最新进展在用神经网络表示图像和体积等数据方面取得了令人印象深刻的结果[31，43，47这些方法中的一个共同点是将傅立叶启发的修改结合到称为多层感知器（MLP）的经典神经网络设计中。具体来说，SIREN网络[43]使用14225MLP层之间的正弦激活函数，而为体积辐射数据设计的神经辐射场（NeRF）网络[31]显示了在输入坐标上应用余弦和正弦变换的有效性。Tancik等人进一步分析和形式化了NeRF中使用的傅立叶基带来的改进。[47]，他们还成功地将神经表示扩展到2D图像和3D形状等数据。MLP以高保真度表达视觉内容的经证实的能力然而，如第4节所示，先前的技术不能表示没有可见伪影的光场。在这项工作中，我们提出了一个新的框架，有效地和准确地表示光场内容使用神经网络。最重要的是，我们介绍了一种新的输入变换策略的多维光场坐标的基础上的正交Gegenbauer多项式，在我们的实验中工作得很好的正弦激活函数之间的MLP层。我们称之为这个网络SIGNET（正弦Gegenbauer网络），我们表明其优越性，光场神经表示，在各种傅立叶启发的输入变换策略。SIGNET还实现了出色的重建，结构质量与更高的压缩率比国家的最先进的字典为基础的光场压缩方法。我们进一步展示了我们的基于MLP的方法如何容易地允许在编码的光场场景上进行视图合成和超分辨率。概括而言，我们的贡献如下：• 我们提出了一种神经表示的光场，实现高重建质量和压缩率，并提供像素级的随机访问的编码光场。• 我们引入了一种输入变换策略，用于坐标输入MLP使用Gegenbauer多项式，它优于其他最近提出的技术，niques光场数据。• 我们示出了这样的神经表示使得能够在新坐标处进行高质量解码而无需额外的训练，从而在光场上沿着空间、角度和时间维度实现超分辨率。2. 相关工作光场压缩。传统的压缩依赖于典型地涉及分析基函数（诸如傅立叶基和小波）的经典编码策略。先前的研究已经用视差[9，21，26，38]和几何信息[52]增强了这种分析方法。光场视频的一些复杂应用[7，22，33]还集成了运动预测和预测。基于现有的视频编解码算法，如HEVC（H.265）[45]和VP9 [32]。最近，Le Penduet al. [35]提出了光场的傅立叶视差层表示，其允许在傅立叶域中进行上采样[37]和压缩[12，36朝向光场压缩的不同方法涉及学习基函数的字典，其受到机器学习稀疏编码进展的启发，其中使用数据驱动算法学习的字典已被证明优于分析基函数[1，27，30，44]。然而，使用诸如K-SVD [4]的常规算法学习的字典仍然包含太多冗余并且具有高存储成本。用于光场压缩的当前最先进的方法[20，29]通过利用新的预聚类策略学习正交字典的集合来改进这种方法。我们提出了一种新的方法来完成这项任务，通过学习光场的神经表示。虽然我们的方法植根于基函数的思想，但我们从根本上不同于以前的方法，因为我们使用具有非线性激活函数的神经网络的表达能力来将基函数组合成所需的输出。光场插值。大多数方法依赖于代理信息，如深度或光流[8，10，13，14，28，41]。最近，深度学习方法已被用于从光场推断深度和光流，并呈现新的视点[6，16，24，50，51]。这些方法将原始帧扭曲到新的视点。虽然结果令人印象深刻，但它们需要在运行时访问原始光场数据，从而导致光场处理流水线的额外的（有时是禁止的）成本。在本文中，我们展示了我们的神经光场表示如何自然地从压缩数据中插值，而无需显式学习或代理信息。虽然我们提出的网络不是专门为光场超分辨率或视图合成而设计的，但我们的研究结果表明，它具有很大的潜力，可以适应这些任务。坐标输入MLP最近的研究[31，43，47]已经显示了使用坐标输入MLP网络来表示各种数据的潜力。傅立叶启发的变换在静态场景上实现了最先进的自由视点合成[31]。SIREN [43]中引入的正弦激活允许具有原始坐标输入的简单MLP准确地对包括图像和视频的数据的坐标到颜色映射进行建模。然而，我们的实验结果表明，这些傅立叶启发的方法是无法准确地建模的光场中的坐标到颜色我们提出了一个新的变换，允许的MLP成功地表示密集的光场，我们展示了其适用性紧凑地表示高分辨率的光场。14226FΣi=1i=1Σi=1--}--图2：Gegenbauer（超非球面）多项式的图示。我们在2D笛卡尔网格（左）和3D极坐标网格（右）上评估2D Gegenbauer基函数。出于说明的目的，仅选择基的前六阶。编码当前帧。3.2.函数逼近表示为2D函数的单通道图像（x，y），可以近似为N正交基函数Θ（x，y）：NF~（x，y）=aiΘi（x，y）（1）i=1假设正交函数的集合是已知的，则可以通过仅使用系数αιΝ来恢复图像。因此，图像压缩被简化为压缩这组系数。在JPEG压缩的情况下，余弦函数被用作Θi{a i}N被量化和熵编码。Gegenbauer多项式应用数学中的先前研究已经显示了Gegenbauer多项式（也称为超球面多项式）在解决吉布斯现象[18]中的有效性，吉布斯现象是使用基于傅立叶的近似 [5 ， 19] 的 MRI 重建中常见的伪影。Gottliebet al. [18]这种函数的有限Gegenbauer展开提供了更好的收敛性，并且通常使用比傅立叶方法更少的基函数来重新求解吉布斯伪影具体地说，他们表明，给定前N个Gegenbauer展开系数，我们可以在f是解析的任何子区间中构造对f（x）的点值的指数收敛近似[17]。此外，最近对机器学习的研究也显示了Gegenbauer内核[3，34]或超球损失函数[15，25]的有用性我们的实验表明，应用Gegenbauer变换的光场坐标不仅提高了重建质量，但也导致更快的神经网络收敛。3. 概述3.1. 作为函数的如果我们对4D光场使用类似的解析公式，我们将获得以下近似：NF〜（u，v，x，y）=aiΘi（u，v，x，y）（2）i=1然而，代替解析地计算系数ai，我们提出使用L层MLP来计算：F~（u，v，x，y）=φL◦φL−1◦... Φ1（[Θi（u，v，x，y）]N）这里，Φ 1表示具有权重矩阵W1、偏置向量bl和激活函数σ的神经网络的第1层。来自每一层的输出是Φ1（x）=σ（Wlx+bl）。我们接下来讨论为什么这种方法是首选的计算分析系数。3.3. 近似的MLP这种基于MLP的公式与经典的傅里叶展开方法有几个相似之处。事实上，对于1D函数的情况，可以构造具有与傅立叶展开相同的表示能力的MLPN我们的目标是找到地图的精确近似值对于给定的光场，ping函数F，从中我们可以fN（x）=n=Σ−Nan·exp（i·2πnx），x∈[0，1]，N∈Z（4）检索任何像素的颜色值此外，这样的函数近似可以使用比原始光场内容更少的比特来参数化，从而为我们提供光场的压缩表示。该傅里叶展开等价于具有激活函数σ（x）=exp（ix）的特殊的两层MLP。此MLP的第一层将是具有val的1×2NUEs{2πn}N，而第二层将包含这种函数式方法的一个值得注意的特点是2N×1n=N傅立叶系数{an Nn=−N光场表示的优点在于，我们可以任意解码给定光场内的任何像素，提供对压缩数据的随机访问，这确保了压缩效率同样的类比也适用于多维的推杆例如，2D函数的傅里叶展开具有以下形式：.（三）14227NM帐篷检索和流传输。在第2节中讨论的大多数先前的压缩方法涉及编码和解压缩。fN，M（x，y）=Σ Σam，n·exp[i·2π（nx+my）]对像素块进行编码，并且许多视频压缩方法甚至需要来自先前帧的信息来解码。n=−Nm=−M（五）14228×个--∈∈n=−N·m=−M图3：重建图像（左）和绝对误差（右）的示例。SIGNET实现了良好的准确性，而其他方法发现编码这个场景具有挑战性。在这里，我们仅呈现手镯场景;其他光场场景的更多定性结果可以在补充材料中找到。其中x，y[0，1]和N，M，Z。值得注意的是，傅里叶系数a、m、n被分组在一起作为2D矩阵。虽然这似乎与前面描述的MLP不兼容，但我们可以将此2D矩阵展平为1D，并将此扩展适合于双层MLP的形式例如，到MLP的输入将是[x，y]T，第一层可以是具有由（n，m）的每个组合填充的列的24NM矩阵，并且第二层可以是具有由（n，m）的每个组合填充的列的4NMXl矩阵。包含傅立叶系数{am，n}。给出1D和2D中的示例，我们可以看到相同的推导自然延伸到更高的维度。然而，增加维度将导致要考虑的系数数量的组合增长。更重要的是，使MLP具有比傅立叶系数更多的参数几乎没有意义。因此，我们需要具有少得多的参数的MLP，同时确保它可以近似光场的多维函数。3.4. 走向多维输入最近的工作[39，43，47]已经表明，当尝试近似像图像这样的多维函数时，具有坐标输入的典型MLP遭受频谱偏差两种最近的技术修改坐标输入MLP，以使它们能够成功地学习具有高频细节的数据，例如自然图像和体积。SIREN [43]使用正弦函数作为网络层之间的激活函数，而FourierMLP [47]显示了使用余弦和正弦函数作为基础来变换输入（2D图像情况下的[x，y]）的有效性回顾欧拉2D离散傅里叶变换和特定的MLP。因此，毫不奇怪，当坐标输入MLP被傅立叶展开背后的周期性所授权时，它最终实现了准确的表示，无论是来自SIREN中使用的正弦激活还是来自FourierMLP中的正弦和余弦输入变换。此外，在NeRF和FourierMLP中，沿着每个维度的坐标被独立地变换，并且相应的高维嵌入被连接在一起作为MLP的输入。这种级联是至关重要的，因为它优雅地避免了多维基的组合爆炸例如，对于具有沿着每个维度的阶数N和M的余弦基的2D图像，简单地计算在1D中计算{cos（nx）}N和{cos（my）}M，然后将它们连接成1 × 2（N+ M）输入，而不是来自{cos（nx + my）}n，m的1 × 4NM输入。这种修改使得MLP能够利用多维正交基函数，而不需要输入大小的二次增加。因此，我们采用这种级联策略来学习光场，而无需训练非常宽的MLP。3.5. 盖根堡基虽然这些傅立叶启发的变换技术被证明对图像和体积非常有效，但当使用它们与MLP来表示光场时，我们无法获得令人满意的结果，如第4节所讨论的。相反，受Gegenbauer重构优于第2节中讨论的基于傅立叶的重构的益处的启发，我们开发了使用Gegenbauer多项式作为基函数的输入变换策略。n阶14229S2nS第0页，共1页C图4：在静态光场场景上训练PSNR。与坐标输入MLP的其他变体相比，SIGNET在表示4D光场方面显然具有更快的收敛和更高的质量。表1：实验中使用的不同MLP。输入转换方法的定义见4.2节网络转换激活坐标ReLU无ReLU离散傅里叶ReLU离散傅里叶ReLUSIREN非正弦离散傅里叶正弦离散傅里叶正弦Gegenbauer ReLU Gegenbauer ReLUSIGNET Gegenbauer正弦Gegenbauer多项式可以递归地计算为：4.2.比较评价在讨论了使用MLP表示光场并引入Gegenbauer输入变换的动机为了客观地评估我们的网络，我们将其与具有不同转换策略和激活函数的其他几个网络进行比较（见表1）。具体的输入转换策略见表1第二列。无变换意味着n（z）= z，并且 Cn=CV=Cx=CY=1。使用离散傅立叶，变换函数返回元组为（α）1（α）（α）Sn（x）=[cos（2πnx），sin（2πnx）]。用高斯傅立叶Gn+1 （ x ） =n[2x （ n+α−1 ） Gn （ x ） −（n+2α−2）Gn−1（x）]，（六）其中−1≤x≤1，G（α）（x）=1，且G（α）（x）= 2αx。4. 方法4.1. 拟议框架为了从SIGNET重构4D光场的像素，坐标输入向量p=[u，v，x，y]用一组函数Si变换为E（p）=[S1（u），…Su（u），Sl（v），…SCv（v），…S1（x），… S Cx（x），… S1（y），… S Cy（y）]Cu、Cv、Cx、Cy是用于沿着每个维度映射坐标的基函数的最大阶。在我们的例子中，我们使用Gegenbauer基函数通过设置n（z）=Gα（z）来变换输入，如第3.5节所定义。我们采用Sitz- mann等人提出的正弦激活。[43]因为它增强了MLP即使在没有输入变换的情况下也能逼近函数的能力。我们采用中FourierMLP [47]，标度设置为5。这等效于具有E（p）=[cos（BpT），sin（BpT）]，其中B是n ×4矩阵，其元素由高斯分布N（0，5）随机初始化，且C=Cn+CV+Cx+CY+Ct.4.3.数据和培训设置对于静态光场，我们使用 Stanford Light FieldArchive [2]。对于光场视频，我们选择Tech-nicolor自然光场视频数据集[40]。我们选择Miandji等人使用的这些特定场景。[29]为了公平地比较业绩。这些数据集的详细信息可在补充材料中找到。我们在PyTorch中实现了网络，并遵循相同的训练方案和随机种子以确保可重复性。更多细节可参见补充材料。我们在NVIDIA GeForce RTX 2080 Ti上对所有网络进行了30个epoch的训练，每个epoch大约需要 12分钟14230表2：与其他方法相比的压缩性能。列“大小”中的值表示每种方法在没有进一步量化的情况下以兆字节（MB）为单位的存储。其他列出的方法的细节可以在Miandjiet al.[29]第10段。SIGNET的存储成本基于所需的MLP参数的数量来计算（参见Supp.材质）来重建每个场景中的所有像素。静态光场光场视频乐高手镯塔罗画家列车方法大小PSNRSSIM大小PSNRSSIM大小PSNRSSIM大小PSNRSSIM大小PSNRSSIMSignet9.041.260.97612.038.700.9739.037.470.97514439.560.93414439.730.968AMDE [29]29.340.900.97318.139.900.98044.238.540.97394138.250.92980937.000.946KSVD [4]29.338.390.95918.136.730.97344.338.810.98094238.120.92880735.060.928HOSVD [29]29.337.240.95818.033.980.96244.334.530.96694236.910.91980735.290.9375D DCT [29]29.437.290.95518.132.310.95244.233.030.96094136.790.91580735.200.934CDF 9/7 [11]29.033.710.91418.231.980.93944.329.170.86594131.690.822111629.800.746图5：我们展示了光场视频场景Painter和Trains的重建示例。5. 结果5.1. 静态光场重建我们测试了SIGNET的有效性，并将其与表1中列出的具有相同型号尺寸的其他配置进行了比较。为了进行公平的比较，我们对三个输入变换策略使用相同数量的基函数（ Cu ， Cv ， Cx ， Cy ）：GaussianFourier ，Discrete- Fourier和Gegenbauer。我们在三个静态光场场景上训练每种类型的MLP，并在图3中呈现示例结果。更多结果在Supp. 材料我们观察到， SIGNET 导致更高质量的重建。Gegenbauer变换输入的网络不仅比其他变换策略产生更精确的重建，其结果在视觉上也更稳定。即使没有正弦激活（Gegenbauer ReLU），Gegenbauer变换也提高了基本ReLU MLP（CoordinateReLU）的性能，并且它甚至实现了比基于傅立叶的MLP（FourierReLU、Discrete FourierReLU和Discrete FourierSine）在三个场景上平均更好的性能。我们还显示了每个训练过程中的PSNR值图6：空间上采样。我们在空间维度上的密集采样网格点上评估训练的SIGNET。我们在以黄色矩形为边界的裁剪区域中显示放大的细节图4中的MLP类型。PSNR曲线进一步证实了SIGNET的优越性，它清楚地显示出更快的收敛速度和更高的精度。从这些结果中得出的另一个结论是，我们的方法的成功并不完全是由于正弦激活（参见 SIREN 与SIGNET），并且Gegenbauer变换对于更准确的光场表示确实是因此，在本文的其余部分，我们采用SIGNET作为默认的MLP设置。此外，SIGNET不仅准确地再现RGB值在每个像素位置，但它也是parsimo- nious在存储成本。在表2中，我们将SIGNET的压缩和重建结果与以前的方法进行了比较。在所有三个静态光场场景中，我们实现了与最先进的方法相当的重建质量，为了再现，补充材料提供了表2所示结果的具体网络设置。142312图7：角度上采样。在重建视图的左下角，我们显示了重建视图（红色方块）及其在原始光场中的四个最近视图（蓝色方块）我们从三个静态场景的新视角呈现重建，并且我们还展示了基于深度学习的方法LFASR [23]的结果，该方法专门针对光场角度上采样进行训练请注意，LFASR结果显示黄色箭头所指的可见瑕疵，例如扭曲的几何体和重影。图8：时间上采样。t0和t0+1是原始视频中的连续帧。蓝色框包含来自在t0+1处评估的帧的输出，其不存在于原始视频中。绘制垂直线是为了更容易观察运动轨迹。5.2. 光场视频在观察到SIGNET在静态4D光场上的良好性能后，我们将相同的框架扩展到光场视频，其中有效的压缩更加重要。由于光场视频包含比静态光场多得多的图像，因此仅训练一个网络来近似覆盖整个视频的5D函数是具有挑战性的因此，我们将光场视频划分为较小的块，使得每个块由小SIGNET独立地学习。我们的时间划分的细节可以在补充材料中找到。我们在图5中示出了示例结果，并将压缩结果与表2中的先前方法进行了比较。SIGNET在重构质量和压缩大小方面都具有明显的优势。5.3. 光场超分辨SIGNET在图6中，我们显示了使用经训练的SIGNET进行空间上采样的结果。我们观察到，结果没有任何可察觉的伪影。此外，这些结果表明，SIGNET不只是记住训练样本，但它也优雅地插入未采样的坐标。在图7中，我们进一步示出了角度维度的上采样结果。我们将我们的结果与LFASR [23]进行了比较，LFASR是一种最先进的方法，代表了依赖于深度估计的大多数基于学习的方法。注意，我们的新视图是在没有任何深度信息的情况下生成的，并且我们没有明确地使用来自相邻图像的任何信息。SIGNET实现了与配备深度CNN的基于学习的方法相似的视觉质量水平，同时避免了源于不准确的深度或光流估计的失配伪影SIGNETs可以在看不见的视点处生成视图的事实意味着它们实际上存储的图像远远多于原始数据，这可以显着提高有效压缩率。最后，我们在图8中示出了在光场视频上沿着时间维度上这样的结果再次证明，训练好的网络不仅存储训练样本，而且隐式地导出两帧之间的运动模式。5.4. 消融研究为了简单起见，在本节中，我们使用静态光场场景Lego来训练我们的网络。我们首先检查的效果，当我们修改C，Gegenbauer基阶的总数对网络性能的影响。我们设置隐藏层14232×个×个(a) 网络输入大小C。（b）网络深度L(c)网络宽度M（d）Gegenbauer图9：消融研究。我们改变了SIGNET的不同方面，如5.4节所讨论的。长度L=10，在β = 0的条件下，测试了不同输入大小C=β Cn+β CV+β Cx +β Cy的网络性能。25，0。5、2、4和C与Supp.材料在图9a中，我们示出了训练曲线，并且在C >1024之后，来自输入基大小的增加的性能增益明显减小。然后，我们研究如何网络性能的变化，因为我们修改的网络层数，L。我们将所有中间层的尺寸设置为512 512。在图9b中，我们示出了重建质量如何针对不同配置而变化。随着网络扩展到10层，网络在图9c中，我们示出了针对所有隐藏层改变矩阵维度大小M的效果。我们将隐藏层长度设置为L=4，并且输入基函数的数量设置为C=512。正如预期的那样，我们确实看到了更高的质量与更多的基地，虽然质量也饱和到一定的上限。增加L似乎是增加SIGNET容量和近似精度的更有效的方式，因为它仅适度地增加存储成本;增加M几乎不能提高性能，但会显著增加存储成本。我们还研究了不同的α，超参数的Gegenbauer多项式的影响除了我们的默认选择α = 0之外。在图5中，我们测试了几个其他值，并且我们在图9d中示出了结果。结果表明，我们的默认选择是合理的，因为当α大于0时，网络性能似乎会下降。五、6. 讨论和限制与光场压缩的先前工作相比，SIGNET的区别在于能够在原始数据中未捕获的坐标处进行解码，这要归功于其功能设计。我们的结果可以进一步增强传统的图像编码方案，量化和进一步编码频谱系数和残差。作为快速检查，我们对网络权重进行了量化和权重修剪我们的初步结果表明，进一步的15倍的bitrate减少，而PSNR下降小于0。1.一、附加的权重压缩技术，如知识蒸馏，可以进一步提高我们的压缩率。与以前的工作相比，SIGNET不需要将原始光场图像发送给用户;只有MLP权重足以对任意视点处的高分辨率和密集采样的光场进行解码。虽然SIGNET实现了高重建质量，但限制是我们需要为每个新场景重新训练网络。最新进展[42，46]在使用元学习加速坐标输入MLP的训练方面取得了可喜的成果。我们相信，元学习策略可能会大大降低培训成本，我们离开这个想法的探索，为未来的工作。虽然我们简要地展示了经过训练的网络执行上采样的能力，但我们并不专注于进一步开发其在这个方向上的潜力。我们的方法不能保证在稀疏采样的光场（例如：光场具有大视差的3个视点），因为沿着角度维度的数据不足以使网络近似平滑插值。在未来，设计出能够泛化的神经网络将是人们所希望的在不同的场景中使用学习的先验知识。7. 结论我们提出了SIGNET，一个新的框架来表示光场与神经网络，它实现了高保真度的重建和国家的最先进的压缩性能。我们希望SIGNET可以激发更多的研究利用神经网络处理光场和其他高维视觉数据。致谢我们感谢匿名评论者的深刻评论。这项工作得到了NSF资助15-64212和18-23321以及马里兰州MPower计划的部分支持本文中表达的任何观点、发现、结论或建议均为作者的观点，并不一定反映研究发起人的观点。14233引用[1] A. Abdi，A. Payani和F.费克里学习字典有效的信号压缩。在2017年IEEE声学、语音和信号处理国际会议，第3689-3693页，2017年。二个[2] A.亚当斯斯坦福光场档案，2008年。网址：//lightfield.stanford.edu/lfs.html网站。五个[3] A. A. Afifi和E.A. 扎纳蒂支持向量机分类的广义勒让德国际网络安全杂志及其应用，11：87-104，2019。三个[4] M. Aharon，M. Elad和A.布鲁克斯坦K-SVD：一种设计稀疏表示过完备字典的算法。IEEE Transactions onSignal Processing，54（11）：4311-4322，2006. 二、六[5] R. Archibald和A.盖尔布一种减少MRI扫描中Gibbs振铃伪影同时保持组织边界完整性的方法。 IEEETransactions on Medical Imaging，21：305-319，2002.三个[6] M.贝马纳湾Myszkowski，H. Seidel和T. Ritschel X场：隐式神经视图，光和时间图像插值。ACM事务处理图表，39（6），Nov. 2020. 二个[7] M.放大图片作者：R. Overbeck，Daniel Erickson，Pe-terHedman ， Matthew DuVall ， Jason Dourgarian ， JayBusch，Matt Whalen，and P.德贝维克具有分层网格表示的沉浸式光场视频。ACM Transactions on Graphics（TOG），39：86：1- 86：15，2020。二个[8] J. 柴山，加-地陈，H。Shum和X.童全光采样。第27届计算机图形和交互技术集，SIGGRAPH二个[9] C. Chang，X. Zhu，P. Ramanathan，and B.吉罗德使用视差补偿提升和形状适应的光场压缩。IEEE图像处理学报，15：793-806，2006。二个[10] G.乔拉西亚岛Sorkine和G.讨厌鬼用于基于图像的渲染的轮廓感知变形。在Computer Graphics Forum，第30卷，第1223-1232页中。威利在线图书馆，2011年。二个[11] A.科恩岛Daubechies和J.小点心紧支撑小波的双正交基。纯粹数学与应用数学通讯，45（5）：485-560，1992. 六个[12] E. Dib，M. Le Pendu和C.海鸠使用傅立叶视差层的光场压缩。2019年IEEE国际图像处理会议（ICIP），第3751-3755页，2019年。二个[13] R. Du，S.Bista和A.瓦什尼视频场：将多个监视视频融合到动态虚拟环境中.Web 3D二个[14] R.杜，M。Chuang，W. Chang，H. Hoppe，和A.瓦什尼Montage4D：多视图视频纹理的实时无缝融合和样式化。 Journal of Computer Graphics Techniques ， 8（1），2019。二个[15] B. Y.冯，W. Yao，Z. Liu和A.瓦什尼基于双四元数损失的 360° 图像深度估计在 2020 年 3D 视觉国际会议（3DV），第524-533页三个[16] J. Flynn，I. Neulander，J. Philbin和N.很聪明深度立体声：学习从世界的图像中预测新的观点。2016年IEEE计算机视觉和模式识别会议（CVPR），第5515-5524页，2016年。二个[17] D. Gottlieb和C.蜀吉布斯现象IV：从分段解析函数的Gegenbauer部分和恢复子区间中的指数精度。计算数学，64：1081-1095，1995。3[18] D. Gottlieb和C.蜀吉布斯现象及其解决方法。SIAMReview，39：644-668，1997. 三个[19] S. Gottlieb，J. Jung和S. Kim. David Got-tlieb关于解决Gibbs 现象的工作。 Communications in ComputationalPhysics，9：497-519，2011. 三个[20] S. Hajisharif、E.作者：J. Tran和J.昂格尔光场视频压缩与实时绘制。计算机图形论坛，38（7）：265-276，2019。二个[21] A. Jagmohan，A. Sehgal和N.阿胡佳使用陪集代码压缩光场渲染图像。第三十七届Asilomar信号会议，系统计算机，2003，1：830-834，2003. 二个[22] X. Jiang，M.勒彭杜河A. Farrugia和C.海鸠基于单应性的低秩近似的光场压缩。IEEE Journal of Selected Topicsin Signal Processing，11：1132-1145，2017。二个[23] J. Jin，J. Hou，H. Yuan和S.阿广通过几何感知网络学习光2020年AAAI人工智能会议论文集，2020。七、十三[24] N. K. Kalantari，T. Wang和R. Ramamoorthi基于学习的光场相机视图合成 ACM Trans-actions on Graphics（TOG），35：1- 10，2016。二个[25] A. Karakottas，N.Zioulis，S.Samaras，D.阿塔洛格鲁河谷Gkit-sas，D.Zarpalas和P.达拉斯360°曲面回归与超球损失。在2019年3D视觉国际会议（3DV），第258-268页，2019年。三个[26] M. Magnor和B.吉罗德用于光场渲染的数据压缩。IEEE传输电路系统视频技术，10：338-343，2000. 二个[27] J. Mairal，F. R. Bach，J. Ponce，and G.萨皮罗稀疏编码的在线Dic- tionary学习。在第26届机器学习国际年会（ICML '09）二个[28] X.孟河，巴西-地Du，J. F. JaJa和A.瓦什尼光场的3D内核中心凹渲染。IEEE Transactions on Visualization andComputer Graphics，27（8）：3350二个[29] E. Miandji，S. Hajisharif和J.昂格尔光场和光场视频压缩与压缩感知的统一框架。在 ACM Transactions onGraphics（TOG），第38卷，第1 - 18页，2019年。二、五、六[30] E. Miandji，J. Kronander，and J.昂格尔基于学习的表面光场压缩，用于全局照明场景的实时渲染SIGGRAPHAsia 2013 Technical Briefs，SA二个[31] B. Mildenhall，P.P. 斯里尼瓦桑M.Tancik，J.巴伦河Ra-mamoorthi和R. Ng. NeRF：将场景表示为用于视图合成的神经辐射场InProceedings of14234欧洲计算机视觉会议（ECCV 2020），第405-421页，2020年。一、二[32] D. 穆克吉Bankoski，A.Grange，J.Han，J.Koleszar，P.Wilkins，Y.Xu和R.布提耶最新的开源视频编解码器VP9-概述和初步结果。2013年图片译码研讨会（PCS），第390-393页，2013年。二个[33] R. S. Overbeck，D.Erickson，D.Evangelakos，M.Pharr，以及德贝维克虚拟现实中全景光场静止图像的获取、处理和渲染系统ACM Transactions on Graphics（TOG），37：1- 15，2018。二个[34] L. C. Padierna，M.Carpio，A.R. Dom 'ınguez，H.J. P.Sober-anes和H. J. Fraire SVM分类器的正交多项式核函数的新公式：盖根鲍尔家族模式识别，84：2113[35] M.勒彭杜角Guillemot和A.斯莫利奇光场的傅里叶双奇偶层表示IEEE Transactions on Image Processing，28：5740-5753，2019。二个[36] M.勒彭杜角 Ozcinar和A. 斯莫利奇用于光场流传输的分层傅立叶视差层传输。在2020年IEEE图像处理国际会议，第2606-2610页IEEE，2020年。二个[37] M. Le Pendu和A.斯莫利奇高分辨率光场恢复与傅立叶视差层完成，演示，saicing，和超分辨率。2020年IEEE国际计算摄影会议（ICCP），第1-12页，2020年。二个[38] S. Pratapa和D.马诺查RLFC：使用关键视图和有界整数序列编码的随机访问光场压缩。 ACM SIGGRAPHSymposium on Interactive 3D Graphics and Games ，2019。2[39] N. Rahaman，A. Baratin，D. Arpit，F. D raüxler，M.Lin，F. Hamprecht，Y. Bengio和A. C.考维尔关于神经网络的谱偏差。国际机器学习会议，第5301-5310页。PMLR，2019年。四个[40] N. 萨巴特湾布瓦松湾Vandame，P.Kerbiriou，F.巴邦M.霍格河Gendrot，T.朗卢瓦岛Bureller，A. Schubert和V.小爱用于多视图光场视频的数据集和流水线。2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第1743五个[41] H. Shum，S. Chan和S.康基于图像的渲染。Springer Science Business Media，2008. 二个[42] V. Sitzmann，E.昌河，巴西-地Tucker，N. Snavely和G.湿- zstein。MetaSDF：元学习符号距离函数。神经信息处理系统的进展，NeurIPS 2020，2020。八个[43] 诉Sitzmann，J.N. P. 马特尔、A.Bergman ，D.B. 林德尔，还有G.韦茨斯坦具有周期激活函数的隐式神经表示。神经信息处理系统的进展，NeurIPS 2020，2020。一二四五十一[44] J. Sulam，V. Papyan，Y. Romano和M.埃拉德多层卷积稀疏建模：追求与词典学习。IEEE Transactions onSignal Processing，66：4090-4104，2018。二个[45] G. Sullivan，J.欧姆，W。Han和T.维根高效视频编码（HEVC）标准的概述。IEEETran

下载后可阅读完整内容，剩余1页未读，立即下载