没有合适的资源?快使用搜索试试~ 我知道了~
112930深度隐式体积压缩0Danhang Tang � Saurabh Singh � Philip A. Chou Christian H¨ane Mingsong DouSean Fanello Jonathan Taylor Philip Davidson Onur G. Guleryuz Yinda ZhangShahram Izadi Andrea Tagliasacchi So�en Bouaziz Cem Keskin0谷歌0摘要0我们描述了一种新颖的方法,用于压缩存储在3D体素网格中的截断有符号距离场(TSDF)及其对应的纹理。为了压缩TSDF,我们的方法依赖于基于块状神经网络架构的端到端训练,实现了最先进的率失真平衡。为了防止拓扑错误,我们无损地压缩TSDF的符号,这也通过体素大小上界了重建误差。为了压缩相应的纹理,我们设计了一种快速的基于块状UV参数化方法,生成一致的纹理贴图,可以使用现有的视频压缩算法进行有效压缩。我们在两个4D性能捕捉数据集上展示了我们算法的性能,相对于最先进的方法,比特率降低了66%,失真相同,或者失真降低了50%,比特率相同。01. 引言0近年来,体积隐式表示已成为许多3D和4D重建方法的核心[22,26,27,45],实现了增强现实设备中的实时密集表面映射和自由视点视频等新应用。虽然这些表示具有许多优势,但由于其占用大量内存,传输高质量的4D序列仍然是一个挑战。设计高效的隐式表示压缩算法对于实现诸如VR/AR远程存在感[47]等新型消费级应用以及便于流式传输自由视点视频[8]至关重要。与压缩网格不同,最近的研究表明截断有符号距离场(TSDF)[15]由于体素值的相关性和规则的网格结构而非常适合高效压缩[31,59]。基于体素的SDF表示已经取得了巨大的成功。0� 表示相等的贡献。0无法翻译的内容0无法翻译的内容0图1:当目标比特率较低时,Draco[24]需要对低多边形网格进行简化处理,而[59]则会出现块状伪影。我们的方法在保持类似比特率的同时,失真明显较低。原始网格使用平面着色显示以显示伪影。03D形状学习的编码器-解码器架构[58,65]的成功部分归功于其网格结构,可以自然地使用3D卷积进行处理,从而允许使用在图像处理任务中表现出色的卷积神经网络(CNN)。基于这些观察结果,我们提出了一种新颖的基于块状的编码器-解码器神经架构,通过端到端训练实现了比先前技术低33%的比特率。我们无损地压缩和传输TSDF的符号,这不仅保证了重建误差上界为体素大小,而且在使用有损TSDF压缩时,保证了重建表面的同胚性。此外,我们提出使用给定符号的条件分布12940将编码的TSDF块无损地压缩以获得显著的比特率增益。这也显著减少了重建几何和纹理中的伪影。最近的3D和4D重建流水线不仅可以重建准确的几何形状,还可以生成高质量的纹理贴图,例如4096x4096像素,需要与几何形状一起压缩和传输[26]。为了补充我们的TSDF压缩算法,我们开发了一种基于块状图表的快速参数化方法,它鼓励无需跟踪的时空一致性。我们的方法允许使用现有的基于图像的技术高效压缩纹理,并且无需压缩和传输UV坐标。总之,我们提出了一种新颖的基于块状的3D压缩模型,具有以下特点:01.第一个可以通过熵编码进行端到端训练的深度3D压缩方法,具有最先进的性能;2.使用TSDF符号的条件分布对表面拓扑进行无损压缩,从而将重建误差限制在一个体素的大小内;3.一种新颖的基于块的纹理参数化,本质上鼓励时间一致性,无需跟踪或压缩UV坐标的必要性。02. 相关工作03D/4D媒体(例如网格、点云、体积)的压缩是VR/AR等应用的基本问题,但在计算机视觉领域受到了有限的关注。在本节中,我们描述了3D压缩的两个主要方面:几何和纹理,并回顾了可学习压缩的最新趋势。几何压缩。几何表面表示可以是显式的或隐式的。显式表示在传统计算机图形学中占主导地位,而隐式表示在感知相关任务中得到了广泛应用,例如实时体积捕捉。显式表示包括网格、点云和参数化曲面(NURBS)。我们建议读者参考相关调查报告,了解这些表示的压缩。网格压缩器如Draco使用连接压缩,然后是顶点预测。另一种策略是将网格编码为几何图像,或者对于时间一致的网格,编码为几何视频。点云已经通过稀疏体素八叉树(SVOs)进行了压缩,首次在点云几何压缩中使用。SVOs已经扩展到编码动态点云,并在点云库(PCL)中实现。这个库的一个版本成为MPEG点云编解码器(PCC)的锚点。MPEGPCC标准分为基于视频的PCC(V-PCC)0V-PCC使用几何视频,而G-PCC使用SVOs。隐式表示包括(截断的)有符号距离场(SDFs)和占用/指示函数。这些已经被证明在3D表面重建和2D和3D表示中非常流行。隐式函数最近被用于几何压缩,其中TSDF直接编码。0纹理压缩。在计算机图形学中,纹理是通过UV映射与网格关联的图像。这些图像可以使用标准图像或视频编解码器进行编码。对于点云,颜色与点相关联作为属性。点云属性可以通过频谱方法或变换方法进行编码。变换方法在MPEGG-PCC中使用,并且与TSDF一样具有体积解释。另一种方法是将纹理作为每个摄像机的普通视频传输,并在接收端使用投影纹理。然而,比特率随着摄像机数量的增加而线性增加,并且投影纹理在底层几何压缩时可能会产生伪影。对纹理进行UV参数化并不是一件简单的事情,因为强制实现空间和时间一致性可能会消耗大量计算资源。在光谱上,Motion2Fusion通过将每个三角形映射到图集的任意位置来牺牲通常所需的空间一致性,从而牺牲了压缩率以换取效率。在另一极端,[26,50]通过随时间跟踪特征来进一步生成具有时间一致的网格连接和UV参数化,因此可以使用现代视频编解码器进行压缩。然而,这个过程是昂贵的,不能应用于实时应用。0可学习的压缩策略。可学习的压缩策略有着悠久的历史。在这里,我们专注于神经压缩。使用神经网络进行图像压缩的方法可以追溯到上世纪80年代,当时使用了均匀[44]或向量[38]量化的自动编码器模型。然而,这些方法类似于非线性降维方法,并没有明确地学习熵模型。最近,Toderici等人[61]使用了基于循环LSTM的架构来训练多速率渐进编码模型。然而,他们在训练循环自动编码模型之后,学习了一个明确的熵模型作为单独的后处理步骤。Ball´e等人[2]提出了一种端到端优化的图像压缩模型,可以同时优化速率失真权衡。通过在潜在表示上放置分层超先验,可以显著提高图像压缩性能[3]。虽然深度学习在3D/4D表示上有着广泛的应用,例如[34, 48, 51, 58, 65,68],但是深度学习在3D/4D压缩方面的应用还很少。然而,与我们密切相关的最近的工作使用了速率失真优化。12950图2:压缩流水线 - 给定输入的TSDF块x及其符号配置s = sign(x),编码器将x转换为量化的代码ˆz =bE(x)e。然后,ˆz和s通过学习的先验分布pˆz(ˆz)和解码器估计的条件分布p s | ˆ z ( s | ˆ z )进行熵编码和传输到接收端(Aenc和A dec块)。重构的块ˆx = s ⊙ |D(ˆz)|与MarchingCubes(图中的MC)一起用于提取网格,然后用于生成Morton打包图M x。M x被单独编码(使用T enc和T dec块)。0类似于[3]的优化自动编码器来进行端到端的3D几何压缩:Yan等人[69]使用了类似PointNet的编码器结合全连接解码器,训练时直接最小化整个点云上的Chamfer距离,同时满足速率约束。Quach等人[52]使用基于块的编码来在MVUB数据集[35]上获得更高的质量。他们的网络使用了一种称为focalloss的方法来预测体素占用情况,类似于加权二元交叉熵。在迄今为止最完整和性能最好的工作中,Wang等人[64]也使用了基于块的编码和预测的体素占用情况,使用了加权二元交叉熵。他们报告相对于MPEGG-PCC在高分辨率8iVFB数据集[18]上的比特率降低了60%,尽管他们只报告了与最先进的MPEGV-PCC的近似等价性。相比之下,我们在更高分辨率的数据集上使用基于块的编码,并且通过直接压缩TSDF而不是占用情况,得到了至少三倍于MPEG V-PCC的比特率。03. 背景0我们的目标是压缩一个由TSDF体积V = {Vt} T1和对应的纹理图集T = {Tt} T1组成的输入序列,这些数据都是从多视角RGBD序列[26,59]中提取出来的。由于几何和纹理是非常不同的,我们将它们分别进行压缩。接收端在渲染之前将这两个数据流进行融合。为了压缩几何数据V,受到最近学习压缩方法的进展的启发,我们提出了一个端到端训练的压缩流水线,以体积块作为输入;详见第4节。因此,我们还设计了一种基于块的UV参数化算法来处理纹理T;详见第5节。对于那些对这个主题和符号不熟悉的人,我们在补充材料中概述了压缩的基本原理。04. 几何压缩0端到端学习压缩面临两个主要挑战,这两个挑战都源于中间步骤的不可微性:1 � 压缩由于压缩需要量化而不可微;2 � 从TSDF 值进行表面重建通常是不可微的,例如 MarchingCubes 等流行方法。为了解决 1�,我们借鉴了最近在学习图像压缩方面的进展。为了解决 2�,我们观察到 Marching Cubes算法在已知拓扑的情况下是可微的。训练的计算可行性。整个序列的密集 TSDF 体积数据 V = {V t } T t =1的维度非常高。例如,Tang等人在其数据集中使用的序列有500帧,每帧包含 240 � 240 �400个体素。数据的高维度使得无法计算地联合压缩整个序列。因此,我们按块状方式独立处理每个帧,这与 Tang等人的方法相似。从 TSDF 体积 V中,我们提取所有不重叠的大小为 k � k � k 的块 { x m } M1,这些块包含零交叉。我们将这些块称为占用块,并独立进行压缩。04.1. 推断0压缩流程如图 2 所示。给定要传输的块x,发送方首先使用学习编码器 E 和参数 θ e计算有损量化的潜在表示 ˆ z = bE ( x ; θ e )e。接下来,发送方使用 ˆ z 计算 TSDF 标志的条件概率分布p s | ˆ z ( s | ˆ z ; θ s ),其中 s 是块的真实标志配置,θ s是分布的可学习参数。然后,发送方使用熵编码器通过无损编码潜在编码 ˆ z 和标志 s 来计算比特流 ˆ z 位和 s 位。] (1)12960图3:推断中的拓扑掩码:我们展示了一个块的二维切片,每个单元格代表一个体素。(左)没有掩码,重建的表面(红色)与真实值(绿色)存在压缩误差。(中)无损压缩的标志将在推断过程中给出真实的占用/拓扑信息。(右)因此,由于有损幅度压缩引起的平均重建误差受体素大小(5毫米)的限制。0分布 p ˆ z (ˆ z ; φ ) 和 p s | ˆ z ( s | ˆ z ; θ s ) 分别表示 ˆ z的先验分布和条件分布。其中,p ˆ z (ˆ z ; φ ) 是由 φ参数化的学习先验分布。需要注意的是,先验分布 p ˆ z是模型的一部分,发送方和接收方都事先知道,而条件分布p s | ˆ z 需要双方计算。然后,ˆ z 位和 s位被传输给接收方,接收方首先使用共享先验 p ˆ z进行熵解码来恢复 ˆ z 。然后,接收方重新计算 p s | ˆ z以恢复无损编码的真实标志 s。最后,接收方使用学习解码器 D 和真实标志 s 来恢复有损TSDF 值,即 ˆ x = s ⊙ |D (ˆ z ; θ d ) | ,其中 ⊙是逐元素乘法运算符,| ∙ | 是逐元素绝对值运算符,θ d是解码器的参数。为了拼接体素,块索引也被传输给客户端。类似于 [ 59],块按升序排序,并使用增量编码将索引向量转换为熵编码友好的表示。重建 TSDF 体积后,可以通过 marchingcubes 提取三角形网格。需要注意的是,对于 marchingcubes算法,多边形配置完全由标志决定。由于我们无损传输标志,因此可以保证从解码的 TSDF ˆ x 提取的网格与未压缩的TSDF x提取的网格具有相同的拓扑结构。因此,唯一可能的重建误差将出现在位于体素边缘上的顶点上。因此,最大重建误差受边长(即体素大小)的限制,如图 3 所示。04.2. 训练0我们通过最小化以下目标函数来学习我们的压缩模型的参数Θ = {θ e, θ s, θ d, φ}0arg min Θ D ˆ x (x, ˆ x; θ e, θ d) |{z}畸变0+ λ [ R ˆ z (ˆ z; φ) |{z}潜变比特率0+ R s (s; θ s) |{z}符号比特率0畸变 D ˆ x (x, ˆ x; θ e, θd)。我们最小化地面真实值和预测的TSDF值之间的重建误差。然而,直接计算平方差 k ˆ x− x k 22会浪费模型复杂性,用于学习精确重建远离表面的TSDF体素的值。为了将网络聚焦在重要的体素上(即具有相邻体素具有相反符号的体素),我们使用地面真实符号。对于每个维度,我们创建重要体素的掩码,即m x,m y和mz。具有多个具有相反符号的邻居的体素出现在多个掩码中,进一步增加它们的权重。然后,我们使用这些掩码仅计算重要体素的平方差D ˆ x = 10B P B n = 10d ∈ x,y,z k m d ∙ (ˆ x n − x n) k 2 2,对于B个块。0潜变的速率 R ˆz (ˆz; φ)。我们使用的第二个损失项是 R ˆz,旨在减少压缩代码的比特率。这个损失本质上是量化代码ˆz的不可微分香农熵的可微估计;有关详细信息,请参见[2]。0无损压缩符号的速率 R s (s; θ s)。由于s只包含离散值{-1,+1},可以使用熵编码进行无损压缩。如上所述,我们使用条件概率分布p s | ˆ z (s | ˆ z)代替先验分布p s(s)。注意,由于s设计上依赖于ˆz,条件分布的熵应该比先验分布低得多。这使得我们能够更有效地压缩符号。为了明确这种依赖关系,我们在解码器中添加了一个额外的头部,使得p s (s | ˆ z) = D s (ˆ z),并且ˆx = s ⊙ |D b (ˆ z)|。符号速率损失 R s然后是地面真实符号s与条件预测p s (s | ˆz)之间的交叉熵。最小化 R s的效果是训练网络以进行更好的符号预测,同时最小化压缩符号的比特率。0编码器和解码器架构。我们提出的压缩技术对于编码器和解码器的个别架构选择是不可知的。在这项工作中,我们针对需要大约2MB的最大模型大小的场景,使得网络适用于移动部署。为了限制可训练参数的数量,我们使用卷积网络,其中编码器和解码器都由一系列3D卷积和转置卷积组成。有关具体架构的更多细节,请参见补充材料。05. 纹理压缩0我们提出了一种新颖的高效且无需跟踪的UV参数化方法,可以与我们的块级几何压缩无缝结合;参见图2。由于我们的参数化过程是确定性的,接收端可以推断出UV坐标,从而消除了对UV坐标的压缩和传输的需求。Block-level charting. Traditional UV mapping either par-titions the surface into a few large charts [71], or generatesone chart per triangle to avoid UV parametrization as inPTEX [6]. In our case, since the volume has already beendivided into fixed-size blocks during geometry compression,it is natural to explore block-level parametrization. To ac-commodate compression error, the compressed signal is de-compressed on the sender side, such that both the sender andreceiver have access to identical reconstructed volumes; seeFigure 2 (left). Triangles of each occupied block are then ex-tracted and grouped by their normals. Most blocks have onlyone group, while blocks in more complex areas (e.g. fingers)may have more. The vertices of the triangles in each groupare then mapped to UV space as follows: 1� the average nor-mal in the group is used to determine a tangent space, ontowhich the vertices in the group are projected; 2� the projec-tions are rotated until they fit into an axis-aligned rectanglewith minimum area, using rotating calipers [63]. This resultsin deterministic UV coordinates for each vertex in the grouprelative to a bounding box for the vertex projections; 3� thebounding boxes for the groups in a block are then sorted bysize and packed into a chart using a quadtree-like algorithm.There is exactly one 2D chart for each occupied 3D block.After this packing, the UV coordinates for the vertices inthe block are offset to be relative to the chart. These chartsare then packed into an atlas, where the UV coordinates forthe vertices are again offset to be relative to the atlas, i.e. tobe a global UV mapping. After UV parametrization, colorinformation can be obtained from either per-vertex color inthe geometry, previously generated atlas or even raw RGBcaptures. Our method is agnostic to this process.Morton packing. In order to optimize compression, theblock-level charts need to be packed into an atlas in a waythat maximizes spatio-temporal coherence. This is non-trivial, as in our sparse volume data structure the amountand positions of blocks can vary from frame to frame. As-12970图4:纹理打包 -(左)3D块和2D补丁分别按照它们的Morton码进行排序和匹配。这个过程将3D体积展开到纹理图集中。(右)UVAtlas[71]仅在每个图表内保证局部空间一致性,而我们的方法鼓励全局空间一致性。请参考补充视频以进行时间一致性的比较。0由于主体的运动是平滑的,因此在打包过程中保留块之间的3D空间结构有望保持时空连贯性。为了实现这种效果,我们提出了一种Morton打包策略。Morton排序[43](也称为Z-order曲线)已广泛用于3D图形中创建空间表示[33]。由于我们的块位于一个3D规则网格上,每个占用的块可以由三个整数(x,y,z)2 Z 3索引。每个整数都有一个二进制表示,例如x = P B − 1 b =0 x b 2b。对于(x,y,z)的3D Morton编码被定义为整数M 3(x,y,z)= P B − 1 b =0(4 yb +2 x b + z b)2 3 b0其二进制表示由交错位y B − 1 x B − 1 z B − 1 ∙ ∙ ∙ y 0 x 0z 0组成。同样,由于我们的图表位于一个2D规则网格上,每个图表可以由一对整数(u,v)2 Z 2 索引,其2DMorton代码是整数M 2(u,v)= P B − 1 b =0(2 u b +v b)2 2 b,其二进制表示为u B − 1 v B − 1 ∙ ∙ ∙ u 0 v0。这些函数通过解复用位来实现反转。我们将体积位置(x,y,z)的占用块的图表映射到图集位置(u,v)= M − 12(rank(M 3(x,y,z))),其中rank是3DMorton代码在3DMorton代码列表中的排名,如图4(左)所示。请注意,当将它们的位交错到3DMorton代码中时,我们选择将y优先于x和z,因为y是我们坐标系中的垂直方向,以适应通常站立的人物形象。因此,只要块在3D空间中平滑移动,相应的补丁在图集中可能会平滑移动,从而导致近似的时空连贯性,从而实现更好的(视频)纹理压缩效果。06. 评估0为了评估我们的方法,我们依赖于Tang等人捕获的数据集[59],该数据集由不同主体的六个�500帧长的RGBD多视图序列组成,帧率为30Hz。我们将其中三个用于训练,其他的用于评估。我们还使用了Guo等人的“TheRelightables”数据集[26],该数据集包含更高质量的几何和更高分辨率的纹理贴图,共有三个�600帧的序列。为了展示基于学习的方法的泛化性,我们只在Tang等人的数据集[59]上进行训练,并在Tang等人的数据集[59]和Guo等人的数据集[26]上进行测试。H(S, ˆS) = max✓maxx∈Sv d(x, ˆS), maxy∈ ˆSvd(y, S)◆,(2)C(S, ˆS) =d(x, ˆS) +For each metric, we compute a final score averaging allvolumes, which we refer to as Average Hausdorff Distanceand Average Chamfer Distance respectively.Signs. We showcase the benefit of our data dependent prob-ability model on rate in Table 1. Raw sign data, thoughbeing binary, has an average size of 154.1KB per volume.With na¨ıvely computed probability of signs being positiveover the dataset, an arithmetic coder can slightly improvethe rate to 139.8 KB. This is because there are more positiveTSDF values than negative in the dataset. With our learned,data dependent probability model, the arithmetic coder candrastically compress the signs down to 2.9 KB per volume.Topology Masking. To demonstrate the impact of utilizingground truth sign/topology, we construct a baseline with a12980原始数据 朴素方法 我们的方法0平均大小/体积 155.1KB 139.8KB 2.9KB0表1:无损符号压缩:我们的数据驱动概率模型结合算术编码器,与基于数据集中符号统计的朴素概率模型相比,可以提高48倍的压缩率。0进行几何压缩的评估使用了两个不同的度量标准:Hausdorff度量(H)[11]通过以下方式测量(max)最坏情况的重建误差:06.1. 几何压缩0其中Sv和ˆSv分别是地面真实值和解码表面上的点集。d(x,S)是点x∈R3到表面S的最短欧氏距离。另一个度量标准是对称Chamfer距离(C):02 |Sv| X02 |ˆSv| X0y ∈ ˆ S v d ( y, S) 。 (3)0B P B n =1 k ˆ x n − x n k 2 2。这个基线在图5中被显示为“无拓扑掩码”。没有错误边界的情况下,其失真比其他基线高得多。第二个基线除了使用相同的失真项外,在推理过程中无损压缩和流式传输符号,如第4节所述。尽管由于无损压缩的符号而增加了速率,但这个0图5:拓扑掩码:当推理过程中应用拓扑掩码时,可以保证误差的上界。此外,当作为训练损失时,拓扑掩码可以产生更好的速率失真。这种差异在Hausdorff距离中更为明显,Hausdorff距离测量最坏情况下的误差。0(a)层数。0(b)不同的块大小。0图6:消融研究:(a)编码器和解码器中层数的增加可以提高性能,但随着模型大小的增加,收益递减。(b)较大的块大小在低速率下表现更好,而较小的块在较高速率下实现更好的折衷。0基线仍然实现了更好的速率失真折衷。最后,使用拓扑掩码进行训练和推理可以获得最佳的速率失真性能。消融研究。我们在图6中评估了网络架构对压缩的影响。虽然层数越多结果越好,但收益递减。为了保持模型大小实用,我们将模型限制为三层(<1.8MB)。我们还对块大小(体素/块)进行了消融研究。由于在所有体积中,体素大小为5mm,块大小为83的块的物理大小为40mm3。结果表明,如果每个体积的预算超过12KB,使用块大小830产生了更好的速率-失真性能。因此,在以下实验中,使用3个层和8个3个块。与最先进的方法进行比较。我们与最先进的几何压缩方法进行比较,包括两种体积方法:Tang等人[59]和JP3D[55];两种网格压缩:Draco[24]和自由视点视频(FVV)[13];以及点云压缩器MPEGVPCC[57]。请参阅补充材料中的参数。对于大多数方法,我们扫描速率超参数以生成速率-失真曲线。12990(a)数据集Tang等人[59]0(b)数据集Guo等人[26]0图7:定量比较-我们的方法在最先进技术中具有最佳的速率-失真性能。标有O的数据点被选择为具有相似速率且其失真在图10中进行了定性可视化。0参数以生成速率-失真曲线。数据集[26]包含高分辨率网格(�250K个顶点),这对Draco的压缩率产生了负面影响。因此,仅对于Draco,我们将网格减少到25K个顶点,称为Draco(减少),以使其与其他方法可比较。图7显示,在两个数据集上,我们的方法在速率和失真方面明显优于所有先前的方法。例如,为了达到相同的速率水平(在图7(b)中用O标记),我们的方法的失真(0.12)是Tang等人的50%[59](0.25)和Draco(减少)的14%(0.86)和MPEG(0.84)。为了达到相同的失真水平(0.25),我们的方法(26KB)只需要先前最佳性能方法Tang等人的33%[59](79KB)。为了展示失真的差异,我们选择了一些具有相似速率的定性示例,并在图10中进行了可视化:Draco(减少)的结果是低分辨率的,MPEGV-PCC的结果是噪声,而Tang等人的结果[59]则存在阻塞伪影。0效率。为了评估我们神经网络的复杂性,我们测量了编码器和解码器的运行时间。我们冻结图形并在单个NVIDIAPASCAL TITAN Xp GPU上使用Tensorflow C++接口运行它。我们的范围编码器实现是单线程CPU代码,因此我们仅包括神经网络推理时间。我们测量在单个体积的所有块上运行编码器和解码器的时间为20毫秒。06.2. 纹理压缩0我们将我们的纹理参数化与UVAtlas[71]进行了比较。为了展示Morton打包的好处,我们还有一个基于块的基准,其中使用了na ¨ıve的二进制打包,没有任何时空连贯性,如表2所示。为了保持目标数据集[26]的高质量,我们为所有实验生成了高分辨率纹理图(4096x4096)。每个序列的纹理图使用FFMpeg的H.264实现进行压缩,使用默认参数。不同方法的每帧压缩大小0图8:几何/定性-来自Guo等人的数据集的不同速率示例。(第一行)解压缩网格。(第二行)从解压缩顶点到地面真实表面的最短距离。距离在[0, 2.5mm]之间映射到红色通道上的[0, 255]。0图9:纹理/定性-来自补充视频中的比较序列的一帧:(左)来自相机的原始RGB图像;(中)使用UVAtlas[71]渲染;(右)使用我们的纹理图集渲染。质量上没有可见的差异。0ods报告显示纹理参数化如何影响压缩率。为了测量失真,将每个带有解压缩纹理图集的纹理体积渲染到用于构建体积的RGB相机的视点,并与相应的原始RGB图像进行比较。为了简单起见,我们只选择了10个视图(共58个),其中主体面部可见。在计算失真时,使用掩码确保只考虑前景像素,如图9所示。0方法 码率 PSNR SSIM MS-SSIM0UVAtlas [71] 457 30.9 0.923 0.939 我们的(Na¨ıve)529 30.9 0.924 0.939 我们的(Morton) 350 30.90.924 0.9400表2:纹理/定量-报告来自视频压缩的每个体积的平均KB作为码率。在不同的度量标准(PSNR,SSIM [67]和MS-SSIM[66])下失真几乎没有差异的情况下,我们的方法保持更好的时空一致性,因此具有更好的压缩率。请参阅补充视频中的定性结果13000图10:定性与最先进-选择具有相似速率但不同失真的示例,对应于图7(右侧)中的标记-所有情况下都使用平坦的Phong着色来显示伪影。为了达到与其他方法相同的比特率水平,Draco需要对输入进行降采样,从而导致低多边形重建。MPEG-VPCC仅压缩点云。Tang等人[59]存在可见的块伪影。我们的方法实现了最佳失真07. 结论0我们介绍了一种新颖的TSDF压缩系统及其相关纹理,实现了最先进的结果。对于几何图形,我们使用基于块的学习编码器-解码器架构,非常适用于存储TSDF的均匀3D网格。为了更好地训练,我们提出了一个新的失真项,以强调表面附近的损失。此外,TSDF的真实标志使用我们的学习模型进行无损压缩,以在解压缩过程中提供误差界限。对于纹理,我们提出了一种新颖的基于块的纹理参数化算法,鼓励时空一致性,无需跟踪和UV坐标压缩。因此,我们的方法在速率-失真方面表现更好0与先前的技术相比,我们的方法在失真为50%或失真固定时,Tang等人的比特率仅为33%。未来的工作。有许多有趣的研究方向。在我们的架构中,我们假设块是独立同分布的,放弃这种假设可能进一步增加压缩率-例如,可以设计一个特别适用于压缩“人形”几何图形的编码器。此外,我们没有利用4D序列中的时间一致性,而从视频压缩领域我们知道编码帧间知识可以显著提高压缩性能。最后,虽然我们的每个块纹理参数化是有效的,但它没有包含在我们的端到端训练流程中-可以学习每个块的参数化函数以最小化屏幕空间伪影[29] J. Kammerl, N. Blodow, R. B. Rusu, S. Gedikli, M. Beetz, and13010参考文献0[1] P. Alliez和C. Gotsman。3D网格压缩的最新进展。在N. A.Dodgson,M. S. Floater和M. A.Sabin编辑的《几何建模的多分辨率进展》中,第3-26页。Springer Berlin Heidelberg,Berlin,Heidelberg,2005年。20[2] Johannes Ball ´ e,Valero Laparra和EeroSimoncelli。端到端优化的图像压缩。在ICLR,2017年。2,3,4,130[3] Johannes Ball ´ e,David Minnen,Saurabh Singh,Sung JinHwang和NickJohnston。具有尺度超先验的变分图像压缩。ICLR,2018年。2,30[4] Mario Botsch,Leif Kobbelt,Mark Pauly,PierreAlliez和Bruno L´evy。多边形网格处理。CRC出版社,2010年。20[5] H. Brice ˜ no,P. Sander,L. McMillan,S. Gortler和H.Hoppe。几何视频:3D动画的新表示。在计算机动画研讨会上,2003年。20[6] Brent Burley和DylanLacewell。Ptex:用于生产渲染的面纹理映射。在第19届欧洲计算机图形学会议论文集,EGSR'08,页1155-1164,瑞士Aire-la-Ville,Switzerland,2008年。欧洲计算机图形学协会。50[7] Daniel-Ricao Canelhas,Erik Schaffernicht,TodorStoyanov,Achim J Lilienthal和Andrew JDavison。使用无监督学习的压缩体素基于体素的映射。机器人学,2017年。 20[8] Joel Carranza,Christian Theobalt,Marcus A.Magnor和Hans-PeterSeidel。人类演员的自由视点视频。ACM图形学交易,22(3):569-577,2003年7月。ISSN 0730-0301。 10[9] P.A. Chou,T. Lookabaugh和R.M.Gray。熵约束的矢量量化。IEEE声学、语音和信号处理期刊,37(1):31-42,1989年1月。 120[10] Philip A. Chou,Maxim Koroteev和MajaKrivoku´ca。一种体积方法用于点云压缩,第一部分:属性压缩。IEEE图像处理期刊,2019年3月。 20[11] Paolo Cignoni,Claudio Rocchini和RobertoScopigno。Metro:测量简化表面的误差。cgf,1998年。 60[12] R. A. Cohen,D. Tian和A.Vetro。使用图形变换对稀疏点云进行属性压缩。在IEEE国际图像处理会议(ICIP)上,2016年9月。 20[13] Alvaro Collet,Ming Chuang,Pat Sweeney,Don Gillett,DennisEvseev,David Calabrese,Hugues Hoppe,Adam Kirk和SteveSullivan。高质量可流式自由视点视频。ACM图形学交易(TOG),2015年。 2 , 6 , 130[14] T.M. Cover和J.A. Thomas
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功