没有合适的资源?快使用搜索试试~ 我知道了~
1从运动重建1SanjeevJ. Koppal 1星炳康2Sudipta N. 辛哈21佛罗里达大学2微软研究院(a)SfM点云(俯视图)(b)投影3D点(c)合成图像(d)原始图像图1:从S F M点云合成图像:从左到右:(a)室内场景的SfM重建的顶视图,(b)投影到与源图像相关联的视点中的3D点,(c)使用我们的技术重建的图像,以及(d)源图像。重建的图像非常详细,与源图像非常相似。摘要许多3D视觉系统使用3D点云在场景内定位相机这种点云通常使用运动恢复结构(SfM)获得,之后图像被丢弃以保护隐私。在本文中,我们表明,第一次,这样的点云保留足够的信息,以揭示场景的外观和妥协pri- vacy。我们提出了一个隐私攻击,重建彩色图像的场景从点云。我们的方法是基于一个级联的U-Net,它将从特定视点渲染的点的2D多通道图像作为输入,该点包含点深度和可选的颜色和SIFT描述符,并从该视点输出场景的彩色图像。与之前的特征反演方法[46,9]不同,我们处理高度稀疏和不规则的2D点分布和输入,其中许多点属性丢失,即关键点方向和比例、描述器图像源和3D点可见性。我们在公共数据集上评估了我们的攻击算法[24,39],并分析了点云属性的重要性。最后,我们表明,也可以产生新颖的意见,从而使令人信服的虚拟旅游的底层场景。1. 介绍基 于 ARCore [2] , ARKit [3] , 3D 映 射 API [1] 和HoloLens [15]等新设备的移动设备上的新兴AR技术已经为我们家中配备始终在线摄像头的设备的工作场所和其他敏感环境。基于图像的定位技术允许此类设备估计其在场景内的精确姿态[18,37,23,25]。然而,这些定位方法需要持久存储场景的3D模型,其中包含使用图像和SfM算法重建的稀疏3D点云[38]。SfM源图像通常被丢弃以保护隐私。然而,令人惊讶的是,我们表明SfM点云和相关属性(如颜色和SIFT描述符)包含足够的信息来重建场景的详细可理解图像(见图1)。1和图(3)第三章。这表明,持久性点云存储带来了严重的隐私风险,到目前为止,这些风险一直被广泛忽视,但随着本地化服务被更大的用户社区采用,这些风险将变得越来越重要。虽然已经研究了可穿戴设备的隐私问题[16],但据我们所知,从未报道过存储3D点云地图的隐私风险的系统分析。我们说明了隐私的关注,提出的问题,合成彩色图像的SfM模型的场景。我们假设重建的模型包含一个稀疏的3D点云,具有可选的属性,如描述符,颜色,点可见性和关联的相机姿势,但不是源图像。我们做出以下贡献:(1)介绍了从任意视点反演稀疏SfM点云并重建场景细节视图的问题。这个问题不同于以前研究的单图像特征反演问题,因为需要处理高度稀疏的点分布和145146输入中的较高程度的丢失信息,即未知的关键点方向和尺度、未知的描述符的图像源以及未知的3D点视觉。(2)我们提出了一种基于三个神经网络的新方法,其中第一个网络执行可见性估计,第二个网络重建图像,第三个网络使用对抗框架进一步细化图像质量。(3)我们系统地分析了利用可能可用的附加属性(即,每点描述符、颜色以及关于源相机姿势和点的信息)的反转攻击的可见性,并表明即使是最低限度的表示(仅描述符)也容易受到攻击。(4)我们证明了开发隐私保护3D表示的必要性,因为重建的图像非常详细地揭示了场景,并证实了攻击的可行性。大范围的场景。我们还表明,新的观点的场景可以合成,没有任何额外的努力,一个引人注目的虚拟旅游的场景可以很容易地生成。我们级联中的三个网络在700多个室内和室外SfM重建上进行了训练,这些重建是从NYU 2 [39]和MegaDepth [24]数据集拍摄的50万多视图图像中生成的。所有三个网络的训练数据(包括可见性标签)均使用COLMAP自动生成[38]。接下来,我们将我们的方法与以前的反相图像特征[46,9,8]的工作进行比较,并讨论如何反相SfM的问题模型提出了一系列独特的挑战。2. 相关工作在本节中,我们回顾了现有的反相图像特征的工作,并将其与反相SfM点云模型进行了对比。然后,我们广泛地讨论图像到图像的transla-灰,上采样和插值,以及隐私攻击。反转特征。已经探索了从特征重建图像的任务以理解由特征编码的内容,如Weinza-epfel等人针对SIFT特征所做的。[46],HOG功能由Vondrick等人。[25]《易经》:“君子之道,焉可诬也?有始有卒者,其惟圣人乎!”,13.14冉子退朝。最近关于该主题的工作主要集中在反转和解释CNN特征[49,48,29]。Dosovitskiy和Brox提出了用于反转许多不同特征的编码器-解码器CNN架构(DB 1)[9],后来将对抗训练与感知损失函数(DB2)结合起来[8]。虽然DB1 [9]在反演稀疏SIFT方面显示了一些定性结果与这些特征反演方法相反,我们只关注与SfM点云一起存储的SIFT描述符的反演虽然选择视点上的投影3D点可能类似于单个图像SIFT特征,但存在一些关键差异。首先,我们的输入2D点分布可能是高度稀疏和不规则的,这是由于SfM点云的典型固有稀疏性。其次,SIFT关键点尺度和方向是未知的,因为SfM方法仅保留3D点的描述符第三,每个3D点通常仅具有从任意源图像采样的一个描述符,该任意源图像的身份也未被存储,这导致描述符具有未知的透视畸变和光度不一致性。最后,三维点的可见性也是未知的,我们将证明可见性推理的重要性,在本文中。图 像 到 图 像 翻 译 。 各 种 方 法 , 如 Pix2Pix [19] ,CycleGan [50],CoGAN [27]和相关的联合国。监督方法[7,26,34]使用条件对抗网络在2D表示之间进行转换,例如边缘到颜色,标签到颜色以及白天到夜间图像。虽然这种网络通常是密集的(没有孔),通常是低维的(单通道或RGB),但Contour2Im [5]采用沿梯度采样的稀疏2D点与我们的工作相反,这些方法是在特定的对象类别和语义相似的图像上训练的。虽然我们使用与这些方法类似的构建块(编码器-解码器网络,U网,对抗损失和感知损失),但我们的网络可以推广到任意图像,并在大规模室内和室外SfM数据集上进行上采样。当输入和输出域相同时,深度网络在图像、视差、深度图和活动范围图的上采样和超分辨率任务上显示出出色的结果[4,28,43,36,17]。然而,现有的上采样方法通常集中在具有均匀稀疏性的输入上。由于输入数据中的非均匀空间采样,我们的方法不同,由于输入描述符来自不同的源图像和视点,因此输入数据也可能是高维和噪声的。新颖的视景合成与影像绘制。深度网络可以显着提高基于图像的自由视点渲染中的照片真实感[12,14]。此外,一些工作还探索了使用U网的单目深度估计和新颖视图合成[11,24,31]。我们的方法可以说提供了类似的真实感视觉质量从隐私的角度来看,这是令人失望的消息,但在其他设置中可能有用,用于从3D重建生成逼真的图像。基于CNN的隐私攻击和防御技术。最近,McPherson etal.[30] Vasiljevic et al.[44]表明,深度模型可以击败现有的图像模糊方法。此外,许多图像变换可以被认为是添加噪声和消除噪声,在这里深度网络已经非常成功[47]。为了防御基于CNN的攻击,学习抗CNN转换的尝试已经显示出一些147承诺[33,10,35,13]。与我们的工作同时,Specialeet al.[41]介绍了隐私保护基于图像的定位问题,以解决我们提出的隐私问题。他们提出了一种新的相机姿态估计技术,使用地图几何的模糊表示,可以抵御我们的反转攻击。3. 方法输入到我们的管道是从SfM 3D点云模型生成的特征图,给定一个特定的视点,即。一组相机外部参数。我们通过将3D点投影到图像平面上并将3D点属性(SIFT描述符、颜色等)相关联来获得该特征图。其中3D点投影在图像中的离散2D像素。当多个点投影到同一个像素时,我们保留最接近相机的点的属性并存储其深度。我们训练了一个级联的三个编码器-解码器神经网络,用于可见性估计,粗图像重建和最终的细化步骤,该步骤恢复重建图像中的细节。可见性估计。由于SfM 3D点云是十分稀疏的,并且场景中表面的底层几何形状和拓扑结构是未知的,因此不可能仅使用z缓冲来容易地确定哪些3D点应该被认为是从特定相机视点可见的。这是因为可能尚未在前景遮挡表面上重建足够数量的3D点。这在输入特征图中产生与背景中的3D点相关联的2D像素,即,位于从该视点被遮挡的表面上。从特征图中识别和移除这些点对于生成高质量图像和避免视觉伪影至关重要。我们建议使用数据驱动的基于神经网络的方法来恢复点的可见性,我们称之为VISIB NET。我们还评估了两个几何方法,我们称为VISIB SPARSE和VISIB DENSE。然而,这两种几何方法都需要额外的信息,而这些信息可能是不可用的。粗图像重建与细化。我们的技术,nique从特征图的图像合成包括一个粗略的图像重建步骤,其次是细化步骤。COARSE NEET以输入特征图为条件,并产生与特征图相同宽度和高度的RGB图像。REFINENET输出具有相同大小的最终彩色图像,给定输入特征图连同COARSENET的图像输出作为其输入。3.1. 可见性估计如果我们没有在我们的流水线中执行显式可见性预测,图像合成网络COARSENET仍然会执行一定程度的隐式可见性推理。理论上,这个网络可以访问输入深度和可以学习的原因有关的能见度。然而,在实践中,我们发现这种方法是不准确的,特别是在输入特征图包含可见点与遮挡点的低比率的区域中。这些故障情况的定性示例如图5所示。因此,我们探索了基于几何推理和学习的显式可见性估计方法。可见稀疏。我们探索了一种简单的几何方法,我们称之为VISIB SPARSE。它基于计算机图形学中使用的“点溅射”范例。通过仅考虑输入中的深度通道,我们应用最小滤波器在特征图上使用k×k内核以获得过滤深度图在这里,我们使用基于经验检验的k=3。 特征图中深度值为no滤波后的深度图中大于5%的深度值否则,该点被视为被遮挡,并且输入中的关联条目被移除。VisibDense。当SfM期间计算的源图像的相机姿态和图像测量值与3D点云一起存储时,通常可以利用该数据来计算密集场景反射。Labatut等人[21]提出了这样一种方法,通过在稀疏SfM点的3D Delaunay三角剖分的四面体单元上运行空间雕刻来计算密集三角网格。我们使用这种方法,在COLMAP [38]中实现,并使用传统的z缓冲基于重建的网格模型计算3D点可见性。VisibNet。当SfM相机姿态和图像测量不可用时,不能使用诸如VISIB DENSE的几何方法。因此,我们提出了一种通用的基于回归的方法,该方法直接从输入特征图预测可见性,其中预测模型使用监督学习进行训练。具体来说,我们训练了一个编码器-解码器神经网络,我们称之为VISIBNET,将每个输入点分类为通过在所有培训、测试和验证场景中利用VISIBDENSE自动生成地面实况可见性标签。在运行COARSE_NET之前使用VISIB_NET3.2. 架构图 2 中 显 示 了 一 个 输 入 特 征 图 示 例 以 及 由VISIBNET、COARSENET和REFINENET组成的完整网络架构。输入到我们的网络是一个H×W×n维特征映射,由n维特征向量组成,在每个2D位置的深度,颜色和SIFT功能的国家。除了输入/输出通道的数量外,148222nD输入张量z RGB SIFT描述符=编码器解码器层nD输入VisibNet可见地图CoarseNetRGB图像RefineNetRGB图像(输图2:网络架构:我们的网络有三个子网络 左上角显示我们网络的输入是一个多维nD数组。本文探讨了网络变体,其中输入是深度,颜色和SIFT描述符的不同子集这三个子网具有相似的架构。它们是具有对称跳跃连接的编码器和解码器层的U形网。解码器层末尾的额外层(标记为橙色)用于帮助处理高维输入。详见正文和补充材料。在第一/最后层中,每个子网络具有相同的架构,该架构由具有一系列具有跳过连接的编码器-解码器层的U形网组成。与传统的U型网相比这些额外的层促进了来自低级特征的信息的传播,特别是从SIFT描述符提取的信息,经由到输出中的较大像素区域的跳过连接,同时还帮助衰减由这些特征的高度稀疏和不规则分布引起的视觉伪影我们使用最近邻上采样,然后是标准卷积,而不是转置卷积,因为后者已知会产生伪影[32]。3.3. 优化我们分别训练我们架构中的子网络,VISIBNET,COARSENET和REFINENET。批次正常-其中V:RH×W×N→RW×H×1表示一个表示V ISIB NET 的 可 学 习 函 数 , 具 有 可 学 习 的参 数 , Ux∈RH×W×1表示特征图Fx的地面真实可见性图,求和是在Fx中M个非零空间位置的集合上进行的。接下来使用L1像素损失和L2感知损失的组合(如[22,8]中所述)对VGG 16 [40]的层relu 1 1,relu 22和relu 3 3的输出进行训练,以用于Im-ageNet [6]数据集上的图像分类VISIB NET的权重保持固定,而COARSENET使用损失进行Σ3LC= ||C(Fx)− x||1+ α ||φi(C(Fx))− φi(x)||二、(二)i=1其中C:RH×W×N→RH×W×3表示表示COARSE NET的可微函数,具有可学习的参数。除了每层中的最后一层之外,每层中都使用了化。网络 我们应用Xavier初始化和投影eters和φ1:RRH×W×128高×宽×3 →RH×W×64高×宽×3,φ2:RH×W×3→高×宽×2564 4 ,φ3:R→R8 8表示在运行中生成,以便于数据扩充在训练期间以及在训练之后产生新视图。首先训练VISIB NET将特征图点分类为可见或被遮挡,使用通过为所有训练、测试和验证样本运行VISIBDENSE自动生成的地面实况可见性掩模。 给定训练对在输入特征图Fx∈RH×W×N和目标源图像x∈RH×W×3中,VISIBNET你好。Σ分别是预训练的VGG 16网络的层relu 1 1、relu 22和relu 2 2最后使用L1像素损失、与COARSE NEET相同的L2感知损失和对抗性损失的组合来训练REFINE NEET。在训练REFINE NEET时,VISIB NEET和COARSE NEET的权重保持不变。对于对抗训练,我们使用了一个条件判别器,其目标是区分用于生成SfM模型的真实源图像和图像同步。LV(x)= −i=1Uxlog(V(Fx)+1)/2 +.ΣΣ(1−Ux)log(1−V(Fx))/2i,(一)作者:REFINE NET 训练师使用交叉熵损失类似于等式(一).此外,为了稳定 对抗性 培训 φ1(R(Fx))1, φ2(R(Fx))1,以及1492Desc.Src.进口壮举.D O S百分之二十Mae百分之六十百分百百分之二十SSIM百分之六十百分百SiCCC.126.105.101.539.605.631SiCC×.133.111.105.499.568.597SiC×C.129.107.102.507.574.599SiC××.131.113.109.477.550.578MC××.147.128.123.443.499.524表 一曰:INVERTING SINGLE IMAGE SIFTFEATURES:顶部四行比较为单个图像(Si)输入的不同子集设计的网络:描述符(D)、关键点方向(O)和尺度(S)。测试误差(MAE)和准确度(SSIM)时获得的20%,60%和所有的SIFT功能。较低的MAE和较高的SSIM值更好。最后一行用于描述符源自多个(M个)不同且未知的源图像时。φ3(R(Fx))1在卷积层的第一,第二和第三个卷积层之前级联,如[42]中所做。表示为R()的REFINENET具有以下损失。Σ3表2:VISIBNET的E评估:我们训练了VISIBNET的四个版本,每个版本都有一组不同的输入属性,即z(深度)、D(SIFT)和C(颜色),以评估它们的相对重要性。使用VisibDense获得地面实况标签该表报告了NYU和MD数据集测试集的平均分类准确度。结果表明,VISIBNET在MD和NYU上分别达到了93.8%和89.2%以上的准确率,并且对稀疏度和输入属性不太敏感。将场景划分为训练、验证和测试LR=||R(Fx)−x||1+ αi=1||2||2(三)分别有441、80和139个场景。一个场景的所有图像仅包括在三组中的一组中。+β[log(D(x))+log(1 − D(R(Fx)]。这 里 , 两 个 函 数 R : RH×W×N+3→RH×W×3 和 D :RH×W×N+3→R表示REFINE NEET和R的可微函数。实际上,使用可学习的参数。我们训练REFINE NEET通过对REFINE NEET和R_R应用交替梯度更新来最小化LR梯度是在小批量的训练数据上计算的,不同的批次用于更新REFINENET和RET。4. 实验结果我们现在报告我们的方法的系统评价。我们的一些结果定性总结在图。3,展示了对各种挑战的鲁棒性,即点云中的缺失信息,我们的可见性估计的有效性,以及输入样本在各种场景中的稀疏和不规则分布。数据集。我们在实验中使用MegaDepth [24]和NYU [39]数据集。MegaDepth(MD)是一个互联网图像数据集,包含从Flickr获得的196个地标场景的150k图像。NYU包含了Kinect拍摄的464个室内场景的40万张图像(我们只使用了RGB图像)。这些数据集涵盖非常不同的场景内容、图像分辨率,并生成非常不同的SfM点和相机姿态的分布。通常,NYU场景产生的SfM点远少于MD场景。预处理。我们使用COLMAP中的SfM实现处理了MD和NYU的660个场景[38]。我们我们使用平均绝对误差(MAE)报告结果平均结构相似度(SSIM)注意,较低的MAE和较高的SSIM值表示较好的结果。反转单个图像SIFT特征。考虑单个图像场景,具有微不足道的可见性估计和与[9]相同的输入。我们在这种情况下进行了消融研究,测量了具有未知关键点尺度、方向和多个未知图像源的反转特征的效果训练了COARSENET结果如表1和图4所示。表1报告了MD和NYU组合数据集的MAE和SSIM。稀疏百分比是指有多少随机选择的功能保留在输入中,我们的方法处理范围广泛的稀疏性相当不错。 从图4中的例子中,我们观察到网络在反转具有未知方向和规模的特征时具有惊人的鲁棒性;虽然准确度如预期的那样下降了一点,但是重构的图像仍然是可识别的。最后,我们量化未知和不同的图像源的SIFT特征的影响。表1的最后一行表明,特征反演问题确实变得更难,但结果仍然非常好。在证明了我们的工作解决了一个比以前解决的更难的问题之后,我们现在报告反演SfM点及其特征的结果。4.1. 可见性估计我们首先独立评估拟议的V ISIBNET模型的性能,并将其与geomet进行比较,数据进口壮举.Z D C百分之二十精度百分之六十百分之一百C××.948.948.946MDCC×CC×.938.949.943.951.941.948CCC.952.952.950C××.892.907.908纽约CC×CC×.897.895.908.907.910.909150图3:QUALITATIVE RESULTS:每个结果都是一组3×1的正方形图像,显示点云(红色为遮挡点),图像重建和原始图像。前四列(顶部和底部)显示来自MegaDepth数据集(互联网场景)的结果稀疏性:我们的网络处理各种各样的输入稀疏性(密度从左到右递减)。此外,透视投影突出了空间变化的密度差异,并且MegaDepth室外场景在输入中具有集中点,而纽约大学的室内场景有很远的样本。此外,输入点是非均匀的,有很大的洞,我们的方法优雅地填充。视觉效果:对于前四列(MD场景),我们的结果给出了均匀照明的令人愉快的效果(见第一列的顶部)。由于我们的方法依赖于SfM,因此无法恢复移动对象。场景多样性:第四列是航空照片,这是一个不寻常的类别,仍然恢复良好。对于最后四列(纽约大学场景),尽管稀疏度较低,但我们可以恢复常见家庭场景(如浴室,教室和卧室)中的纹理。多样性表明,我们的方法不学习对象类别,并适用于任何场景。可见性:所有场景都受益于使用VISIB NET的可见性预测,例如,这对于钟的例子至关重要(第二列下方)。ric方法VISIB SPARSE和VISIB DENSE。我们训练了针对输入属性的不同子集设计的VISIBNET我们分别在MD和NYU测试集上报告分类准确性,即使网络是在组合训练集上训练的(见表2)。我们观察到,VISIB NET在很大程度上是不敏感的场景类型,稀疏水平,并选择输入属性,如深度,颜色和描述符。针对深度设计的VISIB NET变量仅具有94.8%和89.2%的平均值MD和NYU测试集上的分类精度,分别,即使只有20%的输入样本用于模拟稀疏输入。表3示出了当被预测为被VISIB_NE_ET遮挡的点从到C_OARSE_NE_ET的输入中移除时,我们观察到与承载可见性和图像合成两者的负担的C_OARSE_NE_ET(在表中表示为隐式虽然改进在数字上看起来并不大,但在图5中,我们展示了删除了视觉伪像(上面是书架,下面是建筑物)的插图。151(a) 输入(b)SIFT(c)SIFT + s(d)SIFT + o(e)SIFT + s + o(f)原始图4:单个图像中的反转移位特征:(a)2D关键点位置。用(b)仅描述符、(c)描述符和关键点比例、(d)描述符和关键点方向、(e)描述符、比例和方向获得的结果。(f)原始图像。仅使用描述符(第2列)的结果仅比基线(第5列)稍差。(a)输入(b)预测(VisibNet)(c)隐式(d)VisibNet(e)VisibDense(f)原始图5:可见性估计的重要性:示例示出了(a)输入2D点投影(蓝色),(b)来自VISIBNET-4.2. 点属性我们训练了COARSENET的四个变体,每个变体都具有不同的可用SfM点属性集。这里的目标是衡量每一个属性的相对重要性该信息可用于决定在存储SfM模型时应移除哪些可选属性以增强隐私。我们在表4中报告了室内(NYU)和室外场景(MD)测试集上各种稀疏度水平的重建误差,并在图6中显示了测试集上的定性评估。结果表明,我们的方法在很大程度上是不变的稀疏性,并能够捕捉非常精细的细节,即使输入的特征图只包含深度,虽然,并不奇怪,颜色和SIFT描述符显著提高视觉质量。4.3. RefineNet的意义在图7中,我们定性地比较了两个场景,其中特征图只有深度和描述符(左),而当它具有所有属性时(右)。对于隐私保护来说,这些结果是发人深省的。虽然表4示出了当颜色下降时COARSENET挣扎(建议为了隐私而去除颜色的简单解决方案),但图7(左)不幸地示出了REFINENET恢复了合理的颜色并大大改善了结果。当然,在所有特征上训练的REFINENET也 比 COARSENET 更 好 , 尽 管 没 有 那 么 明 显 ( 图 7(右))。152数据可见性Est.百分之二十Mae百分之六十百分百百分之二十SSIM百分之六十百分百隐式.201.197.195.412.436.445MD可见稀疏VisibNet.202.201.197.196.196.195.408.415.432.440.440.448VisibDense.201.196.195.417.442.451隐式.121.100.094.541.580.592纽约大学可见稀疏VisibNet.122.120.100.098.094.092.539.543.579.583.592.595VisibDense.120.097.090.545.587.600表3:电压刺激的重要性:子表显示了使用IMPLICIT获得的结果,没有明确的遮挡推 理 , 其 中 可 见 性 估 计 的 负 担 隐 含 地 落 在COARSENET、VisibNet和几何方法VISIB SPARSE和VISIBDENSE上。较低的MAE和较高的SSIM值更好。数据进口壮举.Z D C百分之二十Mae百分之六十百分百百分之二十SSIM百分之六十百分百C××.258.254.253.264.254.250MDCC×CC×.210.228.204.223.202.221.378.410.394.430.403.438CCC.201.196.195.414.439.448C××.295.290.289.244.209.197纽约大学CC×CC×.148.207.121.179.111.171.491.493.528.528.546.539CCC.121.099.093.542.582.594表4:点属性的影响:为不同输入属性–在训练和测试过程中,通过对输入样本施加随机丢弃来模拟输入稀疏性。z z + D z + C z + D + C orig图6:点A属性的影响:用不同属性获得的结果。从左到右:深度[z],深度+ SIFT [z + D],深度+颜色[z + C],深度+SIFT+ color [z + D + C]和原始图像。(参见表4)。4.4. 一种新的视图合成方法我们的技术可以用来轻松地生成逼真的场景的新颖的意见在定量评估153z + D z + D + C图第七章:一、重要性的REFINE NET:(Top行)COARSE NET结果。(底行)REFINE NET结果。(左)网络使用深度和描述符(z + D)。(右)网络使用深度、描述符和颜色(z + D + C)。图8:NOVEL VIEW SSYNTHESIS:从两个纽约大学场景中的虚拟视点合成的图像[39]有助于解释混乱的场景(参见补充视频)。这样的结果是更困难的(与我们的实验相反,其中对准的真实相机图像是可用的),我们在图8中示出了定性结果,并基于合成的新颖视图1生成虚拟游览。这种新颖的基于视图的虚拟游览可以使得场景解释对于攻击者更容易,即使当图像包含一些伪影时。5. 结论本文介绍了一个新的问题,即稀疏SfM点云的反演和重建底层场景的彩色图像。我们证明了可以从存储的有限信息量以及稀疏的3D点云模型中重建出令人惊讶的高质量图像我们的工作突出了与存储3D点云相关的隐私和安全风险,以及开发隐私保护点云表示和相机定位技术的必要性,其中持久场景模型数据不能轻易地被反转以揭示底层场景的外观。这也是隐私保护摄像机姿态估计[41]的并行工作的主要目标,该工作提出了对我们论文中研究的攻击类型的防御。未来工作的另一个有趣的途径将是探索隐私保护功能,以恢复图像和3D模型之间的对应关系。1看补充材料中的视频。154引用[1] 6D.AI. http://6d.ai/,2018年。1[2] ARCore。developers.google.com/ar/,2018年。1[3] ARKit。developer.apple.com/arkit/,2018年。1[4] Z. Chen,V.Badrinarayanan,G.Drozdov和A.拉比诺维奇。从RGB和稀疏感测估计深度。在ECCV中,第167-182页,2018年。2[5] T.德克尔角甘氏D.克里希南角Liu和W. T.自由人.智能,稀疏轮廓表示和编辑图像.在CVPR,2018年。2[6] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。ImageNet:一个大规模的分层图像数据库。CVPR,第248-255页,2009。4[7] J. 多 纳 休 山 口Kr aühenbuühl 和 T. 达 雷 尔 。adversarialfeature-ture learning.在ICLR,2017。2[8] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有视觉相似性度量的图像神经信息处理系统的进展,第658-666页,2016年。二、四[9] A. Dosovitskiy和T.布洛克斯使用卷积网络反转视觉在CVPR中,第4829-4837页,2016年。一、二、五[10] H. Edwards和A.史托基审查与对手的陈述。ICLR,2016年。3[11] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展,第2366-2374页,2014年。2[12] J. Flynn,I. Neulander,J. Philbin和N.很聪明深立体声:学习从世界的图像中预测新的观点。在CVPR中,第5515-5524页,2016年。2[13] J.哈姆。极小极大滤波器:学习保护隐私免受推理攻击。机器学习研究杂志,18(1):4704-4734,2017。3[14] P. Hedman , J.Philip , T.Price , J. -M. Frahm ,G.Drettakis,以及G. 布 罗斯 托 自 由视 点 图 像渲 染 的 深度 混 合。 ACMTransactions on Graphics(SIGGRAPH Asia ConferenceProceedings),37(6),2018年11月。2[15] 全 息 眼 镜 https://www.microsoft.com/en-us/hololens,2016. 1[16] J. Hong。在谷歌眼镜的背景下考虑隐私问题。Commun.ACM,56(11):10-11,2013. 1[17] T.- W.许角,澳-地C. Loy和X.唐深度图超分辨率的深度多尺度指导。 在ECCV,2016年。 2[18] A.伊尔沙拉角扎克,J。M. Frahm和H.比肖夫从运动恢复结构点云到快速位置识别。在CVPR,第2599-2606页,2009年。1[19] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR中,第1125-1134页,2017年。2[20] H. Kato 和T. 原 田 。 基 于 视 觉 词 袋 的 图像 重 建 。 在CVPR,第955-962页,2014年。2[21] P. Labatut,J.- P. Pons和R.克里文使用兴趣点、De-launay三角剖分和图切割的大规模场景的高效多视图重建ICCV,第1-8页,2007年。3155[22] C. 莱迪格湖Theis,F.Husza'r,J.Caballero,A.坎宁安A.阿科斯塔A.艾特肯A. Tejani,J. Totz,Z. wang等人使用生成对抗网络的照片级真实感单幅图像超分辨率。在CVPR中,第4681-4690页,2017年。4[23] Y. Li,N. Snavely,D. Huttenlocher和P.呸使用三维点云的全球姿态估计。在《欧洲共同体刑法典》第15- 1929. Springer,2012. 1[24] Z. Li和N.很聪明Megadepth:从互联网照片中学习单视图深度预测。在计算机视觉和模式识别(CVPR),2018年。一、二、五[25] H. 林,S。N. Sinha,M.F. 科恩,M。Uyttendaele,以及H. J. Kim. 基于单目图像的实时6-dof定位。国际机器人研究杂志,34(4- 5):476-492,2015。1[26] M.- Y. Liu,T. Breuel和J.考茨无监督图像到图像翻译网络。神经信息处理系统,第700-708页,2017年。2[27] M.- Y. Liu和O.图泽尔耦合生成对抗网络。神经信息处理系统的进展,第469-477页,2016年。2[28] J. Lu和D.福赛斯 稀疏深度超分辨率。 在CVPR,第2245-2253页,2015年。2[29] A. Mahendran和A.维达尔迪通过反转它们来理解深度图像表示。在CVPR中,第5188- 5196页,2015年。2[30] R.麦克弗森河 Shokri和V.什马季科夫 用深度学习击败图像模糊。arXiv预印本arXiv:1609.00408,2016。2[31] M. Moukari,S.皮卡德湖Simoni和F.朱丽用于单目深度估计的深度多尺度架构。在ICIP,第2940-2944页,2018年。2[32] A. Odena,V. Dumoulin和C.奥拉反卷积和棋盘式伪影。Distill,2016. 4[33] F. Pittaluga,S.Koppal和A.查克拉巴蒂通过对抗训练学习2019年IEEE计算机视觉应用冬季会议(WACV),第791-799页。IEEE,2019。3[34] X. 齐,阿根-地陈,J.Jia和V.科尔顿。半参数图像合成。在CVPR中,第8808-8816页,2018年。2[35] N. Raval,A. Machanavajjhala和L. P. Cox使用对抗性网络保护视觉秘密在CV-COPS 2017中,CVPR研讨会,第1329-1332页3[36] G. Rie gle r,M. R uüther和H. 比肖夫TGV网络:精确的深度超分辨率。在ECCV,第268-284页,2016年。2[37] T.萨特勒湾Leibe和L.科比特使用直接2d到3d匹配的基于 图 像 的 快 速 定 位 。 载 于 ICCV , 第 667-674 页 。IEEE,2011年。1[38] J. L. S chonbe r ger和J. - M. 弗拉姆结构从运动重新审视。在CVPR,第4104-4113页,2016年。一、二、三、五[39] N. Silberman,D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。ECCV,2012年。一、二、五、八[40] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年,国际会议。4156[41]P. Speciale,J.L. Sch onbe rger,S.B. 康,S.N. 辛哈,还有M.波勒菲斯 隐私保护的基于图像的定位。arXiv预印本arXiv:1903.05572,2019。三、八[42] D. Sungatullina、E. Zakharov,D. Ulyanov和V.冷天。使用知觉鉴别器的图像处理。参见ECCV,第579-595页,2018年。5[43] J. Uhrig,N.施奈德湖施奈德U. Franke,T. Brox和A.盖革稀疏不变CNN。在3D视觉国际会议(3DV),第11-20页,2017年。2[44] I. Vasiljevic,A. Chakrabarti,G.沙赫纳洛维奇用卷积网络 检 验 模 糊 对 识 别 的 影 响 arXiv 预 印 本 arXiv :1611.05760,2016年。2[45] C. Vondrick,A. Khosla,T. Malisiewicz和A.托拉尔巴Hoggles:可视化对象检测功能。在CVPR,第1-8页,2013年。2[46] P. Weinzaepfel,H. J e′ gou和P. 佩雷斯。从局部描述符重建在CVPR,第337-344页,2011年。一、二[47] L. 徐,J.S. 伦角,澳-地Liu和J.贾用于图像去卷积的深度卷积神经信息处理系统进展,第1790-1798页,2014年。2[48] J. Yosinski,J. Clune,A.阮氏T. Fuchs,和H。利普森通过深度可视化理解神经网络。ICML深度学习研讨会,2015年。2[49] M. D. Zeiler和R.费格斯。可视化和理解卷积网络。见ECCV,第818Springer,2014. 2[50] J. - Y. Zhu,T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对在CVPR中,第2223-2232页,2017年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功