没有合适的资源?快使用搜索试试~ 我知道了~
5898RL-GAN-Net:一种基于强化学习Agent控制的GAN网络实现点云形状的实时补全MuhammadSarmad KAIST韩国sarmad@kaist.ac.krHyunjoo Jenny Lee韩国hyunjoo. kaist.ac.krYoung MinKimJakistan,SNU韩国youngmin.kim邮件snu.ac.kr摘要我们提出了RL-GAN-Net,其中强化学习(RL)代理提供了对生成对抗网络(GAN)的快速和鲁棒控制我们的框架被应用于点云形状完成,通过控制GAN将噪声,部分点云数据转换为高保真的完整形状虽然GAN是不稳定的,难以训练,但我们通过以下方式规避了这个问题:(1)在潜在空间表示上训练GAN,与原始点云输入相比,该潜在空间表示的维度减少了,以及(2)使用RL代理来找到GAN的正确输入,以生成最适合不完整点云当前输入的形状的潜在空间表示。所提出的流水线能够鲁棒地完成大面积缺失区域的点云。据我们所知,这是第一次尝试训练RL代理来控制GAN,它有效地学习了从GAN的输入噪声到点云的潜在空间的高度非线性映射RL代理取代了对复杂优化的需求,从而使我们的技术实时。此外,我们证明了我们的管道可以用来提高点云与丢失数据的分类精度地面实况(GT)AERL-GAN-Net中的PRL-GAN-Net和GT1. 介绍从激光扫描仪、立体重建或RGB-D相机获取3D数据都由于有限的视角、遮挡、传感器分辨率或无纹理区域(立体重建)或镜面材料中的不稳定测量,原始输出通常遭受大的缺失区域。为了利用这些测量结果,进一步的后处理是必不可少的,包括配准、去噪、恢复、语义理解以及最终重建3D网格模型。在这项工作中,我们专注于填补缺失的区域共同通讯作者图1:给定输入数据缺失70%的原始点,点云形状完成的定性结果。我们提出了RL-GAN-Net,它观察一部分输入点云数据(Pin),并在几毫秒内完成形状。即使当输入严重失真时,与使用自动编码器(AE)的先前方法相比,我们的方法也以高保真度完成了形状[1]。在3D数据中通过数据驱动的方法。获取的测量值的主要形式是非结构化和无序的3D点云因此,不可能直接应用传统的卷积神经网络(CNN)方法,其对于结构化数据(例如,对于像素的2D网格[20,21,5]。CNN在3D中的扩展已被证明可以很好地与3D体素网格一起工作[37,7,8]。然而,计算成本增长德拉斯-5899图2:形状完成网络的前向传递。 通过观察编码的部分点云,我们的RL-GAN-Net选择为潜在GAN提供适当的输入,并为形状生成干净的编码。对合成的潜在表示进行解码,以实时获得完整的点云。在我们的混合版本中,机器人最终选择最佳形状。由于3D空间的立方性质,最近,PointNet [33]使直接处理点云数据成为可能,尽管其具有非结构化和排列不变的性质。这为将点云数据而不是体素用于当代计算机视觉应用开辟了新的途径,例如,分割,分类和形状完成[1,15,34,9,10]。在本 文中 ,我 们提 出了 我们 的流 水线 RL-GAN-Net,如图所示。二、它是一种基于增强学习代理控制的生成对抗网络,可以从不完整的数据中预测完整的点云。作为预处理步骤,我们训练自动编码器(AE)以获得点云的潜在空间表示,并进一步使用此表示来训练GAN [1]。然后,我们的代理被训练为通过为预训练的GAN的生成器选择适当的z向量来合成完整点云的潜在空间表示来采取与使用反向传播来找到GAN的正确z向量的先前方法不同[15,40],我们基于RL代理的方法是实时的,并且对大的缺失区域也是鲁棒的。然而,对于具有小缺失区域的数据,简单的AE可以可靠地恢复原始形状。因此,我们使用GAN的预训练的训练器的帮助来决定GAN的解码输出和AE的输出之间的获胜者完成形状的最终选择保留了形状的全局结构,并且与部分观察一致。图1显示了一些缺失数据达70%的结果。1.一、据我们所知,我们是第一个引入RL和GAN这种独特组合来解决点云形状完成问题的人。我们相信,使用RL代理来控制GAN的输出的概念这也可以导致采用类似的概念,共享相同的形状完成的基本原理的问题,例如。图像修复[40]。我们的主要贡献如下:• 我们提出了一个形状完成框架,该框架对点云数据的低可用性具有鲁棒性,而无需任何关于可见性或噪声特性的先验知识。抽搐• 我们建议GAN的实时控制,以快速生成所需的输出,而无需优化。因为实时性,我们证明了我们的管道可以预处理其他点云处理管道,如分类的输入• 我们展示了第一次尝试使用深度强化学习框架的形状完成问题。在这样做时,我们展示了一个独特的RL问题配方。2. 相关作品形状完成和深度学习。3D形状补偿是处理真实世界的3D测量时所面临的基本问题。无论传感器的形式如何(多视图立体、光传感器的结构、RGB-D相机、激光雷达等),由于复杂的遮挡、有限的视场和不可靠的测量(由于材料属性或无纹理区域),输出点云呈现出大的孔。早期的作品使用对称[38]或示例形状[32]来填充缺失区域。最近,形状数据库已被用于检索最接近当前测量的形状[19,22]。最近,深度学习由于增强的计算能力、大型数据集的可用性以及有效架构(如CNN)的引入而彻底改变了计算机视觉领域[5]。深度学习在许多传统的计算机视觉任务上表现出卓越的性能,例如分类[20,21,16]和分割[24,29]。我们的3D形状完成采用了深度学习领域的成功技术,并使用数据驱动的方法来完成缺失的部分。3D深度学习架构在很大程度上取决于3D数据表示的选择,即体积5900体素网格、网格或点云。 CNN在3D中的扩展最适合3D体素网格,这些网格可以通过额外的处理从点测量中生成。Dai等人[7]介绍了一种基于体素的形状完成框架,该框架由数据驱动网络和分析3D形状合成技术组成。然而,基于体素的技术在分辨率上是有限的,因为网络复杂性和所需的计算随着分辨率急剧增加。最近,戴等。[8]将这项工作扩展到使用粗到细策略和使用子体积来执行场景完成和语义分割。也有基于流形的深度学习方法[28]来分析完整形状的各种特征这些技术与点云不兼容。点云是许多采集技术的原始输出。与基于体素的表示相比,它更有效,需要完全覆盖整个体积,包括大的空白空间。然而,大多数成功的深度学习架构都无法在点云数据上部署。Stutz等人[37]介绍了一种网络,它消耗不完整的点云,但他们使用预先训练的解码器来获得完整形状的体素化表示。由于PointNet [33]和其他[34,9,17]等新架构的出现,最近直接点云处理已经成为可能。Achlioptas等人[1]探索了用自动编码器学习形状表示。他们还研究了3D点云的生成及其GAN的潜在表示。即使他们的工作执行一定程度的形状完成,他们的架构不是为形状完成任务而设计的,并且由于内部缺失点的数量而遭受相当大的退化。放增加了。Gurumurthy等人[15]提出了利用潜在GAN和自动编码器的形状完成架构。然而,他们对每批输入使用耗时的优化步骤来为GAN选择最佳虽然我们也使用潜在GAN,但我们的方法不同,因为我们使用经过训练的代理来查找GAN在这样做的过程中,我们在几毫秒内完成形状。GAN和RL。最近,Goodfellow et al.[13]提出了生成对抗网络(GANs),它使用一个神经网络(a)来训练另一个神经网络(a)。生成器试图通过合成类似于真实数据的假示例来欺骗鉴别器,而鉴别器则试图区分真实数据和假数据。两个网络相互竞争,最终生成器学习真实数据的分布。虽然GAN提出了一种克服限制的方法,与此同时,它很难训练,并且容易陷入局部最优。已经提出了许多改进建议,从发生器和消能器架构的变化到损失函数的修改和良好培训实践的采用[2,41,42,14]。也有通过观察条件作为附加输入[26]或使用反向传播来控制GAN的实践,以最小化期望输出和生成输出之间的损失[40,15]。我们的管道利用深度强化学习(RL)来控制GAN的复杂潜在空间RL是一个框架,其中决策网络,也称为代理,通过采取可用的行动与环境交互并收集奖励。离散动作空间中的RL代理已被用于为计算机视觉问题提供有用的指导,例如提出边界框位置[3,4]或用于使用深度Q网络(DQN)[27]进行分割的种子点[36]另一方面,我们训练了一个基于行动者-批评者的网络[23],在连续动作空间中学习策略在我们的设置中,环境是由AE和GAN等各种块组成的形状完成框架,动作是生成器的输入。复杂网络的未知行为可以通过深度RL代理来控制,我们可以从高度遮挡的点云数据中生成完整的形状3. 方法我们的形状完成管道由三个基本构建块组成,即自动编码器(AE)、潜在空间生成对抗网络(I-GAN)和强化学习(RL)代理。每个组件都是一个深度神经网络,必须单独训练。我们首先训练AE并使用编码数据来训练I-GAN。RL代理与预先训练的AE和GAN相结合进行训练我们的方法的前向传递可以在图中看到。二、训练后的AE的编码器将噪声和不完整的点云编码为噪声全局特征向量(GFV)。给定这个噪声GFV,我们训练的RL代理为l-GAN的生成器选择正确的种子生成器产生干净的GFV,最后通过AE的解码器,以获得完整的点云表示的干净的GFV。观察生成的形状和AE处理的形状的GFV,并选择更合理的形状。在下面的小节中,我们将解释我们的方法的三个基本构建块,然后描述组合架构。3.1. 自动编码器(AE)AE通过训练再现输入的网络来创建输入数据的低维编码AE由编码器和解码器组成。编码器控制-59012将复杂输入转换为编码表示,以及点云E−1(G(z))解码器将编码的版本还原回原始版本维度 我们指的是有效的中间体代表-LCH =dCH(P),E−1(G(z)))(2)GFV是在训练AE时获得的。声发射的训练是用反向传播来进行的,减少了输入和输出点云之间的距离• GFV损失: l2生成的GFV之间的距离G(z)和输入点云E(Pin)的GFV[35]或者是与地球移动器的距离(EMD)[35]或倒角距离[10,1]。我们使用EMD上的倒角距离,因为它的效率可以定义如下:LGFV=<$G(z)−E(Pin)<$2• 鉴别器损耗:的输出(三)dCH(P1,P2)=Σa∈P1最小值a−b<$2+b∈P22Σb∈P2mina-b2,a∈P12(一)LD=−D(G(z))(4)Gurumurthy等人[15]优化了能量函数,定义为损失的加权和,权重梯度。其中,在Eq.(1)P1和P2是输入和输出点云分别。我们首先训练一个类似于Achlioptas等人报告的网络。[1]在ShapeNet点云数据集[39,6]上。Achlioptas等人[1]还证明,经过训练的AE可用于形状完成。训练的解码器将GFV映射到完整的点云,即使输入GFV是从不完整的点云产生的。但是,随着输入中丢失数据的百分比增加,性能急剧下降(图1)。①的人。3.2. lGANGAN通过联合训练一对生成器和SVM来生成新的但真实的数据[13]。而每一次迭代都在进化。然而,我们提出了一个更强大的控制GAN使用RL框架,其中一个RL代理快速找到的z-输入GAN通过观察损失的组合。3.3. 强化学习(RL)在一个典型的基于RL的框架中,代理在一个环境中工作。给定在每个时间步t的观察xt,代理执行动作at并获得奖励rt。代理网络学习策略π,该策略以一定的概率将状态映射到动作。环境可以被建模为马尔可夫决策过程,即,当前状态和动作仅取决于先前的状态和动作。在一个新的given状态下的储备金是贴现后的未来储备金GAN在图像生成任务中取得了成功Rt=不I=tγ(i-t)r(s i,a i).最终目标是找到一个[41,14,2],在实践中,训练GAN往往是不稳定的[25]《易经》中的“道”,是指“道”。Achlioptas等人[1]表明,与在原始点云上训练相比,在GFV或潜在表示上训练GAN会导致更稳定的训练结果。类似地,我们还在GFV上训练GAN,GFV是使用训练的AE的编码器Sec从完整的点云数据转换而来第3.1条生成器从噪声种子z合成新的GFV,然后可以使用AE的解码器将其转换为完整的3D点云我们将网络称为I-GAN或潜在GAN。Gurumurthy等人[15]类似地利用l-GAN用于点云形状完成。他们制定了一个优化框架,以找到生成器的最佳输入z,以创建最能解释输入处不完整点云的GFV。然而,由于原始点和GFV之间的映射是高度非线性的,因此优化不能被写为简单的反向传播。相反,能量项是三个损失项的组合我们在下面列出损失,其中Pin是不完整的点云输入,E和E-1是AE的编码器和解码器,G和D表示I-GAN分别• 倒角损失:输入的部分点云P与生成的、解码的提供最大奖励的政策。我们在RL框架中制定形状完成任务,如图所示。3.第三章。对于我们的问题,环境是AE和I-GAN的组合,以及作为各种网络的中间结果计算的所得损失,以及输入和预测形状之间的差异。观测状态st是从不完整的输入点云编码的初始我们假设环境是马尔可夫的,并且是完全可观察的;即,最近的观测xt足以定义状态stt。代理采取动作at来为生成器的z空间输入挑选正确的合成的GFV然后通过解码器以获得完整的点云形状。训练RL代理的主要任务之一是正确制定奖励函数。根据行动的质量,环境会给智能体一个回报r在RL-GAN-Net中,正确的决策等同于为生成器选择正确的种子。 我们使用 作为奖励的否定损失函数的组合[15] 第 十 五 话 : 3.2 ) , 表 示 在 笛 卡 尔 坐 标(rCH=−LCH)、潜在空间(rGFV=−LGFV)和在笛卡尔坐标(rD=−LD)中的所有损失最终奖励期限如下:r=wCH·rCH+wGFV·rGFV+wD·rD,(5)5902不图3:训练RL-GAN-Net以完成形状。 我们的RL框架使用AE(绿色显示)和l-GAN(蓝色显示)。RL代理和环境以灰色阴影显示,嵌入的奖励,状态和动作空间以红色突出显示。输出被解码并完成,如底部所示请注意,右上角的解码器和解码点云是为了比较而添加的,并不影响训练。通过采用RL代理,我们的管道能够实时完成形状。其中,wCH、wGFV和wD是分配给每个损失函数的对应权重。我们在补充材料中解释了权重的选择。由于行动空间是连续的,我们采用Lillicrap等人的深度确定性策略梯度(DDPG)。[23]第10段。在DDPG算法中,参数化的Actor网络μ(s|θμ)学习特定策略并将状态映射到特定策略,以确定性方式执行更大的操作。评论家网络Q(s,a)使用贝尔曼方程,并提供了对行为和状态质量的度量。 演员网络通过找到梯度对成本J的期望回报来训练,这也是称为政策梯度。它可以定义如下:Q算法1训练RL-GAN-Net座席输入:状态(st):st=GFVn=E(Pin);将点云Pin从数据集采样到预训练的编码器E中以生成有噪声的潜在表示GFVn。奖励(rt):使用公式计算(五)代理输出:作用(at):at=z将z向量传递到预训练的生成器G以形成干净的潜在向量GFVc=G(z)最终输出:Pout=E−1(GFVc);将GFVc传递到解码器E−1以生成输出点云Pout。1:利用预训练的生成器G、ENUD、编码器E和解码器E-1初始化过程Env2:使用DDPG、参与者A、批评者C和重放缓冲器R初始化策略π3:对于t步 maxstepsdo第四章:让P进来5:如果t步数>0,则6:火车A和C与R7:如果tLastEvaluation> fEvalFrequency,则8:求π9:GFVn←E(Pin)10:如果t步数> t开始时间,则第11章:一夜情12:如果t步tStartTime,则13:使用at←A←GFVn14:(st,at,rt,st+1)←Env←at<15:将转换(st,at,rt,st+1)存储在R端,十六: 步骤ENV(Pin,at)17:Get State(st):GFVn←E(Pin)18:实施行动:GFVc←G(at=z)19:使用等式计算奖励rt(五)20:获取点云:P输出←E−1(GFV c)θμ J(θ)= Est |θ▽θµ)的方式|s=st,a=µ(st)µ(s|θ µ)|s=s](六)因为更多的数据丢失了,尽管如此,我们的RL代理仍然在训练代理之前,我们确保AE和GAN经过充分的预先训练,因为它们构成了环境。代理依赖它们来选择正确的操作。详细训练过程的算法总结在算法1中。3.4. 混合RL GAN网通过上述的普通实现,所生成的完整点云的细节有时可能具有有限的语义变化。当缺失数据的部分另一方面,声发射的性能显著找到正确的语义形状。基于这一观察结果,我们提出了一种混合方法,即使用一个开关作为开关,从普通的RL-GAN-Net和AE中选择最佳结果。我们用于结果的最终管道如图所示。二、我们的混合方法可以鲁棒地完成语义形状的实时性,并在同一时间保持局部细节。4. 实验我们使用PyTorch [31]和开源代码[12,18,30,11]来实现。所有网络都在单个Nvidia GTX Titan Xp图形卡上训练。细节5903地面实况(GT)中PAERL-GAN-Net和GT比率(%)2040305070时间(ms)1.3101.2931.2951.2661.032表1:RL试剂从噪声GFV的观察产生干净GFV的平均作用时间。我们的方法可以在大约一毫秒内创建适当的z向量。图4:缺少20%原始点的点云形状完成的定性结果。对于相对较小的缺失数据,AE有时在完成形状方面表现得更好。因此,我们的混合RL-GAN-Net在AE和vanilla RL-GAN-Net中可靠地选择最佳输出形状。补充材料中提供了网络体系结构。在实验中,我们使用了ShapeNetCore [6,1]数据集中形状数量最多四个类别的形状总数为26,829。所有形状都被平移到原点的中心,并被缩放,使得边界框的对角线具有单位长度。地面实况点云数据是通过在每个形状上均匀采样2048个点来生成的。这些点用于训练AE并生成干净的GFV以训练I-GAN。不完整点云是通过从完整点云中选择一个随机种子并去除一定半径内的点来生成的。该半径是控制为每个形状,以获得所需数量的遗漏,荷兰国际集团的数据。我们生成了缺失原始数据20%、30%、40%、50%和70%的不完整点云进行测试,并在完整的数据集上训练了我们的RL代理。4.1. 形状完成结果我们提出的结果使用我们的算法的两个变化,香草版本和混合方法中提到的第二节。3 .第三章。由于该领域是相对较新的,有没有很多以前的作品可执行形状完成点云空间。我们比较了我们的结果仅使用AE的方法[1]。图5a示出了与地面实况点云相比较的完整形状的倒角距离。当输入的点云有70%的原始点丢失时,与地面真实值相比,倒角距离增加了形状对角线的16%,但AE、vanilla和混合RL-GAN-Net的重建形状都显示出小于9%的距离。虽然倒角距离是一个广泛使用的比较形状的指标,但我们注意到它可能不是性能的绝对度量。从图5a中,我们注意到,对于20%的缺失数据,输入点云Pin在Cham- fer距离方面是最好的。然而,从我们的视觉检查图。4、完成的形状,虽然它们可能不是在每个细节上都完全对齐,但在语义上是合理的,并且在输入中没有表现出任何清晰可见的大孔。对于图1中数据缺失70%原始点的例子,1,很明显,我们的方法是优于AE,其完成的形状的视觉质量严重下降的丢失数据的比率增加。但是,AE和RL-GAN-Net的倒角距离观察结果可以解释为以下事实:1)AE经过专门训练以减少倒角损失,因此在特定损失方面表现更好,而RL-GAN-Net联合考虑倒角损失,潜在空间和潜在损失,以及2)Pin具有与GT完全对齐的点,当平均时,补偿缺失区域的错误。尽管如此,我们的混合方法正确地预测了形状的类别,并填补了缺失的点,即使大量缺失的数据。此外,RL控制的前向传递只需要大约一毫秒就可以完成,这比以前的工作[15]有很大的优势,因为以前的工作需要在复杂的网络上进行反向传播。他们声称一批50个形状的运行时间为324秒。另一方面,我们的方法是实时的,很容易用作各种任务的预处理步骤,即使在扫描阶段。与Dai et al.[7]虽然在点云空间中没有太多的先前工作,但我们包括Dai等人[ 7 ]的完成结果,其在不同的域(体素网格)中工作。简单地说,他们的方法在32× 3体素空间中使用编码器-解码器网络,然后在128× 3分辨率下使用基于分析块的完成。它们的两种分辨率的结果可作为距离函数格式提供我们将距离函数转换为曲面5904(a) 倒角距离GT(b)分类精度[33](c)损失项图5:性能分析。我们比较了我们算法的两个版本与原始输入和AE的(a)倒角距离(越低越好)和(b)形状分类的性能增益(越高越好)。(c)我们还分析了RL-GAN-Net的损失与不同数量的缺失数据。表示使用MATLAB函数等值面,如他们所描述的,并均匀采样2048点与我们的结果一致我们在图中给出了定性的视觉对比六、基于编码器-解码器的网络(图中称为体素323)的结果比AE处理的点云更平滑然而,该方法在分辨率上是有限的,并且会洗掉局部细节。即使在128× 3分辨率的基于块的合成之后,它们可以恢复的细节也是有限的。另一方面,我们的方法鲁棒地保持语义对称性,并在具有挑战性的场景中完成局部细节。应该注意的是,我们只使用了扫描的点数据,但没有结合他们使用的附加掩码信息。由于篇幅所限,补充资料中包含了更多的结果4.2. 应用于分类作为测试语义形状完成性能的替代措施,我们比较了P的分类精度以及AE和RL-GAN-Net完成的形状。这种情况也符合我们预期的主要应用也就是说,RL-GAN-Net可以在执行其他任务之前用作捕获的真实数据的快速预处理,因为3D测量的原始输出通常是部分的,噪声数据将用作点云处理框架的直接输入。我们采取了不完整的输入,并首先通过我们的形状完成管道处理。然后,我们分析了PointNet [33]的分类精度,并与不完整输入的结果进行了比较。图图5b示出了分类精度的提高。显然,我们建议的管道通过完成输入中的缺陷来减少现有网络可能的性能我们还想添加一个关于vanilla RL-GAN-Net和混合方法的性能的说明。我们注意到,我们的强化学习代理的主要成就往往局限于在潜在空间中找到正确的语义类别。 混合方法克服了限制图6:性能比较。RLGAN-Net与Dai等人的比较。[7]其323和1283分辨率结果。我们将它们的距离函数输出转换为点云域。 应该注意的是,它们还具有掩码信息,而我们仅直接对扫描点进行操作。通过根据训练后的模型选择形状更合理时的AE结果。这与混合方法在图1中的倒角距离方面明显更好的事实相一致。5a,但与香草的方法在图中的分类。5b,任务是找到正确的类别。图7显示了一些失败案例的示例,其中建议的内部分类与观察到的形状不完全一致。4.3. 报酬函数分析我们展示了我们使用的三种不同损失项的影响。图5c示出了具有不同量的缺失数据的生成的点云5905地面实况(GT)AERL-GAN-Net中的PRL-GAN-Net和GT中PAE图7:失败案例。RL-GAN-Net有时可以预测错误的类别(顶部)或语义相似但形状不同的类别(底部)。对于大量的缺失数据,倒角损失LCH和GFV损失LGFV都增加。这是合理的,因为我们需要填写更多的信息,仅LCH仅限LGFV仅LD随着缺失数据比例的增大,不完整输入的变化。LD几乎是恒定的,因为预先训练的生成器根据给定z输入的学习到的dis-covery进行合成。我们还测试了奖励损失函数的不同组合。图8显示了样本结果,形状为LCHLCH+LGFV+LD类别.虽然倒角距离是比较两个形状的广泛使用的度量,但单独使用倒角损失时不是很有效。这可以解释为维度灾难。虽然我们需要在语义上完成2048个点的3D位置,但单个Chamfer丢失的数量不足以通知智能体找到l-GAN的正确控制另一方面,GFV损失的表现令人印象深刻。虽然细节经常是不匹配的,但GFV损失单独使控制器能够从部分数据中找到正确的语义形状类别。这一结果与文献[1]中的讨论一致,其中隐空间表示降低了维数并提高了GAN的性能。然而,当结合倒角损失时,完成的形状与期望的形状更好地对齐,这仅在与GFV结合时显示其功效。该损失是必不可少的,以创造一个现实的形状。当单独使用Rolloss时, RL代理创建一个合理但不相关的形状,这是一个预期的行为,考虑到奖励只是鼓励一个现实的形状。从结果中,我们得出结论,所有的三个损失项是必要的RL代理推导出正确的控制GAN。5. 结论和未来工作在这项工作中,我们提出了一个强大的和实时的点云形状完成框架,使用RL代理来控制生成器。我们的主要动机是重新移动昂贵且复杂的优化过程,该过程不是实时的,并且处理一批输入至少需要324秒[15]。我们没有优化损失函数的各种组合,而是将这些损失函数转换为奖励。在此过程中,我们的RL特工LGFV+LDRL-GAN- 净图8:奖励函数分析。我们用不同的损失组合测试了奖励函数。根据我们的分析,Chamfer损失不能单独完成形状,但有了GFV损失,我们的RL-GAN-Net可以找到正确的形状。该丢失确保完成的形状在语义上是有意义的。可以在大约一毫秒内完成形状。此外,我们目前的形状完成结果与高达70%的缺失点的数据。我们展示了我们的技术的优越性,通过展示定性结果。我们还介绍了我们的网络用于分类问题的用例RL-GAN-Net具有实时性,可用于提高其他点云处理网络的性能。我们证明,我们训练的网络将PointNet的分类准确率从50%提高到83%,数据中有70%的缺失点。通过这项工作,我们已经证明了基于RL的技术中隐藏的潜力,可以有效地控制GAN的复杂空间。一个直接的扩展是将该方法应用于密切相关的任务,如图像修复[40]。鸣谢。这项工作得到了KIST机构计划的支持[项目编号:2E29450]和KAIST电气工程学院研究生奖学金。我们非常感谢来自KAIST RCV实验室的In So Kweon,Sunhoon Im,Arda Senocak进行了富有洞察力的讨论。5906引用[1] Panos Achlioptas,Olga Diamanti,Ioannis Mitliagkas,and Leonidas J. Guibas 3d点云的表示学习和对抗生成CoRR,abs/1707.02392,2017。一二三四六八[2] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein生成对抗网络在Doina Pre-cup和Yee WhyeTeh编辑的第34届国际机器学习会议论文集,机器学习研究论文集第70卷,第214PMLR。三、四[3] Miriam Bellver,Xavier Giro-i Nieto,Ferran Marques和Jordi Torres。具有深度再学习的分层对象检测。InDeepReinforcement Learning Work-shop , NIPS , December2016. 3[4] 胡安角凯塞多和斯维特拉娜·拉泽布尼克使用深度强化学习的主动对象定位。在2015年IEEE计算机视觉国际会议(ICCV)的会议录,ICCVUSA,2015. IEEE计算机协会。3[5] Alfredo Canziani、Adam Paszke和Eugenio Culurciello。深 度 神 经 网 络 模 型 的 实 际 应 用 分 析 。 CoRR ,abs/1605.07678,2016。一、二[6] 天使X作者:Thomas A.作者:Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet:一个信息丰富的3D模型存储库。CoRR,abs/1512.03012,2015。四、六[7] Angela Dai , Charles Ruzhongtai Qi , and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。CoRR,abs/1612.00101,2016。一、三、六、七[8] Angela Dai , Daniel Ritchie , Martin Bokeloh , ScottReed,JürgenSturm,andMatthiasNießner.Scancomplete : 用 于 3D 扫 描 的 大 CoRR ,abs/1712.10215,2017。第1、3条[9] Haoqiang Fan,Hao Su,and Leonidas J. Guibas从单幅图像 重 建 三 维 物 体 的 点 集 生 成 网 络 。 CoRR ,abs/1612.00603,2016。二、三[10] Haoqiang Fan,Hao Su,and Leonidas J. Guibas从单幅图像 重 建 三 维 物 体 的 点 集 生 成 网 络 。 CoRR ,abs/1612.00603,2016。二、四[11] 斯科特·藤本。解决actor-critic方法中的函数近似错误。https://github.com/sfujim/ TD 3,2018. 5[12] 斯科特·藤本,赫克·范霍夫,戴夫·梅格。演员-评论家方法中的广告函数逼近误差。CoRR,abs/1802.09477,2018。5[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani , M. 威 灵 角 Cortes , N. D. Lawrence 和 K. Q.Weinberger , 编 辑 , Advances in Neural InformationProcessing Systems 27 , 第 2672-2680 页 。 CurranAssociates,Inc. 2014. 三、四[14] Ishaan Gulrajani , Faruk Ahmed , Mart´ın Arjovsky ,Vincent Dumoulin,and Aaron C.考维尔改进的瓦瑟斯坦甘斯训练。CoRR,abs/1704.00028,2017年。三、四[15] Swaminathan Gurumurthy和Shubham Agrawal。利用潜在 优 化 实 现 点 云 的 高 保 真 语 义 形 状 完 成 . CoRR,abs/1807.03407,2018。 二三四六八[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 CoRR ,abs/1512.03385,2015。2[17] Qiangui Huang,Weiyue Wang,and Ulrich Neumann.用于点云三维分割的回流切片网络。CoRR,abs/1802.04402,2018。3[18] 李嘉欣。So-net:用于点云分析的自组织网络,cvpr2018。https://github.com/lijx10/ SO-Net,2018. 5[19] Young Min Kim,Niloy J. Mitra,Qixing Huang,andLeonidas Guibas.引导实时扫描室内物体。计算机图形学论坛(Proc. Pacific Graphics),xx:xx,2013年。2[20] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在Proceedings of the25th International Conference on Neural InformationProcessing Systems - Volume 1 ,NIPS'12 ,pages 1097-1105,USA,2012中。Curran Associates Inc. 一、二[21] 放大图片创作者:Bernhard E.作者:John S.放大图片作者:Donnie Henderson,R. E.作者:Howard,Wayne E.Hubbard,and Lawrence D.杰克基于反向传播网络的手写体数字识别。In D. S. Touretzky,编辑,Advances inNeural Information Processing Systems 2,第396-404页。摩根-考夫曼1990年一、二[22] Yangyan Li , Angela Dai , Leonidas Guibas , andMatthias Nießner.实时三维重建的数据库辅助对象检索。在计算机图形论坛,第34卷。Wiley Online Library,2015. 2[23] 放大图片作者:Timothy P. Hunt,Alexander Pritzel,Nicolas Heess,Tom Erez,Yuval Tassa,David Silver,and Daan Wierstra.通过深度强化学习实现持续控制。CoRR,abs/1509.02971,2015年。三、五[24] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网 络 。 在2015 年 IEEE计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第3431-3440页,2015年6月。2[25] Mario Lucic、Karol Kurach、Marcin Michalski、SylvainGelly和Olivier Bousquet。Gans是平等的吗?一项大规模的研究abs/1711.10337,2018。4[26] Mehdi Mirza 和 Simon Osindero 条 件 生 成 对 抗 网 。CoRR,abs/1411.1784,2014。3[27] 作者:David Silver,Koray Kavukcuoglu,Andrei A.放大 图 片 创 作 者 : John W. 放 大 图 片 创 作 者 : JohnW.Fidjeland,Georg Ostro-vski,Stig Petersen,CharlesBeattie , Amir Sadik , Ioannis Antonoglou , HelenKing , Dharshan Kumaran , Daan Wier-stra , ShaneLegg,and Demis Hassabis.通过深度强化学习实现人级Nature,518:529 EP35907[28] Federico Monti , Davide Boscaini , Jonathan Masci ,EmanueleRodo la`,JanS v oboda,andMichaelM. 布朗斯坦使用混合模型cnns对图和流形进行几何深度学习。在2017年IEEE计算机视觉和模式识别会议上,CVPR2017,檀香山,HI,USA,2017年7月21-26日,第5425-5434页,2017年。3[29] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络CoRR,abs/1505.04366,2015。2[30] 大卫·基泰公园自我注意力。github.com/heykeetae/Self-Attention-GAN,2018.5[31] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam L
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功