没有合适的资源?快使用搜索试试~ 我知道了~
+33430来自模拟手术3D数据的长期时间一致的非配对视频转换0Dominik Rivoir 1,2,Micha Pfeiffer 1,Reuben Docea 1,Fiona Kolbinger 1,3,Carina Riediger3,J¨urgen Weitz 2,3,Stefanie Speidel 1,201 NCT/UCC德累斯顿,德国,2 CeTI,德累斯顿工业大学,3 德累斯顿大学医院0{dominik.rivoir, micha.pfeiffer, reuben.docea, stefanie.speidel}@nct-dresden.de0{fiona.kolbinger, carina.riediger, juergen.weitz}@uniklinikum-dresden.de0摘要0非配对视频转换的研究主要集中在通过对相邻帧进行条件生成来实现短期时间一致性。然而,对于从模拟到逼真序列的转换,底层几何的可用信息为实现视图间的全局一致性提供了潜力。我们提出了一种新颖的方法,将非配对图像转换与神经渲染相结合,将模拟的腹部手术场景转换为逼真的场景。通过引入全局可学习纹理和光照不变的视图一致性损失,我们的方法能够产生任意视角的一致转换,从而实现长期一致的视频合成。我们设计和测试了我们的模型,以从微创手术腹部场景生成视频序列。由于在这个领域中标记的数据通常有限,保留来自模拟域的真实信息的逼真数据尤为重要。通过将现有的基于图像的方法扩展到视图一致的视频,我们旨在影响模拟训练和评估环境在手术应用中的适用性。代码和数据:http://opencas.dkfz.de/video-sim2real。01. 引言0基于GAN的图像转换[14,47]最有前景的应用之一是从模拟域转换到逼真图像,因为它在计算机图形学中具有巨大的潜力。更重要的是,非配对转换[52](即在训练过程中不需要域之间的图像对应)可以在保留来自模拟域的基本信息的同时生成逼真数据,否则很难获得(例如深度图、光流或语义分割)。这些合成数据可以在标记数据有限的情况下促进训练或评估。0模拟手术3D场景0逼真、视图一致的图像0神经渲染0非配对图像转换0图1.通过将非配对图像转换与神经渲染方法相结合,我们可以在模拟手术场景中生成逼真且视图一致的渲染。请注意,即使在模拟域中没有手动建模血管等细节,它们也可以在不同视角下进行一致的渲染。033440在这里,智能辅助系统尤其重要,因为通过小孔和有限的视野进行手术非常具有挑战性。然而,目前在CAS中限制深度学习影响的两个主要因素是缺乏(a)标记的训练数据和(b)用于评估的逼真环境[25]。例如,评估SLAM(同时定位和映射)算法[33,43]的laparoscopic视频数据会遇到几个问题,因为手术室(OR)中通常无法获得患者的真实几何形状,并且重新创建具有逼真和多样化患者模型的人工测试环境非常具有挑战性。其他可能受益于具有时间一致性的合成训练数据的CAS应用包括动作识别、警告系统、手术导航和机器人辅助干预[26,25]。以前的研究已经证明了合成的手术图像作为肝脏分割等下游任务的训练数据的有效性[37,41]。然而,它们的应用仍然有限,因为CAS中存在许多具有时间组成部分的挑战。以评估SLAM算法为例,必须生成逼真且具有时间一致性的视频序列,以提供有用的评估环境。最近,非手术专业的非配对视频转换引起了人们的兴趣[3,10, 7, 9, 34,51]。大多数方法通过对先前转换的帧进行条件生成器来实现平滑过渡,即短期时间一致性。然而,它们基本上不设计为长期一致性。直观地说,当一个对象完全离开视野时,当它返回时无法确保一致的渲染,因为先前的帧不包含有关对象外观的信息。即使模型以多个帧为条件,该问题在较长的序列中仍然存在。然而,在从模拟环境进行转换的特殊情况下,通常可以获得基础几何和相机轨迹的信息。因此,视图之间的点对应是已知的,并且可以用于确保全局一致的转换。神经渲染的相对较新的研究领域[45]旨在使用底层3D场景的知识进行图像合成,但迄今为止主要在监督设置中进行了研究[45, 24, 42, 46,32]。我们提出了一种新颖的方法,用于非配对视频转换,它利用模拟领域几何的可用信息来实现长期时间一致性。先进的图像转换模型通过学习全局纹理表示来扩展神经渲染器。通过这种方式,信息可以存储在3D纹理空间中,并且可以被不同视点的转换模块使用。即模型可以学习细节的位置,如血管,并且在不同视角下进行一致的渲染(图1)。为了确保纹理一致性,我们引入了一个光照不变的视图一致性损失。此外,我们0我们采用方法确保在模拟域中创建的标签在转换为逼真图像时保持一致。我们实验证明,我们最终生成的视频序列在长时间距离上保留了详细的视觉特征,并保持了标签的一致性以及帧之间的光流。02. 相关工作02.1. 非配对图像和视频转换0基于图像的GANs [14, 38] 在无条件生成模型[38, 6, 17, 18,19]或图像到图像转换等条件设置[47, 8, 36,23]中取得了令人印象深刻的结果,引起了广泛关注。然而,它们在真实世界的应用受到限制,因为生成模型的内容很难控制,监督图像转换需要相应的图像对,而这些图像对通常不可用。通过循环一致性引入非配对转换[52]扩大了它们的适用性和影响。此后,已经提出了几种扩展,例如共享内容空间[21],多模态[20,16],少样本转换[22]或用对比学习替代循环一致性[35]。从应用的角度来看,一些研究[37, 30, 41, 39, 29,50]已经证明了利用合成训练数据在外科应用中的有效性。已经有几次尝试将非配对转换扩展到视频中,其中生成的序列不仅在单个帧中逼真,而且在时间上平滑[3, 10, 7, 9, 34,51]。Bansal等人[3]通过引入时间循环一致性损失来解决这个问题,Engelhardt等人[10]使用时间鉴别器来模拟帧之间的逼真过渡。最近的几种方法估计光流以确保连续帧之间的时间一致性[7, 9, 34,51]。虽然在生成平滑的帧之间的过渡方面有了稳定的改进,但这些模型无法捕捉长期的一致性。我们的目标是通过向模型添加神经渲染组件来克服这个问题。据我们所知,迄今为止,在非配对设置中,尚未发表成功的长期一致视频转换解决方案。02.2. 基于物理的神经渲染0虽然非配对的视觉转换方法有时也被归类为神经渲染,但该术语通常指的是结合了对底层物理世界的知识的图像合成方法[45]。通过向渲染流程引入可微分的组件,可以从图像数据中学习到3D形状的神经表示[32, 42, 53, 24],光照[44,31, 1,2],纹理[46]或视角相关的外观[32],用于新视角合成、面部再现或重新照明等应用。与我们的工作最相关的是Thies等人的研究[46]。ො𝑎𝑡𝑒𝑥𝑏𝑗𝑎𝑖𝑡𝑒𝑥𝐸𝐴𝐸𝐴𝐺𝐴𝐺𝐵𝐺𝐵𝐸𝐵+ො𝑎𝑟𝑒𝑓𝑏𝑖𝑎𝑖𝑟𝑒𝑓𝑎𝑗𝑡𝑒𝑥𝑎𝑗𝑟𝑒𝑓project𝑣𝑖𝑒𝑤𝑖atexi= project(tex, viewi)(1)33450变形0对抗性损失0视图0一致性0损失0腹部3D场景0(可微分的)0�0神经纹理0(可学习的)0MS-SSIM损失0MS-SSIM损失0真实图像0样本0域B域A0输入0输入0输出0输出0输入 输出0图2.我们将非配对图像转换与神经渲染相结合,实现从模拟到逼真的手术视频的视图一致转换。模型的关键概念是场景全局纹理的可学习的隐式表示。在训练过程中,纹理特征被投影到图像空间中作为一个纹理图a tex,与一个简单的渲染aref相结合,作为非配对图像转换模块的输入。为了鼓励长期的时间一致转换,我们将两个转换后的视图变形到一个公共像素空间,并使用我们的光照不变一致性损失。还要注意,投影的纹理映射是转换循环的一部分,即从B到A的转换包括预测参考图像a ref和纹理映射a tex。0我们提出了一种从模拟外科场景A领域进行非配对、视角一致的翻译的方法03. 方法0a tex i = project(tex, view i) (1)0该方法由三个组件组成:可学习的神经纹理、非配对图像翻译模块和光照不变的视角一致性损失(图2)。对于模拟场景的给定视角viewi,可学习特征从神经纹理tex投影到图像平面上的像素位置,并形成空间特征图a tex i:0此外,还使用了相同视角的简单但不现实的渲染a refi作为翻译的先验。综合起来,(a tex i, a refi)∈A作为输入传递给非配对的图像翻译模块,得到伪造的图像ˆb i∈B:0ˆ b i = translate θ(a ref i, a tex i) (2)0由于project(∙)是可微分的,可以将误差反向传播到tex,从而使得tex能够与翻译模块的网络参数θ一起端到端地学习全局纹理表示tex。为了确保全局一致的渲染,训练过程中会对翻译后的视角ˆb i和ˆbj进行采样,将其变形到一个公共像素空间,并使用我们的光照不变的视角一致性损失进行约束。0ˆ b i view ←−−−−→ consist. ˆ b j (3)𝑎𝑖𝑡𝑒𝑥𝑣𝑖𝑒𝑤𝑖(5)33460我们模型的主要见解是神经纹理使模型能够学习关于场景的全局信息,独立于时间点和视角,例如材料属性或细节位置,如血管。在将纹理特征投影到图像平面之后,翻译模块作为延迟渲染器合成逼真的图像。由于翻译模块在各个视角上操作,因此合成了视角相关的效果,如镜面反射或光照条件的变化。我们同时为每个模拟场景学习一个神经纹理,并为所有场景共享翻译网络。03.1. 神经纹理和投影机制0为了实现真正的长期一致性,我们需要一种能够独立于时间点或视角存储信息的方法。为此,我们使用了一种可学习的全局纹理tex,由Thies等人命名为神经纹理[46]。对于场景中的每个物体(肝脏、胆囊、韧带、腹壁和脂肪),tex包含了可学习的空间特征图,作为一种隐式纹理表示。在每个空间位置(纹素)上,学习到N个特征,并使模型能够学习一致的组织属性或细节位置,如血管。tex的形状为O×P×H×W×N,其中O=5个物体,P=6个大小为H×W=512×512的投影平面,每个纹素有N=3个可学习的纹理特征。为了通过翻译模块端到端地学习tex,我们只需要一个可微的投影机制(公式1),将全局纹理tex的特征映射到给定视角viewi的图像平面上。得到的图像大小的特征图a texi作为翻译模块的输入,因此误差可以传播回tex。0a tex i[x, y] =0x p, y p (n T s ∙ n p)2 ∙ tex[o, p, x p, yp] (4)0我们通过射线投射[49]、三平面映射[13]和双线性插值[12](图3和公式4)来定义投影到a tex i中。对于每个像素(x,y),我们将一条射线投射到场景中的3D表面点s ∈R3,并确定它所属的对象o。对象的神经纹理tex[o]由围绕网格的6个轴对齐纹理平面组成。通过三平面映射tri(s),我们为面向s的三个平面p ∈ {1..P}获得一个纹理坐标(x p, yp)(图3)。纹理特征通过平面和表面法线n p,ns的点积加权,得到像素空间中的聚合特征a tex i[x,y]。由于纹理平面是离散网格,我们使用双线性插值从任意连续位置获取纹理特征tex[o, p, x p, yp]。因此,总共有12个纹素对一个像素有贡献(每个3个平面坐标的4个离散纹素)。详细信息请参见补充材料。请注意,三平面映射之所以被选择,是因为它简单,但可以很容易地被其他UV映射替代。0���[ ′ ����� ′ ]0投影0���[ ′ ���′]0���[ ′ ��������� ����′]0投影0投影0射线 三平面映射 表面法线 图例:相机0图3.神经纹理投影。对于每个像素,都会投射一条射线(红色)到场景的表面。使用三平面映射(绿色)将表面点映射到可学习的纹理平面上(在纹理空间中进行双线性插值)。这种可微分的映射允许我们从图像空间向全局纹理空间反向传播误差。03.2. 非配对图像翻译模块0我们的翻译模块是Pfeiffer等人的模型[37]的确定性、无风格变体,该模型本身基于MUNIT[16]。该模型通过可互换的编码器E A,E B和解码器G A,GB强制执行循环一致性以及共享内容空间,用于每个域[21]。给定一个投影纹理图和参考图像(a tex i, a ref i) ∈A,编码器E A提取出一个与域无关的内容编码c ai,解码器G B根据c a i预测出一个来自B的伪图像ˆbi。然后,E B重构内容c a i rec,GA将其翻译回域A以完成循环。此外,输入通过(a tex i,rec,a ref i,rec) = G A(E A(a tex i, a refi))直接重构。从B到A的翻译类似地进行。最后,多尺度鉴别器[47]D A,D B区分伪图像和真实图像。0� a tex i ref i0� E A −−→ c a i G B −−→ ˆ b i E B −−→ c a i rec G A −−→ a tex i,cyc a ref i,cyc0�0我们使用LS-GAN损失[28]作为对抗损失Ladv,并使用L1损失来确保循环一致性以及图像和内容重建的L cyc,L rec,Lc。最后,我们对亮度进行多尺度结构相似性损失[48, 37] L ssim,包括a ref i和ˆbi以及b和ˆa ref。0以鼓励保留标签的翻译。有关网络和损失的详细信息,请参见补充材料。0L translation = L adv + L cyc + L rec + L c + L ssim (6)03.3. 视图一致性损失0为了强制视图一致性,在每次训练迭代中,随机选择同一模拟场景的两个视图i和j,并进行平移。利用对场景几何的了解,将第二个视图变形为第一个视图的像素空间,并通过像素级视图一致性损失强制执行一致渲染。然而,在微创手术中,唯一的光源是一盏灯。,(7)33470当视野调整时,相机上的光照条件会发生变化,图像中心通常比周围更亮。这对于视图一致性构成了额外的挑战。因此,我们建议最小化RGB向量之间的角度,而不是逐通道损失。对于一对翻译后的视图ˆbi,ˆbj,损失定义为0Lvc = 10|Mˆbiˆbj|0(x,y)cos−1�ˆbxyi∙wi(ˆbj)xy0∥ˆbxyi∥∥wi(ˆbj)xy∥0�0其中(x,y)∈Mˆb1ˆb2是ˆbi中具有匹配像素的像素位置。ˆbxyi是该位置处的RGB向量。wi(∙)是将其变形为ˆbi的像素空间的变形运算符。注意,向量u,v之间的角度可以通过cos−1((u∙v)/(∥u∥∥v∥))计算。这强制在对应位置上保持一致的色调,同时允许亮度变化。0Ltotal = Ltranslation + λLvc (8)0方程8显示了最终的损失函数。为了避免域A和B之间的不平衡,不对ˆ b j 强制执行L translation,并且仅通过ˆ b i传播L vc 的错误,而不是ˆ b j。λ初始化为0,并在10^4个训练步骤后设置为20,以避免在训练的早期阶段对未经改进的翻译强制执行一致性。完整的训练细节可以在补充材料中找到。03.4. 数据0对于真实图像域B,我们从德累斯顿卡尔古斯塔夫卡鲁斯大学医院收集了28个机器人腹部手术的记录,并手动选择包含肝脏视图的序列。该数据的使用已获得机构审查委员会的批准。帧以5fps的速度提取,共得到13,334张训练图像。在训练过程中,图像被随机调整大小并裁剪为256x512大小。对于模拟域A,我们在Blender中构建了七个包含肝脏、肝韧带、胆囊、腹壁和脂肪/胃的人工腹腔3D场景。肝脏网格来自公共数据集(3D-IRCADb01数据集,IRCAD,法国),而其他所有结构都是手动设计的。对于每个场景,我们生成了3,000个大小为256x512的随机视图,共得到21,000个训练视图。为了评估时间一致性,我们手动创建了七个20秒的序列,以5fps的速度在每个场景上进行平移,视点和距离各不相同。04. 实验0为了证明我们的方法能够产生逼真且长期一致的输出,我们需要评估单个图像的质量以及图像之间的一致性。0因此,我们建立了几个基准,并使用各种指标对其进行评估,包括详细和时间上的一致性翻译。对于详细的翻译,如血管等细节的正确重新渲染对于获得逼真的视频至关重要,因此我们特别关注详细和时间上的一致性翻译。04.1. 基准0SSIM-MUNIT:这是Pfeiffer等人[37]在我们的真实和合成图像数据集b和aref上训练的外科图像翻译模型。它对应于我们的图像翻译模块,但在生成器输入中添加了样式和噪声。我们在模型中删除了这些组件,因为它们对于视图一致性是不利的。ReCycle和SSIM-ReCycle:我们与Bansal等人的非配对视频翻译方法ReCycle-GAN[3]进行比较,该方法是在连续视频帧的三元组上进行训练以保持时间一致性。我们使用具有额外非时间周期的变体(https://github.com/aayushbansal/Recycle-GAN)。此外,我们还实现了一种使用MS-SSIM损失进行标签保留的变体。OF-UNIT:最先进的非配对视频翻译模型将生成器与前一时间步的翻译相关联,以确保短期时间一致性。许多方法通过估计光流(OF)对先前的图像进行变形,并通过更好的光流估计实现渐进改进[7,9,34]。然而,我们认为即使是完美的光流也不足以实现长期一致性,甚至可能产生不利影响,如后面所示。为了证明这一点,我们构建了我们模型的一个变体,它使用真实的光流来变形先前的翻译,即使用真实的光流进行完美过渡的可能性。我们将编码器EA的输入(atex,a ref)替换为(w(ˆbprev),aref),其中ˆbprev是前一个时间步的生成帧,w是使用真实光流的完美变形运算符。因此,OF-UNIT是非配对视频翻译中最先进技术的上限,其中必须估计OF并且因此是不完美的。Ours w/o vc和Ours w/otex,vc:最后,我们通过首先删除视图一致性损失,然后删除神经纹理来削弱我们的模型。第二个模型对应于没有样式或噪声的生成器的SSIM-MUNIT。04.2. 指标0真实性:我们通过常用的指标Frechet Inception Distance(FID) [15]和Kernel Inception Distance (KID)[4]来比较模型的真实性,其中我们从真实和生成的训练图像集中随机抽取了10,000张图像进行样本。此外,我们在包含405张来自5名患者的腹腔镜图像的数据集上训练了一个U-Net变体,然后在所有21,000张生成的图像上进行Dice分数评估。该指标同时衡量了真实性和标签保留。33480我们的模型 我们的模型(不包含视角一致性SIM-MUNIT0视角1视角2视角1视角2视角1视角20示例1示例2示例30输入0--------------------消融实验-------------------- --------------------基准模型--------------------0图4.定性比较:一致的视角区域标记为绿色,不一致的区域标记为红色。我们的模型可以在不同视角之间一致地渲染细节。SSIM-ReCycle通常产生一致的输出,但缺乏细节和真实感。SSIM-MUNIT产生逼真但闪烁的结果。质量和一致性可以在http://opencas.dkfz.de/video-sim2real的视频中最好地判断。0方法 数据 真实性 时序一致性0FID ↓ KID ↓ Dice ↑ OF ↓ ORB-1 ↑ ORB-5 ↑ ORB-10 ↑0% %(每对图像) %(每对图像) %(每对图像)0SSIM-MUNIT [37] img 28.3 .0132 59.2 8.64 60.5% (32.5) 36.1% (15.7) 19.1% (7.0)0ReCycle [3] vid 61.5 .0454 40.7 8.89 69.6% (16.3) 43.9% (7.0) 23.5% (2.7)0SSIM-ReCycle vid 80.6 .0622 50.9 8.75 88.9% (13.3) 67.4% (6.2) 43.2% (2.8)0OF-UNIT vid 26.8 .0125 57.7 8.53 93.5% (32.4) 59.0% (11.1) 30.7% (4.4)0OF-UNIT(重新审视) vid - - - 8.91 69.9% (15.7) 43.8% (7.3) 24.7% (3.4)0我们的模型(不包含纹理和视角一致性) img 27.3 .0114 56.8 8.43 81.7% (31.2) 51.3% (13.3) 29.5% (6.2)0我们的模型(不包含视角一致性) vid 27.0 .0134 55.2 8.35 88.3% (27.9) 66.8% (14.6) 44.5% (7.5)0我们的模型 vid 26.8 .0124 57.1 7.62 91.8% (49.7) 73.0% (27.2) 49.6% (13.9)0表1. 最佳分数以粗体打印的定量结果。对于ORB-1、ORB-5和ORB-10这些指标,我们报告特征匹配的准确性和每个图像对的正确匹配总数,既表示一致性又表示细节水平。0时序一致性:我们引入了两个指标来评估每个场景生成的序列的时序一致性。首先,我们通过计算连续翻译帧ˆ b t , ˆ bt +1的估计光流OF和对应的模拟参考图像a ref t , a ref t+1的均方差来衡量估计光流的平均绝对误差| OF ( a ref t ,a ref t +1 ) − OF GF (ˆ b t , ˆ b t +1 ) |,其中OF ( a ref t, a ref t +1 )是合成场景的真实光流,OF GF (ˆ b t , ˆ b t+1)是通过Gunnar-Farneback方法[11]在生成的图像上估计的光流。0生成的帧。正如Chu等人[9]所提出的,这比常见的在扭曲图像上的RGB误差更好,因为后者偏向于模糊的序列。其次,ORB-1、ORB-5和ORB-10这些指标衡量了图像特征的一致性。对于ORB-1,我们计算连续帧中所有ORB特征[40]的匹配,并确定匹配的特征点是否对应于相同的3D位置。我们报告匹配的准确性以及每个图像对的平均正确匹配数。一个模糊但一致的序列可能会产生较高的准确性,因此匹配数提供了额外的信息。33490神经纹理的通道#3 输出0图5.详细信息存储在我们的神经纹理中。我们发现第3个特征通道通常对应于血管。0结果的详细程度。如果匹配距离在底层3D场景中小于1mm,则认为是正确的匹配。为了研究连续帧之间的一致性,我们对相隔5帧和10帧(即1秒和2秒)的成对帧进行相同的操作(即ORB-5和ORB-10)。时间独立性:最后,我们展示了先前方法的缺点,这些方法是基于前一个时间步骤的条件。我们通过先正向运行每个测试序列,然后再反向运行来扩展每个测试序列,以便每个视图以不同的时间间隔访问两次。即给定序列1,...,T,我们将其扩展为1,...,T,T,...,1,类似于Mallya等人的评估。然后,我们计算相同的OF和ORB-1指标。但是,与将帧t与其后继帧t+1进行比较不同,我们使用扩展序列中对应于其后继帧的时间点,即2T-t。对于除OF-UNIT之外的所有方法,这等效于原始指标,因为它们仅依赖于当前视图。类似地,对于ORB-5和ORB-10,我们分别与时间点2T-t-4和2T-t-9进行比较。我们将这些实验称为OF-UNIT(重新访问)。05. 结果05.1. 逼真度0表1显示,我们的模型在FID和KID得分上与基于图像的方法(SSIM-UNIT和没有纹理、vc的我们)相似,同时在视频方法ReCycle和SSIM-ReCycle上表现出色。我们假设他们的时间循环损失偏好于模糊图像,因为对于时间预测模型来说,它们更容易预测。图4支持了这个假设,因为我们和基于图像的模型显示出比SSIM-ReCycle更详细和逼真的翻译。对于OF-UNIT,预计与我们的逼真度得分相似,因为它使用相同的翻译模块。此外,我们还评估了在生成数据上的预训练肝脏分割网络。再次,我们的模型产生了与基于图像的方法相当的结果,同时优于ReCycle和SSIM-ReCycle。这表明我们的结果不仅逼真,而且模拟的内容也是合理的。0第1帧0估计的0光流0我们的 SSIM-ReCycle SSIM-MUNIT0平均地面实际流的色调:0图6.在具有相机运动的场景中估计的光流(其中色调表示流动的方向)。在我们的结果中,纹理表面上检测到一致的运动,而模糊或闪烁导致其他模型的流估计较差。0此外,ReCycle和SSIM-ReCycle之间的差距还显示了MS-SSIM损失对于保留标签的重要性。图4中的示例2显示了我们模型的一个失败案例,其中在肝脏上渲染了类似胃的纹理和血管。引入神经纹理可能会提高翻译的锐度和细节水平,但会增加模型改变场景内容的自由度。然而,定量结果表明这只是一个次要影响。05.2. 时间一致性0使用已建立的ORB特征检测器,我们评估在生成的视频序列的后续帧中重新渲染的视觉特征的一致性。我们报告检测到的特征匹配的正确性以及每对帧的正确匹配数量。对于相邻帧,我们的模型的准确率达到91.8%,优于除OF-UNIT之外的所有基线。然而,这并不奇怪,因为后者使用完美对齐的前一帧作为输入。然而,对于较大的帧间距,我们的模型优于OF-UNIT,显示了其在长期一致性方面的优势。此外,每个图像对的正确匹配数量绝对值明显高于OF-UNIT和其他模型,即使对于相邻帧也是如此。这表明我们的神经纹理不仅能够实现一致的翻译,还能够鼓励更详细的渲染。图4显示了几个具有详细和一致纹理的翻译视图。在图5中,我们展示了血管位置在神经纹理中的存储方式。我们观察到其他方法无法生成详细且时间上一致的序列。虽然SSIM-MUNIT产生了详细的翻译(通过匹配数量的高值表示),但它的准确性最低。相反,基于视频的ReCycle和SSIM-ReCycle产生了更一致但更少详细的渲染,这由它们的高准确性但低正确匹配数量所示。33500第一次访问第二次访问0基线OF-UNIT0时间相关模型无法实现长期一致性。0图7.当重新访问先前的视图时,OF-UNIT等时间相关模型无法一致地渲染纹理。我们的模型通过在纹理空间中存储信息,独立于访问之间的持续时间来保持一致性。0请注意,SSIM-MUNIT会引起闪烁,因为噪声被注入到生成器中。通过去除这个组件(Ours w/otex,vc),可以大大改善时间一致性。添加神经纹理而不强制执行视图一致性(Ours w/ovc)进一步改善了结果。通过光流(OF)评估时间一致性支持我们之前的发现。该指标既衡量时间一致性又衡量细节水平,因为Gunnar-Farneback光流在光滑表面上经常失败。图像和其他基于视频的方法产生高误差,因为前者往往会产生详细但闪烁的序列,而后者通常会生成模糊但一致的视图(图6)。通过在3D空间中学习纹理,我们的模型实现了详细和一致的渲染。05.3. 时间独立性0我们已经看到,时间相关的基线OF-UNIT在帧之间实现了非常一致的过渡,并且对于较大的帧距离仍然可以获得可观的结果。然而,如果将第二帧替换为稍后在序列中重新访问的相同视图,则性能会急剧下降。这是因为模型没有能力记住已经离开视野的区域的外观。它甚至表现不如其无条件的变体Ours w/otex,vc。我们假设对先前轨迹的依赖实际上鼓励随时间的外观变化(图7)。我们认为时间独立性因此是实现长期一致性的一个重要特征,即使在非静态场景中也是如此。通过我们的方法,移动对象以及变形可以通过相应地移动或变形神经纹理来处理。05.4. 光照不变的视图一致性0我们提出了一种基于角度的视图一致性损失,仅保持相应区域的色调一致。图8显示了我们的角度损失可以实现更逼真的效果。0光照0角度损失(我们的)L1损失0图8.我们的角度损失允许翻译模块根据当前视图调整区域的亮度。在真实图像中,中心通常最亮,因为光源安装在相机上。0由于翻译模块可以根据当前视图改变亮度,因此会影响光照。另一方面,L1损失会强制执行任意视点的静态亮度。这会导致错误的光照,如左图中光线似乎来自右下方。更多示例可以在补充材料中找到。06. 结论0我们将神经渲染与从模拟到逼真视频的非配对图像转换相结合。我们的目标是外科应用,其中标记数据通常有限,而逼真但模拟的评估环境尤为相关。通过广泛的评估和与相关方法的比较,我们表明我们的结果在保持基于图像的方法的逼真性的同时,优于基于视频的方法在时间一致性方面。我们展示了光流与底层模拟场景一致,并且我们的模型可以从不同视角一致地渲染细节,如血管。此外,通过添加更多的模拟场景,数据生成可以轻松扩展。关于该模型的一个关键观察是,它利用了模拟域中包含的丰富信息,同时只需要在真实域上的一个无标签图像集。通过这种方式,可以生成一致且保留标签的数据,而不限制其对现实世界应用的相关性。具体而言,在外科手术设置中无法获得的真实情况下,可以生成地面真实情况,例如深度、光流、点对应关系。这项工作是朝着更具表现力的模拟环境迈出的一步,例如外科辅助系统、机器人应用或培训有抱负的外科医生。虽然我们专注于外科应用(其中访问标记数据尤为受限),但该模型可能适用于具有模拟基础的任何设置。0致谢 德国研究基金会(DFG,DeutscheForschungsgemeinschaft)资助,作为德国卓越战略的一部分 - EXC 2050/1 - 项目ID 390696704 -德累斯顿工业大学“触觉互联网与人在环路中心”(CeTI)卓越集群。4[14] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and33510参考文献0[1] Hassan Abu Alhaija, Siva Karthik Mustikovela, AndreasGeiger, and Carsten Rother.几何图像合成。在亚洲计算机视觉会议上,第85-100页。Springer,2018年。20[2] Hassan Abu Alhaija, Siva Karthik Mustikovela, JustusThies, Matthias Nießner, Andreas Geiger, and CarstenRother.内在自动编码器用于联合神经渲染和内在图像分解。在国际3D视觉会议上,2020年。2,30[3] Aayush Bansal, Shugao Ma, Deva Ramanan, and YaserSheikh. Recycle-gan:无监督视频重定向。在欧洲计算机视觉会议(ECCV)论文集上,第119-135页,2018年。2,5,60[4] Mikołaj Bi´nkowski, Dougal J Sutherland, Michael Arbel,and Arthur Gretton. 解密MMDGANs。在国际学习表示会议上,2018年。50[5] Sebastian Bodenstedt, Martin Wagner, Beat PeterM¨uller-Stich, J¨urgen Weitz, and Stefanie Speidel.人工智能辅助手术:潜力和挑战。VisceralMedicine,36(6):450-455,2020年。10[6] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度的自然图像合成。在国际学习表示会议上,2019年。20[7] Yang Chen, Yingwei Pan, Ting Yao, Xinmei Tian, and TaoMei. Mocycle-gan:无配对视频到视频的转换。在第27届ACM国际多媒体会议上,第647-655页,2019年。2,50[8] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,Sunghun Kim, and Jaegul Choo. Stargan:统一的生成对抗网络用于多域图像到图像的转换。在计算机视觉和模式识别的IEEE会议论文集上,第8789-8797页,2018年。20[9] Mengyu Chu, You Xie, Jonas Mayer, Laura Leal-Taix´e, and Nils Thuerey.通过自我监督学习学习时间一致性,用于基于GAN的视频生成。ACMTransactions on Graphics(TOG),39(4):75-1,2020年。2,5,60[10] Sandy Engelhardt, Raffaele De Simone, Peter M Full,Matthias Karck, and Ivo Wolf.通过超现实主义改进手术训练模型:从真实手术中的深度非配对图像到图像的转换。在国际医学图像计算和计算辅助干预会议上,第747-755页。Springer,2018年。20[11] Gunnar Farneb¨ack.基于多项式扩展的双帧运动估计。在斯堪的纳维亚图像分析会议上,第363-370页。Springer,2003年。60[12] Jerry D Gibson and Al Bovik. Handbook of image andvideo processing, 2000. 40[13] Ben Golus.三平面着色器的法线映射。https://bgolus.medium.com/normal-mapping-for-a-triplanar-shader-10bf39dca05a。访问日期:2020年08月06日。0Yoshua Bengio. 生成对抗网络。在Z. Ghahramani,M.Welling,C. Cortes,N. Lawrence和K. Q.Weinberger(编辑)的《神经信息处理系统进展》中,第27卷。Curran Associates,Inc.,2014年。1,20[15] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter. Gans trained by a twotime-scale update rule converge to a local nash equilibrium.In Advances in Neural Information Processing Systems, 2017.50[16] Xun Huang,Ming-Yu Liu,Serge Belongie和Jan Kautz.多模态无监督图像到图像的转换。在欧洲计算机视觉会议(ECCV)论文集上,第172-189页,2018年。2,40[17] Tero Karras, Timo Aila, Samuli Laine和Jaakko Lehtinen.渐进增长的GAN用于改进质量、稳定性和变化.在《学习表示国际会议》上, 2018. 20[18] Tero Karras, Samuli Laine和Timo Aila.基于样式的生成对抗网络的生成器架构.在《IEEE/CVF计算机视觉与模式识别会议》上发表, 页4401-4410,2019. 20[19] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen和Timo Aila. 分析和改进StyleGAN的图像质量.在《IEEE/CVF计算机视觉与模式识别会议》上发表, 页8110-8119,2020. 20[20] Hsin-Ying Lee, Hung-Yu Ts
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功