提出一个基于立体视频的对象运动图预测系统

184 浏览量更新于2023-10-18 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1从无标记立体视频曹哲加州大学伯克利分校zhecao@berkeley.eduAbhishekKar FyarnInc.akar@fyusion.com克里斯蒂安·哈恩·谷歌chaene@google.comJitendraMalik加州大学伯克利分校malik@eecs.berkeley.edu摘要我们提出了一个系统，用于学习独立移动的对象从立体视频的运动地图。在我们的系统中使用的唯一一个符号是2D对象边界框，它在我们的系统中引入了对象的概念。不像先前的基于学习的方法，其集中在预测密集的光流场和/或图像的深度图，我们提出预测实例特定的3D场景流图和实例掩模，我们从中导出每个对象实例的因子化3D运动图我们的网络考虑了问题的3D几何形状，这使得它能够关联输入图像，并将移动对象与静态对象区分开来。我们提出的实验评估我们的3D流矢量的准确性，以及深度图和投影的2D光流，我们共同学习的系统优于早期的方法训练的每个任务独立。1. 介绍考虑图1中拥挤的道路场景，我们作为人类使用什么信息来在这种环境中有效地导航？我们需要了解环境的结构，即场景中的其他元素（汽车、自行车、人、树）离我们有多远。此外，我们还需要知道环境中其他主体相对于我们移动的速度和方向。这样的表征，与我们的自我运动相结合，使我们能够对不久的将来的环境状态产生一个假设，并最终使我们能够计划我们的下一步行动。为了收集该信息，人类使用立体运动，即，当我们在环境中移动时，我们的双眼捕捉到的一系列图像。在这项工作中，我们开发了一个计算系统，旨在从双目视频流中产生这样一个三维结构和运动的分解场景表示。具体来说，我们建议预测的3D对象运动的每个移动对象（由3D场景流表示），除了从立体图像序列的场景的详细深度图这项任务和图1.我们的系统预测的物体运动以自我监督的方式使用原始立体运动序列进行训练每个移动对象的速度和移动方向来自我们的场景流预测。它的变体已经在监督设置中得到解决，该监督设置需要诸如密集深度图和运动注释的标签，这些标签对于收集或从合成数据集获取来说是极其昂贵的[4，5，17，21，27]。我们提出了一个系统，学习预测这些数量只使用未标记的立体视频，从而使其适用于规模。除了生成像素级深度和场景流图之外，我们的网络还知道独立对象的概念这使我们能够产生一个丰富的因素的3D表示的环境，我们可以测量，除了他们的3D位置和范围在场景中的独立对象的速度。我们的系统使用的唯一标签是那些由现成的对象探测器，这是非常便宜的规模收购。该领域的先前工作集中在某些子问题上，例如学习深度或没有显式标签的光流预测[49，12，8]。在第5节中，我们证明，通过共同学习深度和场景流预测的完整问题，我们在这些子问题中的每一个方面都优于这些方法。我们工作的主要贡献如下：（1）制定学习对象，其与可以在真实世界场景中收集的有限量的监督（对象边界框注释）一起工作，（2）分解场景表示，55945595不sentation到独立移动的对象，用于预测密集的深度和3D场景流和（3）设计一个网络架构，编码的基础3D结构的问题，通过对平面扫描体积。本文件各节的组织如下。第2节讨论了推断场景结构和运动的先前工作。第三部分介绍了我们从立体运动损失函数、以对象为中心的预测和先验知识来推断场景流的技术方法在第4节中，我们描述了我们的网络架构设计的几何匹配和3D推理平面扫描体积。第5节详细介绍了我们在KITTI数据集[29]上的实验，并对我们的深度和场景流预测进行了广泛的评估。2. 相关工作在我们的工作中，我们恢复场景的几何和物体运动的联合，而传统上这些问题已经被单独解决。场景的几何结构通过首先使用运动恢复结构（SfM）技术[25，14]恢复从不同视点拍摄的两个或多个图像之间的相对相机姿态来重建。随后，通过密集匹配和三角测量，恢复场景的密集3D模型[31]。上述方法中的潜在假设是场景是静态的，即，不包含移动对象。独立移动物体的情况已经在纯几何设置中进行了研究[3]。关键的困难是退化-[27 ]第27话。这些学习系统使用地面真实几何和/或流数据来训练。在实践中，这种数据只适用于大规模的合成数据。补充有限的地面实况数据的一种自然方法是使用较弱的监督。对于上述问题，已经提出了纯粹基于图像并且依赖于光度一致性作为学习目标的损失函数[8，51，12，39，43]。它们基本上在损失函数中使用了经典的非学习系统[7]。一些最近的作品[49，52，47，26，33]使用这种自我监督的方法来预测光流和深度。据我们所知，我们的工作是第一个学习直接预测对象特定3D场景流的网络，而不依赖于像素流或深度注释。我们的工作与先前预测深度和光流的工作的另一个关键区别是，它们基于单个图像预测正如我们的结果所示，这限制了它们的性能。几何推理可以包括在网络架构中，如[21，20，19，48]所示。我们将这些想法扩展到完整的3D场景流估计，同时也在对象实例的级别上操作，使我们能够产生丰富的几何因子和场景的运动表示。3. 立体运动图2展示了我们的系统。一股经过校准的双目立体图像对I ={I1，Ir，. . . II Ir} cap-11n n点对应中的速率配置和异常值[30 ]第30段。因此，使用额外的先验-一个常见的例子是在地平面上移动的对象[50]。类似地，估计非刚性对象的形状是模糊的，因此已经提出使用附加约束，例如最大化形状的刚度[41]或将非刚性形状表示为基本形状的线性组合[2]。当重建在不受约束的环境中捕获的视频时，必须处理其他困难，例如不完整的特征跟踪和渗入背景[6]。我们提出的方法是在真实世界的数据上训练的，这使得它对外观变化具有鲁棒性，并且可以直接从数据中学习合适的先验知识。Vedula等人[42]介绍了3D场景流估计的问题，其中对于每个点，计算时间t和t+1根据作为输入给出的3D结构的量来考虑不同的变体一个常见的变体是考虑一个流移动相机的双目图像对作为输入[16，46，44，29，38]，并给出深度和3D场景流作为输出。这通常被称为立体场景流估计问题。类似地，RGBD场景流将RGBD（颜色和深度）图像流视为输入[18]。最近，基于学习的方法，特别是卷积神经网络，已经被应用于单视图深度预测[23，4]、光流[5]、立体匹配[10，10]、视觉匹配[10，1从时间1到n的tured作为输入给出最常见的我们研究的情况是n= 2，即在时间t和t +1的两个双目帧。假设固有相机校准K是已知的。左摄像机在每个时刻的摄像机姿态由T ={T1，. . . ，Tn}，并且使用视觉SLAM [10]来预先计算。任何时间在t 时刻，我们还具有一组j个2D 边界框检测B={B1，. . . .，Bj}在由现成的对象检测器预测的左图像I1上。任务是计算参考系的以下量-密集深度图D、密集3D流场F ={F1，. . . ，F j}描述t和t +1之间的运动，以及一组实例掩码M ={M1，. . . ，M j}。从这些实例级预测中，我们可以组成通过将3D场景流矢量分配给全图像中的每个图像像素来生成全场景流图F我们将系统设计为卷积神经网络（CNN），它学习联合预测所有量，并以自我监督的方式训练网络。监督来自合成图像和输入图像之间的一致性，在不同的时刻，从不同的相机的观点。基本原理是，给定帧Iref中的场景流F和深度D的预测，我们可以使用预先计算的自我运动来扭曲另一个图像I进入参考视图。这个过程生成一个合成图像，我们称之为图像。然后我们定义5596ROI转换投资回报池Conv特征提取深度和运动预测补丁和图像一致性图2.我们用于学习深度和物体运动的管道使用立体运动序列作为输入，我们的系统预测深度图（c），实例掩码（d）和3D场景流（e）为每个独立的移动对象在一个单一的向前通过。使用实例掩码和场景流，我们组成一个完整的场景流图（g）。对于每个感兴趣区域（RoI），我们基于RoI相机本征函数、RoI深度（f）、3D场景流（e）和实例掩码（d）合成一个补丁（h），如第3.2节所述。我们使用合成的补丁（h）和原始补丁(i)以强制一致性损失来监督ROI预测。我们使用立体重投影来监督深度预测。最后，我们使用全地图场景流和深度来合成图像（j），以计算一致性损失。我们的学习目标是捕获图像Iref和合成图像Iref之间的相似性。然后，将上述原理独立地应用于每个感兴趣区域（RoI），随后是用于全图像场景流的组装过程。这使我们能够将环境的分解表示为静态和动态对象，网络预测参考视图I ref的深度图D和场景流图F。使用不同的图像I，我们可以使用预测来将I扭曲到参考视图中并生成合成图像I。然后，我们最小化Iref和Irg iv en之间的光度差，对实例遮罩、深度和运动的高质量估计3.1. 解开相机和物体运动L照片1−SSIM（Iref，Iref）=α+（1−α）I2ref -我的朋友1（一）由运动摄像机捕捉的动态场景中的运动可以分解为两个元素-由摄像机运动引起的静态背景的运动和场景中独立运动物体的运动。表示场景运动的常见方式是2D光学其中SSIM表示结构相似性指数[45]，α表示加权参数。我们将像素p的齐次坐标表示为h（p）。将来自参考帧的像素p变换为帧I内的像素px elp流然而，这种表示混淆了相机和对象运动。我们模拟了静态背部的运动h（p）=KTrel（D（p）K−1h（p）+F（p））（2）使用被表示为深度图的3D结构和相机运动来测量地面。动态对象建模与完整的3D场景流。为此，我们利用2D对象detections的形式的边界框和原因的3D运动的每个对象独立。3.2. 通过视图合成监控场景流场景流预测的关键监督来自同一场景的多个视图的光度一致性。该过程在图3中示出。我们5597其中Trel是从参考系到I的相对变换。这允许我们使用双线性插值进行反向扭曲，保持公式可微。单独使用光度一致性不足以监督3D流动预测。原因是沿着一条视线，多个照片一致的解决方案是可能的，如图3所示。因此，我们使用了一个ad的几何损失，利用深度的一致性，进一步约束流。这个想法是，在z方向上的流动，有时也称为视差差，必须5598不不我-我电话+1全景摄像机RoI相机图3.我们的图像重投影过程的插图来自图像It的像素p使用其预测深度未被投影，并且随后使用预测流F和相机变换T rel被变换到I t +1的帧。光度一致性损失源自I t和I t之间的光度差。其中，It+1→t是通过将It+1转换为It而创建的。那个-通过比较以上述方式扭曲的深度图之间的差并使它们与预测流F的z维度一致来计算度量一致性损失。请注意，仅使用光度一致性将无法解决流的z方向上的与针对两个时刻t和t+1预测的深度图一致。为了利用这个损失函数，图4.图像缩放和裁剪过程的说明以及相机内部的变化。形式上，每个流量预测发生在一个区域内-在原始图像内的兴趣（RoI），具有大小和位置B=x，y，w，h。在我们的系统中，使用基于RCNN的架构以固定大小wr×hr预测每个对象的流图，如第4节所述。为我们的观点基于综合的损失函数--我们需要将影响--fx 0cx年龄内在系数K=0fycy 具体版本。00 1此更改仅影响内部摄像机参数，因此，我们需要为每个RoIj计算新的固有矩阵Kj。变换最终是主点的位移和焦距的缩放，fxw r/w0（cx−x）wr/w需要预测两个时刻的深度图将扭曲应用于深度图。Kj=0fyhr/h（cy−y）hr/h。0 0 1类似于光度一致性，通过比较变形图像和参考图像的预测深度值来定义几何一致性¨ ¨Lévée请注意，我们不需要边界框关联-在不同的视点或时间点之间。我们仅计算帧11的检测，并使用稍微扩展的区域作为帧中的RoI，我们将其扭曲到参考帧，以计算等式2中的一致性损失。1和3.geo=<$Dref−D+Fz<$1（三）3.4.全帧场景流其中，Dref是指在时间t处的预测深度，时间t+1处的预测深度翘曲回到时间t，Fz是预测的场景流的z维度3.3. 以对象为中心的场景流预测基于图像的一致性损失通常由我们从对象特定映射Fj组装一个完整的场景流。然而，重叠的ROI和某些ROI甚至可能包含多个移动对象。因此，除了F j之外，我们还为每个RoIj预测对象掩模M j。全3D场景流图F被计算为：扭曲整个图像，然后计算整个图像上的一致性-光流预处理的示例ΣF=jMjFj（4）可以在[49，52]中找到。对于3D场景流，由于非零流矢量的稀疏性，这不是理想的选择与静态背景相比，运动物体只占图像像素的一小部分。这种不平衡的移动/静态像素分布使得单纯地学习完整的图像流很困难，并且即使在移动对象上也以零流预测结束。为了使网络专注于预测移动对象上的正确流并提供更平衡的监督，因此我们使用从最先进的2D对象检测系统获得的对象边界框检测[24]。重要的是要注意然后，我们使用完整的图像流图F，其中Eq.1和等式3用于全图像光度和几何损失。注意，组装过程是完全可微的，并且我们能够训练实例掩码M ={M1，. . . ，M j}，而没有任何显式掩码监督。我们稍后使用这些实例掩模（带流动）以识别移动物体（参见图6）。3.5.完整的学习目标我们首先陈述我们基于完整图像合成的损失，然后解释我们在训练损失中施加的进一步先验。我们的图像合成损失函数基于四个图像I1，物体检测并不能告诉我们物体是否物体是否移动。我们的网络使用基于视图合成的损失函数来学习这些信息。R ltt+1可以分成三部分Ltot=Llr+LRoI+Lt（5双线性采样深度+RGB5599）5600我ttt+1电话+1t t+1 →tttt+1 →t深度图3D流掩模特征非投影三维网格推理最终预测图5.网络架构。我们的系统预测深度，在经典（多视图）立体声中扫描体积。在基于立体声的学习中，它最近被用于[48]。网格在图像空间中离散化，加上一个额外的逆深度（4.2.网络组件图像编码器。在第一阶段，使用2DCNNΦI处理图像，其为每个图像输出具有c个特征通道的2D特征图。此CNN的权重为所有输入帧共享-通常为立体声实例级3D场景流在一个单一的向前传递。与前-通过对图像特征进行分析，我们将特征解投影到离散化的在两个时刻{I1，Ir}和{I1，Ir}。查看平截头体网格，然后使用3D CNN Φ 3 D，最后使用深度ΦD和场景流ΦSF解码器进行预测。不投射。使用4.1节中定义的3D网格，我们将2D信息提升到3D空间。我们利用这两个左摄像机图像作为参考图像{I1，I1和gen-tt+1其中Llr是左右一致性的损失，LRoI是基于RoI的损失函数，Lt是关于随时间的流量和深度的基于全图像的损失函数为了说明这三个部分是如何定义的，我们引入符号s→t来表示从源s到目标t的扭曲。在它们的摄影机坐标中对这些3D栅格进行渲染。每个通过使用相应的投影矩阵[20]将网格单元中心投影到相应的图像中，用来自所有4个图像的图像特征填充网格。当我们预测视差图和从Il到Il的场景流时，我们使用左侧图像作为参考帧。t t+1Llr= L（Il，Ir→l）+L（一），I=r→l）（6）网格池。上一阶段的网格包含LRoI照片不Σ不l，jl，j照片电话+1电话+1l，j l，j lj所有4帧的图像特征。为了结合=Lphoto（It，It+1 →t）+Lgeo（Dt，Dt+1→t，Ft）J我们使用两种策略来处理来自多个帧的信息。我们使用元素级最大池来处理Lt=Lphotoo（Il，Iml ）+Lgeo（Dl，Dl，Fl）左和右配对，并连接每个网格单元中不同时刻动机是除了上面详细描述的损失之外，我们还使用了额外的先验例如在考虑边界处的不连续性的同时对深度和流量的平滑度[12]。可选地，我们使用经典立体声系统ELAS[9]来计算不完全视差图，并将其用于具有L1损失的弱监督。对于立体帧，没有物体运动，因此在非投影之后，特征应该很好地对准。因此，一个简单的最大池策略效果很好。然而，对于不同时刻的帧，我们期望场景中的运动，因此对象移动的地方会有错位的从该级输出的是两个栅极G1和G2。t t+14. 网络架构图5展示了我们用于场景流、遮罩和深度预测的网络我们先来谈谈3D网格表示-三维网格推理n e xt模块Φ3D对上述两个网格进行独立处理，生成分辨率相同的Gl和Gl的输出网格. 该模块是IM-t t+1用于整合来自所有图像的信息，然后描述网络的每个组成部分。4.1. 3D网格表示为了使网络能够推理3D中的场景几何形状，我们将2D特征解投影到3D网格[20]。一种常见的离散化方法是将3D实现为具有跳过的3D编码器-解码器CNN模块遵循U-Net架构的连接[35]。输出模块。最终输出基于两个CNN模块-一个为每个参考图像产生全帧深度，一个为帧It中的每个RoI产生场景流。对于每个图像Il，其中i∈ {t，t+1}，我们首先折叠通过连接fea，将4D张量Gl（4D张量）转换为3D张量Cl我我长方体体积的利息大小相等的体素。该表示用于3D对象形状重建[40，20]。但是，它不适合深度范围很大的户外场景，我们想要更确定前景物体的几何形状和运动，并允许随着3D世界中深度的增加而增加不确定性。这有助于使用被称为匹配成本体积或平面3D视图平截体5601不在深度维度上的特征当网格与参考图像使用φD进一步处理该张量以产生全帧视差图。3D流预测遵循基于RCNN [11]的架构，其中给定RoI，我们使用RoI对齐层[15]裁剪出相应的区域Cl，并将它们传递给φSF，φ SF预测每个RoI的场景流和实例掩码我们还在φD和φSF中使用来自图像编码器的跳过连接，5602(a) （b）预测图6.我们的实例级移动对象掩码预测的定性结果。颜色编码。做出更准确的预测。全帧场景流图是通过如第3.4节所述的粘贴回ROI来创建的。来自我们的系统的最终输出是视差图D1和D1以及前向场景流图F1。5.1. 运动目标速度和方向评估我们的方法预测每个独立移动的对象的三维场景流。对于每个测试图像对，提供时间t处的视差图像的地面实况注释、扭曲到第一图像的坐标帧中的时间t+1处的视差图像使用这些GT注释以及从Libviso2 [10]获得的估计相机自运动，我们以（x，y，z）格式计算每个图像的3D场景流。为了提供实例级分析，我们使用bbox检测[24]，并找到每个对象的主要3d流。因此，我们在地面实况和所有算法中使用单个3d流向量来表示每个实例的运动方向和速度我们使用以下指标进行评估：3D流的欧几里德长度的平均平均误差（速度）、3D流的角度（运动方向）与运动对象像素的平均平均误差。对于离群值的鲁棒性，我们报告了低于不同阈值的平均平均误差t t+1旧的。为了与其他自监督流进行比较，我们需要深度学习方法来重建场景流5. 实验我们在KITTI 2015 sceneflow数据集上评估了我们的实例级3d对象运动和掩模预测[29]。这是唯一一个包含真实图像和地面实况场景流注释的可用数据集。遵循现有的工作[28，49，52，12]，我们采用官方的200张训练图像作为测试集。最终的微调过程采用官方测试集这是可能的，因为我们不需要训练的基础事实。测试数据所覆盖的28个场景中的所有相关图像都被排除用于训练。图6和图7显示了一些定性结果。培训详情我们的系统使用Ten- sorFlow [1]实现。所有模型都使用Adam [22]进行端到端优化，学习率为1×10−4，衰减率为0.5，衰减步长为100000。在训练中，我们跑-对输入图像进行水平方向的裁剪，得到384×640的图像块作为网络的输入我们将每个RoI的输出大小设置为128×128，我们将3D网格中的通道数设置为64。该批次大小被设置为1以处理用于训练补丁灵活的RoI数对于图像编码器，我们微调了在 ImageNet 上预训练的Inception ResNet V2 [37]的前4个卷积层网络的其余部分是从头开始训练的。我们首先在KITTI原始数据集上训练80K次迭代的深度预测，然后联合训练另外100K次迭代的深度和场景流预测我们在官方测试集上对模型进行了12万次迭代，并使用官方的200张训练图像与其他方法进行比较。整个训练过程使用单个NVIDIATitan-X GPU大约需要30个小时。从深度和光流预测。Geonet提供了具有未知比例因子的深度图，而Unflow不估计深度，因此我们使用Go-dard等人的深度结果。[12 ]第10段。如表1所示，我们的方法的平均实例级运动方向误差小于23μ m，比从最佳自监督光流结合最佳自监督深度算法获得的结果小约15%在我们的预测中，大约75%的移动实例的角度误差小于15°。5.2. 移动对象实例遮罩评估我们的方法可以产生实例级的运动对象分割对象的边界框和立体视频。这是在没有任何实例掩码地面实况监督的情况下实现的。我们评估我们对 KITTIsceneflow 2015训练分割的预测该数据集提供了一个我们在分割评估中使用此运动掩模作为地面实况。图6显示了我们的移动对象掩模预测的一些定性结果如表2所示，我们使用Intersection Over Union（IoU）度量来评估掩码预测。具体地说，我们计算了图像级的平均IoU，它同时考虑了运动对象和静态背景，以及仅考虑运动对象的平均实例级IoU。我们的方法实现了掩模预测的最高IoU作为基线比较，我们使用从SSD [24] 2D边界框检测生成的掩码。这些掩模包含移动和静态汽车，因此对于完整图像掩模，它只能实现0.34的平均IoU。即使利用GT对象移动信息，它也不具有紧密的对象边界，因此只能实现0.655的平均IoU。这举例说明如何5603方法AMAD↓AMAE↓不良事件≤15○↑不良事件≤30○↑SMAD↓SMAE↓SE≤0.15↑SE≤0.3↑[12]第四十二话：6.98○28.82○62.9377.160.2560.5030.3510.554[12]第二十二话：我的世界5.96○26.94○64.8777.580.2400.47136.2158.62我们的（没有ROI一致性损失）6.03○29.34○67.5975.940.2070.35837.4658.93我们的3D场景流程5.19○22.92○74.7878.870.1930.33440.9562.72表1.实例级对象运动在运动方向（A）和速度（S）方面的比较MAE表示平均误差，MAD表示绝对偏差中位数。越低越好。我们还报告了低于不同阈值的角度/速度误差的百分比，其中AE表示绝对角度误差，SE表示绝对速度误差。越高越好。图7.我们的方法的定性结果从左到右，参考图像，深度，光流和实例级移动对象遮罩。方法图像IoU实例IoUZhou等人[五十一]0.380-[24]第二十四话0.3650.655我们的面具预测0.6240.842表2.移动对象遮罩评估。我们报告完整图像和移动实例边界框中的IoU数。我们的方法有效地学习以确定哪个对象正在移动，并识别移动汽车的准确实例分割。我们改进了图像级和实例级IoU的结果我们还与Zhouet al. [51]其为图像中的所有移动对象和遮挡区域生成前景掩模他们的方法不提供实例级信息，因此我们无法获得实例级IoU编号。5.3. 光流评估额外的评估是将我们的3D流预测投影回2D以获得光流。如表5所示，与其他自监督方法相比，我们的方法在非遮挡区域和整体区域中作为基线比较，我们训练了一个没有RoI一致性损失的模型，这表明性能下降。可选地，我们添加光流细化子网络，以进一步改善我们的光流结果。该子网络是一个unet，它将扭曲的图像和原始光流与orig-5604方法BG[第47话]23.6227.3826.8118.7570.8960.9725.3428.0025.74EPC++ [26]（单声道）30.6734.3832.7318.3684.6465.6317.5727.3019.78>30.67>84.64>65.63[26]第二十六话22.7626.6323.8416.3770.3960.3217.5826.8919.64>22.76>70.39>60.32Godard等人[12个]9.4318.7410.86---------[49]第四十九话------43.5448.2444.26---[12]第十二话9.4318.7410.869.1025.9525.4243.5448.2444.2648.2255.7549.38我们6.2715.957.768.4623.6010.9214.3651.2520.1616.5853.2022.64表3. KITTI 2015场景流训练分割结果。所有数字显示正确预测像素的百分比。D1表示时间t处的视差图像，D2表示变形到第一帧中的时间t+ 1处的视差图像，FL表示两个时间实例之间的2D光流，fg表示前景，并且bg表示背景。方法双目绝对相对值平方相对RMSEGodard等人[12个]没有0.1241.3886.125利伯拉[9]是的0.1862.1926.307Godard等人[12个]是的0.0680.8354.392我们是的0.0650.6993.896表4. 200张视差图像的KITTI 2015立体训练集的结果。所有基于学习的方法都在KITTI原始数据集上训练，不包括测试图像序列。上半部分示出了使用单目图像作为输入的方法，下半部分示出了使用双目图像作为输入的方法。方法数据集非闭塞所有区域EpicFlow [34]-4.459.57FlowNetS [5]C+ST8.1214.19[17]第十七话C+T4.9310.06[49]第四十九话K8.0510.81[52]第五十二话K+SY-8.98[28]第二十八话K+SY-8.80Ranjan等人[33个]K-7.76我们K4.975.39我们的（精炼）K4.195.13表5. KITTI 2015流量训练集在非闭塞区域和整体区域上的结果。我们使用平均终点误差（EPE）度量来进行比较。经典方法EpicFlow在运行时每帧需要16秒; FlowNetS和FlowNet 2通过GT流量监控进行学习。SY表示SYNTHIA数据集[36]，ST表示Sintel数据集，C表示FlyingChairs数据集，T表示FlyingThings3D数据集。其他方法的数字直接取自论文。租在桌子上。4.第一章我们比较的算法，双目立体作为输入在测试时间。当我们输入两个连续的双目帧时，我们的方法实现了更高的准确性，并且我们的网络也能够随着时间的推移进行匹配。5.5.场景流评估我们通过直接使用他们发布的结果或运行他们发布的代码来比较场景流子集中的其他无监督方法对于这个基准测试，一个像素被认为是-如果视差或血流终点误差≤3个像素或≤5%，则可以正确估计。对于场景流，需要针对两个视差图和流图满足如表3所示，我们的方法比早期的自监督方法具有更好的准确性。Com-与在测试时进行优化的经典方法相比，我们的精度仍然较低。然而，测试时间优化通常是非常缓慢的实时系统。6. 结论我们提出了一个系统来预测深度和对象场景流。我们的网络使用原始立体序列进行训练，使用现成的对象检测器，使用图像一致性作为关键学习目标。我们的公式是通用的，可以应用于任何设置，其中动态场景是由多个相机成像-例如。多视图捕获系统[13]。在未来的工作中，我们希望扩展我们的系统，整合更长范围的时间信息。一个新兴的概念的对象，以消除依赖于预先训练的对象检测器是一个进一步的研究方向。我们还打算探讨一般情况下，如CA-作为输入的最终图像帧。这使得网络能够以与[32]中提出的架构类似的方式进一步改进光流预测5.4. 深度评测为了评估我们的深度预测，我们使用KITTI 2015立体训练集的200个视差图像作为测试数据，并与其他自监督学习和经典的人工智能进行比较。使用双摄像机消费者设备的sual视频捕获，并利用大规模训练用于真正通用的深度和场景流预测系统。引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ，ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：D1D2FL所有BGfg bg+fgBGFGbg+fgFGbg+fgBG FGbg+fg5605一个大规模机器学习系统。在OSDI，2016。6[2] Christoph Bregler，Aaron Hertzmann，and Henning Bier-mann.从图像流中恢复非刚性三维形状。在CVPR，2000年。2[3] J oa oPauloCosteiraandTa k eoKanade. 独立运动物体的多体分解IJCV，1998年。2[4] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS，2014。一、二[5] P. Fische r，A. 两个人都是E. Ilg，P. Hausse r，C. 哈兹尔巴斯湾Golkov，P. v.d. Smagt，D. Cremers和T.布洛克斯”。Flownet：使用卷积网络学习光流在ICCV，2015年。一、二、八[6] 卡特琳娜·弗拉基亚达基，玛尔塔·萨拉斯，巴勃罗·阿贝莱斯，和吉坦德拉·马利克.基于分组的低秩轨迹补全与三维重建。在NIPS，2014。2[7] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。TPAMI，2010年。2[8] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid. 用于单视图深度估计的无监督CNN几何学拯救了我们。在ECCV，2016年。一、二[9] Andreas Geiger，Martin Roser，and Raquel Urtasun.高效的大规模立体匹配。InACCV，2010. 五、八[10] Andreas Geiger，Julius Ziegler，and Christoph Stiller.立体声扫描：实时高密度三维重建。2011年智能汽车研讨会（IV）。二、六[11] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。5[12] C Godard，O Mac Aodha和GJ Brostow。具有左右一致性的无监督单目深度估计。在CVPR，2017年。一、二、五、六、七、八[13] Lei Tan Lin Gui Bart Nabbe Iain Matthews Takeo KanadeShohei Nobuhara Hanbyul Joo，Hao Liu and Yaser Sheikh.Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。8[14] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。2[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 5[16] 弗雷德里克·胡盖和弗雷德里克·德韦尔纳。从立体序列中估计场景流的一种变分载于ICCV，2007年。2[17] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR，2017年。1、8[18] Mariano Jaimez ， Mohamed Souiai ， Javier Gonzalez-Jimenez，and Daniel Cremers.一种实时密集rgb-d场景流的原-对偶框架。InICRA，2015. 2[19] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.InICCV，2017. 2[20] Abhish e kKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在NIPS，2017年。二、五[21] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习InICCV，2017. 一、二[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[23] Lubor Ladicky，Jianbo Shi，and Marc Pollefeys.把事情扯远。CVPR，2014。2[24] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。四、六、七[25] 克里斯托弗·朗盖-希金斯。一种从两个投影重建场景的计算机算法。Nature，1981. 2[26] Chenxu Luo ， Zhenheng Yang ， Peng Wang ， YangWang，Wei Xu，Ram Nevatia，and Alan Yuille.每个像素计数++：几何与运动的联合学习与三维整体理解。arXiv预印本arXiv：1810.06125，2018。二、八[27] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在CVPR，2016年。一、二[28] Simon Meister，Junhwa Hur，and Stefan Roth. Unflow：对具有双向集中损失的光流进行无监督学习。AAAI，2018年。六七八[29] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR，2015。二、六[30] Kemal Egemen Ozden ， Kurt Cornelis ， Luc VanEycken，and Luc Van Gool.用通用约束重构独立运动物体的三维轨迹。CVIU，2004年。2[31] Marc Pollefeys，Luc Van Gool，Maarten Vergauwen，Frank Verbiest，Kurt Cornelis，Jan Tops，and ReinhardKoch.用手持摄像机进行视觉建模。IJCV，2004年。2[32] Anurag Ranjan和Michael J.黑色.使用空间金字塔网络的光流估计。在CVPR，2017年。8[33] Anurag Ranjan，Varun Jampani，Kihwan Kim，DeqingSun，Jonas Wulff，and Michael J Black.对抗性合作：联合无监督学习深度，相机运动，光流和运动分割。arXiv预印本arXiv：1805.09806，2018。二、八[34] JeromeRevaud，PhilippeWeinzaepfel，ZaidHar

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

提出一个基于立体视频的对象运动图预测系统

基于视频的运动目标检测

检测视频运动对象

基于双目立体视觉的测距系统系统设计 csdn

matlab 基于双目立体视觉的测距系统系统设计 csdn

基于plc控制的立体车库系统设计

基于Transformer的双目立体图像超分辨重建及其在视频监控中的应用

帮我写一段基于单目/立体图像的3D目标检测方法的综述

基于halcon的双目立体视觉系统实现 段德山

写一种基于波前编码的双目立体视觉系统和应用专利

帮我写一段介绍基于单目/立体图像的3D目标检测方法的发展（用文献的形式呈现出其一步步发展点）要求具备全面概括性、关键重要性

基于halcon的双目立体视觉系统实现

基于SLAM的双目立体视觉实时自校准

基于plc的立体仓库堆垛机控制系统设计

python 如何读取一个视频的运动轨迹以及深度变化信息

process 绘制一个立体的运动的魔方

基于plc的立体车库设计答辩

近四年提出的立体匹配算法

Bouguet立体校正谁最先提出

基于ruoyi权限管理的自动化立体智慧仓库wms管理系统源码

基于3D匹配代价体的立体匹配算法为什么会比基于4D的立体匹配算法精度低

最新资源

基于halcon的双目立体视觉系统实现段德山