WALT：利用延时图像的二维非模态表示进行自动遮挡监督

16 浏览量更新于2023-10-25 收藏 2.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9356WALT：观看和学习从延时图像的二维非模态表示罗伯特·坦布罗·斯里尼瓦萨卡内基梅隆大学http://walt.cs.cmu.edu摘要当前的目标检测、分割和跟踪方法在繁忙的城市环境中存在严重的遮挡时会失败标记的遮挡的真实数据是稀缺的（即使在大型数据集中），并且合成数据留下了域空白，使得难以显式地建模和学习遮挡。在这项工作中，我们使用大量现成的数据源为自动遮挡监督提供了真实和合成世界中最好的：从静止的网络摄像头观察街道交叉口数周、数月甚至数年的延时图像。我们引入了一个新的数据集，观看和学习延时（WALT），由12个（4K和1080p）摄像头组成，在一年内捕捉城市环境。我们利用这种真实的数据，在一个新的方式自动挖掘一个大的未被遮挡的对象，然后将它们组合在相同的意见，以产生闭塞。这种纵向自我监督对于非模态网络来说足够强大，可以学习对象-遮挡物-遮挡层表示。我们展示了如何加快未遮挡对象的发现，并将此发现的置信度与训练遮挡对象的速度和准确性联系起来经过几天的观察和自动学习，这种方法在检测和分割被遮挡的人和车辆方面显示出显着的性能改善，超过了人类监督的非模态方法。1. 介绍虽然用于对象检测的数据驱动方法[10，14，20，40]，跟踪[7，58，59，62]、分割[4，22，30，39，50]和重建[25，27，29，53]，大多数方法在严重遮挡的情况下表现不佳。在繁忙的十字路口和拥挤的地方，严重的闭塞是常见的即使在不太密集的场景中，行人和车辆也经常会相互通过或从其他物体后面通过。因此，物体要么根本没有被检测到，要么2D边界框和片段被截断，并在下游过程中产生错误，如3D重建[5，6，25，41，42，45]。这种情况在很大程度上可以归因于这样一个事实，即闭塞被视为噪音，必须过度-图1.我们可视化的预测amodal表示的车辆和人严重闭塞训练使用我们的纵向自我监督框架。该方法显示出显着的改善，在非模态检测和分割与从不同的相机捕获的图像。[16，17，23，36，52，57]。有几个挑战使这一战略难以成功。首先，标记被遮挡的对象边界框或片段要困难得多，即使是人类[47，49，63]。因此，即使是像COCO [38]和ImageNet这样的大型数据集，[34]有相对较少的对象标记，严重闭塞[47，63]。这对学习遮挡的鲁棒性产生了强烈的偏见[11，46，56]。此外，评估指标通常在整个数据集上报告[9，18，38]，这可能会隐藏遮挡场景中的问题。因此，越来越多的人认识到，必须明确地对遮挡进行建模和学习[15，19，30，30，48，61]。这导致了在标记多个数据集中的阻塞实例方面的新努力[21，47，63]。使用这种超视觉、非模态或整体的表示法（例如.分割和边界框）从部分遮挡的观察中学习[28，54，60]。虽然产生了比以前明显更好的结果，但这些值得称赞的努力仍然受到相同挑战的困扰-人类难以标记真实场景中的遮挡和有限的数据集大小。为了补充这种有限的数据，焦点已经转向使用计算机图形[1，13，24]使用合成修补[30，31，60]来CG可以生成大量的数据用于监管（考虑到今天9357m=0，…M但即使是最好的渲染器[8，12，44]也会给真实数据留下一个值得注意的域间隙，这需要被桥接[33，51]。在这项工作中，我们使用大量迄今未开发的数据源，为自动遮挡监督提供了真实和合成世界中最好的：从固定摄像机观察街道交叉口数周、数月甚至数年的延时图像1.我们利用这些数据在一个新的方式，首先挖掘一个大的数据集，真正的未被遮挡的对象随着时间的推移，然后用它们来合成大小的大量的遮挡情况。我们开发了一种新的方法来分类未被遮挡的对象的基础上的想法，当在同一个地平面上的对象相互遮挡，它们的边界框重叠在一个特定的共同配置。一旦未被遮挡的物体被发现，它们将被合成到同一个场景中。这些合成物具有可能不会使它们对于可视化太有用的人工制品。但它们足够接近真实数据，可以减少深度网络的域间隙，该深度网络可以显式预测对象，其遮挡物和被遮挡物。耐心在这里得到回报。随着时间的推移，我们的方法发现了数以万计的未被遮挡的物体在不同的位置，方向和外观，由于照明和天气条件，即使在繁忙的场景。我们通过将稀疏时间采样的数据与突发本地跟踪相结合来加快这一发现。此步骤将所需的观测周期从数月缩短到数天（每隔几分钟捕获一次图像）。这些数据使我们能够分析我们的方法在不同的持续时间和自我监督的信心的表现。具体来说，我们将未遮挡对象预测的置信度与训练遮挡对象的速度和准确性联系起来。在开始时，包括较低的置信度预测增加了更多的监督以加速训练，但是仅在高置信度监督下训练很快我们引入了一个新的数据集，观看和学习延时（WALT），由12个（4K或1080p）摄像头组成，在一年内捕捉城市环境。摄像机可以看到从交通路口到木板路的各种场景行人和车辆检测和分割的性能显着提高所有摄像机。与[32，49，57]一样，我们报告了不同遮挡水平下的性能，并表明与不使用纵向自我监督的方法相比，随着遮挡的增加，性能下降得更正因为如此，我们在检测和跟踪物体时取得了很好的效果，因为它们彼此通过-现有方法的常见故障模式我们提出的方法很简单，但提供了一个有效的基线，以激励未来的工作，利用纵向监督的计算机视觉下强遮挡。1在过去的几十年里，对来自世界各地成千上万个网络摄像头的延时数据进行了大量分析，用于照明和天气理解[35] [43]，对象插入和渲染[2，26，37]。图2.说明用于使用基于平面的IOU（绿色）对车辆和人员等不同类别的对象进行分类的未遮挡（蓝色）和遮挡对象（红色）的区域2. 观察和学习非模态表示我们解决的问题层表示的对象在场景中严重遮挡。我们提出了一个连续的学习框架来解决图像中的遮挡模糊。最初，给定来自固定相机的延时数据流，我们在很长一段时间内检测和挖掘所有未被遮挡的对象。随着时间的推移，这些未被遮挡的观测自动地充当监督，我们称之为纵向自我监督。我们遵循基于剪贴画的集成方法，将这些未被遮挡的物体放置在场景中的相同检测位置，但与数据库中的另一个未被遮挡的物体重叠。这会生成许多逼真的遮挡配置，用于训练网络从杂乱的场景中理清整体对象分割。我们进一步展示了如何通过跟踪未遮挡检测来加快学习非模态表示的训练2.1. 不包含对象挖掘我们利用时间推移的数据，在一个新的方式来挖掘一个大的数据集的真实无遮挡对象随着时间的推移。我们开发了一种新的方法来分类未被遮挡的对象的基础上的想法，当在同一个地平面上的对象相互遮挡，它们的边界框重叠在一个特定的共同配置。预处理视频：在摄像机的延时馈送上，我们在每帧上运行实例分割[40我们使用基于Intersection-Over-Union的跟踪器[3]来跟踪检测到的边界框和分割。我们将检测结果表示为D t0.... tN其中tN表示时间，而N表示图像的数量，并且m对应于来自总共M次检测的对象的索引。遮挡分类：我们从延时视频序列中定位和分割。通过利用在如图2所示的图像中检测到的对象之间的重叠来检测未被遮挡的对象。对于时刻tj处的每个检测Di，我们得到：9358我我我m=0，…M图3.我们展示了从剪贴画WALT数据集生成的训练图像（顶部）。合成的Ground-Truth非模态分割图（底部）捕获了用于训练的遮挡的多层（较暗表示更高阶的遮挡）。剪贴画图像具有逼真的遮挡，因为修复是通过在与观察对象相同的位置上叠加对象来执行的，但对象来自不同的时间实例。计算遮挡指示符O（Dtj），t.0，如果Dtj<$Dtj=0或B（Dtj）<$Dtjδ我条件我们还计算每个中值图像的对象出现的空间分布，以模拟类似于真实世界图像的遮挡模式。O（Dj）=我1，否则。我（一）生成分层表示：我们随机选择背景图像及其对象出现数据分布，我们使用两个假设来将检测到的对象分类为第我们从数据分布中采样P个被遮挡或完全可见。第一个约束是，t0..... tNm =0，...............、M其中O（Dtj）==0;i∈P. 这些边界框不应与来自同一时刻的任何其它检测到的物体Dtj其次，对于每个重叠的包围盒，我们解开遮挡对象和遮挡假设平面约束。当两个对象在同一平面上时，我们观察到被遮挡的边界框的底部总是与场景中的另一个边界框相交我们利用这一观测结果，并找到相交的闭塞边界-ING框与底部的闭塞边界框B（Dtj）。如果相交小于阈值δ，则将对象分类为被遮挡。该分类是COM-在所有检测中迭代地计算D t0.... n和n-提取被遮挡对象检测和分割2.2. 基于剪贴画的自我监督一旦未被遮挡的对象被发现，它们就被合成到图3所示的同一场景中。这些数据足够接近真实数据，可以减少深度网络的域间隙，从而显式预测对象、其遮挡物和被遮挡物。后台计算：给定来自固定相机的图像序列，我们通过从图像集合中找到每个像素的RGB中值来计算中值图像。由于相机是全天拍摄的，并且在不同的天气下计算单个中值图像是不现实的。为了创建逼真的背景图像，我们针对不同的成像条件（如一天中的时间或不同的天气）生成中值图像，即晴天、雨天等。这是通过在不同条件下对图像进行采样来计算的。采样的对象及其分割掩模被分割到不同的层中，用于生成场景的不同遮挡。我们通过每一层和合成的对象到背景图像使用的segmenta- tion面具。由于它们是逐层合成到图像上的，因此使用场景中所有对象的分割掩模自动生成非模态分割图。由于我们使用纵向信息（长时间的图像）来生成这些对象，因此网络可以从对象的大变化以及不同的遮挡配置中学习。合成图像和非模态分割图被传递到网络用于训练非模态表示。2.3. 观看和学习延时网络我们通过使用合成图像及其非模态分割图训练网络来学习场景的非模态表示，如图4所示。输入图像通过主干网络[40]以产生特征图。从主干产生的特征图通过box head [55]产生一个非模态边界框。非模态边界框与特征图相结合，通过学习Object-Occluder-Occluded交互来产生非模态分割。非模态边界框：来自骨干的特征图通过框头来计算非模态边界框假设。我们训练这个盒子头，丁丙沙星9359∈MMAOLLMMMAO输入图像封堵器网络封堵器损失特征图非模态对象非模态对象网络骨干ROI特征闭塞闭塞网络检测到的箱子Amodal Box箱头纵向监督阻挡层非模态对象层遮挡层图4.合成图像通过我们的网络进行训练，以获得场景的非模态表示。来自主干的特征图通过框头来产生非模态边界框。该边界框与来自主干的特征图组合以产生ROI特征。ROI特征用于训练非模态分割。预测整体对象表示的关键是理解非模态包围盒中的遮挡物和被遮挡对象。将来自遮挡物和被遮挡物的特征与ROI特征连接以产生准确的非模态分割。我们用基于Clip-Art的自我监督生成的分割图来监督这个网络FCOS [55]基于损失：LAmodalBox=L回归+L中心度+L类（2）地面实况边界框是计算使用通过合成获得的非模态分割图。边界框假设与主干特征图相结合，以学习非模态分割网络。物体-封堵器-封堵相互作用：我们学习对象和边界框中存在的其他层之间的交互。每个非模态包围盒有三个组成部分，我们想要检测的对象（非模态对象（ AO ））、遮挡非模态对象的对象（遮挡器（OR））、除了背景之外被遮挡的对象（被遮挡（OD））。为了学习对象的整体表示，对象与这里，M[AO，OR，OD]表示不同的网络组件，并且LBCE表示Ground-TruthGT和预测热图之间的二进制交叉熵损失。WS和WB 分别表示为分割和边界训练的权重。FS和FS分别是每个M的分割和边界的计算特征图。为了使非模态分割鲁棒，我们将遮挡物FOC、被遮挡物FOD和输入特征图相结合以产生非模态对象特征图FAO。端到端参数学习：整个非模态表示框架可以以由多任务损失函数L定义的端到端方式训练，L=λbLAmodalBox+LAO+LOR+LOD（5）遮挡和被遮挡必须通过学习来利用LObject=λS SB B凹凹（六）框架. 为了训练这种交互，我们建议为每个类别使用不同的模块。遮挡物网络将ROI特征作为输入，并预测非模态边界框中的遮挡物层遮挡网络从ROI特征预测非模态边界框的遮挡层。对象网络通过对遮挡和被遮挡的鲁棒性预测非模态对象分割。我们将遮挡物和遮挡特征与对象特征相结合，使网络对不同的遮挡具有鲁棒性。我们使用边界和分割掩码来学习非模态分割。我们使用损失函数LB训练每个分量的边界：LB=LBCE（WB FB，GTB）（3）我们使用损失函数LS训练每个分量的分割：LS=LBCE（WS FS，GTS）（4）其中，LAO、LOR、LOD分别是Amodal对象、Oc_cluder和Occluded网络的损耗。如等式（6）所示，对于每一层，损失是边界损失和分段损失的总和。类似于等式（6），我们计算遮挡层和被遮挡层的边界和分割损失。最后，网络使用端到端框架进行训练，优化所有损失。2.4. 加快非模态学习非模态表示的准确性受到未遮挡物体的质量和数量的影响。我们加快了发现未被遮挡的对象相结合的稀疏时间采样的数据与突发本地跟踪。这一步骤将所需的观察时间从数月缩短到几天（每隔几分钟拍摄一次图像）。我们发现，使用这种策略，在不同的检测阈值下，未被遮挡的物体几乎多出3倍，如图左侧的透明细线所示M M M+λ9360=0.05=0.1=0.15=0.2=0.25准确度（AP）100806040不随时间变化的检测1.00.80.60.4随时间变化的200.2001020304050607080 90时间（天）0.00 10 20 30 40 50 60 70 80 90时间（天）图5.我们比较了使用我们的未遮挡跟踪框架检测到的未遮挡物体的数量（粗体）与左侧图像上的均匀采样（透明）。使用新的模块，实现高精度更快（15天内）的一致性，几乎所有阈值的γ（右）均匀采样。五、这些额外挖掘的未被遮挡的对象将训练速度提高了5倍以上，并且在短短14天的观察中达到稳定水平，如图5所示，对于不同的阈值δ。另一个重要的见解是，网络在δ更高的情况下学习得更快，但由于挖掘出的未被遮挡的对象是错误的，因此会失去准确性。另一方面，较低的δ表明网络需要更长的时间来学习，但随着更多样本的增加，精度会提高。我们随着捕获的天数线性地减少δ，以实现更快的训练。3. 数据集和指标我们引入了一个新的数据集，称为WALT，由12个（4K和1080p）摄像头组成，在一年内以短时间内捕获数据。此外，我们提出了一种新的评价方法，使用静止的对象，以改善人类注释或合成数据集的缺点，对真实图像。观看和学习延时摄影（WALT）数据集：该数据集由我们设置的6个4K分辨率摄像机和6个1080p YouTube公共直播流组成。摄像机俯瞰公共城市环境，分析交通流量和严重闭塞的人群，如图6所示。我们使用了4台摄像机和6台来自YouTube的摄像机进行训练。从2台摄像机捕获的数据用于测试。每隔几分钟以30 FPS的速度捕获3秒的数据仅存储与前一图像相比有显著变化的图像。这将导致一年内每天存储约5000张图像。我们将收集几个月来从我们设置的摄像机捕获的数据，并在YouTube上发布摄像机的实时流视频，以供研究之用。自动捕获和处理YouTube直播流数据的代码将被发布。潜在社会影响：我们不使用这些摄像机进行任何人体研究。为了阻止任何人类主题的研究，并保护图像中捕获的对象的隐私，我们模糊了所有待发布图像在随机时间实例周围的短脉冲中捕获数据，以阻止识别特定人或车辆的移动模式。本研究被我们的机构审查委员会（IRB）指定为非人类受试者研究。图6.来自WALT（右）和Rendered WALT（左）数据集的示例可视化。该数据集包含多年来捕获的具有严重遮挡的各种对象。实验结果首次在大规模真实数据上显示了非模态表示学习的显著性能。渲染的WALT数据集（RWALT）：我们使用计算机图形渲染复制WALT数据集[8]。我们使用一个停车场的3D模型和模拟对象的轨迹类似于现实世界的停车场。我们从多个视角绘制了1000张场景的延时图像。用于渲染的摄像机放置在车辆的仪表板上或停车场周围的基础设施来自数据集的样本渲染图像如图6所示。我们使用100台摄像机的渲染进行训练，使用20台摄像机进行测试。我们使用数据集来计算使用渲染的Ground-Truth的网络的消融研究。* ：除非另有说明，否则我们在整个实验中使用平均精度（AP）来评估边界框和分割精度。我们评估我们的方法从WALT数据集生成的三个不同类别的数据：渲染WALT数据集（RWALT），剪贴画WALT数据集（CWALT），和固定对象WALT数据集（SWALT）。对于渲染的WALT数据集，在合成图像上计算非模态表示，并与渲染产生的地面实况轮廓进行比较对于剪贴画WALT数据集，我们在WALT数据集的测试和训练相机上计算90天的未遮挡对象，并使用第2.2节中的方法合成每个相机10000个合成图像。我们通过网络传递分层图像，并将结果与生成的测试图像的地面实况进行比较。基于静态对象的评估（SWALT）：由于人类注释者只能在遮挡区域中产生幻觉，因此他们的标记是不可靠的。为了解决这一问题，我们提出了使用一致性在静止目标分割和检测下的遮挡作为一个度量来量化算法的准确性。从WALT的测试集，我们挖掘无遮挡的静止ob-bits聚类检测在同一位置的对象我们使用未被遮挡的边界框和静止对象的分割作为地面实况来比较对象在不同时间被另一对象遮挡时的预测。地面实况和预测之间的平均交并（IOU）是针对台站计算的=0.05=0.1=0.15=0.2=0.25计数（千）93611.00.80.6人员检测VS遮挡人的分割VS闭塞1.00.80.6表1.在Rendered和CWALT数据集上对拟议学习架构进行消融分析。请注意，每个组件，即Occluder（+OR）和Occluded（+OD）网络都提高了分割的准确性。使用边界（B）和分段掩码（M）进行训练始终优于仅使用边界或分段掩码进行训练的模型。当它被大于阈值γ遮挡时，γ被计算为Ground-Truth边界框和场景中其他对象的边界框之间的重叠。使用这种策略，我们提取了536个固定的ob-0.40.20.00 10 20 30 40 50 60 70 80 90 100闭塞（%）车辆检测VS遮挡1.00.80.60.40.20.00 10 20 30 40 50 60 70 80 90 100闭塞（%）0.40.20.00 10 20 30 40 50 60 70 80 90 100闭塞（%）车辆分割与遮挡1.00.80.60.40.20.00 10 20 30 40 50 60 70 80 90 100闭塞（%）测试人员观察了超过60k帧进行评估。4. 评价和消融分析行人和车辆检测和分割的性能显着提高在所有的摄像机。我们报告了在不同遮挡程度下的性能，并表明与不使用基于剪贴画的自我监督的方法相比，随着遮挡的增加，性能下降得更慢。符号：Modal表示使用visi训练的模型图7.人车分割检测精度对比分析。显然，基于Amodal（整体表示）的方法在检测和分割方面优于基于Modal（仅可见表示）的方法将每个网络（AO，+OD，+OR）添加到非模态训练中，提高了严重遮挡场景的分割准确性。在50%遮挡，我们观察到与基于模态的检测相比，分别针对人和车辆的检测精度提高了近90%和60%。类似地，在50%闭塞时，我们观察到20与Occluder（+OR）相比，人和车辆的分割准确性分别提高了%和12%。ble分割或边界框，而Amodal使用我们的amodal监督。在Amodal方法中，仅使用Amodal对象网络表示为AO，而仅添加遮挡网络表示为+OR。+OD作为来自遮挡器和遮挡网络的最终层的组合给出。B和M分别表示边界和分割掩码，而BM共同表示训练。检测精度36912 15 18 21 24 27 30时间（天）1.00.80.60.40.20.0分割精度36912 15 18 21 24 27 30时间（天）1.00.80.60.40.20.0阻塞器和阻塞网络分析：我们观察到，将来自遮挡器和被遮挡网络的特征添加到非模态对象预测网络，提高了渲染WALT数据集和剪贴画WALT数据集的非模态分割的准确性，如图1所示。当使用图7中的遮挡器和遮挡网络用于车辆和人时，我们观察到鲁棒的分割准确性以及遮挡百分比的增加。边界和掩模预测分析：观察到基于分段的方法优于基于边界的方法。我们观察到，将对象边界与分割掩码相结合始终可以提高两个数据集的准确性，如表1所示。对闭塞的稳健性：我们评估我们的算法的准确性与不同百分比的闭塞使用- ING CWALT数据集。我们使用来自数据集的Ground-Truth segmenta- tion mask根据遮挡百分比对对象进行分组。图7显示了在不同遮挡百分比的情况下，剪贴画WALT数据集的检测和分割精度显然，我们观察到所提出的方法是非常强大的遮挡相比，其他方法的人和车辆。图8.CWALT数据集上随时间变化的不同遮挡水平的准确度热图观察到，对于严重遮挡（即>50%），准确性随着时间的推移而大幅提高，强调我们的框架学习了鲁棒的非模态分割。随时间推移的闭塞：在图8中，我们分析了非模态表示相对于来自不同长度的剪贴画WILD数据集的训练数据的准确性。第N天图对应于用N天的未遮挡对象检测训练的模型我们从热图中观察到，随着更多未被遮挡的对象被用于训练，准确性随着时间而增加，但随着遮挡百分比而我们进一步观察到，对于更严重的遮挡，准确性随着时间的推移而提高，强调纵向学习对于处理严重遮挡是重要的。与人类注释数据集的比较：我们重申，人类注释，特别是对于强遮挡，是不精确的学习amodal表示。与人类注释的数据集，即。KINS或COCOA，我们基于SWALT的评估方法可以产生更准确的地面实况。此外，SWALT方法生成的测试集比任何现有的人类测试集都大得多阿莫德模态+OD+或AO模态阿莫德模态+OD+或AO模态闭塞（%）10 20 30 40 50 60 70 8090准确度（AP）准确度（AP）准确度（AP）闭塞（%）10 20 30 40 50 60 70 8090数据集无模态对象封堵器（+OR）闭塞（+OD）BMBMBMBMBMBMRWALT55.360.561.464.265.566.366.267.968.1CWALT62.365.566.170.271.273.273.974.275.3准确度（AP）9362图9.在车辆相互通过（顶部）或车辆停车时，在遮挡期间对车辆进行精确的非模态分割。我们的方法是能够提供一致的分割和检测的所有车辆在严重的闭塞和运动。这可以导致跟踪具有遮挡的对象的显著改进。图10.当一个人经过另一个人时（上图）或当他们在整个视频中行走时（下图），准确预测人的非模态分割。这样的表示直接外推到对通用视频中的人的改进的跟踪。金穗可可SWAL不γ = 0。01γ= 0。5ASN24.929.679.476.91BCN27.332.782.7977.44我们27.933.183.678.2CWALTSWAL不γ = 0。01γ= 0。5ASN66.183.181.9BCN73.289.988.3我们75.392.1991.7与其他网络的比较：我们分析了在我们的数据（CWALT/SWALT）上训练/测试不同方法的优势。与其他方法相比，测试分数显示amodal准确性的改善。事实上，所有方法都可以通过CWALT培训和SWALT测试来改进，如表2b所示。我们在图11中示出了这些方法在具有严重遮挡的多个真实世界图像上的定性比较。使用非模态表示的鲁棒跟踪：我们证明了学习鲁棒的非模态表示自动地改善了对严重遮挡对象的跟踪，如图10所示的人和图9所示的车辆。具体而言，观察对象被良好分割，并且在具有各种遮挡级别的帧之间是一致的。请参阅补充材料了解更多结果和视频。5. 结论和限制局限性：需要分析在新相机上观察显著不同场景的非模态分割的泛化为了更广泛地应用我们的方法，需要进一步研究加快学习速度(a) [63]第63话：我的世界(b) CWALT培训结论：这项工作表明，真正的纵向表 2. 在人类注释数据集（ a ）和 Clip-Art WALT 数据集（CWALT）（b）上训练的非模态分割比较，关于三种不同的网络架构，BCNet[47]，BCNet [63]和Ours。选项卡. 图2a显示，人类注释的数据集训练在SWALT上只能达到78%左右的准确率。另一方面，Tab。2b报告SWALT的准确率为91.7%，显示了CWALT培训的优势事实上，所有方法都显示出通过对 CWALT 进行训练而对SWALT的改进。 γ表示SWALT中每个对象的遮挡百分比，但需要进一步研究以报告人类注释的数据集。注释数据集（来自WALT数据集的60K图像与KINS数据集中的6157图像相比较），并且随着在接下来的几年中从更多的相机捕获数据，预计将显著在这样的扩展数据集上缩放人类注释是昂贵的且不可行的，并且我们基于自我监督的方法自动生成用于非模态评估的准确且大的训练和测试数据集。尽管如此，我们报告了我们的方法在人类注释数据集上训练并在表2a中的KINS，COCOA和SWALT上测试时的准确性。我们的方法在这里稍微优于以前的方法数据可以有效地用于自我监督非模态学习。关键的见解是，它更容易准确和快速地发现未被遮挡的对象（在几天内），并使用它们来学习任何固定相机随着时间的推移观察场景的非模态分割。这一发现的置信度可以用作准学习率，以加快被遮挡物体的非模态训练。我们引入了一个名为WALT的新数据集，其中包含12个（4K和1080p）摄像头，每5分钟左右以短脉冲的方式捕获一年内的数据。这些数据将以匿名的方式发布，以帮助保护隐私。实验结果首次在大规模真实数据的非模态表示学习中显示出显著的性能。在未来，我们将扩展我们的方法，从自动驾驶应用中放置在车辆上的摄像头中学习。致谢：这项工作部分由 ARL Grant W 911 QX 20F016，NSF CNS-2038612赞助，和DOT RITA Mobility-21 Grant 69 A3551747111，以及高通创新奖学金。9363[30]第47话第30话第30话图11.将我们的方法与从不同数据集捕获的最先进图像进行定量比较。前两行显示车辆遮挡车辆场景，而下两行显示人遮挡人。最后，我们还展示了人和车辆在底部两行中相互遮挡的示例观察到我们的方法在预测由于纵向自我监督制定的非模态分割我们在困难的遮挡场景中执行准确的分割，例如具有相似颜色（第二行）或大遮挡（第三行，第六行）或多层遮挡（第一行，第五行）的对象。我们的方法甚至适用于低分辨率图像（第四行）和对象间交互（第五行，第六行）。9364引用[1] Hassan Abu Alhaija ， Siva Karthik Mustikovela ， LarsMescheder，Andreas Geiger，and Carsten Rother.增强现实与深度学习相结合，用于城市场景中的汽车实例分割在英国机器视觉会议上，第1卷，第2页，2017年。1[2] GeorgesBaatz ， OlivierSaurer ， KevinKöser ，andMarcPolle-feys.山区地形中图像的大规模视觉地理定位欧洲计算机视觉，第517-530页。Springer，2012. 2[3] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在2016年IEEE图像处理国际会议（ICIP），第3464-3468页，2016年。2[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。1[5] Yu Cheng，Bo Yang，Bo Wang，and Robby T Tan.使用具有显式遮挡训练的时空网络进行3d人体姿态估计arXiv预印本arXiv：2004.11822，2020。1[6] Yu Cheng，Bo Yang，Bo Wang，Yan Wending，andRobby Tan.用于视频中3d人体姿态估计的遮挡感知网络。2019年IEEE/CVF计算机视觉国际会议（ICCV），第723-732页。美国电气与电子工程师协会。1[7] 崔元君基于局部流描述子的近在线多目标跟踪在ICCV，2015年。1[8] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。二、五[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。1[10] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在2005年IEEE计算机社会计算机视觉和模式识别会议（CVPRIEEE，2005年。1[11] Kiana Ehsani、Roozbeh Mottaghi和Ali Farhadi。Segan：分割和生成不可见的东西。在IEEE计算机视觉和模式识别会议论文集，第6144-6153页，2018年。1[12] Epic Games. 虚幻引擎。2[13] Matteo Fabbri、Fabio Lanzi、Simone Calderara、AndreaPalazzi、Roberto Vezzani和Rita Cucchiara。学习在虚拟世界中检测和跟踪可见和遮挡的身体关节。在欧洲计算机视觉会议（ECCV）的会议记录中，第430-446页，2018年。1[14] Pedro F Felzenszwalb和Daniel P Huttenlocher。用于物体识别的图形结构。国际计算机视觉杂志，61（1）：55-79，2005。1[15] Patri ckFollmann，丽贝卡·柯尼格，PhilippH？rtinger，MichaelKlostermann，andTobiasB？ttge r. 学习去看无形的：端到端可训练的非模态实例分段。2019年IEEE计算机视觉应用冬季会议（WACV），第1328-1336页。IEEE，2019。1[16] 里克·弗兰森斯，克里斯托夫·斯特雷查，吕克·范古尔。地图估计问题中相干遮挡处理的平均场em算法。2006年IEEE，2006年。1[17] 高天石，本杰明·帕克和达芙妮·科勒。具有遮挡处理的分割感知对象检测模型。CVPR 2011，第1361-1368页。IEEE，2011年。1[18] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。1[19] Golnaz Ghiasi，Yi Yang，Deva Ramanan，and CharlessC Fowlkes.解析闭塞的人。在Proceedings of the IEEEConferenceonComputerVisionandPatternAppraisition，第2401-2408页，2014年。1[20] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 5801[21] Ruiqi Guo和Derek Hoiem。视线之外：标记下面的表面。欧洲计算机视觉会议，第761-774页。Springer，2012. 1[22] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 1[23] 萧爱德华和马夏尔·赫伯特。 Occlusion reason- ing forobjectdetectionunderarbitraryviewpoint.IEEEtransactionsonpatternanalysisandmachineintelligence，36（9）：1803-1815，2014。1[24] Y.-- T.胡，H.- S. Chen，K. Hui，J.- B. Huang和A. G.施温SAIL-VOS：语义非模态实例级视频对象分割-在Proc.CVPR，2019中。1[25] Karim Iskakov ，Egor Burkov ，Victor Lempitsky ，andYury Malkov. 人体姿势的可学习三角测量在IEEE/CVF计算机视觉国际会议论文集，第7718-7727页，2019年1[26] 内森·雅各布斯纳撒尼尔·罗曼罗伯特·普利斯许多户外场景中的连续时间变化。在IEEE计算机视觉和模式识别会议（CVPR）中，第1-6页，2007年6月。合格率：百分之二十三点四 2[27] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格CoRR，abs/1803.07549，2018。1[28] Abhishek Kar ，Shubham Tulsiani，Joao Carreira ，andJiten- dra Malik.自然场景中的非模态完成和大小恒定性在IEEE计算机视觉国际会议论文集，第127-135页1[29] Abhishek Kar ，Shubham Tulsiani，Joao Carreira ，andJiten- dra Malik.从单个图像重建特定于类别的对象。CVPR，2015。19365[30] Lei Ke，Yu-Wing Tai和Chi-Keung Tang。具有重叠双层的深度在 IEEE/CVF 计算机视觉和模式识别会议（CVPR），第4019二零二一年六月。 1、8[31] Lei Ke，Yu-Wing Tai和Chi-Keung Tang。遮挡感知视频对象修复。在IEEE国际计算机视觉会议（ICCV），2021年。1[32] Adam Kortylewski，Ju He，Qing Liu，and Alan L Yuille.复合卷积神经网络：一种对部分遮挡具有天生鲁棒性的深层在IEEE/CVF计算机视觉和模式识别会议上，第8940-8949页，2020年。2[33] 菲利普·克拉亨布·乌尔。从视频游戏免费监督。在IEEE计算机视觉和模式识别会议论文集，第2955-2964页2[34] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS。1[35] Jean-Fr ancoisLalonde ， Alex eiAEfros ， andSrinivasaGNarasimhan.网络摄像头剪贴画：从时间推移序列的外观和光源转移。 ACM Transactions on Graphics（TOG），28（5）：1-10，2009. 2[36] Chi Li，M Zeeshan Zia，Quoc-Huy Tran，X

下载后可阅读完整内容，剩余1页未读，立即下载