SAIL-VOS：解决遮挡物体分割的语义非模态视频数据集

97 浏览量更新于2024-06-20 收藏 3.65MB PDF 举报

SAIL-VOS（Semantic Non-modal Instance-level Video Object Segmentation，语义非模态实例级视频对象分割）是一个全新的数据集，旨在推动计算机视觉领域对复杂场景下物体识别和空间推理能力的研究。传统的计算机视觉技术在处理部分遮挡和深度理解方面相对不足，这主要受限于可用数据的匮乏，尤其是在视频领域的实例级非模态分割数据集。现有的数据集往往规模较小，无法满足深度学习模型训练的需要。 SAIL-VOS通过合成技术，利用照片级真实感的游戏GTA-V生成数据，提供了超过180万的对象注释，是目前市场上同类数据集的100倍之多。该数据集的特点包括密集的像素级可见性和非模态分割掩码，以及详细的语义标签，这使得研究者能够探索物体遮挡推理、深度顺序理解以及对象大小预测等问题。这对于时间序列分析至关重要，因为它允许开发出能够理解和预测时间变化、物体行为以及与人类预期相匹配的方法。尽管非模态分割在人类认知中显得相对自然，但在计算机视觉领域却是个挑战，因为数据量和标注质量对模型的训练效果有很大影响。早期的努力如Maire et al. (2013) 的100张注释图像和Zhu等人(2015)的5000张图像注释都反映出数据稀缺的问题。SAIL-VOS的出现填补了这一空白，为研究人员提供了丰富的资源，以开发更先进的算法并提升在实际场景中的应用能力。访问SAIL-VOS的详细数据、评估指标和更多材料可以通过网站<http://sailvos.web.illinois.edu>获取。这个数据集的引入标志着在解决语义非模态实例级视频对象分割这一难题上的一个重要里程碑，它将激发新的研究方向，推动计算机视觉技术向着更接近人类感知能力的方向发展。

3108

f d ff

M =m

m。

RGB帧

深度缓冲

区

如图所示，4（a，b）。为了解决这个问题，我们在记

录 x

， x

及其相应的深度和模具缓冲区时挂钩到

DirectX绘制函数。具体-

通常，我们通过不渲染任何对象来获得干净的场景

而是目前正在考虑中的一个。因此，钩子函数只对当

前目标对象发出渲染调用，而忽略所有其他渲染请

求。

为了计算对象o∈ O的非模态掩码a

，我们融合

0/0/

f f

o o

f f

深度缓冲区和模板缓冲区的信息，在-

而

不是纯粹使用深度缓冲区或模板缓冲区。我们发现使

用两者的组合对于更高的准确性很重要例如，我们发

现在切换可见性后，物体的深度

特别是对于柔软

的

物体例如衣服。这种随机性

在渲染过程中，大概是为了增加游戏真实性而添加的-

图3：随着每个记录的图像，我们还记录

深度缓冲区（第二列）和模板缓冲区（第三列）。我

们收集所有对象显示的数据（第一行），所有对象不

可见的（第二行），以及一个一次只显示一个对象的

示例（第三行）。

ISM，在专门基于深度掩模计算分割时导致伪像。因

此，使用纯粹的深度信息是不够的，而模板缓冲区只

包含类级别的语义分割，而不是实例级别的分割。为

了获得准确的分割，我们首先计算非模态分割

基于深度

，通过比较d

和d

，

即

，

d f f

= δ

（

）。

，

d f f

(a)

(b) （c）第

（1）款

图4：有些对象的可见性无法

这里，δ返回一个二进制掩码，指示对象深度图的哪些

像素与背景深度图不同

使用Script Hook V切换（a）有物体的框架

类似地，我们计算非模态掩码a

，

基于sten-

在O中未显示。建筑物的可见度不能

可以通过Script Hook V进行切换。（b）x

没有清洁的

背部─

使用上述公式计算信息，但将

深度缓冲区与模具缓冲区。

地上注意，我们不能计算非模态段-

然后，我们融

合

一

个

、

一

个

，

把阿莫达面具拿到

当物体被部分遮挡时，(c)x

与清洁

你

好

，

背景一个干净的背景是通过挂钩

f f

，

DirectX绘图功能。

无论它们是否属于

其中

非模态分割掩模。

为了计算可见分割，我们还首先com-

同一个人，或者不

是。

将基于深度的模态掩码m

、

经由

非模态分割：为了形式化地描述非模态分割的计算，

我们引入了一些符号。

= δ（

）

δ（

=1）.

、

我们收集RGB图像x

、深度缓冲区d

和

我们还计算可见掩模m

，

使用上述

对于每个帧

∈ {

，

，如图所示，

图1的第一行3 .第三章。对于每个帧f，我们还捕获

用模具替换深度缓冲区时，

缓冲液为了获得可见的分割候选

者

，

我们

图像、深度和模板缓冲区x

、d

和s

/，

熔断

器

所

以，

经由

f f f

、

f，s

不显示任何对象（见图）。3，第二行）。我们服从

帧f的所有对象，我们可以在集合

中切换其可见性。

我们通过Script Hook V获得这个集合。为每个

o o

，

f，s

对象o

∈ O

，我们还捕获RGB图像x

，深度

bufferd

，而stencil buffers

只

显示一个对象

对象跟踪：O中的每个对象都被分配一个唯一的

ID在游戏中，我们可以通过访问

f f

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

SAIL-VOS：解决遮挡物体分割的语义非模态视频数据集

医学图像分割数据集：胰腺病变图像分割数据集（包含训练集和测试集、标签）

多模态开集大模型-基于Yolo-world+EfficientViT-SAM实现的开集多模态目标分割大模型算法-附项目源码

基于 Unet++ 实现的超声图像中跨模态肾脏图像语义分割python源码【包含数据集、完整代码】

深度学习驱动的视频对象选择：语义分割的子模态方法

跨模态肾脏图像语义分割工具：Unet++ Python实现及数据集

跨模态肾脏图像分割新数据集CT2USforKidneySeg

实例级语义分割技术与Mask R-CNN的结合与优化

OpenCV缺陷检测中的实例分割技术：语义分割、实例分割

图像语义分割与实例分割技术

语义分割 vs 实例分割：区别与联系

最新资源