TensorMask：4D张量上的密集滑动窗口实例分割框架

PDF格式 | 1.71MB | 更新于2025-01-16 | 118 浏览量 | 举报

"密集滑动窗口实例分割的TensorMask框架" 在计算机视觉领域，实例分割是一种重要的技术，它要求不仅识别图像中的不同对象，还要精确地分割出每个对象的像素级边界。传统的滑动窗口对象检测器在检测边界框方面表现出色，但现代方法如Mask R-CNN更倾向于首先检测对象边界框，再对这些区域进行裁剪和分割。然而，"密集滑动窗口实例分割"是一个尚未得到充分探索的领域。 TensorMask是针对这个问题提出的一种新框架，它专注于密集对象分割，特别是对于4D张量的预测任务。在这个框架中，每个空间位置的输出被视为一个具有自身空间维度的几何结构，这使得TensorMask能够更有效地处理复杂场景中的重叠和相互遮挡的对象。将实例分割看作是4D张量的预测任务，允许开发新的运算符来处理这些结构化的输出，从而提高预测的准确性和效率。 TensorMask的工作原理是通过在密集的图像位置上应用滑动窗口，对每个位置进行实例分割预测。它的设计使得即使是小尺寸和大尺寸的物体，以及相互重叠的物体，都能被准确地分割出来。这种方法的性能已经接近于Mask R-CNN，而且在定性和定量评估中都显示出有竞争力的结果。尽管直接的滑动窗口方法在边界框检测中已经取得了显著进步，如SSD和RetinaNet，但在实例分割领域，缺乏直接和密集的方法。TensorMask的出现填补了这个空白，为研究者提供了探索密集实例分割的新工具和基础。它的成功表明，密集的方法在实例分割任务中同样具有潜力，有望推动该领域的进一步发展。为了实现这些目标，TensorMask的设计考虑了张量操作的优化，这使得模型能够更好地捕捉和处理图像中的复杂几何形状。提供的代码使得其他研究人员可以复现实验结果，进一步推动相关研究。 TensorMask是一个创新的实例分割框架，通过密集滑动窗口策略，以4D张量预测的形式处理实例分割问题，提高了分割的精度和合理性，特别是在处理重叠物体时。这一工作对于理解实例分割任务的本质，以及开发更高效、更准确的实例分割算法具有重要意义。

2063

检测，其中滑动窗口[27，33，23]和基于区域的[11，

34]方法都蓬勃发展，在实例分割领域，对密集滑动窗

口方法的研究一直缺失。我们的工作旨在缩小这一差

距。

标记像素然后聚类。实例分割的第三类方法（

例如

，

[3，19，2，25]）建立在为语义分割[28，5]开发的模

型上。这些方法用类别和一些辅助信息标记每个图像

像素，聚类算法可以使用这些信息将像素分组为对象

实例。这些方法受益于语义分割的改进，并原生地预

测更大对象的更高分辨率掩码。与检测-然后-分割方

法相比，

标记

像素

然后

聚类

方法在流行基准点的准

确性方面落后[24，29，6]。TensorMask没有采用全卷

积模型进行

密集像素标记

，而是探索了构建全卷积

（

即

，密集滑动窗口）模型，用于

密集掩模预测

，其

中每个空间位置处的输出本身是2D空间图。

密集滑动窗口方法。据我们所知，

没有任何先验方法

可以用于密集滑动窗口实例分割

。提出的TensorMask

框架是

第一

个这样的方法。最接近的方法是用于类不

可知掩码

建议

生成的相关任务，特别是 DeepMask

[31，32]和InstanceFCN [7]等模型，它们应用卷积神经

网络以

密集滑动窗口

方式生成掩码建议与这些方法一

样，TensorMask是一个密集的滑动窗口模型，但它跨

越了一个更具表现力的设计空间。 DeepMask 和

InstanceFCN可以自然地表示为类不可知的TensorMask

模型，但TensorMask能够实现性能更好的新型架构。

此外，与这些类不可知的方法不同，TensorMask执行

多个

3.1.

长度单位

在我们的框架中，每个空间轴

的长度单位

（或简称

单位

）是理解4D张量的必要概念。直观地说，轴的单

位定义了沿着它的一个像素不同的轴可以有不同的单

位。H和W轴的单位，表示为σ

，可以是设置为

步

幅

w.r.t.输入图像（

例如

，ResNet- 50 [18]的res

具有

=16个图像像素）。类似地，V和

U轴定义另一个2D空间域，并具有自己的

单位，表示为σ

。沿着V或U轴移位一个像素对应于

在输入图像上移位σ

个

像素。单位σ

不需要等于单位

，这是我们的模型将受益的属性。

定义单位是必要的，因为如果不指定单位，则张量

形状（ V

，

W ）的解释是不明确的例如，

（V

，

U）表示V×U窗口

如果σ

=1个图像像素，则在图像像素中，但是2V×2U

绕组-

如果σ

=2个图像像素，则图像像素中的dow。的单位

以及它们如何因放大/缩小操作而变化是多尺度表示的

核心（更多信息见第3.6节）。

3.2.

自然表示

通过单位的定义，我们可以形式化地描述（V

，

W）张量的表示意义在我们最简单的定义中，这

个张量表示在（H

，

W）上滑动的窗口。我们称之为

自然表征

。

将α

表示

为单位比

，

形式上我们

有：

自然表示：对于形状为

（V

，

W）

的

张量，其

在坐标

（v

，

x）

处的值表示以

（y

，

x）

为中心的

αV×αU

窗口中（

αv

，

αu）

处的掩码值。

这里（v

，

x）∈[−

，

）×[−

，

）×[0

，

H）

×[0

，

W），

2 2 2 2

类分类与掩码预测并行，因此

可以应用于实例分割的任务。

面具的张量表示

TensorMask框架的中心思想是使用

结构化的高维张

量

来表示图像内容（例如掩模）在一组密集滑动窗口

中。

考虑一个V×U窗口在一个宽度为W、高度为H的特

征图上滑动。可以代表所有

通过形状

（

，

）

的张量在所有滑动窗口位置

中进行掩模

，其中每个掩模通过C

像素

进行参数

化

这是DeepMask中使用的表示[31]。

然而，这种表示的基本精神实际上是具有形状的高

维（4D）张量（V

，

W）。子张量（V

，

U）将掩模表示为2D空间实体。张量视角支持几个重

要概念，而不是将通道维度C视为一个黑盒子，其中

安排了一个V

U遮罩

用于表示密集掩模，下面讨论。

其中“×”表示卡方积。从概念上讲，张量可以被认为是

这个域中的连续函数。为了实现，我们必须将4D

张量作为定义在采样位置上的离散函数。我们假设采

样率为每单位一个采样，采样位于整数坐标（

例如

，

如果U=3，则

∈{−

，

}

）。这个假设允许相同的值U

以单位表示轴的长度（

例如

，

3σ

）以及为轴存储的离散样本的数量这对于处理由

离散

且

具有长度的神经网络产生的张量很方便。

图3（左）示出了当V=U=3并且α为1时的示例。自

然表示是直观的，并且很容易作为网络的输出进行解

析，但它并不是深度网络中唯一可能的表示，如下所

述。

推导：在输入图像像素上，滑动窗口的中心是（

，

x·σ

），并且位于 w.r.t. 该窗口为（ y·σ

+v·σ

，

）。投影到

域（

即

，用单位

归一化

）给出（

，

x）和（y+αv

，

x+αu）。

剩余10页未读，继续阅读

cpongm

粉丝: 6

TensorMask：4D张量上的密集滑动窗口实例分割框架

窗口分割例子

TensorMask:实例分割，TensorMask

窗口分割的一个实例，与大家分享

一种无滑动窗口的准确快速的3D医学图像分割框架_Python_下载.zip

Android 手势滑动源码实例

滑动窗口协议C＋＋代码

matlab中滑动窗口实现

Qt 模仿 Android滑动窗口效果

Qt4实现SlidingWindow滑动窗口实例

3D医学图像分割：无滑动窗口快速准确框架_Python实现

最新资源