OSFormer：Transformer引领的实例分割新方法

35 浏览量更新于2024-06-19 收藏 1.3MB PDF 举报

"这篇论文介绍了OSFormer，一种基于Transformer的实例分割方法，旨在解决静态图像中的实例分割问题，特别是对于伪装对象的检测。OSFormer采用了位置感知Transformer (LST) 和从粗到细的融合 (CFF) 技术，以有效结合局部特征和全局上下文，提高对重复实例的预测准确性。相比于传统的两阶段框架，OSFormer在保持高效收敛的同时，能够在不需要大量训练数据的情况下达到41%的平均精度（AP），并且在COD等伪装对象检测任务中表现出色。" OSFormer是首个提出将Transformer架构应用于一阶段实例分割的框架。它针对实例分割中的核心挑战——如何区分重复和背景相似的实例——提出了创新解决方案。位置感知Transformer (LST) 是OSFormer的关键组成部分，该模块通过引入位置引导查询和混合卷积前馈网络，获取位置标签和实例感知参数，从而增强模型对位置信息的理解。LST的设计有助于捕捉到实例的精确边界，即便是在复杂背景下。此外，为了融合不同层次和范围的信息，OSFormer采用了从粗到细的融合 (CFF) 技术。这种方法整合了Transformer编码器和CNN骨干网络的输出，有效地合并了局部细节和远距离上下文依赖，这对于识别伪装对象尤其重要，因为这些对象往往利用环境来模糊其边界。论文中提到了伪装对象检测 (COD) 的挑战，这是计算机视觉领域的一个重要分支。随着大规模数据集如COD10K、CAMO和NC4K的出现，伪装对象检测的性能有了显著提升。然而，现有的方法仍然面临在高内在相似性背景中区分隐藏对象的难题。OSFormer通过其独特的架构，有望在这一领域取得突破。 OSFormer的优秀性能体现在它能在少量训练样本（3,040个样本，60个训练迭代）下达到与两阶段方法相当甚至更高的准确率，同时保持了高效的训练过程。这表明Transformer架构在实例分割任务中具有很大的潜力，为未来的研究提供了新的方向。 OSFormer为实例分割和伪装对象检测带来了新的视角，它利用Transformer的强大之处，提高了模型对位置信息的敏感性和对复杂场景的理解能力，对于推动计算机视觉领域的进步具有重要意义。通过结合Transformer和传统CNN的优点，OSFormer为解决实例分割和伪装检测问题提供了一条新的途径。

+v：mala2255获取更多论

文

4 Pei et al.

潜在的目标，并使用焦点模块来细化模糊区域。Zai

等人

[63]采用交互

式图学习策略，交互式地训练图像对象的区域和边。之后，Lyu

et al.

[37]提出了一种排名网络，可以同时定位，分割和排名隐藏的对象，

以便更好地预测。最近，一种新的不确定性引导的Transformer为基础

的模型提出了杨

等。

[62]旨在通过贝叶斯学习推断不确定区域。COD

任务忽略了实例级预测映射，尽管开发速度很快，但实际应用场景中

的实例级预测因此，我们致力于将COD任务从区域级推进到实例级。

通用实例分段。

现有的工作可以大致概括

为自上而下和自下而上两种

模式。前一个模型执行经典的检测然后分割设计，首先通过边界框检

测ROI，然后在本地分割像素级实例[49]。典型的模型是Mask R-CNN

[23]，它通过添加掩码分支来预测实例级掩码来扩展Faster R-CNN [44]

在此基础上，Mask Scoring R-CNN [26]引入了MaskIoU头来评估实例掩

码的质量。为了增强特征金字塔并缩短信息流，PANet [35]创建了自

下而上的路径增强。此外， Chen

et al.

[7]提出了混合任务级联

（HTC），以交织检测和分割特征进行联合处理。与上述两阶段模型

不同，YOLACT [3]是一个实时单阶段框架，包含两个并行任务：产

生非局部原型掩码和预测一组掩码系数。

与自顶向下的方式相反，自底向上的方法首先学习实例感知的整

体嵌入，然后通过聚类操作识别每个特定的实例[8，34]。Bai

等人

[1]

提出了一种从经典分水岭变换导出的端到端边界感知深度模型。

SSAP [21]可以通过实例感知的像素对亲和度金字塔联合学习像素级语

义类和实例区分然而，以前的自下而上的模型的性能不如自上而下的

模型，因为次优的像素分组。为此，Tian

et al.

[49]提出了一个动态

的实例感知网络，直接输出实例掩码在一个完全卷积的范例。更简单

的策略是有效的，并且在Mask R-CNN类框架中表现良好。此外，

SOLO [56，57]通过语义类别检测实例的中心位置，并将掩码预测融

入动态核特征学习中。受此策略的启发，我们设计了一个基于

Transformer的位置感知网络，以动态感知存储的实例。

视觉

Transformer

。

Transformer [52]诞生于自然语言处理，并已成功扩

展到计算机视觉领域[15]。Transformer编码器-解码器架构的核心思想是

自注意机制，该机制构建长范围依赖性并从输入序列捕获全局上下文信

息。最近，Carion

等人

提出了DETR [5]，它将Transformer与CNN主干相结

合，以聚合对象相关信息，并提供一组对象查询来输出最终的预测集。

尽管DETR开创了一种新颖简洁的模式，但它仍然存在计算代价高和收敛

速度慢考虑

剩余16页未读，继续阅读

cpongm

粉丝: 6

OSFormer：Transformer引领的实例分割新方法

基于Transformer的Matlab代码：数据回归与多场景预测工具箱，适用于单、多变量时序预测与回归分析,Transformer回归 Matlab代码 基于Transformer的数据回归预测(可

基于Transformer的Matlab代码：数据回归与多场景预测工具箱,Transformer在数据回归分析中的应用-基于Matlab代码的实战教学,Transformer回归 Matlab代码

基于PSO-Transformer的Matlab代码：高效优化Transformer模型参数以实现单/多变量时序预测与分类效果提升,PSO-Transformer分类 Matlab代码 基于粒子群优化

基于PSO-Transformer的Matlab代码：高效优化Transformer模型参数以实现单/多变量时序预测与分类效果展示,**基于PSO优化算法的Transformer分类Matlab代码

"基于Transformer-BiLSTM多变量回归预测模型的Matlab程序设计与实现",Transformer-BiLSTM：多变量回归预测模型的深度集成与应用-Matlab编程实战手册,Tra

高质量实例分割的Mask Transfiner：基于Transformer的新方法

Swin_transformer实例分割道路车道Python源码课设

Transformer驱动的ReSTR：革新无卷积指代图像分割

Flax实现Transformer中的Transformer：图像分类新视角

transformer 实例分割

最新资源

基于Transformer的Matlab代码：数据回归与多场景预测工具箱，适用于单、多变量时序预测与回归分析,Transformer回归 Matlab代码基于Transformer的数据回归预测(可

基于PSO-Transformer的Matlab代码：高效优化Transformer模型参数以实现单/多变量时序预测与分类效果提升,PSO-Transformer分类 Matlab代码基于粒子群优化