SegMaR：多阶段隐藏物体检测框架

PDF格式 | 1.78MB | 更新于2025-01-16 | 192 浏览量 | 举报

"SegMaR: 隐藏对象检测的多阶段方法" 本文介绍了一种名为SegMaR的创新性多阶段方法，专门用于解决摄像机目标检测（COD）任务，尤其是在隐藏物体检测中的挑战。SegMaR借鉴了人类注意力机制，采用从粗到精的检测策略，通过迭代细化来提高检测精度。该方法包含三个主要阶段：Segment（分割）、Magnify（放大）和Reiterate（重述），以逐步聚焦于图像中的关键区域。在Segment阶段，SegMaR利用一种新设计的判别掩模，引导模型关注可能的物体边界和注意力点。这一阶段有助于初步定位隐藏物体。接着，在Magnify阶段，SegMaR引入了一个基于注意力的采样器，能够针对性地放大目标区域，而不是简单地放大整个图像，这有助于保持图像质量并减少计算负担。Reiterate阶段则通过多次迭代，不断优化和细化检测结果。 SegMaR的表现优于现有的最先进的方法，尤其在检测小尺寸物体时，平均交并比（Intersection over Union, IoU）等评价指标上有显著提升。实验结果显示，SegMaR在COD10K测试集上的结构相似度指数（Structural Similarity Index, SSIM）达到了0.80，比其他竞争方法提高了7.4%至20.0%。这表明SegMaR在处理背景复杂、物体细节难以分辨的场景时具有更高的鲁棒性和准确性。 SegMaR的贡献不仅在于提出了一种有效的多阶段检测框架，还在于其可扩展性，可以与其他深度学习网络架构结合使用。作者提供了代码开源地址（https://github.com/dlut-dimt/SegMaR），以促进进一步的研究和应用。未来的研究方向可能包括SegMaR的优化，以及将其应用于更多领域，如农业中的病虫害检测、艺术创作中的图像融合以及医疗影像分析中的病变分割等。 SegMaR通过模拟人类视觉系统的注意力机制，解决了隐藏物体检测中的难题，为COD领域的研究提供了新的视角和工具。其在深度学习技术和多阶段检测策略的结合，为提升目标检测的准确性和效率开辟了新的道路。

4715

伪装物

掩模预测

放大对象

Camera-

AgedSegmen

tation

物体

放大

模块

基于注意力的采样器

迭代细化

图2.我们的SegMaR框架的管道。放大模块在不增加图像尺寸的情况下，放大对象的比例，同时压缩背景的比例。由于篇幅有

限，我们只展示了第一阶段，而下面的阶段重复了相同的过程。详情请参阅第3节。

在保持图像大小不变的前提下，降低背景分辨率一个

与我们类似的工作是[44]，他们为SOD引入了基于注

意力的采样器[54

与求解

SOD

不同的是，我们的工作为

被放大的对象增加了更多的放大步骤，从而实现了性

能的进一步提升。

分段、放大和重复

概况. 本节介绍为COD设计的SegMaR框架。如图2

所示，可以观察到SegMaR是以多阶段方式训练的迭代

细化框架首先，将输入图像馈送到伪装分割网络中以

生成关于伪装对象的掩模预测。然后将输入图像与其

掩模组合成一个基于注意力的物体放大模块，从而在

保持图像尺寸不变的情况下放大物体。接下来，我们

reit- erate的分割过程作为输入的图像放大的对象。因

此，被遮蔽的物体变得越来越容易从背景环境中被检

测到（图1）。1）。

下面，我们将详细介绍框架中的步骤

3.1.

Camera-Aged Segmentation Network

与大多数相关工作一样[8，43]，我们的分层分段网

络构建在双分支网络架构之上，参见图3中的左侧。(1)

对于第一个分支（以蓝色显示），它由四个卷积块和

一个产生掩码预测P

dis

的判别解码器组成。(2)第二个

分支（以绿色示出）在第一个分支中的第一个块之后

添加三个新的卷积块。二进制解码器负责推断COD的

最终二进制掩码P

仓

。此外，鼓励使用第一分支来帮助

改进第二分支的学习过程为了做到这一点，我们通过

使用整体注意力（HA）模块[43]将第一分支中的第二

卷积块和判别解码器的特征图与第二分支合并

判别式解码器和二进制解码器具有相同的

网络结构，见图

右侧。输入特征图首先跟随有空间

金字塔池化（

ASPP

）组件

[46]

，分别具有扩张率

、

18。其目的是实现图像中的多尺度感

受野。然后将池化图连接在一起并传递到分散模块

（

）

[55]

。

是一种有效的技术，可以将先前

的

特征图分解为前景和背景特征

。我们发现这种能

力对于

识别被

摄物体和背景环境之间的细微差别特别

重要。

与

[55]

不同的是，我们通过添加两个并行的残

留信道注意块（

RCAB

）

[52]

来定制

模块，这

使

得模块更专注于信息信道

和高频信息（

例如

，边缘、

纹理

）。然后，我们使用逐元素减法来反转背景特

征，并使用逐元素

加法来增强前景特征。牵引操作

的输出特征

由下式表示：

（

βf

（

−

αf

））

，

（

）

其中，BR是批量归一化和ReLU的组合，f

和f

分别表

示前景和背景特征α和β是两个可学习的参数，初始化

为1。最后，在DM之后增加了一个ASPP组件，使其具

有输出特性.

识别面具在野外，像面部或四肢这样的

固定区域

是

捕食者能够快速定位猎物的关键线索。此外，

边缘区

域

也可能泄漏被隐藏对象的位置，

例如

，动物的毛

发。因此，固定区域和边缘区域对于使伪装对象可检

测是重要的。通常，二进制掩码（

即

，255：对象，

0：背景）通常用作训练COD模型的基础事实，这意味

着对象的所有区域权重相等。然而，这种方式忽略了

与对象相关联的一些重要区域尽管最近的一项工作[25]

除了二进制掩码之外还添加了新的注视注释，但它们

的注视注释具有一些错误区域溢出对象区域。

剩余11页未读，继续阅读

cpongm

粉丝: 6

SegMaR：多阶段隐藏物体检测框架

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源