尺度不变与位置敏感的区域建议网络提升目标检测性能

77 浏览量更新于2024-06-20 收藏 2.01MB PDF 举报

面向尺度不变性和位置敏感的区域建议网络是一种创新的计算机视觉技术，专注于解决目标检测中的关键问题，即精确地定位对象提议。传统的目标检测方法依赖于滑动窗口或其他启发式策略生成候选区域，而这种方法的效率和精度往往受到限制。该研究提出了一种新型的网络架构，旨在增强对象分类的尺度不变性，实现边界框回归的翻译方差适应，以及捕捉全局上下文并处理不同尺度的对象。网络设计的核心理念在于简洁高效，同时保持实时性能。它采用了深度卷积神经网络（ConvNets），替代了低级图像特征的启发式生成方式，通过监督学习训练类别未知的分类器。这种类未知的训练方法允许模型泛化到未见过的类别，已证实能有效减少偏见并学习对象特征的联合表示。然而，对于小对象和边界框定位的准确性，仍存在提升空间。在PASCAL VOC和COCO等数据集上，研究人员的区域建议网络在保持1,000个建议下的性能表现出色，相比于传统方法，AR分别提升了35%和45%。而且，对于640x2的输入图像大小，该网络的推理时间仅有44.8毫秒，显示出其高效的实时性。值得注意的是，这项工作特别关注了类未知的一般对象检测，意味着它不仅适用于预定义类别，还能处理更广泛的真实世界场景。总结来说，这项研究提出了一种具有前瞻性的区域建议网络，它通过深度学习方法改进了对象检测的精度和效率，特别是在处理尺度变化和边界框定位上的挑战。这将有助于推动计算机视觉领域的进一步发展，尤其是在实际应用中对实时性和鲁棒性的需求日益增长的情况下。

H.- F. Lu

、

X. Du

和

P. - L.

常

conv5

CBR1

1024：256

CBR1

2048：256

CBR1

512：256

CBR3

256：256

conv4

conv2

CBR1

256：256

CBR3

256：256

conv3

下来

起

CBR1

256：

BR CBR1

64：64 64：256

C1x15

64：

C15x1

64：

C1x15

64：

CBR3

256：256

C15x1

64：

基线

CBR3

256：256

天真

CBR3

256：256

CBR3

256：256

CBR3

256：256

GCN共享平滑器（GCN-S）

大核共享平滑器

CBR1

256：64

CBR15

64：

CBR1

64：256

CBR3

256：256

非共享平滑器

大核非共享平滑器

CBR1

256：64

CBR3

256：256

CBR3

256：256

CBR1

64：256

输入图像reg cls

图二.

提出了总体系统架构。

左图：

ResNet

与特征金字塔结构一起构成了

RPN

股骨

头的一般主干。

右：

不同

RPN

股骨头的结构。

两者：

矩形是具有可学习参数的组

件，椭圆是无参数操作。虚线箭头指示

RPN

头由所有特征金字塔级别共享

空间背景[19]。此外，代替使用默认配置文件对一组锚进行回归和分类

（即，尺度和宽高比）在某些层中通过固定的（3×3）卷积核[16，23]，

我们提出直接映射来自每个解码层中的滑动窗口的锚，以及共享位置敏

感的得分图。整体ConvNets采用任意大小的输入图像进行自下而上的编

码和自上而下的解码特征，并跳过连接保持对象的局部性[24]。标度

不变性作为一个重要的特性因此，所提出的方法是通过从输入图像中

提取多尺度特征来实现的。然后将这些语义上从弱到强的特征馈送到

由RPN头共享的一系列解码层。通过一组位置敏感得分图共享的密集滑

动窗口方式来生成候选者。最后，网络对锚点进行回归以定位对象（简

称

reg

），并使用分数（简称

cls

）对对象进行分类

conv1

起

CBR3

256：256

位置敏感

RoI/

全局平均

池化

乙状

CB1

256：

CB1

256：4k

CBR1

256：

BR CBR1

64：64 64：256

CBR3

256：256

CBR3

256：256

C1x15

64：

C15x1

64：

C1x15

64：

C15x1

64：

CBR15

64：

RPN

头部

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

尺度不变与位置敏感的区域建议网络提升目标检测性能

边缘协作的轻量级安全区域建议网络.docx

基于位置感知的推荐系统

面向AR环境的典型场景快速重构方法.pdf

面向室内环境的服务机器人物体检测与识别研究

面向功能材料属性预测的机器学习方法初探.pdf

面向无人机的视觉目标跟踪算法：综述与展望.docx

面向小目标检测的改进YOLOv8算法研究_韩强.pdf

BP神经网络的人脸识别matlab代码 得到结果人脸的识别率高达97.5%。.zip

计算Zernike矩的MATLAB代码和C++代码

leatherPatternIdentification:这是使用简单的SIFT和颜色信息进行皮革图案识别的一个小实现

最新资源

BP神经网络的人脸识别matlab代码得到结果人脸的识别率高达97.5%。.zip