ROI Proposal实现详解：从softmax到anchor生成

4星 · 超过85%的资源需积分: 49 60 浏览量更新于2024-09-10 1 收藏 273KB PDF 举报

"ROI Proposal实现过程总结" ROI Proposal是深度学习领域中用于目标检测的重要步骤，它涉及到如何从特征图中提取出可能包含目标的区域提议（Region of Interest）。这个过程通常在 Faster R-CNN 或者 Mask R-CNN 等算法中使用。ROI Proposal的目的是通过预先定义的锚点（Anchors）来生成一系列可能包含物体的矩形框，然后对这些矩形框进行筛选，保留那些具有较高概率包含物体的框。在描述中提到的"Layer10 softmax"是指在ROI Proposal过程中，对特征图进行的Softmax操作。Softmax是一种用于多分类问题的概率归一化方法，它可以将每个类别的得分转换为概率分布，使得所有类别的概率和为1。在这个特定的上下文中，Softmax被应用在126*14*2的特征上，其中k=2表示有两个类别进行比较。Softmax操作包括多次比较、减法、指数运算和加法，最终得出每个位置的概率分布。接着是"Layer11 Proposals"，这是生成最终ROI提议的阶段。它需要Layer10的结果、Layer9_2的特征以及原始图像作为输入。在`proposal_layer.py`中，`generate_anchors()`函数被调用来生成预定义的锚点。基础锚点（base_anchor）通常是基于图像尺寸的，默认情况下可能是[0, 0, 15, 15]，实际上对应于[1, 1, 16, 16]的像素坐标。这个过程会生成不同比例和大小的锚点，例如通过`ratio_enum`和`whctrs`函数计算不同宽高比的锚点尺寸。`mkanchors`函数则负责将这些尺寸转换为实际的锚点坐标。生成的锚点集合包含了多种比例和大小，旨在覆盖可能存在的各种目标尺寸。这些锚点与特征图上的每个位置关联，通过预测每个位置上锚点是否包含目标以及调整锚点的位置，从而得到可能包含目标的ROI提议。在后续的步骤中，这些ROI会被送入更快的R-CNN网络的RoI池化层，进一步提取特征并进行分类和定位。 ROI Proposal是目标检测中的关键环节，它通过生成和筛选锚点来提供潜在的目标区域，为后续的分类和定位任务提供基础。这个过程涉及到了Softmax操作、锚点生成以及特征图的处理，是深度学习模型能够准确识别和定位图像中物体的关键步骤。

RoI Proposal

Layer 10 softmax

 











1000

1000,...,1

maxexp

输入为 reshape 后的 Layer 9_1 结果，即 126*14*2，在这里，图片变成两维的，我理解的

是每两个对应位置上的特征点进行 softmax，即 k=2,首先经过 1 次比较，在经过 2 次减法，之

后经过 2 次的 ej 运算，再进行 1 次加法，最后 1 次除法，二总共有 126*14 个位置，因此具有

1764 次比较，在经过 3528 次减法，之后经过 3528 次的 ej 运算，再进行 1764 次加法，最后

1764 次除法

在进行玩这一步之后，还要对其进行 Reshape，其参数为{ dim: 0 dim: 18 dim: -1

dim: 0 }，即又变成了 14*14*18

Layer 11 Proposals

输入为 Layer 10、Layer 9_2 和原图（224*224*3），看一下程序这个过程到底怎么实现

的，打开 proposal_layer.py，在 set_up 中，调用了 generate_anchors()。

在这里先为自己普及一下生成 anchor 的函数实现原理，追随源码(generate_anchors.py)：

这个函数就是生成九个 anchors 的函数，首先有一个 base_anchor 坐标为[0，0，15，15]，

因为电脑是从 0 开始计数的，其实是[1，1，16，16]，先调用_ratio_enum

在这个函数里先调用了_whctrs，作用是得到 anchor 的四个参数，宽度 w=16，高度 h=16,

中心点坐标 x=7.5,y=7.5 ，之后做了一系列数学计算，最终结果为 ws=[23,16,11],

hs=[12,16,22]，调用_mkanchors

下载后可阅读完整内容，剩余4页未读，立即下载

YankeeWann

粉丝: 53
资源: 10

ROI Proposal实现详解：从softmax到anchor生成

基于ROI深度卷积神经网络的改进表情识别方法

ViewROI在开发Halcon项目中的使用

初学tensorflow，生成一个自己的网络结构，并用tensorboard可视化（代码）

proposal和roi的区别

mask_rcnn中proposal_layer函数的作用是什么，具体输入输出是什么？roi是什么意思？有什么物理意义

faster rcnn roi pooling

mask_rcnn中proposal_layer函数的作用是什么，具体输入输出是什么？roi是什么意思？有什么物理意义，rois具体是什么？

mask_rcnn中proposal_layer函数的作用是什么，具体输入输出是什么？roi是什么意思？有什么含义

proposal_layer函数的作用是什么，具体输入输出是什么？roi是什么意思？有什么物理意义

mask_rcnn中rois是怎么来的？是proposal_layer函数吗？proposal_layer函数的作用是什么，具体输入输出是什么？

最新资源