Faster-RCNN详解详解
1 Faster-RCNN
(1)输入测试图像;
(2)将整张图片输入CNN,进行特征提取;
(3)用RPN生成建议窗口(proposals),每张图片生成300个建议窗口;
(4)把建议窗口映射到CNN的最后一层卷积feature map上;
(5)通过RoI pooling层使每个RoI生成固定尺寸的feature map;
(6)利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练.
1.1 Conv layers
包含了conv,pooling,relu三种层
1.1.1 VGG
Conv layers部分共有13个conv层,13个relu层,4个pooling层。这里有一个非常容易被忽略但是又无比重要的信息,在Conv layers中:
所有的conv层都是: kernel_size=3kernel\_size=3kernel_size=3 , pad=1pad=1pad=1 ,stride=1stride=1stride=1
所有的pooling层都是: kernel_size=2kernel\_size=2kernel_size=2 , pad=0pad=0pad=0 , stride=2stride=2stride=2
Conv layers中的conv层不改变输入和输出矩阵大小
1.2 Region Proposal Networks(RPN)
评论0