Mask R-CNN训练源码解析：维度标注与理解

54 浏览量更新于2024-08-30 收藏 95KB PDF 举报

"这篇文章是作者在阅读Mask R-CNN源码时所做的笔记，主要关注训练阶段，记录了各个步骤的输入和输出张量的维度，旨在帮助理解代码流程。作者指出可能存在错误或遗漏，期待读者指正。文章链接指向了Matterport在GitHub上的Mask R-CNN项目。在训练过程中，模型的输入包括`input_image`和`input_image_meta`等，其中`input_image`默认为(2, 1024, 1024, 3)，`input_image_meta`默认为(2, 93)。此外，还提到了`input_rpn_match`、`input_rpn_bbox`和`input_gt_class_ids`、`input_gt_boxes`等输入数据的形状和计算方法。" Mask R-CNN是一个深度学习模型，特别用于实例分割和目标检测任务，由He et al.在2017年的论文中提出。它在 Faster R-CNN的基础上增加了Mask分支，能够同时预测物体边界框（bbox）和分割掩模（mask）。在训练过程中，理解模型的输入和处理流程至关重要。首先，`input_image`是批量数据，表示的是输入的图像，维度为(batch_size, height, width, channels)，其中batch_size通常是批量处理的图像数量，高度和宽度反映了预处理后的图像尺寸，channels通常是3，代表红绿蓝三个颜色通道。 `input_image_meta`包含了与输入图像相关的元数据，包括图像的大小、缩放信息、锚点（anchor）配置以及其他配置参数。具体结构为(batch_size, 1 + 3 + 3 + 4 + 1 + config.NUM_CLASSES)，这些数字可能分别代表图像信息、RGB均值、RGB标准差、四个边界框变换参数、是否忽略的标志以及类别的数量。 `input_rpn_match`是一个布尔张量，用于标识每个锚点（anchor）是否匹配到一个GT（Ground Truth）框。其形状为(batch_size, num_anchors, 1)，其中num_anchors是根据特征图尺度和预先设定的锚点比例计算得出的。 `input_rpn_bbox`是用于RPN（Region Proposal Network）训练的锚点框坐标，形状为(batch_size, config.RPN_TRAIN_ANCHORS_PER_IMAGE, 4)，每个元素表示一个四元组(x, y, w, h)，表示相对于特征图像素的边界框坐标。 `input_gt_class_ids`和`input_gt_boxes`是地面真实（GT）的目标类别ID和边界框，它们提供了训练时的监督信息。`input_gt_class_ids`的形状为(batch_size, config.MAX_GT_INSTANCES)，表示每个图像最多允许的GT实例数。`input_gt_boxes`则是对应的GT边界框，经过归一化处理，形状为(batch_size, config.MAX_GT_INSTANCES, 4)，其中4个元素分别代表(x, y, w, h)坐标。在训练Mask R-CNN时，模型会依次通过Backbone（如ResNet）提取特征，RPN生成候选区域，然后RoIAlign将候选区域转化为固定大小的特征，最后通过分类和分割分支进行预测。每个步骤都需要理解输入数据的含义和处理方式，以便有效地优化模型性能。

读读Mask R-CNN源码备忘录（训练部分）源码备忘录（训练部分）

此文为读Mask RCNN源码过程中的随笔，很“流水账”，我想价值在于对照着源码把每个步骤的“输入”、“输出”张量的维度标注

了一下，会有助于对整体代码的理解。可能有些错误或遗漏，希望发现者指正，以期共同进步。

源码：https://github.com/matterport/Mask_RCNN

训练部分

模型输入：模型输入：

input_image (batch_size, height, width, channels) #默认(2, 1024, 1024, 3)

input_image_meta (batch_size, 1 + 3 + 3 + 4 + 1 + config.NUM_CLASSES) #默认(2, 93)

input_rpn_match (batch_size, num_anchors, 1) #默认(2, 261888, 1)

# num_anchors计算

import numpy as np

BACKBONE_STRIDES = [4,8,16,32,64] #基础cnn网络（resnet101）输出的五层特征图对应输入图像的缩放比例

IMAGE_SHAPE = (1024, 1024) #输入图像尺寸

RPN_ANCHOR_RATIOS = [0.5, 1, 2] #每个像素取三种width/height比例的anchor

# 每张特征图所有像素取三个尺寸的anchor

num_anchors = sum([x[0][0] * x[0][1] / np.square(x[1]) * len(RPN_ANCHOR_RATIOS) for x in zip([IMAGE_SHAPE] *

len(BACKBONE_STRIDES), BACKBONE_STRIDES)])

print(num_anchors)

input_rpn_bbox (batch_size, config.RPN_TRAIN_ANCHORS_PER_IMAGE, 4) #默认(2, 256, 4)

input_gt_class_ids (batch_size, config.MAX_GT_INSTANCES) #默认(2, 100)

* 注意：这里用norm_boxes_graph函数将原始坐标做了归一化处理

input_gt_boxes (batch_size, config.MAX_GT_INSTANCES, 4) -> gt_boxes (batch_size, config.MAX_GT_INSTANCES, 4) #

默认(2, 100, 4)

* 注意：这里需要判断config.USE_MINI_MASK是True或者False

input_gt_masks (batch_size, config.MINI_MASK_SHAPE[0], config.MINI_MASK_SHAPE[1], config.MAX_GT_INSTANCES)

#默认(2, 56, 56, 100)

input_gt_masks (batch_size, config.IMAGE_SHAPE[0], config.IMAGE_SHAPE[1], config.MAX_GT_INSTANCES) #默认(2,

1024, 1024, 100)

第一步：第一步：resnet_graph网络网络

C2, C3, C4, C5 为resnet_graph的四个stage输出，输出尺寸依次为：

C2: (batch_size, config.IMAGE_SHAPE[0] / config.BACKBONE_STRIDES[0], config.IMAGE_SHAPE[1] /

config.BACKBONE_STRIDES[0], 256) #默认(2, 256, 256, 256)

C3: (batch_size, config.IMAGE_SHAPE[0] / config.BACKBONE_STRIDES[1], config.IMAGE_SHAPE[1] /

config.BACKBONE_STRIDES[1], 512) #默认(2, 128, 128, 512)

C4: (batch_size, config.IMAGE_SHAPE[0] / config.BACKBONE_STRIDES[2], config.IMAGE_SHAPE[1] /

config.BACKBONE_STRIDES[2], 1024) #默认(2, 64, 64, 1024)

C5: (batch_size, config.IMAGE_SHAPE[0] / config.BACKBONE_STRIDES[3], config.IMAGE_SHAPE[1] /

config.BACKBONE_STRIDES[3], 2048) #默认(2, 32, 32, 2048)

P5: 对C5做(1, 1)卷积filters=256，效果就是在维度不变的情况下，将特征图数量由2048降为256 #默认(2, 32, 32, 256)

P4: 对P5做(2, 2)上采样，并且将C4做(1, 1)卷积filters=256，然后将两者相加，效果就是P5尺寸加倍与C4卷积后尺寸相等，

将两者相加作为P4 #默认(2, 64, 64, 256)

P3: 对P4做(2, 2)上采样，并且将C3做(1, 1)卷积filters=256，然后将两者相加，效果就是P4尺寸加倍与C3卷积后尺寸相等，

将两者相加作为P3 #默认(2, 128, 128, 256)

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38543280

粉丝: 4
资源: 975

Mask R-CNN训练源码解析：维度标注与理解

深度学习图像检测：从R-CNN到Mask R-CNN的进化

Mask R-CNN：实例分割与对象检测的新框架

深度学习实例分割：Mask R-CNN详解

Mask R-CNN源码(TensorFlow版本)

百度地图毕业设计源码-Mask-R-CNN-Translation:Mask-R-CNN-翻译

Tensorflow-Object-Detection-API-train-custom-Mask-R-CNN-model:使用Tensorflow对象检测API训练Mask R-CNN模型

什么是Mask R-CNN？Mask R-CNN的工作原理.docx

什么是Mask R-CNN？Mask R-CNN的工作原理.pdf

pytorch轻量化实例分割模型RPN、Faster R-CNN和Mask R-CNN模型源码.zip

Car-Damage-Detection-Mask-R-CNN:利用Mask R-CNN在计算机视觉应用中检测汽车损坏

最新资源