基于CNN的卷积目标检测方法

需积分: 50 26 下载量 63 浏览量 更新于2024-08-07 收藏 1.56MB PDF 举报
"神经网络结构设计-i.mx_6_g2d_api_user's_guide" 这篇文档主要介绍了基于卷积神经网络(CNN)的神经网络结构设计,用于目标检测和分类任务。文档提到了以下几点关键知识点: 1. **训练框架**:在训练阶段,使用了Theano框架构建和训练神经网络模型。Theano是一个开源的Python库,能够定义、优化并求值数学表达式,特别适合用于深度学习。 2. **网络结构**:网络包含了两个卷积层(Convolutional Layers)。卷积层1有16个大小为5x5的卷积核,进行卷积操作后,通过最大池化(MaxPooling)将图像尺寸减小至32x16的特征图。接着是卷积层2,它有16个3x3的卷积核,最大池化窗口大小为2x2,输出特征图尺寸为15x7。 3. **全连接层与Softmax**:卷积层之后是一个全连接层(Fully Connected Layer),全连接层的作用是将特征图的局部特征转化为全局的决策。最后通过Softmax函数进行分类,Softmax可以将多类别的输出转换成概率分布,便于选择最高概率的类别作为预测结果。 4. **目标检测的调整**:在目标检测任务中,网络结构稍作修改,将最后一层全连接层替换为一个卷积层。这样做的目的是保持整个网络结构的卷积特性,使得可以处理任意大小的输入。新全连接层的滤波器参数使用分类器的全连接层参数初始化。 5. **输出判断**:输出的类别通过公式`type = T(max(P))`确定,其中`P`是一个N×1矩阵,表示每个类别的概率,取概率最大的类别作为输出。阈值函数r设定为0.75,当概率大于这个阈值时,才会识别为目标。 6. **数据集**:实验使用了自录的交通视频作为测试集,包含行人作为检测目标。为了评估,从视频中截取了500张图片,并标注了行人的位置。位置由左上角和右下角像素坐标表示。 7. **评估标准**:正确检测的标准是在扩大后的概率分布图上,落在行人框内的点比例超过50%视为正确检测。 8. **应用领域**:这种基于CNN的目标检测方法适用于视频中的行人检测,与其他传统方法相比,具有更高的鲁棒性和更快的速度,能更准确地定位目标。 关键词:卷积神经网络(CNN)、目标检测、Theano框架、全连接层、Softmax、数据集、评估标准。