深度学习目标检测技术演进：R-CNN、Fast R-CNN与Faster R-CNN详解

需积分: 0 144 浏览量更新于2024-08-05 收藏 2.72MB PDF 举报

深度学习在目标检测领域的技术发展历程中，R-CNN、Fast R-CNN和Faster R-CNN作为重要的里程碑，显著提升了计算机视觉任务的精度和效率。这些技术最初由学者们针对object detection（目标检测）问题提出，其目标是在给定的图像中准确地定位并识别出不同类别的物体，这是一个具有挑战性的任务，因为物体尺寸变化大，姿态多样，且位置不确定。 1. R-CNN (Region-based Convolutional Neural Networks): R-CNN是第一个将深度学习应用于目标检测的关键模型。它采用两步法：首先通过选择性搜索算法生成候选区域（Regions of Interest, RoIs），然后对每个RoI进行卷积神经网络（CNN）特征提取，最后将这些特征输入到支持向量机（SVM）或其他分类器进行物体类别判断。R-CNN的主要限制在于速度较慢，因为每个RoI都需要独立处理。 2. Fast R-CNN: Fast R-CNN改进了R-CNN的瓶颈，通过共享卷积层减少了计算量。它将卷积网络扩展到了整个图像，然后通过RoI池化层对每个RoI进行特征抽取，这样就避免了重复计算。这大大提高了检测速度，但依然保留了分类器的独立预测，没有实现真正意义上的实时检测。 3. Faster R-CNN: Faster R-CNN引入了区域提议网络（RPN, Region Proposal Network），这是Fast R-CNN的重大突破。RPN是一个内嵌在卷积网络中的模块，可以同时生成候选区域并对其进行分类，从而消除了外接RoI选择的过程。这样不仅提高了速度，还降低了人为干预，使得目标检测更加高效和准确。Faster R-CNN实现了端到端的学习，即从原始像素到最终的物体位置和类别，简化了整个流程。总结来说，这些技术的发展展示了深度学习如何通过网络结构的优化和设计创新，解决了目标检测中的定位和分类难题。从R-CNN的逐个处理RoI，到Fast R-CNN的共享卷积层，再到Faster R-CNN的一体化解决方案，每一步都在提升模型的性能，使我们能够更快速、准确地在复杂图像中定位和识别出物体。随着深度学习技术的不断演进，未来的目标检测方法有望在更多领域得到应用。

2018/10/20 基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN - Madcola - 博客园

https://www.cnblogs.com/skyfsm/p/6806246.html 3/13

• Regression那个部分用欧氏距离损失

• 使用SGD训练

步骤4:

• 预测阶段把2个头部拼上

• 完成不同的功能

这里需要进行两次fine-tuning

第一次在ALexNet上做，第二次将头部改成regression head，前面不变，做一次fine-tuning

Regression的部分加在哪？

有两种处理方法：

• 加在最后一个卷积层后面（如VGG）

• 加在最后一个全连接层后面（如R-CNN）

regression太难做了，应想方设法转换为classification问题。

regression的训练参数收敛的时间要长得多，所以上面的网络采取了用classification的网络来计算出网络共同部

分的连接权值。

思路二：取图像窗口

• 还是刚才的classification + regression思路

• 咱们取不同的大小的“框”

• 让框出现在不同的位置，得出这个框的判定得分

• 取得分最高的那个框

左上角的黑框：得分0.5

右上角的黑框：得分0.75

10. OpenCV探索之路（十三）：详解掩膜

mask(14728)

评论排行榜

1. 两年波折路（考研、工作、考研）(97)

2. OpenCV探索之路（二十四）图像拼接和

图像融合技术(58)

3. 【OCR技术系列之四】基于深度学习的

文字识别（3755个汉字）(49)

4. 【Keras】基于SegNet和U-Net的遥感图

像语义分割(37)

5. OpenCV探索之路（二十二）：制作一个

类“全能扫描王”的简易扫描软件(19)

推荐排行榜

1. 两年波折路（考研、工作、考研）(88)

2. 基于深度学习的目标检测技术演进：R-

CNN、Fast R-CNN、Faster R-CNN(50)

3. 卷积神经网络CNN总结(24)

4. 【Keras】基于SegNet和U-Net的遥感图

像语义分割(15)

5. 【OCR技术系列之四】基于深度学习的

文字识别（3755个汉字）(12)

6. 读研以来的一些感想：名校好在哪里？

(12)

7. OpenCV探索之路（二十七）：皮肤检测

技术(10)

8. OpenCV探索之路（二十四）图像拼接和

图像融合技术(10)

9. Python各类图像库的图片读写方式总结

(8)

10. 我在北京实习的四个月(8)

剩余12页未读，继续阅读

书看不完了

粉丝: 27

深度学习目标检测技术演进：R-CNN、Fast R-CNN与Faster R-CNN详解

最新资源