没有合适的资源?快使用搜索试试~ 我知道了~
首页YOLO_v1.pptx
资源详情
资源评论
资源推荐

习
学
课 程 报 告
汇 报 人: &&&
小组成员: &&&&
YOLO : Real-Time Object Detection
器
机

You Only Look Once ( YOLO )是一个先进的实时的目标检测系统。
说起目标检测系统,就要先明白,图像识别、目标定位和目标检测的区别。
图像识别也可以说成是目标分类,顾名思义,目的是为了分类出图像中的物体是什么类别。
目标定位是不仅仅要识别出是一种什么物体,还要预测出物体的位置,并使用 bounding box 框出。
目标检测就更为复杂,它可以看作是图像识别 + 多目标定位,即要在一张图片中定位并分类出多个物体。
目标检测

目标检测
图 1.1 2015 年之前目标检测方法在 Pascal VOC 2007 数据集上测试的 FPS 和 mAP 结果对比
传统的目标检测方法大致分为三个步骤,
先使用不同的方法(滑动窗口,区域候选)提取区域的特征图,
然后再使用分类器进行识别,
最后回归预测。
目前深度学习相关的目标检测方法大致
可以分为两派:
基于区域提名的( regin proposal )
的,比如 R-CNN 、 SPP-
Net 、 Fast R-CNN 、 Faster R-
CNN 、 R-FCN 。
基于端到端( end to end )的,无
需候选区域,如 YOLO 、 SSD 。
二者发展都很迅速,区域提名准确率较
好、端到端的方法速度较快。

核心思想
则采用直接回归的思路,将目标定位和目标类别预测整合于在单个神经网络模型中。
将整张图片作为网络的输入,直接在输出层对 的位置和所属类别进行回
归。
YOLO 检测系统简单直接,可以看做只有三步:
检 测 系 统 先 将 输 入 图 像 调 整 到
;
在图像上运行卷积网络;
通过模型的置信度对结果进行阈值。
图 1.2 YOLO 检测系统 直接在输出层回归 的位置和所属类别

实现细节
将一幅图像分成 S×S 个网格 (Grid Cell) ,如果某个 object 的中心落在某个网格中(通过
ground-truth 框确定),则这个网格就负责预测这个 object 。
每个网格要预测 B 个 bounding box ,每个 box 除了要回归自身的位置之外,还要附带预测一个
confidence 值。这个值代表了所预测的 bounding box 中是否含有 object 和若有 object ,这个
object 预测得有多准的两重信息,计算方式:
如果有 object 的中心落在一个网格里面, * 的前
第一项取 1 ,否则取 0 。第二项是预测的边界框
和 ground-truth 之间的 IoU 值。
S 是多少? B 是多少?
为什么要分成 S x S 个网格?
如何选择 Grid Cell 预测框?
剩余26页未读,继续阅读



















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0