没有合适的资源?快使用搜索试试~ 我知道了~
首页深度卷积神经网络在计算机视觉中的应用研究综述_卢宏涛.pdf
随着大数据时代的到来,含更多隐含层的深度卷积神经网络(Convolutional neural networks,CNNs)具有更复杂的网络结构,与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型自提出以来在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩。本文首先简要介绍深度学习和卷积神经网络的兴起与发展,概述卷积神经网络的基本模型结构、卷积特征提取和池化操作。然后综述了基于深度学习的卷积神经网络模型在图像分类、物体检测、姿态估计、图像分割和人脸识别等多个计算机视觉应用领域中的研究现状和发展趋势,主要从典型的网络结构的构建、训练方法和性能表现3个方面进行介绍。最后对目前研究中存在的一些问题进行简要的总结和讨论,并展望未来发展的新方向。
资源详情
资源评论
资源推荐
书书书
I
SSN
1004
-
9
037
,
CODEN
SCYCE4
Journal
of
Data
Ac
q
uisition
and
Processin
g
Vol.31
,
No.1
,
Jan.2016
,
pp
.1-17
DOI
:
10.16337
/
j
.1004
-
9
037.2016.01.001
2016b
y
Journal
of
Data
Ac
q
uisition
and
Processin
g
htt
p
:
//
s
j
c
j
.
nuaa.edu.cn
E
-
m
ail
:
s
j
c
j
@
nuaa.edu.cn
Tel
/
Fax
:
+86
-
0
25
-
84892742
深度卷积神经网络在计算机视觉中的应用研究综述
*
卢
宏涛
张秦川
(
上海交通大学计算机科学与工程系
,
上
海
,
2
00240
)
摘
要
:
随
着大数据 时 代 的 到 来
,
含更多隐含层的深度卷积神经网络
(
C
onvolutional
neural
networks
,
CNNs
)
具有更复杂的网络结构
,
与传统机器学习
方法相比具有更强大的特征学习和特征表达能力
。
使
用深度学习算法训练的卷积神经网络模型自提出以来在计算机视觉领域的多个大规模识别任务上取得
了令人瞩目的成绩
。
本文首先简要介绍深度学习和卷积神经网络的兴起与发展
,
概 述 卷积神经网络的
基本模型结构
、
卷积特征提取和池化操作
。
然后综述了基于深度学习的卷积神经网络模型在图像分类
、
物体检测
、
姿态估计
、
图像分割和人脸识别等 多个 计算机视 觉 应 用 领 域 中 的 研 究 现 状 和 发 展 趋 势
,
主 要
从典型的网络结构的构建
、
训练方法和性能表现
3
个方 面 进 行 介 绍
。
最 后 对 目 前 研 究 中 存 在 的 一 些 问
题进行简要的总结和讨 论
,
并展望未来发展的新方 向
。
关键词
:
深度学习
;
卷积神经网络
;
图像识别
;
目标检测
;
计算机视觉
中图分类号
:
T
P391
文献标志码
:
A
A
p
p
lications
of
Dee
p
Convolutional
Neural
Network
in
Com
p
uter
Vision
L
u
Hon
g
tao
,
Zhan
g
Qinchuan
(
D
e
p
artment
of
Com
p
uter
Science
and
En
g
ineerin
g
,
Shan
g
hai
Jiao
Ton
g
Universit
y
,
Shan
g
hai
,
200240
,
China
)
A
bstract
:
Dee
p
learnin
g
has
recentl
y
achieved
breakthrou
g
h
p
ro
g
ress
in
s
p
eech
reco
g
nition
and
ima
g
e
rec
-
o
g
n
ition.With
the
advent
of
bi
g
data
era
,
dee
p
convolutional
neural
networks
with
more
hidden
la
y
ers
and
more
com
p
lex
architectures
have
more
p
owerful
abilit
y
of
feature
learnin
g
and
feature
re
p
resentation.
Convolutional
neural
network
models
trained
b
y
dee
p
learnin
g
al
g
orithm
have
attained
remarkable
p
er
-
f
ormance
in
man
y
lar
g
e
scale
reco
g
nition
tasks
of
com
p
uter
vision
since
the
y
are
p
resented.In
this
p
a
p
er
,
the
arisin
g
and
develo
p
ment
of
dee
p
learnin
g
and
convolutional
neural
network
are
briefl
y
introduced
,
with
em
p
hasis
on
the
basic
structure
of
convolutional
neural
network
as
well
as
feature
extraction
usin
g
convolution
and
p
oolin
g
o
p
erations.The
current
research
status
and
trend
of
convolutional
neural
net
-
w
orks
based
on
dee
p
learnin
g
and
their
a
pp
lications
in
com
p
uter
vision
are
reviewed
,
such
as
ima
g
e
classi
-
f
ication
,
ob
j
ect
detection
,
p
ose
estimation
,
ima
g
e
se
g
mentation
and
face
detection
etc.Some
related
works
are
introduced
from
the
followin
g
three
as
p
ects
,
i.e.
,
construction
of
t
yp
ical
network
structures
,
trainin
g
methods
and
p
erformance.Finall
y
,
some
existin
g
p
roblems
in
the
p
resent
research
are
briefl
y
summarized
and
discussed
and
some
p
ossible
new
directions
for
future
develo
p
ment
are
p
ros
p
ected.
Ke
y
words
:
dee
p
learnin
g
;
convolutional
neural
network
;
ima
g
e
reco
g
nition
;
ob
j
ect
detection
;
com
p
uter
vision
*
基
金项目
:
国家自然科学基金
(
61272247
)
资助项目
。
收稿日期
:
2
015
-
1
2
-
1
0
;
修
订日期
:
2
016
-
0
1
-
1
0
引
言
图像识别是一种利用计算机对图像进行处理
、
分析和理解
,
以识别各种不同模式的目标和对象的技
术
,
是计算机视觉领域的一个主要研究方向
,
在以图像为主体的智能化数据采集与处理中具有十分重要
的作用和影响
。
使用图像识别技术能够有效地处理特定目标物体的检测和识别
(
如人脸
、
手写字符或是
商品
)、
图像的分类标注以及主观图像质量评估等问题
。
目前图像识别技术在图像搜索
、
商品推荐
、
用户
行为分析以及人脸识别等互联网应用产品中具有巨大的商业市场和良好的应用前景
,
同时在智能机器
人
、
无人自动驾驶和无人机等高新科技产业以及生物学
、
医学和地质学等众多学科领域具有广阔的应用
前景
。
早期的图像识别系统主要采用尺度不变特征变换
(
Scale
-
invariant
feature
transform
,
SIFT
[
1
]
)
和
方向梯度直方图
(
Histo
g
ram
of
oriented
g
radients
,
HOG
[
2
]
)
等特征提取方法
,
然后将提取到的特征输入
至分类器中进行分类识别
。
这些特征本质上是一种手工设计的特征
,
针对不同的识别问题
,
提取到的特
征好坏对系统性能有着直接的影响
,
因此需要研究人员对所要解决的问题领域进行深入的研究
,
以设计
出适应性更好的特征
,
从而提高系统的性能
。
这个时期的图像识别系统一般都是针对某个特定的识别
任务
,
且数据的规模不大
,
泛化能力较差
,
难以在实际应用问题当中实现精准的识别效果
。
深度学习是机器学习的一个分支
,
是近些年来机器学习领域取得的重大突破和研究热点之一
。
2006
年
,
加拿大多伦多大学教授
、
机器学习领域的泰斗
Geoffer
y
Hinton
和他的学生
Ruslan
Salakhutdi
-
nov
在国际顶尖学术刊物
《
Science
》
上发表了一篇文章
[
3
]
,
第一次提出了深度学习的思想
。
这篇 文章主
要提出了两个观点
:(
1
)
含多个隐层的人工神经网络具有十分强大的特征学习能力
,
通过训练模型所提
取的特征对原始输入数据具有更抽象和更本质的表述
,
从而有利于解决特征可视化或分类问题
;(
2
)
通
过使用无监督学习算法实现一种称作
“
逐层初始化
”
的方法
,
实现对输入数据信息进行分级表达
,
从而可
以有效地降低深度神经网络的训练难度
。
随后
,
深度学习在学术界和工业界持续升温
,
在语音识别
、
图
像识别和自然语言处理等领域获得了突破性的进展
。
2011
年以来
,
研究人员首先在语音识别问题上应
用深度学习技术
,
将准确率提高了
20%
~
30%
,
取得了十多年来最大的突破性进展
。
仅仅一年之后
,
基于卷积神经网络的深度学习模型就在大规模图像分类任务上取得了非常大的性能提高
,
掀起了深度
学习研究的热潮
。
文献
[
4
]
提出了两种基于深度神经网络的声学建模方法
,
相比于传统建模方法提取到
了更有效的声学特征
,
并在维吾尔语的大词汇量连续语音识别应用上取得了较大的性能提升
。
目前
,
谷
歌
、
微软和
Facebook
等众多国际互联网科技企业争相投入大量的资源
,
研发布局大规模的深度学习系统
。
1
卷积神经网络
20
世纪
60
年代初期
,
Hubel
和
Wiesel
等通过对猫的大脑视觉皮层系统的研究
,
提出了感受野
[
5
]
的
概念
,
并进一步发现了视觉皮层通路中对于信息的分层处理机制
,
由此获得了诺贝尔生理学或医学奖
。
到了
80
年代中期
,
Fukushima
等基于感受野概念提出的神经认知机
[
6
]
,
可以看作是卷积神经网络
(
Con
-
volution
neural
networks
,
CNNs
)
的第一次实现
,
也是第一个基于神经元之间的局部连接性和层次结构
组织的人工神经网络
。
神经认知机是将一个视觉模式分解成许多子模式
,
通过逐层阶梯式相连的特征
平面对这些子模式特征进行处理
,
使得即使在目标对象产生微小畸变的情况下
,
模型也具有很好的识别
能力
。
在此之后
,
研究人员开始尝试使用一种被称作多层感知器
[
7
]
的人工神经网络
(
实际上是只含一层
隐含层节点的浅层模型
)
来代替手工提取特征
,
并使用简单的随机梯度下降方法来训练该模型
,
于是进
一步提出了用于计算误差梯度的反向传播算法
,
这一算法随后被证明十分有效
[
8
]
。
1990
年
,
LeCun
等
[
9
]
在研究手写数字识别问题时
,
首先提出了使用梯度反向传播算法训练的卷积神经网络模型
,
并 在
MNIST
[
10
]
手写数字数据集上表现出了相对于当时其他方法更好的性能
。
梯度反向传播算法和卷积神
经网络的成功给机器学习领域带来了新的希望
,
开启了基于统计学习模型的机器学习浪潮
,
同时也带动
2
数据采集与处理
Journal
o
f
Data
Ac
q
uisition
and
Processin
g
Vol.31
,
No.1
,
2016
了人工神经网络进入到蓬勃发展的新阶段
。
目前
,
卷积神经网络已成为当前语音分析和图像识别领域
的研究热点
,
它是第一个真正意义上的成功训练多层神经网络的学习算法模型
,
对于网络的输入是多维
信号时具有更明显的优势
。
随着深度学习掀起的新的机器学习热潮
,
卷积神经网络已经应用于语音识
别
、
图像识别和自然语音处理等不同的大规模机器学习问题中
。
1.1
概念
卷积神经网络是一种为了处理二维输入数据而特殊设计的多层人工神经网络
,
网络中的每层都由
多个二维平面组成
,
而每个平面由多个独立的神经元组成
,
相邻两层的神经元之间互相连接
,
而处于同
一层的 神 经 元 之 间 没 有 连 接
。
CNNs
受到早期的时延神经网络
(
Time
-
dela
y
neural
networks
[
11
]
,
TDNNs
)
的启发
,
TDNN
通过在时间维度上共享权值来降低网络训练过程中的计算复杂度
,
适用于处理
语音信号和时间序列信号
。
CNNs
采用了权值共享网络结构使之更类似于生物神经网络
,
同时模型的
容量可以通过改变网络的深度和广度来调整
,
对自然图像也具有很强的假设
(
统计的平稳性和像素的局
部相关性
)。
因此
,
与每层具有相当大小的全连接网络相比
,
CNNs
能够有效降低网络模型的学习复杂
度
,
具有更少的网络连接数和权值参数
,
从而更容易训练
。
图
1
简化的卷积神经网络结构
Fi
g
.1
Sim
p
lified
structure
of
convolutional
neural
network
1.2
网络结构
一个简单的卷积神经网络模型的结构示
意图如图
1
所 示
,
该网络模型由两个卷积层
(
C
1
,
C
2
)
和两个子 采 样层
(
S
1
,
S
2
)
交 替 组 成
。
首先
,
原始输入图像通过与
3
个可训练的滤波
器
(
或称 作卷 积 核
)
和可加偏置向量进行卷积
运算
,
在
C
1
层产生
3
个特 征映射图
,
然后 对每
个特征映射图的局部区域进行加权平均求和
,
增加偏置后通过一个非线性激活函数在
S
1
层
得到
3
个新的特征映射图
。
随后这些特征映射
图与
C
2
层的
3
个可训练的滤波器进行卷积
,
并
进一步通过
S
2
层后输出
3
个特征映射图
。
最
终
S
2
层的
3
个输出分别被向量化
,
然后输入到传统的神经网络中进行训练
。
1.3
卷积特征提取
自然图像有其固有特性
,
即对于图像的某一部分
,
其统计特性与其他部分相同
。
这意味着在这一部
分学习到的特征也能用在另一部分上
,
因此对于图像上的所有位置
,
可以使用同样的学习特征
。
换句话
说
,
对于大尺寸的图像识别问题
,
首先从图像中随机选取一小块局域作为训练样本
,
从该小块样本中学
习到一些特征
,
然后将这些特征作为滤波器
,
与原始整个图像作卷积运算
,
从而得到原始图像中任一位
置上的不同特征的激活值
。
给定分辨率为
r
×
c
的大尺寸图像
,
将其定义为
x
lar
g
e
,
首先从
x
lar
g
e
中抽取
a
×
b
的小尺寸图像样本
x
small
,
通过训练稀疏自编码器得到
k
个特征和激活值
f
(
W
(
1
)
x
small
+
b
(
1
)
),
其中
W
(
1
)
和
b
(
1
)
是训练得到的参数
。
然后对于
x
lar
g
e
中每个
a
×
b
大小的
x
s
,
计算对应的激活值
f
s
(
W
(
1
)
x
small
+
b
(
1
)
),
进一步使用
x
small
的激活值与这些激活值
f
s
作卷积运算
,
就可以得到
k
×
(
r
-
a
+ 1
)
×
(
c
-
b
+ 1
)
个卷积后的特征映射图
。
二维卷积计算的示意图如图
2
所示
。
例如
,
对于分辨率为
128×128
的原始输入图像
,
假设经过预训练已经得到了该图像的
200
个
8×8
大小的特征碎片
。
那么
,
通过使用这
200
个特征碎片对原始图像中每个
8×8
的小块区域进行卷积运
算
,
每个特征碎片均可以得到
121×121
的卷积特征映射图
,
最终整幅图像可以得到
200×121×121
的
卷积特征映射图
。
3
卢宏涛 等
:
深度卷积神经网络在计算机视觉中的应用研究综述
图
2
二维卷积运算操作示意图
Fi
g
.2
Illustration
of
two
-
dimensional
convolution
o
p
eration
1.4
池化操作
通过将卷积层提取到的特征输入至分类器中
进行训练
,
可以实现输出最终的分类结果
。
理 论
上可以直接将卷积层提取到的所有特征输入至分
类器中
,
然而这将需要非常大的计算开销
,
特别是
对于大尺寸高分辨率图像
。
例 如
:
对 于 一 个输 入
为
96×96
大小的图像样本
,
假设在卷积层使用
200
个
8×8
大小的卷积核对该输入图像进行卷积
运算操作
,
每个卷积核都输出一个
(
96-8+1
)
×
(
96-8+1
)
= 7
921
维的 特 征向 量
,
最终卷积层
将输出一个
7
921×200 = 1
584
200
维的特征向
量
。
将如此高维度的特征输入至分类器中进行训
练需要耗费非常庞大的计算资源
,
同 时 也 会产 生
严重的过拟合问题
。
然而
,
由于图像具有一种
“
静态性
”
的属性
,
在图像的一个局部区域得到的特征极有
可能在另一个局部区域同样适用
。
因此
,
可以对图像的一个局部区域中不同位置的特征进行聚合统计
操作
,
这种操作称为
“
池化
”。
比如计算该局部区域中某个卷积特征的最大值
(
或平均值
),
称作最大池化
(
或平均池化
)。
具体来说
,
假设池化的区域大小为
m
×
n
,
在获得卷积特征后
,
将卷积特征划分为多个
m
×
n
大小的不相交区域
,
然后在这些区域上进行池化操作
,
从而得到池化后的特征映射图
。
如图
3
所示
,
图
3
最大池化运算操作示意图
Fi
g
.3
Illustration
of
max
p
oolin
g
o
p
eration
在一幅图像的
4
块不重合子区域上使用
3×3
大小 的
窗口对其进行最大池化
,
得到池化后的特征映射图
。
如果选择图像中的连续范围作为池化区域
,
同时
只对相同的隐含神经元产生的卷积特征使用池化
,
则
这些池化后的特征单元具有平移不变性
。
也就是说
,
即使原始图像中的物体产生了一个较小的平移
,
依然
可以得到相同的池化特征
,
分类器也依然能够输出相
同的分类结果
。
与直接使用卷积后的特征相比
,
这些
概要统计特征不仅能够极大地降低特征向量的维度
,
进一步降低训练分类器所需的计算量
,
而且能够有效
地扩充训练数据
,
有利于防止过拟合
。
2
图像分类
图像分类问题是通过对图像的分析
,
将图像划归为若干个类别中的某一种
,
主要强调对图像整体的
语义进行 判 定
。
当下有很多用于评判图像分类算法的带标签的数据集
,
比 如
CIFAR
-
10
/
100
[
12
]
,
Caltech
-
101
/
256
[
13
-
14
]
和
Ima
g
eNet
[
15
]
,
其中
Ima
g
eNet
包含超过
15
000
000
张带标签的高分辨率图像
,
这
些图像被划分为超过
22
000
个类别
。
从
2010
年至今
,
每年举办的
Ima
g
eNet
Lar
g
e
Scale
Visual
Reco
g
-
nition
Challen
g
e
(
ILSVRC
)
图像分类比赛是评估图像分类算法的一个重要赛事
。
它的数据集 是
Ima
-
g
eNet
的子集
,
包含上百万张图像
,
这些图像被划分为
1
000
个类别
。
其中
,
2010
年与
2011
年的获胜团
队采用的都是传统图像分类算法
,
主要使用
SIFT
,
LBP
[
16
]
等算法来手动提取特征
,
再将提取的特征用于
训练支持向量机
(
Su
pp
ort
vector
machine
,
SVM
)
等分类器进行 分类
,
取得的最好结果是
28.2%
的错 误
率
[
17
]
。
ILSVRC2012
则是大规模图像分类领域的一个重要转折点
。
在这场赛事中
,
Alex
Krizhevsk
y
等
提出的
AlexNet
[
18
]
首次将深度学习应用于大规模图像分类
,
并取 得了
16.4%
的错 误率
,
该错 误率比使
4
数据采集与处理
Journal
o
f
Data
Ac
q
uisition
and
Processin
g
Vol.31
,
No.1
,
2016
剩余16页未读,继续阅读
慎也
- 粉丝: 52
- 资源: 485
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 2022年中国足球球迷营销价值报告.pdf
- 房地产培训 -营销总每天在干嘛.pptx
- 黄色简约实用介绍_汇报PPT模板.pptx
- 嵌入式系统原理及应用:第三章 ARM编程简介_3.pdf
- 多媒体应用系统.pptx
- 黄灰配色简约设计精美大气商务汇报PPT模板.pptx
- 用matlab绘制差分方程Z变换-反变换-zplane-residuez-tf2zp-zp2tf-tf2sos-sos2tf-幅相频谱等等.docx
- 网络营销策略-网络营销团队的建立.docx
- 电子商务示范企业申请报告.doc
- 淡雅灰低面风背景完整框架创业商业计划书PPT模板.pptx
- 计算模型与算法技术:10-Iterative Improvement.ppt
- 计算模型与算法技术:9-Greedy Technique.ppt
- 计算模型与算法技术:6-Transform-and-Conquer.ppt
- 云服务安全风险分析研究.pdf
- 软件工程笔记(完整版).doc
- 电子商务网项目实例规划书.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0