
htt
p
://
www.
j
s
j
kx.com
DOI
:
10.11896
/
j
s
j
kx.210100210
到稿日期
:
2020G12G05
返修日期
:
2021G01G27
基金项目
:
国家自然科学基金
(
61922080
,
U19B2036
,
61772500
)
Thisworkwassu
pp
ortedb
y
theNationalNaturalScienceFoundationofChina
(
61922080
,
U19B2036
,
61772500
)
.
通信作者
:
王瑞平
(
wan
g
rui
p
in
g
@ict.ac.cn
)
视频人脸识别进展综述
白子轶 毛懿荣 王瑞平
中国科学院计算技术研究所智能信息处理重点实验室
北京
100190
中国科学院大学计算机科学与技术学院
北京
100049
(
zi
y
i.bai@vi
p
l.ict.ac.cn
)
摘
要
人脸识别是生物特征识别领域的一项关键技术
,
长期以 来 得 到 研 究 者 的 广 泛 关 注
.
视频人脸识别任务特指从一段视
频中提取出人脸的关键信息
,
从而完成身份识别
.
相较于基于图像的人脸识别任务来说
,
视频数据中的人脸变化模式更为 多 样
且视频帧之间存在较大差异
,
如何从冗长而复杂的视频中抽取到 人 脸 的 关 键 特 征 成 为 当 前 的 研 究 重 点
.
以视频人脸识别技术
为研究对象
,
首先介绍了该技术的研究价值和存在的挑战
;
接着对 当 前 研 究 工 作 的 发 展 脉 络 进 行 了 系 统 的 梳 理
,
依据建模方式
将传统基于图像集合建模的方法分为线性子空间建模
、
仿射子空间建模
、
非线性流形建模
、
统计建模四大类
,
同时对深度学 习 背
景下基于图像融合的方法进行了介绍
;
另外对现有视频人脸识别数据集进行分类整理并简要介绍了常用的评价指标
;
最后 分 别
采用灰度特征和深度特征在
YTC
数据集及
IJBGA
数据集上对代表性工作进行评测
.
实验结果表明
:
神经网络可以从大规 模 数
据中提取到鲁棒的视频帧特征
,
从而带来识别性能的大幅提升
,
而有效的视频数据建模能够挖掘出人脸潜在的变化模式
,
从视
频序列包含的大量样本中找到更具判别力的关键信息
,
排除噪声样本的干扰
,
因此基于视频的人脸识别具有广泛的通用性和实
用价值
.
关键词
:
视频人脸识别
;
图像集合建模
;
子空间学习
;
流形学习
;
深度学习
中图法分类号
TP391
Surve
y
onVideoGbasedFaceReco
g
nition
BAIZiG
y
i
,
MAO YiGron
g
andWANGRuiG
p
in
g
Ke
y
Laborator
y
ofIntelli
g
entInformationProcessin
g
ofChineseAcadem
y
ofSciences
(
CAS
),
InstituteofCom
p
utin
g
Technolo
gy
,
ChineseAcadem
y
ofSciences
,
Bei
j
in
g
100190
,
China
SchoolofCom
p
uterScienceandTechnolo
gy
,
Universit
y
ofChineseAcadem
y
ofSciences
,
Bei
j
in
g
100049
,
China
Abstract Facereco
g
nitionisake
y
technolo
gy
inthefieldofbiometrics
,
whichhasbeenwidel
y
concernedb
y
researchersinthe
p
astdecades.VideoGbasedfacereco
g
nitiontaskreferss
p
ecificall
y
toextracttheke
y
informationofhumanfacesfromavideoto
com
p
letethe
p
ersonalidentification.Com
p
aredwiththeima
g
eGbasedfacereco
g
nitiontask
,
thechan
g
in
gp
atternsoffacesinvideos
aremuchmorediverse
,
andthereare
g
reatdifferencesamon
g
thewholevideoframesaswell.Currentresearchfocusesonhowto
extracttheke
y
featuresoffacesfromlen
g
th
y
videos.Firstl
y
,
this
p
a
p
erintroducestheresearchvalueandchallen
g
esofvideoG
basedfacereco
g
nition.Then
,
thedevelo
p
in
g
venationofthecurrentresearchworkisex
p
lored.Basedonthevideomodelin
g
manG
ners
,
traditionalima
g
esetbasedmethodsaredividedintofourcate
g
ories
:
linearsubs
p
acemodelin
g
,
affinesubs
p
acemodelin
g
,
nonlinearmanifoldmodelin
g
andstatisticalmodelin
g
.Besides
,
themethodsbasedonima
g
efusionundertheback
g
roundofdee
p
learnin
g
arealsointroduced.This
p
a
p
eralsobriefl
y
reviewsexistin
g
datasetsforvideoGbasedfacereco
g
nitionandthecommonl
y
used
p
erformancemetrics.Finall
y
,
g
ra
y
featuresanddee
p
featuresareusedtoevaluatethere
p
resentativeworksonYTCdataset
andIJBGAdataset.Ex
p
erimentalresultsshowthatdee
p
neuralnetworkcanextractrobustfeaturesofeachframeafterbein
g
trainedwithlar
g
eGscaledata
,
which
g
reatl
y
im
p
rovesthe
p
erformanceofvideoGbasedfacereco
g
nition.Moreover
,
theeffectiveviG
deomodelin
g
canhel
p
toidentif
y
the
p
otentialhumanfacechan
g
in
gp
atterns.Therefore
,
morediscriminativeinformationcanbe
foundfromthelar
g
enumberofsam
p
lescontainedinthevideose
q
uence
,
andtheinferenceofnoisesam
p
lescanbeeliminated
,
whichsu
gg
eststheadvanta
g
esofvideoGbasedfacereco
g
nitiontobea
pp
liedtoalar
g
eran
g
eof
p
racticala
pp
licationscenarios.
Ke
y
words VideoGbasedfacereco
g
nition
,
Ima
g
esetmodelin
g
,
Subs
p
acelearnin
g
,
Manifoldlearnin
g
,
Dee
p
learnin
g