收稿日期:20190606;修回日期:20190712 基金项目:国家社会科学基金资助项目(17BTQ068);河北省自然科学基金资助项目
(F2018511002,G2018204093);河北省高等学校科学技术研究项目(Z2019037);中央司法警官学院校级科研项目(XYZ201602);河北大学中西部提
升综合实力专项;河北省高等学校科学研究项目青年基金资助项目(QN2018084);河北农业大学校理工基金资助项目(LG201804);河北农业大学
自主培养人才科研专项资助项目(PY201810);交通数据分析与挖掘北京市重点实验室开放课题
作者简介:朱杰(1982),男,河北保定人,副教授,博士,主要研究方向为机器学习、机器视觉;张楠楠(1981),女,山东莱州人,副教授,博士,
主要研究方向为数量经济学;刘太行(
1989),男,河北文安人,助教,硕士研究生,主要研究方向为机器学习;刘博(1981),男,河北保定人,教授,
博士,主要研究方向为机器学习、计算机视觉;吴树芳(1980),女(通信作者),河北邯郸人,副教授,博士,主要研究方向为机器学习、机器视觉
(shufang_44@126.com).
融合特征关联性的深度哈希图像表示方法
朱 杰
1
,张楠楠
1
,刘太行
1
,刘 博
2
,吴树芳
3
(1.中央司法警官学院 信息管理系,河北 保定 071000;2.河北农业大学 信息科学与技术学院,河北 保定
071000;3.河北大学 管理学院,河北 保定 071000)
摘 要:针对深度描述子无法提供图像特征之间关联性的问题进行了研究,提出了一种融合特征关联性的深度
哈希图像表示方法,这种方法将深度描述子之间的关系融入到图像内容的描述中,用于提高图像检索性能。首
先,通过预训练网络生成图像的特征映射,并在此基础上提取出深度特征描述子。然后,将深度特征描述子映射
为深度视觉词,从而用于深度视觉词的频繁项集发现。接下来将离散值的深度视觉词图像表示和哈希值的频繁
项集图像表示连接生成图像表示。最后,算法通过图像类内、类间的相似性关系构造优化,得到最优的阈值,用
于将图像表示变为哈希值。实验中,将提出的方法与一些优秀的图像表示方法在 holiday、Oxford和 Paris图像集
的图像检索任务中进行了性能比对,用于证明此方法的有效性。
关键词:深度特征描述子;深度视觉词图像表示;频繁项集图像表示;优化的阈值
中图分类号:TP391 文献标志码:A 文章编号:10013695(2020)10065319704
doi
:10.19734/j.issn.10013695.2019.06.0169
Featurerelevancefusionbaseddeephashingforimagerepresentation
ZhuJie
1
,ZhangNannan
1
,LiuTaihang
1
,LiuBo
2
,WuShufang
3
(1.Dept.ofInformationManagement,NationalPoliceUniversityforCriminalJustice,BaodingHebei071000,China;2.CollegeofInforma
tionScience& Technology
, HebeiAgriculturalUniversity, BaodingHebei071000, China;3.CollegeofManagement, HebeiUniversity,
BaodingHebei071000,China)
Abstract:Thispaperstudiedproblemthatthedeepdescriptorscannotprovidethecorrelationbetweenthefeatures.Thispaper
proposedafeaturerelevancefusionbaseddeephashingmethodtoincorporatetherelationshipbetweendifferentdeepdescrip
torsintothedescriptionoftheimagecontents.Firstly,itextractedthefeaturemapsfromthepretrainednetworkandusedfor
deepdescriptorgeneration.Then
,itmappedthesedescriptorstodeepvisualwords,andalsoexploredthefrequentitem set
basedonthesedeepvisualwords.Next,itconcatenateddeepvisualwordsbasedimagerepresentationofdiscretevaluesandfre
quentitemsetbasedimagerepresentationofbinaryvaluestorepresentanimage.Finally,itformulatedanoptimizationbasedon
theintraclassandinterclasssimilaritiesbetweenimagestoobtaintheoptimalthresholdstoconverttheimagerepresentation
intoabinarystring.Extensiveexperimentsshowthatcomparedwithsomestateoftheartmethods,theproposedmethodcan
achievesatisfyingretrievalperformanceintheholiday,OxfordandParisimagedatabases.
Keywords:deepfeaturedescriptors;deepvisualwordimagerepresentation;frequentitemsbasedimagerepresentation;
optimalthresholds
0 引言
近年来,卷积神经网络(convolutionalneuralnetwork,CNN)
已经被广泛应用于计算机视觉相关任务,如图像分类
[1,2]
、图
像分割
[3,4]
和行人检测
[5,6]
等。其主要特点在于通过训练网络
参数,从而学习复杂事物的特性。CNN在大规模图像检索问
题上也表现出了优异的性能。研究表明,经过大规模图像分类
任务训练后的
CNN可以用于完成与训练图像集合不同内容的
图像表示任务,并应用于图像检索。从预训练深度网络中提取
的激活特征可以用于构成深度描述子,从而描述图像特征。
Babenko等人
[7]
开创性地将神经元的激活作为特征,并将聚合
后的特征成功地应用到了图像检索任务中。Razavian等人
[8]
提出了一种将 CNN全连接层和卷积层响应进行聚合用于图像
表示的方法。Gong等人
[9]
在生成的特征映射基础上,提取出
多尺度局部特征映射的激活特征,用于特征聚合生成图像表
示。
Wei等人
[10]
通过特征映射粗略分析出对象区域,并将此
区域内的特征聚合生成图像表示。接下来的研究中发现,通过
对激活特征在不同层次和不同位置进行加权,可以更好地描述
图像内容
[11,12]
。在后来的工作中,张艺超等人
[13]
提出了一种
有监督的多尺度平衡深度哈希方法用于提高图像检索性能。
Ji等人
[14]
在语义嵌套空间内将可见领域的知识转移到不可见
领域,用于提高多模型检索问题的性能。
作为一种优秀的算法,
Ng等人
[15]
将深度描述子通过聚类
生成字典,并通过局部聚合向量(vectoroflocallyaggregatedde
scriptors,VLAD)的编码方式生成图像表示。算法中,字典的生
第 37卷第 10期
2020年 10月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol37No10
Oct.2020