基于相关反馈的CBIR环境下的距离选择研究-埃及信息学杂志（2017）18，1-开罗大学

34 浏览量更新于2023-12-10 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

埃及信息学杂志（2017）18，1开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com全长文章CBIR环境下基于相关反馈的距离选择Mawloud Mosbah*，Bachir Boucheham阿尔及利亚斯基克达大学，1955年8月20日接收日期：2015年8月20日;修订日期：2016年6月24日;接受日期：2016年2016年10月19日在线发布摘要在本文中，我们解决的背景下，基于内容的图像检索（CBIR）的选择。而不是解决功能而距离概念是一个非常精确和尖锐的数学工具，我们将研究扩展到弱距离：相似性，准距离和发散性。因此，考虑多达十八（18）个这样的度量：.. . }，similarities{Ruzika，. . }，准距离：{Neyman-X2，. . #21453;的分歧：？. }.我们特别提出了一个混合系统的基础上，顺序向前搜索（SFS）Meta启发式与一轮和相关反馈。在Wang数据库（Corel-1 K）上使用颜色矩作为签名进行的实验表明，我们的系统在有效性方面产生了可喜的结果。©2016制作和主办由Elsevier B.V.代表计算机与信息学院开罗大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍与任何信息检索系统一样，基于内容的图像检索（CBIR）系统旨在通过从图像数据库中提取*通讯作者。电子邮件地址： mos_nasa@hotmail.fr ， univ-skikda.dz（M.Mosbah）。开罗大学计算机和信息系负责同行审查。被认为与提交的查询相似的图像，更不用说与用户期望相关的图像。为了做到这一点，CBIR系统利用一些低级特征，例如颜色，例如[1]，纹理，例如[2，3]和形状，例如[4]。在[5]中报告了一些CBIR作品的比较研究。不幸的是，由于语义差距问题，用户通常仍然对实际CBIR系统回答的结果不满意事实上，从用户的角度来看，相关性概念和系统的自动相关性之间存在差距。因此，为了改进CBIR系统给出的结果，必须缩小前面提到的两种相关性之间的差距。从用户的角度来看，相关性与他/她在他/她的头脑中对他/她的需求有关，而从系统的角度来看，相关性与查询有关。http://dx.doi.org/10.1016/j.eij.2016.09.0011110-8665© 2016由Elsevier B. V.代表开罗大学计算机与信息学院制作和主办。这是一个在CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier关键词CBIR;距离选择;相关反馈; SFS元启发式;查准率和查全率2M. 莫斯巴湾布舍昂SFS算法步骤1：作为初始化，算法以以下加权（0，0，..0)（未选择匹配度量）。第二步：每个权重将分别设置为1，以生成多个配置。步骤3：根据适应度评估每个配置步骤4：选择最佳配置。第5步：将实际选择的配置与上一次迭代中选择的配置进行比较，如果没有改进，则转到第8步。第六步：除所选匹配度量的权重仍为1外，其余权重均为0步骤7：转到步骤2。第八步：结束。在对语义鸿沟的建议解决方案中，一些作者使用了多种查询技术，例如。[6]的文件。影响系统相关性的一个基本关键，并因此影响其准确性，是匹配措施。文献回顾表明，有许多匹配措施，从距离和相似性，准距离和分歧。据我们所知，很少有作品将匹配度量作为CBIR背景下的兴趣点，例如[7问题是在构建CBIR系统时应该使用什么样的匹配措施。类似地，对于特定查询应该使用什么匹配度量？因此，这个问题导致匹配措施选择的合法性问题。匹配度量选择问题的一个自然答案是学习过程。文献回顾表明，在CBIR领域有两种方式来实现匹配度量选择：利用选择问题工具或通过相关反馈学习。所提出的工作属于CBIR领域的两个领域：选择范式和相关反馈。这些概念将在以下小节中解释1.1. 选择范例一轮算法是非常有效的。在下面的一点中，我们简要地解释SFS算法。1.1.1. SFS算法在这项工作中，我们使用的SFS算法，而不是其他Meta启发式算法，如遗传算法和布谷鸟搜索算法（CSA），由于其简单。其他Meta算法比SFS算法当然是非常感兴趣的研究课题。事实上，文献回顾表明，存在许多应用于各种领域的元启发式算法，例如[17然而，选择最佳的Meta启发式算法来选择适当的匹配措施超出了本文的范围因为我们不想组合匹配措施，我们认为一轮就足以回答这个问题：“哪种匹配措施是最好的？”。SFS算法的伪代码如图1所示。在这个伪代码中，拟合度值与用户标记为相关的图像的等级之和进行了权衡。该适合性由以下等式给出：Xn适应度1/4=nωranki11/1据我们所知，CBIR领域的选择范式到目前为止仅限于特征选择方面，例如[11]。事实上，许多作者都提出了以下问题：“哪些特征最适合特定查询？”。特征选择方法根据用户定义的标准搜索属于原始特征空间的最相关特征子集[12]。特征选择算法旨在选择保留数据集最相关信息的减少数量的特征。特征选择通常作为数据挖掘任务中的预处理步骤，通过去除不相关或冗余的特征，从而实现更有效和准确的分类，聚类和相似性搜索过程[12]。特征选择有三大类：过滤器方法，例如[13]，包装器方法，例如[14]和混合方法。过滤方法使用数据的一般特征，独立于评估过程的分类器。在包装器方法中，求值过程依赖于类。最后，混合模型使用过滤和包装方法来提高选择过程的性能。选择工具的问题是学习阶段在计算时间方面是昂贵的。因此都是由甜菜碱制成的除此之外，在学习阶段使用的工具需要根据适合性度量进行评估。这就提出了关于专门用于学习的处理数据集的其他问题。因此，在基于特征选择的系统中，检索问题可以被看作是一个分类问题。显然，在这种情况下，学习阶段至关重要。在本文中，我们解决的匹配措施选择范例，而不是功能选择范例。更具体地说，我们的目标是为每个查询选择一个匹配度量，从有效性的为此，我们利用一轮的顺序前向搜索（SFS）算法[15，16]这一选择的动机是SFS的特点其中n是被用户标记为相关的图像的数量具有一轮的SFS算法使用从步骤1到步骤4的前述伪代码1.2. 相关反馈来自文献信息检索[21，22]的相关反馈概念，在过去几年中，在CBIR领域有很多关注，例如[23]。该方案包括在可视化初始结果之后从用户接收附加信息。该附加信息只是用户对某些可视化结果的判断，与他/她的需求相关或不相关。根据该判断，系统继续调整其处理行为以提高性能。然后，相关性反馈机制是用于通过给出用户相关性和系统相关性之间的角度的附加工具。图1SFS算法的伪代码基于相关反馈3匹配过程索引过程图像查询指数交互模块SFS选择过程图像结果距离拟距离相似性发散对用户期望有更清晰的认识，并调整系统内部的行为，希望弥合语义鸿沟。文献回顾表明，有很多方法可以利用反馈。第一种方法包括移位查询，以基于新生成的查询的方式，用户认为相关的图像将被更好地排名，而被判断为不相关的图像将被排名在底部。查询点移动[24] 、标准Rocchio特征加权[27]，接近于特征选择，以及相似性度量[28，29]的参数优化，利用K-最近邻（KNN）分类算法[30]是利用反馈的其他技术。这些方法的比较研究在[31]中给出。在这项工作中采用的方法是接近“的相似性度量的参数的优化”。这种方法包括在许多相似性或距离的情况下优化参数。使用户标记为相关的图像的比率优于标记为不相关的图像的比率的参数是要寻找的最佳配置。要注意的是，基于相关性反馈的方法通常遭受由用户判断的图像的稀缺性。通常，不可能基于少量被认为的图像来构建良好的模型，这需要扩大被判断的图像的子集。前面提到的两种方法：特征选择和使用反馈的学习之间的区别在于，特征选择是一种广泛的方法，它探索了所有可能的情况，并继续为每一类图像指定最佳配置。因此，特征选择在资源方面是昂贵的，特别是在处理时间方面，但这并不重要，因为学习阶段是由机器完成的。对于基于相关反馈信息的特征加权，本文进行了深入的研究。换句话说，系统寻找将用户认为相关的图像排名在顶部的配置。当这个条件满足时，学习就会停止。在本文中，我们介绍了一种新的方法，它结合了两种方法：选择和相关反馈，但我们专注于匹配措施，而不是功能。据我们所知，距离的选择还没有解决的CBIR的上下文中的兴趣点。我们提出的方法利用了这两种方法：选择范式的有效性和可靠性的有效性。事件反馈。本文的其余部分安排如下：第2节介绍了所提出的方法。在第3节中，我们讨论了所考虑的材料和设置。第4节显示了进行的实验和获得的结果。最后，我们总结了本文的结论和一些观点。2. 我们所提出的方法我们的方法的执行情况如下：在收到提交的查询，系统回答一组图像作为初始结果应用一个匹配措施。之后，用户必须从系统回答的图像中指定一些相关图像。用户未判断的第一张图像被视为不相关。系统随后用户图2所提出的方法的总体架构。图3一些代表Wang数据库10个类别的图像4M. 莫斯巴湾布舍昂鲁斯罗布MotCos尤因索库尔茨SOECheb人SquarMaha可以2P波多吉v¼t1=N1=Nfij-m我我用一轮启动SFS算法的执行其指定最佳匹配度量。选择匹配-j1120100806040200精度120100806040200精度图4考虑相似性的平均精确率/召回率（Ruz：Ruzicka，Rob：Roberts，Mot：Motyka，Cos：Cosine）。350340330图6在考虑的距离上的平均精确度/召回率（Eu：欧几里德，In：相交，Sor：索伦森，Kulc：Kulczunsky，Soe：Soergel，Cheb：Chebyshev，Man：曼哈顿，Squar：Squared，Maha：Mahalanobis，Can：Canberra）.EUC320310300290坎马哈Squar4002000Int夸库尔奇280270孟ChebSoer260Ruz Rob Mot Cos图7基于效用概念图5基于效用概念● 第一个彩色时刻XNm1/4=N fijj1测量将应用于整个询问的数据库，结果将再次可视化给用户（见图10）。 2）。3. 设置和实验本文所得到的结果是在异质结上进行的。其中N是图像中的像素数。fij是值第i行和第j列的像素● 第二色矩vuXN异构Wang数据库（Corel-1 K）[32]。该数据集由10个语义类别的1000幅图像组成，广泛应用于CBIR领域。该基地的一个样本，图 3，其中示出了每个语义类的一个图像。我们利用三个第一低颜色矩[33]作为签名，● 第三色矩vut3ﬃﬃﬃﬃﬃﬃﬃﬃ ﬃXﬃ ﬃNﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃ ﬃ ﬃﬃﬃﬃﬃﬃﬃ ﬃﬃj1相似性：Ruzicka，Roberts，Motyka和Cosine，10个距离：Euclidean 距离， Intersection 距离， Sorensen 距离，Kulczunsky距离，Soergel距离，Chebyshev距离，Manhattan距离，Squared距离，Mahalanobis距离和Canberra。这里使用了3个准距离：X2距离、Neyman-X2距离和分离距离[34]。为我们用杰夫瑞散度。所有这些设置● Ruzicka相似性minfxi;yigmaxfxi;yig● 罗伯茨相似性x yminfXi;yig我maxfXi;yigð5Þ在以下公式中给出：Pxy6实用值效用值召回召回萨夫伊杰- mð3Þs¼ð4Þ基于相关反馈5X2Ney_X29月PFGI我PFGIPPP我我0 20 40 60 80100我我120100● Motyka相似性最小x;yPxy780● 余弦相似度60T！·！S40cosin etrouble; Sq ！你好啊！ð8ÞkT kkS k20●欧氏距离0qXa-b2ð9Þ精度图8考虑准距离的平均精确度/召回率（X2：Neyman-X2，Sep：分离）。● 曼哈顿距离Xjai-bij10● 交叉距离最小值a;b1-minfPa;Pbg我我● 索伦森距离jai-bijaibið12Þ图9基于效用概念● Kulczunsky距离jai-bijminfai;big●Soergel距离jai-bijaibið13Þð14Þ表1查询类和适当匹配度量之间的对应关系。类对应匹配公式非洲Ruzicka巴士纪念碑分离路口马分离恐龙大象花山海滩美食库尔钦斯基 Ruzicka Je Zerrey CosineSoergelRuzicka分离Chebyshev 罗伯茨表2 应用SFS后每个查询类的精度/召回率值。召回率（%）精确度（%）非洲总线马纪念碑恐龙大象花山海滩食品平均101001001001001001001001001001001002010010010.5210.5210010010010010066.6678.77306010013.63151001001006016.666062.534066.6644.4414.2819.0410010010066.6618.1866.6659.595055.5520.8317.2422.7210010010029.4118.5171.4253.566033.3322.228.8210.7110085.7110031.5716.666046.907025.92208.4312.0610077.7787.52818.9143.7542.238027.5819.049.4112.6910072.728028.5715.0925.8039.109020.4520.939.6711.1110031.037527.2713.6325.7133.4810016.9410.7510.4110.5210033.3347.6118.8614.7021.2728.44召回P6M. 莫斯巴湾布舍昂表3最佳公式相对于SFS的平均精确度/召回率值。X21 221 21-p1xX1召回率（%）精密度（%）RuzickaCanberraX2 Je Ewerey SFS101001001001001002072.2068.0970.8382.4878.773058.8960.47%61.6459.4462.534055.3555.1355.3445.8359.595052.9151.1245.3441.6853.566045.3646.2033.8740.3746.907042.9241.5832.6735.4942.238033.8331.7829.5132.2939.109028.2929.9727.3330.3633.4810027.2827.3123.5424.8428.4412010080604020001020304050 60708090100精度图10在应用具有相关反馈的SFS之后， Wang数据库的每个被问类的精确度/召回率曲线370360350340330320效用值鲁斯可以NeyJeff SFS图12使用相关反馈对SFS的最佳度量。图11SFS与平均精确率/召回率（Jef：Jeffrey分歧）方面的最佳措施。● 切比雪夫距离最大值fjxi-yijg<$15mm● 堪培拉距离jai-bijaijjbij● X拟距离Xpx-px2X2ð18Þ● 平方距离D¼qfð16Þpx19● Neyman-X拟距离一二季度1 2国际新闻报Xpx-px2其中，A=[aij]且aij1/4-maxijd● 马氏距离px 20Dm¼qfð17Þ● 分离准距离.ΣMaxð21Þ其中C是协方差矩阵。xp2x人民巴士马楼恐龙大象花山海滩食品平均召回1212基于相关反馈712图13系统对属于查询器类的查询应用SFS后返回的结果（SFS选择的公式是Jeffrey准距离）。● 杰弗里发散Xpx -pxlnp1xð22Þ其中P是精度值，s是属于范围[0 1]的常数图4示出了4个xp2x我们的系统的有效性是使用精度和召回指标进行评估的[35]。这些指标如下：精密度¼NRIR= TNIR± 23 ° C调用1/4 NRIR= TNRI240其中NRIR是检索到的相关图像的数量。TNIR是检索到的图像总数，TNRI是要求的数据库中相关图像的总数。即使有精确度/召回率值，也很难比较匹配措施的有效性。因此，精确度/召回率值将使用[36]启发的效用概念更改为仅一个值，如以下等式所示X1v¼ Pω1- s25s¼0考虑相似性。图5清楚地显示了Ruzika相似性的优越性，在某种程度上，Roberts相似性优于其他相似性。图6描绘了10个所考虑的距离的平均精确度/召回率值。根据图7，堪培拉是精度最好的距离。图8示出了所考虑的3个准距离的精确度/召回率值。如图9所示，奈曼-X2在性能方面是最好的.表1示出了查询类与通过具有相关反馈的一轮SFS算法找到的适当匹配度量之间的对应关系。对于恐龙类，有4个措施选择。这4个指标产生了同样的高性能。表2显示了在为每个查询应用具有相关性反馈的SFS类的10个类的王数据库。8M. 莫斯巴湾布舍昂图14系统返回的结果，没有对属于查询器类的查询应用SFS（这里使用的公式是交集距离）。表3标记了针对应用具有相关反馈的SFS算法的最佳测量的平均精确度/召回率值（参见图1A和1B）。第11和12段）。根据表3和图12，具有相关反馈的一轮SFS算法在精度方面提高了性能（参见图12和13）。 13和14）。4. 结论本研究的重点是在CBIR系统中的匹配措施选择的范例。该研究考虑了多达18个匹配度量，包括相似性、距离、准距离和分歧。选择过程基于SFS算法，具有一轮和相关反馈，以确定特定查询的最佳匹配度量。因此，我们引入了一种新的方法，在CBIR的背景下，距离选择范式，而不是经典的和众所周知的功能选择范式。实验结果表明，该方法在查准率、查全率和实用价值等方面都取得了较好的作为一个视角，将所实现的结果与其他相关反馈技术进行比较，特别是在距离组合方面，例如此外，我们计划利用其他元启发式算法来解决功能和匹配措施的选择，为什么不解决选择，在CBIR的背景下，不同的选择算法。引用[1] 邱将军。基于内容检索的嵌入式彩色图像编码。 J VisCommun Image Represent2004;15（4）：507-52.[2] 哈拉里克河纹理的统计和结构方法。 In ： Proceedings ofIEEE，vol. 67. p. 786- 804[3] Seetharaman K，Sathiamoorthy S.基于统计模型和径向基函数神经网络的彩色图像检索。埃及Inf J 2014;15：59-68.[4] Ko BC，Byun H. FRIP：一个基于区域的图像检索工具，使用自动图像分割和逐步布尔和匹配。 IEEE TransMultimedia2005;7（1）：105-13.基于相关反馈9[5] El-gayar MM，Soliman H，Meky N.图像低层特征提取算法的比较研究。Egypt Inf J2013;14：175-81.[6] 金翔宇，法国人詹姆斯·C.通过多查询提高图像检索效率。In：Proceeding of MMDB'03，新奥尔良，路易斯安那州，美国.[7] 尼尔森·弗兰克。指导自学远程算法。CommunACM 2009;52（11）.[8] Gomez Faustino J. 使用行为信息距离维持多样性。 In ：GECCO'09，Montr e' al Qu e 'bec，Canad a.[9] 车成赫概率密度函数之间的距离/相似性度量的综合调查。国际数学模型与方法应用科学2007;1（4）.[10] 张振杰，黄明钦，帕塔萨拉西斯里尼瓦桑，董安东尼KH。伯格曼分歧的相似性搜索：走向非度量索引。In：VLDB'09，August 2428.[11] 姜伟，二桂花，戴琼海，顾金伟。基于内容图像检索中基于相似性的在线特征选择。IEEETrans Image Process 2006;15（3）：702-12.[12] da Silva SF等人，使用遗传特征选择方法提高医学图像检索的排名质量。Decis SupportSyst 2011.[13] Dy JG，Brodley CE，Kak A，Broderick LS，Aisen AM.非监督特征选择应用于肺部图像的基于内容检索。 IEEETransPattern Anal Mach Intell 2003;25（3）：373-8.[14] 卢杰，赵婷，张勇.基于遗传算法的图像标注特征选择。基于知识的系统2008;21：887-91。[15] 惠特尼AW。非参数测量选择的一种直接方法。IEEE TransComput. 1 9 7 1 ;C-20（9）：1100-3。[16] Molina LC，Belanche L，Nebot A `.特征选择算法：a调查和实验评价。在：IEEE数据挖掘国际会议论文集，ICDM 2003。IEEE;2002年。p. 306- 13[17] Kumar M，Rawat TK.基于布谷鸟搜索算法的FIR分数阶微分器优化设计。Expert Syst Appl2014.[18] Kumar M，Rawat TK.最佳分数延迟IIR滤波器设计使用布谷鸟搜索算法。ISA Trans2015.[19] Aggarwal Apoorva，Kumar Manjeet，Rawat Tarun Kumar，Upadhyay Dharmendra Kumar. 使用分数阶导数约束的具有象限对称特性的2D FIR滤波器的优化设计。Circ Syst SignalProcess2016.[20] 库马尔·曼吉特，拉瓦特·塔伦·库马尔。基于幂函数和最小二乘的分数阶数字微分器设计。Int J Electron 2016.[21] 索尔顿湾自动文本处理。Reading，Mass：Addison-Wesley;1989.[22] Salton G ， McGill MJ. 现代信息检索导论。 New York ：McGraw-Hill.[23] 周翔肖恩，黄托马斯S。基于内容的图像检索中的相关反馈技术研究进展。J Inform Sci2012;148：129-37.[24] Porkaew Kriengkrai ， Chakrabarti Kaushik ， Mehrotra Sharad.MARS中多媒体相似性检索的查询细化。多媒体'99第七届ACM国际多媒体会议论文集（第1部分）。p. 235- 8[25] 黄志辉，黄志辉，梅赫罗特拉。基于内容的相关反馈图像检索。In：MARS，Proc IEEE intern conf onimage processing，Santa Barbara，CA. 第815- 818页。[26] Giacinto Giorgio，Roli Fabio，Fumera Giorgio.基于内容的图像检索的自适应查询移位。In ： Perner P ， editor. MLDM2001，LNAI 2123。p. 337比46[27] Ziou D. CBIR的相关反馈：一种基于概率特征加权的新方法。IEEE TransImage Process2006;15：1017-30.[28] 杨文龙，李晓梅，李晓梅. MindReader：通过多个示例查询数据库。在：第24届VLDB会议的会议记录。p. 433- 8[29] Rui Y，Huang TS.图像检索中的相关反馈技术。In：LewMS，editor.视觉信息检索原理。London：Springer; 2001. p.219比58[30] Duda RO，Hart PE.模式分类和场景分析。NewYork：Wiley.[31] Mosbah Mawloud Boucheham Bachir CBIR 系统中的相关反馈。Int J Comput Inf Sci Eng2014;8（4）：19-23.[32] http://Wang.ist.psu.edu/docs/related.shtml网站。[33] 放大图片Stricker M，Orengo M.彩色图像的相似性：图像和视频数据库的存储和检索III;1995年。[34] 玛丽·德莎·米歇尔埃琳娜·德莎距离百科全书DordrechtHeidelberg，London，New York：Springer; 2009.[35] Babu GP，Mehre BM，Kankanhalli MS，有效图像检索的颜色索引。多媒体工具应用1995;1：327-48.[36] Fishburn P.非线性偏好和效用理论。约翰霍普金斯大学出版社，1998.

下载后可阅读完整内容，剩余1页未读，立即下载