没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊23(2020)911完整文章用于大规模图像搜索Ahmad Alzu约旦安曼中东大学信息技术学院计算机科学系阿提奇莱因福奥文章历史记录:2019年7月1日收到2019年10月25日修订2019年12月23日接受2020年1月10日在线提供保留字:大规模图像检索GPU分析深度学习卷积神经网络A B S T R A C T开发可以扩展到大型图像库的深度学习模型在图像搜索领域越来越受到重视。目前的深度神经网络依赖于加速器(例如GPU)的计算能力来解决与特征提取和模型训练相关的处理限制。本文介绍并研究了卷积神经网络(CNN)的深度模型,以在大规模基于内容的图像检索(CBIR)的背景下有效地提取,索引和检索图像。利用随机麦克劳林投影生成低维图像描述子,并在标准图像数据集上评估其鉴别效率。还在高性能计算(HPC)平台上对100万个图像数据集进行了深度架构的可扩展性评估,该平台在检索准确性、特征提取速度和内存成本方面进行了评估此外,该模型的控制GPU内核的几个优化因素下进行检查,以评估其对处理和检索性能的实验结果表明,该模型在检索精度、GPU利用率、特征提取速度、图像索引存储等方面©2019 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍深度学习算法和架构在计算上是昂贵的。因此,目前的研究工作更加关注开发可以扩展到非常大的图像库的深度学习模型。扩展深度学习模型已被证明能够发现复杂的高级图像特征,这有助于解决许多计算机视觉挑战,例如场景自动注释,对象跟踪和图像识别。调整和并行化深度学习算法的难度挑战了开发,调试和扩展它们的过程[1]。深度卷积神经网络(CNN)在许多应用中显示出其优于许多传统机器学习方法的它们允许学习转移,其中在一个训练集上进行预训练的情况下,在几个不同的数据集上的性能得到了极大的提高[2深度预训练的CNN还可以从不同的训练集图像中提取区分特征,例如ImageNet[5],产生比常用的手工特征更好的结果,例如Scale。*通讯作者。电子邮件地址:Aalzoubi@meu.edu.jo(A.AlzuAabuarqoub@meu.edu.joAbuarqoub)。由Karabuk大学负责进行同行审查不变特征变换(SIFT)[6]和加速鲁棒特征(SURF)[7],适用于几个视觉任务[8在使用CNN的基于内容的图像检索(CBIR)的背景下,将深度学习模型扩展到大规模图像数据集(例如Web)是一个基本需求。在检索精度方面,CBIR算法在从大量不可见和多样的图像中检索图像时,保持高鉴别水平的图像特征的能力是至关重要的。尽管使用非常深度的学习模型在大型训练数据上获得了显著的准确性提高,但在检索准确性与相应的内存和计算成本之间存在权衡。因此,深度学习方法试图增加可用的计算能力,要么使用大型集群中的机器,要么利用图形处理单元(GPU)在合理的时间内完成比CPU更多的运算[12]。计算机视觉应用所需的大量数据处理给传统的微处理器带来了严重的问题[13]。因此,许多研究工作最近转向了基于商用现货(COTS)的平台[14],例如对称多处理器(SMP)或个人计算机集群。然而,发散问题和底层顺序平台的许多固有限制通常会导致性能下降[15]。因此,由于处理加速器的可用性,已经实现了深度学习的突破,例如。GPU和现场可编程https://doi.org/10.1016/j.jestch.2019.12.0042215-0986/©2019 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestch912A. AlzuAbuarqoub/工程科学与技术,国际期刊23(2020)911门阵列(FPGA)。GPU被广泛用于简化一系列视觉任务(如虚拟现实、神经网络训练、模式识别和图像分割)中所需的矩阵和向量乘法的计算,它们可以大大加快学习速度[16]。此外,最近出现的多处理器嵌入更丰富的功能集,例如,嵌入式微处理器IP核有助于实现高性能、低功耗和高密度[17]。管理许多GPU之间的通信和计算显著地使深度学习模型的设计复杂化,这进而提出了为GPU本身创建良好优化的实现或算法特定的假设以改善性能的软件挑战。这促使我们强调几个有益的优化机会和工程解决方案,用于构建深度学习系统,特别是在大规模图像搜索领域 我们还通过生成低维图像特征并采用高效的GPU-CPU并行处理来简化我们的深度神经网络的开发,这取决于有限的计算资源。本文介绍了一种用于基于内容的大规模图像检索的深度学习模型,即随机投影深度CNN(RPD-CNN)。这种基于CNN的模型通过生成非常小的图像表示(即向量)来最大限度地减少其深度架构对搜索性能的影响。此外,我们研究了RPD-CNN模型如何实现GPU和CPU的有效利用,而不仅仅依赖于加速处理器的数量为了评估模型性能,使用Archie-West HPC平台对两个大型标准基准图像数据集进行了几次实验[18]。具体而言,本文提出的工作有三个方面:1. 我们提出了用于大规模CBIR的深度学习架构(RPD-CNN),并在检索准确性和可区分性方面对其性能进行了评估。2. 我们通过在模型的池层中实现随机投影来将图像表示为极低维的描述符。我们的目标是生成资源高效的视觉描述符。3. 我们研究了影响RPD-CNN性能的控制GPU内核,这有助于开发高效的深度学习模型。详细的低级别性能分析提供了许多剖析措施在运行时,例如GPU和CPU利用率,内存利用率和通信时间轴。本文的其余部分组织如下:第2节介绍了相关工作;第3节介绍了RPD-CNN框架和特征提取过程;第4节定义了用于评估RPD-CNN的准确性度量和图像数据集;第5节讨论了Archie-West HPC平台上的实验结果;第6节介绍了所提出模型的控制GPU内核在CBIR框架中的表现;第7节总结了本文。2. 相关作品在大规模CBIR领域,研究提出了使用手工制作或/和深度特征的图像表示。在本节中,我们将重点关注低维或紧凑的图像表示,以实现高检索性能和低计算和存储成本。由于检索速度快,基于实例的图像搜索中所提出的作品采用手工制作的特征,或者基于低维描述符,如SIFT[5]和SURF[6],或基于高维描述符,如Fisher向量(FV)[19]和局部聚集描述符向量(VLAD)[20]。许多流行的压缩方法也被应用于获得二进制描述符,包括乘积量化(PQ)[21乘积量化[21]及其变体通过基于k均值聚类技术将数据空间量化为多个不相交的空间来获得和学习二进制代码散列是一种替代方法,它通过线性或非线性投影函数将数据空间投影到低维子空间然后将获得的投影值量化为二进制代码。由于散列方法采用汉明距离匹配,它们表现出比量化方法更好的高效检索最近,Wu等人。[24]提出了一种无码本的紧凑描述符,以避免量化方法的大存储成本他们通过研究高斯分量冗余和比特依赖性将FV压缩成紧凑的二进制码。然而,研究表明,基于CNN的深度特征在广泛的计算机视觉任务[27]中的表现明显优于手工制作的特征,例如图像分类[28,29]和对象检测[30]。最近的研究工作[31-34]已经开发了基于CNN的架构来表示用于图像检索的区分特征。此外,在各种图像类别的足够多样化的数据集上训练的深度学习模型(如ImageNet[5])可以学习并转移到包括图像检索在内的新领域[35,36]。最近的作品[31,37]还结合了手工制作和深度特征,为图像和视频搜索生成更独特和有效的表示。然而,一些限制和挑战与手工制作和深度描述符相关联,并且需要进一步研究和解决,例如聚集特征的区分能力、计算和存储成本以及在大型图像存储库上的可扩展性。因此,我们的工作是故意制定资源有限的优化问题。它区别于现有的工作,在所提出的方案和架构,以构建极低维的图像表示直接通过卷积激活函数。我们提出了一个有区别的基于CNN的描述符和紧凑的随机投影方案,用于大规模图像搜索。最后,通过在高性能计算平台上使用GPU进行检索实验,验证了该模型在提高检索性能方面的优势。3. 深度学习模型和研究方法3.1. RPD-CNN框架图 1显示了所提出的深度学习模型中的网络架构和学习过程。如图所 示 , RPD-CNN 的 基 线 架 构 基 于 两 种 变 体 深 度 神 经 网 络 :imagenet-vgg-m(VGG-m)和imagenet-vgg-verydeep-16(VGG-16)[38],两者都是在ImageNet数据集上预先训练的它们由卷积层、池化层和其他后处理层组成,其中所有图像特征都直接从卷积特征映射的激活中提取为了简单起见,我们将这两个模型分别称为:VGG-M网络和VGG-verydeep-16网络的RPD-CNN-(M)和RPD-CNN-(16)。3.2. 特征提取和随机投影VGG-16和VGG-M网络分别由35和19个卷积层、池化层和全连接层组成。的A. 阿尔祖比, A. Abuarqoub /工程 科学 和 技术, 一个 国际 杂志 23(2020)911913SPð Þ2h ð Þ ð Þ≈ ðÞi×ð Þ2.2012年12月2日JJ Jno. - 是的.. Σ×ð Þ2X X2图1. RPD-CNN模型的示意图输入层获取大小为224× 224像素的图像简化B. B.B. yspyTð3Þ在实验中,仅从卷积特征图的激活中提取所有图像特征,并且丢弃完全连接的层。CNN在每个网络的最后一个卷积层被截断,VGG-16为30,VGG-M为14;其中特征向量的大小为512。然后,将三层添加到CNN架构的末尾,如下所示:紧凑的双线性池化层,用于将数据投影到小尺寸;有符号平方根层;和L2归一化层。从这些图层中提取的要素SP2SP2然后,使用二阶多项式核[40]比较X和Y图像向量。特别地,假设比较核是k<$X; Y<$,并且我们能够找到满足以下条件的低维投影函数£X;£Y k X;Y,那么我们可以通过线性内核机器比较描述符,如下所示:B X B Y*P R xTPyyT+被转换成单个图像描述符(即向量),在对应的两个描述之间应用内积h;联系我们s12SP1一个人一个人s12SP22016年12月22日ð4Þ从两个并行的特征提取器生成的特征,即,Fe-1公司简介hRxs1;ys2iFE-2。给定一个输入图像,它被拟合到输入层的大小,则其通过正向传递行进30个时期。然而,在这方面,基线架构的截断卷积层Lin[39]引入的具有高维输出大小,512 512个图像向量,即262,144个特征。这种高维的图像描述子将直接影响到整个图像检索过程,特别是特征索引、检索速度和内存大小。因此,我们在这里应用低维投影的提取功能,使用随机麦克劳林算法preceded数据标准化。具体来说,给定一组空间位置SP和两集的当地功能:X x 1;. ;xSP; xsp Rc,其由以下的第一CNN提取器获得:图像特征和Y 1;. 由第二CNN提取器获得的。然后,仅对第一特征提取器(FE-1)的图像向量应用平方根函数,以如下破坏它们之间的任何可能的对称性R xsp公司简介然后,由双语池化层如下公式化所得到的图像向量c c。:% s%1%2% SP% 1%s %2%2% SP% 2最后,随机麦克劳林(RM)投影函数[41]是应用于将特征近似为EXRdim,其中dim c2,我们可以近似内部产品如下:hBX;BYihuxs1;uys2i%s%1%2% SP % 1% s %2%2% SP% 2紧凑型紧凑型紧凑型其中,compactX是compact pooled features。B-1000XR. xspxTSP914A. AlzuAbuarqoub/工程科学与技术,国际期刊23(2020)911ð2ÞSP2SP1A. 阿尔祖比, A. Abuarqoub /工程 科学 和 技术, 一个 国际 杂志 23(2020)911915ðÞ¼kð Þfg 2XX特征提取的过程在算法1中示出,并且RM池化在算法2中总结在RPD-CNN中,最终图像描述符在低维向量范围内生成:16,32,64,128,256和512。然后将这些图像向量传递到下一个更高层,即符号平方根和L2归一化。最终的训练模型提取所有基准数据集和图像查询的图像表示,以搜索和排名最相关的图像。4. 评价方案RPD-CNN-16和RPD-CNN-M这两种模型都在相同的实验设置和过程中应用:(1)端到端深度训练,(2)特征提取,(3)查询。前两个过程是由一个基于批处理的并行处理,ING计划使用GPU-CPU通信执行对图像进行的基本计算使用GPU内核进行处理,而其结果由CPU内核返回和组织。后一个过程,即查询,仅由CPU核心执行。因此,端到端训练是离线执行的,而特征提取和查询提交都是在线执行的。4.1. 检索精度基于Oxford数据集的地面真值,计算标准m给定查询图像q,计算排序图像的精度以评估检索准确度,如下所示:val系统它代表了与图像搜索任务相关的广泛的语义类别。Holidays-1.5K图像数据集[43]是标准基准数据集之一,通常用于测量检索系统对图像旋转,视点和照明变化,模糊等的鲁棒性。该数据集由1491个高分辨率图像组成,具有各种场景类型,例如自然,人造,水和火的效果等,如图2所示(第一行)。该数据集包含500个代表不同场景的图像组。对于每个单个组,第一图像被用作查询图像,而其相关图像是剩余组Holidays-1.5K用于训练和查询测试,然后将其与Flickr-1 M相结合,以评估Archi-West HPC平台上的CBIR系统性能。在RPD-CNN-(M)和RPD-CNN-(16)的相同实验配置下使用相同的500个查询图像。4.2.2. 牛津105K标准Oxford-5 K[44]与Flickr-100 K[42]一起使用,以评估所提出的模型在大规模图像检索中的GPU利用率。Oxford-5 K包含为Oxford地标收集的5058幅图像,图2(第二行)中显示了一些样本。该集合具有11个不同地标的综合地面实况,每个地标由5个可能的查询表示。Flickr-100 K数据集包含100,071张图像,代表超过75个不同的常用Flickr标签。结果,在单个基准图像数据集中使用了总共105,156张图像,其表示为Oxford-105 K。使用标准查询图像和Oxford-5 k的地面真值来评估RPD-CNN的检索精度,而使用flicker-100 K图像作为可分散图像。5. HPC平台上的100万图像搜索本节通过研究RPD-CNN模型的可扩展性来展示所获得的结果。性能方面的检索精度,速度和内存成本进行了讨论。所有实验均通过Archie-West HPC平台[18]进行,该平台将在以下章节中简要介绍。5.1. Archie-West HPC架构PR#相关图像\检索图像#已检索的图像数ð6ÞArchie-West是最先进的HPC平台,包含超过2500个INTEL Skylake6138的分布式并行计算其中,检索到的图像是检索到的顶部图像Rk,并且相关图像是与查询Q相似的图像它的地面真相。对于查询图像q,平均精度(AP)是从检索每个相关图像时排名靠前的k个图像的集合中获得的精度值的平均值,其在每个图像类别中的所有查询上平均。因此,如果给定一组相关图像I1;I2;. . ;Im用于查询qi Q,其中Q是所有图像查询的集合,则平均平均精度(mAP)定义如下:1jQj1mmAP Q PR7jQji¼1 mk¼14.2. 图像数据集本文使用两个基准图像数据集来训练和测试用于大规模图像搜索的RPD-CNN模型:Holidays 1 M和Oxford 105 K。4.2.1. 假日-Flickr-1 MFlickr-1 M图像数据集[42]包含从Flickr收集的100万张图像,用于评估大规模图像检索。核心,两个3TB RAM的大型内存节点和210TB的高性能GPFS存储。这种架构将为我们提供一个合适的执行平台,以执行一个并行批处理的大量图像涉及的特征提取,查询数据集相似性匹配,结果排名。Archie-West的实验是在Linux上进行的,所有的函数/脚本都是用C++实现的,并使用GNU编译器集合(GCC)编译成MEX文件。提交的图像搜索任务由SUN网格引擎(SGE)处理,并在并行队列中进行处理。5.2. 检索结果和讨论RPD-CNN 模 型 在 Holidays-1.5K 和 Oxford-5 K 上 的 检 索 精 度(mAP)如表1所示。可以明显地观察到,RPD-CNN-(16)模型的性能在几乎所有向量长度上优于RPD-CNN-(M),即,16至512. RPD-CNN-(M)在Holiday数据集上仅使用16的向量长度就实现了比RPD-CNN-(16)更高的准确度。然而,也可以证明,即使在小描述符上,这两个模型也实现了较高的检索精度,这强调了所提出的模型在保留916A. AlzuAbuarqoub/工程科学与技术,国际期刊23(2020)911图二. 来自Holidays(顶行)和Oxford(底行)的示例图像。即使对于非常低维的矢量也具有高的辨别水平。特别是,大小为16的图像表示在Holidays和Oxford这两个数据集上都获得了最佳的搜索准确度得分。Holidays和Oxford的最佳得分分别为95.1%和95.7。为了研究RPD-CNN模型在大规模图像存储库上的可扩展性,本节的其余部分讨论了使用Archie-West在Holidays-1 M上实现的检索性能。我们在这里使用的描述符维度在标准Holidays1.5K上达到了最佳精度,然后将其与Flickr-1 M数据集合并,即RPD-CNN的16个向量维度(M)对于RPD-CNN-(16),64个向量维度。 这在相同的实验设置下评估图像表示的区分水平,但是在大型数据集上,即Holidays1M,然后将模型的性能与最先进的方法进行比较。图3示出了作为结果而被排名的相关图像一个示例查询图像。表2总结了使用Archie-WeSt在Holi-days 1 M上获得的性能结果。对于每个RPD-CNN模型,性能是根据检索准确度(mAP)、提取图像向量所需的时间、搜索和排名速度以及存储所有图像向量所需的存储大小来衡量的。实验期间报告的时间是30次或迭代的平均值。两个模型都显示出良好的准确性,但RPD-CNN-(16)将RPD-CNN-(M)提高了Holidays 1 M上mAP准确性的13%很明显,在相同的实验设置下,在HPC服务器上运行RPD-CNN模型比在本地主机上运行更有效。特别地,对于RPD-CNN-(M),使用Archie-West来制定我们的模型描述符所需的时间从0.94秒减少到0.17秒,并且对于RPD-CNN-(16),从3.13秒减少到仅0.25秒,这强调了提取图像特征的时间效率还可以观察到,我们的模型在不到一秒的时间内提取图像特征并搜索一百万张图像发起查询图像并搜索其最相关图像所经过的总时间 可以 计 算如 下 : QueryTime=ExtractionTime+SearchTime , 其 中ExtractionTime是每个图像的特征提取所经过的时间;SearchTime是搜索整个数据集并计算相似性分数所经过的时间.因此,Archei-West上的平均查询时间为RPD-CNN-(M)和RPD-CNN-(16)分别为0.9 s和1.1 s表3比较了我们提出的模型(即RPD-CNN-16)与Holidays 1 M上最先进的方法所实现的最佳性能结果。评估显示在精度,内存大小,和时间的特征提取和图像搜索。表3中每项措施的最佳结果以粗体显示。除了我们的模型准确率69.6%优于其他方法之外,它在描述符制定所需的时间和索引整个数据集(即100万张图像)所需的存储方面也优于其他方法。怎么-当使用较低的描述符维数时,我们的模型产生最好的结果,而基准测试的性能随着描述符长度的增加而进一步提高此外,Holiday-1 M数据集的索引图像只需要59 MB的实际磁盘存储在搜索时间方面,RPD-CNN-(16)在可比的时间内搜索整个数据集,即0.85s,采用最佳执行方法。还值得指出的是,Archie-WeSt平台在调整并行CPU工作者数量的同时,显示了不同的特征提取和搜索时间性能一系列并行工作器已被用于评估RPD-CNN模型的可扩展性,同时改变CPU内核的数量结果表明,如果CPU核数增加,图像特征提取的速度会最好的搜索性能是使用8和12个核心。然而,增加更多的处理器内核会导致100万张图像的整体搜索时间下降,这是由于CPU工作进程之间的通信延迟。6. GPU上的性能模型当然,使用最强大的GPU加速器,深度学习模型可以获得更高的性能;特别是在训练阶段。然而,机器加速器和处理器应该在谐波机制中被有效地利用因此,本文使用Oxford 105 K数据集分析了深度RPD-CNN模型的性能,旨在突出可以提高模型整体效率的最关键性能这种分析是双重的:(1)CPU与GPU的高级性能分析,以及(2)GPU利用率的低级性能分析。此外,在整个CBIR框架中的几个优化机会,特别是对主机突出。6.1. 端到端培训分析RPD-CNN的性能在训练速度和GPU利用率方面进行评估,使用默认大小的图像向量,即~262 K,相比之下,紧凑型尺寸,即16至512。实验结果报告使用两种不同的GPU(Tesla K40c和Quadro K5000)和CPU的两个不同的主机。给定默认的262 K向量大小和仅CPU处理器,端到端训练的过程花费大约52小时来训练RPD-CNN-(M)模型,并且花费大约80小时来训练RPD-CNN-(16)。这是我们的RPD-CNN性能障碍之一,通过生成低维特征来解决,这反过来又加快了训练速度,即使只使用CPU例如,在一个向量大小为16的CPU上进行的重复实验显示,A. 阿尔祖比, A. Abuarqoub /工程 科学 和 技术, 一个 国际 杂志 23(2020)911917在RPD-CNN模型上执行端到端训练所花费的处理时间为76%。然而,依靠主机CPU来维持大规模图像数据集的性能是不可行的因此,在两个不同的主机中使用了两个表4展示了在RPD-CNN端到端训练期间使用GPU而不是CPU获得的巨大性能影响。报告了在牛津数据集上使用大小为16的图像向量进行端到端训练的整个时间的结果,批量大小为64张图像;提取约5000张训练/测试图像的特征,一个向前时期和一个向后时期。可以观察到,GPU的训练速度比主机的处理器提高了756.2. 特征提取分析索引大型图像档案进行相似性匹配是CBIR管道中最耗时的过程之一如果事先确定并调整可用处理基础设施的限制,则可以有效地利用GPU和CPU的能力对于RPD-CNN,我们的目标是在图像索引期间权衡GPU获得的加速和CPU利用率这可以进一步管理CPU处理器的数量与GPU和CPU中的可用存储器之间存在的RPD-CNN图像检索中并行批处理的主要步骤是:(1)将实际图像送入CBIR系统;(2)初始化一个CPU并行工作器池对于每个CPU工作者,分配一批图像,然后依次传递到GPU;(3) GPU同时处理该批图像中的每一个图像,以提取最终的图像向量;(4)图像向量同时传递回每个CPU工作者,以存档它们;以及(5)所有图像向量被索引到一个目录中,以用于相似性匹配和图像排名。同样值得注意的是,需要调整批处理大小,以便在前向和后向传播中适应GPU内存大小具体地,进行了彻底的实验,以使用从16到18的矢量大小范围索引Oxford 105K图像。512.两台主机使用8个工作器(16个核心),第一个主机和第二个主机中的4个工作器(8个核心)。如果使用两台主机上的最大可用内核,则使用这两台主机进行图像索引所花费的处理时间最初非常缓慢,这是由于GPU在处理非常深的体系结构(在许多并行CPU内核之间具有共享内存)方面的限制。因此,工人的数量被调整,并最终在两台机器中设置为3个工人,这反过来实现了使用RPD-NN-(M)的平均索引时间约为110分钟,而使用RPD-NN-(M)的平均索引时间约为110分钟。使用RPD-CNN-(16)进行300 min。因此,已经证明,任何典型的本地机器都能够有效地提取特征,索引图像,并训练非常深入的图像搜索架构,如RPD-CNN-16。然而,通过CPU和GPU工作器的图像批处理并行性提出了几个应该考虑的性能问题;例如GPU处理器和内存之间的通信负担、GPU利用率和计算效率。因此,我们需要彻底研究RPD-CNN深度模型在GPU内核上的6.3. GPU内核我们检查了RPD-CNN上的GPU性能,以跟踪和可视化实现结构,而不管图像向量,架构和数据集的大小。我们的目标是确定RPD-CNN CBIR模型中最关键的性能部分,并突出一些可能改进的优化机会图像矢量长度51285.480.969.758.1表1在Holidays和Oxford数据集上的检索精度为模型RPD-CNN-(16)RPD-RPD -CNN-(16)数据集假日1.5K25689.381.171.061.012893.284.182.664.33286.585.591.681.86495.186.384.172.11681.889.095.785.6牛津5k918A. AlzuAbuarqoub/工程科学与技术,国际期刊23(2020)911图三. 根据提交的图像查询排名的示例搜索结果。表2在Holidays1M上的性能结果。阿奇西HPC主机测量RPD-CNN-(M)RPD-CNN-(16)RPD-CNN-(M)RPD-CNN-(16)搜索精度(mAP)57.14%69.61%57.14%69.61%浸提时间(秒)0.1720.2500.9413.130搜索时间(秒)0.7330.8501.2661.278排名时间(秒)1.871*1.8711.3461.346存储空间/1 M图像(MB)58.6214.858.6214.8* 由于Archie-West上交互式作业的可视化限制而导致的时间延迟。表3与Holidays1M上最先进的性能比较方法地图内存大小提取时间搜索时间[21]第二十一话51.7012 GBNA1.05秒CDVS[24]63.9014.6 GBNANA[44]第四十四话62.4012 GB1.48秒0.65 S[45]第四十五话63.34NANA0.21秒包装-衬垫[46]69.006.1 GB0.91秒1.41秒GOR[47]64.20512 MBNA1.18秒RPD-CNN-(16)69.6159 MB0.25 s0.85秒表4使用GPU和CPU进行一个epoch端到端训练的性能总时间(分钟)正转(图像/秒)向后(图像/秒)GPU利用率GPU-Tesla K40c11.64908百分之五十三点六GPU-Quadro K500021.42204.5*百分之三十三点八CPU 1(16核)76.04501.400.0%CPU 2(8核)87.02901.300.0%* Quadro GPU无法在反向传播中处理64张图像的批量大小。整体表现。使用Quadro K5000 GPU在Oxford105K数据集上使用最准确的图像表示,即矢量大小为16。GPU内核的重要性被确定,其中每个单个内核表示在执行时间期间频繁调用的函数(方法),然后所有内核根据其在运行时的重要性进行排名。显然,特征提取而向量乘法被列为最重要的操作,与其它内核相比,向量乘法经常被调用以进行更大的计算和存储器通信。该函数给出了73.7%的总重要性分数。因此,该GPU内核将在很大程度上影响RPD-CNN模型的整体GPU性能,并且如果该性能受计算、指令/内存延迟或内存带宽的限制,则应评估该性能。A. 阿尔祖比, A. Abuarqoub /工程 科学 和 技术, 一个 国际 杂志 23(2020)911919见图4。 GPU在内存和计算延迟方面的利用率。表5寄存器使用对GPU占用率的影响可变实现设备限制使用占用者SM活动块416百分之二十五主动缠绕3264百分之五十活动线程10242048百分之五十占用百分之五十百分百百分之五十包裹每个数据块的2561024百分之二十五每个块的832百分之二十五块限制816百分之五十寄存器每个线程的5963百分之九十四每个块的16,38465,536百分之二十五块限制416百分之二十五宽度. 图 4显示内核性能最有可能受到指令和内存延迟的限制,因为计算吞吐量和带宽低于GPU峰值的60%通常会导致解决了延迟问题。此外,利用结果表明,GPU性能的特征提取内核也受到影响的算术/内存操作的延迟。当GPU没有足够的工作来保持忙碌时,指令和内存延迟通常会限制内核的性能然而,延迟受限内核的性能通常可以通过增加占用率来提高占用率是衡量内核在GPU上有多少活动扭曲的指标,相对于GPU支持的最大扭曲数量。理论占用率提供了一个上限,而实现的占用率表示内核表5显示,可以通过减少内核使用的寄存器数量来提高占用率因此,可以优化这一关键性能因素,以充分利用GPU。特别地,特征提取的内核针对每个线程使用59个寄存器,即针对每个块使用16,384个寄存器,这限制了每个流式多处理器(SM)同时执行。见图6。 计算资源的利用水平。920A. AlzuAbuarqoub/工程科学与技术,国际期刊23(2020)911图五. 更改块大小和寄存器计数对占用率的影响。A. 阿尔祖比, A. Abuarqoub /工程 科学 和 技术, 一个 国际 杂志 23(2020)9119214块(32条经线)。然而,理论占用率小于100%,但增加占用率并不能保证提高GPU性能。因此,潜在的性能优化之一是增加可以在每个SM上执行的线程束(块)的数量,这是通过减少每个线程使用的寄存器数量来实现的 图图5(a)演示了如何改变寄存器的使用将改变每个SM的块的数量,这直接影响每个块的线程数量,如我们在图5中的实验结果所示。 5(b).最后,GPU计算资源是可能限制特征提取核心的主要关键性能因素之一;特别是当这些资源不足或利用率不高时。在RPD-CNN的执行过程中,特征提取的内核在每个SM内的不同功能单元上执行了不同类型的指令。因此,如果功能单元被内核执行的指令过度使用,则性能可能受到限制。图6证实了RPD-CNN模型的核心内核不受过度使用任何功能单元的限制,即GPU计算资源得到有效利用。在图6中,加载/存储是用于本地、共享、全局、常量等的加载和存储指令;算术是所有的算术指令,包括整数和浮点加法和乘法,逻辑和二进制运算等; Control-Flow是直接和间接的分支、跳转和调用; Texture是纹理操作。7. 结论本文提出了一种用于大规模CBIR的深度学习模型RPD-CNN,该模型使用随机投影方法,使用极低维图像描述符从多个角度讨论了全面的性能评估,包括在大规模图像数据集上扩展CBIR系统,通过CPU和GPU上的并行批处理优化RPD-CNN,识别RPD-CNN模型的关键性能GPU内核,突出任何潜在的优化,然后使用Archie-WestHPC平台在并行处理方案中测试最终CBIR模型在100万幅图像上的性能。实验结果表明,在Hol-idays 1 M上,使用紧凑的图像向量,检索精度较高仅使用64维描述符,RPD-CNN-(M)实现了57.1%的mAP,RPD-CNN-(16)实现了69.6%的m AP检索准确度。此外,RPD-CNN-M仅需59 MB,RPD-CNN-16仅需215 MB即可在实际存储磁盘上索引和存储100万张图像通过在GPU和CPU核之间执行图像批处理的并行性平衡,提高了系统的效率在不同主机上进行的实验也显示了即使在资源有限的处理环境下,RPD-CNN模型在CPU和GPU上并行化的效率。此外,对深度RPD-CNN进行的关键性能分析表明,适当调整几个GPU单元可以提高整体性能,例如寄存器使用和GPU占用。最后,检索性能评估一百万幅图像显示,CBIR系统平均需要0.172秒,提取最终的图像表示和0.733秒,搜索和排名的所有图像。本文的结果强调了所提出的RPD-CNN模型在大规模图像检索上的效率和可扩展性。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。确认我们感谢约旦安曼的中东大学结果是使用位于斯特拉斯克莱德大学的ARCHIE-WEST高性能计算机(www.archie-west.ac.uk)获得的。我们也非常感谢NVIDIA在这项研究中慷慨捐赠GPU处理器。引用[1] Q.V. Le , J. Ngiam , A. Coates , A. 拉 希 里 湾 Prochnow , A.Y. Ng , OnOptimizationMethods for Deep Learning,2008年,《Proceedings of the 28th》国际机器学习会议,2011年,pp。 265-272。[2] S.A. 北 卡 罗 来 纳 州 瓦 霍 拉 Chauhan , Deep neural network model for groupactivityrecognition using contextual relationship,Eng. Sci.技术人员:Int.J.22(1)(2019)47-54.[3] M.奥夸布湖博图岛Laptev,J. Sivic,使用卷积神经网络学习和传输中级图像表示,在:IEEE计算机视觉和模式识别会议论文集,2014年,pp. 1717-1724年。[4] 特区 Cire,s an,U. Meier,J. Schmidhuber,使用深度神经网络进行拉丁文和中文字符的迁移学习,在IEEE神经网络国际联合会议(IJCNN),2012年,第102页。一比六[5] J.邓,W.东河,巴西-地Socher,L.J. Li,K.利湖,加-地Fei-Fei,Imagenet:A large-scalehierarchical image database , in : Proceedings of IEEE Conference onComputerVision and Pattern Recognition,2009,pp. 248- 255[6] G. Lowe,基于尺度不变关键点的独特图像特征,Int. J. Comput.目视60(2)(2004)91-110。[7] H.贝,T。图伊特拉尔斯湖Van Gool,SURF:加速鲁棒特征,在:欧洲计算机视觉会议-ECCV,Springer,2006年,pp. 404- 417[8] A. Sharif Razavian,H. Azizpour,J. Sullivan,S.C.N.N. Carlsson,功能现成:一个令人震惊的识别基线,在:IEEE计算机视觉和模式识别研讨会会议论文集,2014年,pp. 806-813[9] A. Bala , T. Kaur , Local texton XOR patterns : a new feature descriptorforcontent-based image retrieval,Eng. Sci. 技术人员:Int. J. 19(1)(2016)101-112.[10] K.S. Sreejini , V.K. Govindan , Retrieval of pathological retina images usingBagof Visual Words and pLSA model,Eng. Sci.技术人员:Int.J.22(3)(2019)777- 785。[11] A. Alzu'bi , A. Ami
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功