图像分类的深度CNN特征与文本描述符融合提高准确率方法

101 浏览量更新于2023-12-10 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200108矢量化文本描述符与自动提取的深度CNN特征的融合用于改进图像分类苏迪普湾Thepade *，Jovian A. Jaison印度浦那SPPU Pimpri Chinchwad工程学院计算机工程系A R T I C L EI N FO保留字：基于内容的图像分类预训练dcnnLSTM文本嵌入A B S T R A C T在当今时代，大量的图像数据迅速产生。这种影响使得标记图像变得乏味，并且反过来使得通过仅依赖于图像中的标签、关键字或其他元数据的搜索算法来检索图像变得更加困难。现代基于内容的图像检索（CBIR）技术依赖于图像中的视觉特征来返回与搜索查询相关的结果。深度卷积神经网络（DCNN）模型在过去十年中取得了长足的进步。本文依赖于这些复杂的预训练模型来从图像中提取视觉特征。拟议的工作使用了预先训练的模型，如VGG 16，MobileNet，Incep-tionv 3和Xception。CBIR空间中的一些研究也表明，当考虑视觉和文本特征时，准确性会提高。本文提出了一种新的三步获取文本特征的过程。首先，该模型使用Google Cloud Vision API接收每个图像的关键字。其次，该模型将每个关键字替换为使用word2vec获得的300维嵌入向量，该向量在Google News数据集上训练。最后，该模型训练深度语义相似性模型（DSSM）和长短期记忆（LSTM）模型的组合，将300维向量减少到64维向量。使用这些新的缩短的词向量，所提出的模型计算余弦相似度，以取代图像的每个关键字与它的五个同义词。在这里，与简单地使用单词嵌入技术相比，这些额外的步骤提高了准确性。最后，该模型结合了视觉和文本特征向量，并观察到该特征集表现出最大的分类准确率为98.33%，这也是比较，发现相对优于其他类似的模型的结果。介绍分类是预测一个观察属于一组类别中的哪一个类别的问题。分类问题可以是监督问题，在这种情况下，在训练统计模型时，观测列表和它们所属的类别都被提供作为训练模型的输入或者它可能是一个无监督的问题，其中只提供观测列表作为输入，并且使用聚类等方法来查找数据中的模式在当今这种图像数据的泛滥所引起的一个重要问题是，使用标签、文件名或其他元数据来返回搜索结果的传统图像检索方法变得繁琐且低效。即使在本地设备上，如手机，手动为每个图像分配文件名以表示其包含的内容也是乏味的;此外，分配这些标签是一个模糊的过程，因为它将完全基于个人基于内容的图像分类（CBIC）是解决这一问题的方法之一. 它使用图像中的内容，如颜色或纹理特征，图像中识别的对象等，使分类和检索更有效的今天文本描述符用于传达图像包含的内容。它们是手动添加的关键字或短语，用于描述图像或与图像相关的补充信息，如标题或字幕。这些文本描述符可以是CBIC的有价值的特征;然而，它们不能以其文本形式直接用于分类，因此文本描述符被矢量化。词向量化是一种用于将短语或关键词映射到相应的数字向量的技术，该数字向量然后可以与距离度量（如余弦相似性或欧几里得距离）一起用于查找词相似性。深度语义相似性模型（DSSM）和长短期记忆（LSTM）的组合越来越多地用于基于文本的* 通讯作者。电子邮件地址：sudeepthepade@gmail.com（S.D.Thepade）。https://doi.org/10.1016/j.iswa.2022.200108接收日期：2021年10月23日;接收日期：2022年7月23日;接受日期：2022年8月6日2022年8月11日在线提供2667-3053/© 2022作者。爱思唯尔有限公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsS.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001082图像分类（Mahalakshmi等人，2020年）。DSSM是一种词向量化技术，其使用深度神经网络（DNN）建模来表示连续语义空间中的标签、关键字或短语，并对字符串之间的语义相似性进行建模。LSTM网络是一种特殊类型的递归神经网络（RNN），旨在克服长期依赖性问题。在RNN中，如果相关信息和需要它的点之间的差距很大，它们就不能保留重要信息（图2和图3）。 1-8）。预训练模型是预先创建和训练的深度学习架构。通常，这些预先训练的模型是在大型数据集上训练的，并且具有复杂的最先进的架构，这使得它们非常准确，但很难在典型的面向消费者的低功耗系统上训练。当神经网络被训练时，细化的权重被分配给网络中神经元之间的每个连接，以获得最大的分类精度。我们可以利用复杂网络已经从训练中学到的东西，而不是在数据集上重新训练一个预先训练好的模型来解决问题。一个类似的更大的数据集。我们可以直接使用预训练模型的权重及其架构来对我们的特定问题陈述进行预测。这种方法被称为迁移学习（Thepade 例如，2022年）。其他方法包括解冻预训练模型的特定高层，或者用可训练的密集层替换模型末尾的softmax层，以微调预训练模型。还可以使用预先训练的模型作为特征提取器（Subhadip Maji等人，2021年）。使用预训练模型和迁移学习的两个重要限制是负迁移和过拟合。如果初始问题陈述和目标问题陈述不相似足够的话，模型的表现可能比预期的要差新的微调模型的准确性低于原始模型;这被称为负转移。当模型过于接近训练数据并记住噪声时，它被称为可能出现这种情况的原因之一在尝试微调预训练模型时，如果添加了太多神经元的密集层，可能会导致过度拟合。CBIC中的许多最新方法（Messina，Amato Carrara，2020&）在嵌入向量中融合了颜色，纹理和文本特征等视觉特征。这种融合提供了更好的准确性，并提供了模型理解特征之间关系的能力，从而提高了准确性。这里介绍的工作的主要贡献是：使用迁移学习来微调Wang数据集的预训练DCNN模型。这些模型然后通过移除它们的最终softmax层来用作自动视觉特征提取器。使用word2vec为与图像相关的每个关键字创建一个数字嵌入向量，然后结合DSSM和LSTM模型来减少这个词向量的大小。为了提高分类精度，每个关键字的五个同义词计算通过比较向量对的距离度量在分类过程中纳入视觉和文本特征通过融合来自预训练模型的自动提取特征和从word2vec，DSSM和LSTM获得的单词到矢量特征，以改进CBIC。本文的其余部分组织如下。第2节包括图1.一、创建文本特征的新颖3步过程的插图（彩色图像）。···S.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001083图二、从在Google News上训练的 word2vec 中获得的单词“people ”的300维向量的插图。（彩色图像）。图三. 使用Google News权重初始化的DSSM-LSTM模型的架构。输出64维矢量取自“密集”层。（彩色图像）。为这里介绍的工作进行的文献研究。在第3节中说明了为验证所提出的方法而设置的实验环境。第4节讨论了本文提出的方法。第五节给出了实验结果。最后，对本文所做的工作进行了总结。文献调查许多研究论文提出了有趣的方法，CBIC使用DSSM与LSTM、预训练的深度学习模型或基于文本和内容的特征融合。本节简要回顾这些工作。该模型执行两种不同的操作 i ）文本检索 ii ）图像检索，由Mahalakshmi等人提出。对于前者，他们使用了双向LSTM，然后使用差分进化算法对其进行优化。对于后者，他们使用了一个CNN，其架构基于残差净50模型。在这个模型中，他们使用曼哈顿距离作为相似性度量。 Messina等人的工作。（2020）提出了一个关系S.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001084见图4。 VGG16模型架构的图示。图片来自（VGG16图像参考）。图五. MobileNet模型架构的图示。图片来自（MobileNet Image reference）。见图6。 Inceptionv3模型架构的图示（Inceptionv3图像参考）。基于内容的图像检索系统返回具有相似对象间关系的图像。他们提出了一种新的聚合视觉特征关系网络（AVF-RN），表现优于现有的两阶段关系网络（2S-RN）模块。这两个模型都是在关系视觉问题分类（R-VQA）上训练的。尽管如此，AVF-RN表现更好，因为它通过以下方式产生了更好的关系感知功能：学习网络内部的聚合2S-RN和AVF-RN都使用LSTM为每个问题生成嵌入向量，并将其与CNN配对，以便通过R-VQA有效地学习对象间关系在Hamid et al. （2016），作者提出了使用RNN和LSTM细胞的句子嵌入。LSTM-RNN组合将句子中的每个单词顺序地转换为语义向量的LSTMS.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001085图第七章 Xception模型架构图像的插图（Xception Image参考）。见图8。来自Wang数据集的图像样本（James Z. Wang等人，2001）（Jia Li等人，2003）; [A]部落[B]海滩[C]建筑[D]公共汽车[E]恐龙[F]大象[G]花[H]马[I]山[J]食物。S.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001086有助于保留整个句子的信息，并提供相应的语义表示。该系统在网络文档检索方面具有一定的应用价值。与另一种流行的句子嵌入方法Paragraph vector的比较表明，该方法在文档检索任务中表现更好Subhadip Maji等人（2021）提出的方法利用了从预训练的深度卷积网络中获得的特征，这些深度卷积网络是在CBIR的大型图像分类数据集上训练的。Xception，Inception v3，NasNet Large是他们研究中使用的一些预训练模型。他们从每个模型中删除了最后一个softmax激活层，以根据神经网络提取的特征进行最终分类。从这一层获得特征向量，使他们获得了作为每个模型最深层的最高级特征。此外，他们观察了系统的检索时间，并提出了一种预聚类方法的图像数据库，以减少检索时间。在该论文（Bhandi等人，2019年），作者使用VGG16和ResNet预训练模型进行CBIR。它们从两个模型的倒数第二个密集层获得特征向量，即，4096个VGG16特征和2048个ResNet特征，并将它们俱乐部化。这种来自预训练的DCNN模型的向量与离线数据库索引模块和在线查询模块的融合是本研究的新颖之处。在Barbhuiya，Karsh和Jain（2021）中，作者使用CNN进行手势识别（HGR），其中考虑了由美国手语（ASL）的字母和数字组成的静态符号。预训练的VGG16和AlexNet的修改版本用于特征提取。然后，这些特征作为输入被提供给SVM，分类.考虑了预训练模型的不同层的特征提取，并比较它们的准确度，以获得最佳性能。在（Unar，Wang，Wang Wang，2019&）中提出的基于内容的图像检索系统结合了视觉和基于文本的特征进行检索。该系统基于文本是否出现在图像内将查询图像分类为两个类别。在存在文本的图像中，它被检测并添加到一个单词袋中。如果没有检测到文本，则仅从图像中提取视觉特征。然后进行文本和视觉特征的融合，并基于与融合向量的相似性返回相似图像。该系统支持三种类型的查询：图像，关键字和组合。在（Huang，Wang，Li Ning，2019&）提出的工作中，作者研究了使用文本和视觉特征对分类的影响。他们使用CNN架构训练来分类推文数据集中的图像是否与洪水有关。然后，他们进行了一项敏感性测试，以从推文中获得对洪水敏感的关键字。这些关键字用于优化CNN分类结果。据观察，将CNN分类结果与推文中的洪水敏感关键字相结合，导致精确度显著提高。作者（Li等人， 2019）提出了一种新的零发射事件检测方法使用语义搜索，概念选择，和一个新的事件自适应概念集成（EACI）算法。本文使用了TRECVID数据集。首先，在语义搜索中提供查询事件描述，即，一个简短的句子或事件名称。然后，使用word2vec，获得系统词汇表中的事件描述和概念的数值向量。然后，基于其向量与查询描述向量之间的距离的度量，对系统词汇表中的概念进行排名。WordNet还与word2vec结合使用，以改善事件描述。最后，EACI通过利用得分曲线下的面积来计算权重来分配不同的权重，从而计算语义相关概念的功效。作者（Li等人， 2018年）提出了一种新的技术，以改善这是计算机视觉任务的传统的基于光谱分析的方法中的缺点。通过新方法，可以学习具有众多特征的丰富的亲和矩阵，以找到每个特征的最佳权重。亲和力权重由数据给出。同时，为每个特征分配一系列最优投影矩阵，从而决定了每对特征的低维空间和最优相似度权重。数据在这个空间。该方法将仿射权值和低维空间联合优化。在由（Li等人，2018），提出了一种具有通用嵌入框架的秩约束谱聚类方法。自适应概率邻域学习过程获得理想图灵活嵌入在低维空间中获得聚类结构，在高维空间中抑制噪声和无关数据。随着自适应图的构造，学习块对角亲和矩阵X。由于秩约束，聚类的计数必然收敛于地面实况。在Mahalakshmi等人提出的方法中，2020），雅虎语料库数据集被用来测试所提出的DE-BiLSTM方法。然而，数据集中特定于图像的标签并不用于评估这种技术。这些不相关的标签使系统不太可靠。此外，在由（Mahalakshmi等人，2020年），而不是LSTM，双向LSTM被应用。BiLSTM由两个LSTM组成，第一个向前输入，另一个向后输入。由于信息的增加，它提供了更多的背景，并增加了学习。在由（Messina等人，2020年），另一方面，使用CLEVR数据集。该数据集由3D渲染场景和功能程序中相应的问题答案组成，但可以获得与图像或场景相关的文本特征和关系。在Messina等人（2020）所做的工作中，函数程序的生成可以在图像简单的情况下工作，如论文中使用的3D对象图像。然而，该过程可能需要更长的时间，并且对于存在许多对象的更复杂的图像和真实场景执行消隐。Hamid et al.（2016）给出的方法为句子嵌入问题提出了一种创新的解决方案，并提出使用LSTM-RNN模型，即使在长句中也可以积累更丰富的信息，同时减少不重要的单词。这个解决方案导致了更准确的嵌入向量，并且在Web文档检索等任务上优于当时的其他方法。这里的文本特征涉及大句子，使其与视觉特征融合现有的研究都是以句子的形式生成图像的非相关文本描述。文本描述特征的这些句子形式使得转换成数字形式以与视觉内容特征可能融合具有挑战性。大多数现有的模型都是用具有单个对象和简单背景的图像的数据集进行实验的，对于存在多个对象和复杂背景的更通用的图像，需要进行探索。该方法本节探讨拟议的CBIC模型的主要组成部分。有四个主要组件：使用Cloud Vision API从图像中获取文本特征，使用word 2 vec和DSSM-LSTM组合从文本特征中创建嵌入向量以提高准确性，从微调和预训练的DCNN模型中获取图像的视觉特征，最后将视觉特征向量与单词嵌入向量相结合。从图像Google Cloud提供Vision API（Google Cloud Vision API在线链接），可提供强大的预训练机器学习模型。它可以使用REST和RPC API调用进行访问。该API提供了许多服务，如将图像分类为预定义的类别，检测图像中的对象和面部，识别手写文本等等。然而，本文提出的模型使用此API为图像分配标签。该API在手动标记图像或分配文本元数据时消除了任何歧义或偏见。API采用的预训练模型有助于获得相关的标签和关键字S.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001087×××=×100并且特定于数据集中的每个图像。Wang数据集中的每张图像都使用这种技术分配了最多10个关键字创建单词嵌入向量关键字或标签不能直接以文本形式用于分类。相反，它们需要使用单词向量化技术转换为相应的数字向量。本文使用了来自Genism库的Python预训练word2vec模块。Google News数据集包含大约1000亿个单词和3亿个单词和短语，用于训练这个预先训练好的模型。一个300维向量是为每个单词或短语作为输入模型提供。接下来，将上一步中获得的每个图像的标签替换为相应的300维矢量表示。此外，该模型还尝试通过在word2vec嵌入之后添加DSSM LSTM模块来提高word2vec嵌入的准确性。该模型使用word2vec嵌入初始化DSSM层，然后训练整个模型，以便辅助学习使向量更准确，并且可以将300维向量压缩为64维向量。最后，该模型使用余弦相似性与这些新的嵌入找到同义词的每个关键字分配给一个图像。然后，所提出的模型将上一步中的每个标签替换为五个同义词。与Hamid等人的其他论文相比，word 2 vec的这三步过程，随后是DSSM-LSTM和同义词添加，用于获得CBIC的文本嵌入，是我们的新贡献。（2016），Mahalakshmi et al.（2020）和Messina et al.（2020）在类似的空间。从图像Subhadip Maji等人提出的方法。（2021）描述了预训练的深度学习模型如何通过简单地删除最终的softmax激活层来获得图像的特征。他们使用了预训练的模型，如 DenseNet ， InceptionResNetv2 ，Inception v3，MobileNetv2，NasNet Large，ResNet50，VGG19，Xception。在Bhandi等人的研究中，（2019），VGG和ResNet50用于特征提取。在Barbhuiya等人（2021）所做的工作中，AlexNet用于特征提取;然后将这些特征发送到SVM模型进行分类任务。本文使用Xception、VGG16、MobileNet和Inception v3进行特征提取。VGG16（Simonyan，Karen等人， 2014）是一个CNN模型，在ImageNet数据集上达到了92.7%的前5名准确率，该数据集由1400万张图像和1000个类组成。它通过将第一和第二卷积层中的大型内核大小的过滤器替换为许多3 3过滤器来改进AlexNet输入是224 224RGB图像。MobileNet（Andrew等人， 2017）对每个颜色通道仅执行一次卷积，而不是将三个颜色通道组合并将它们平坦化，即，例如，它使用深度方向可分离卷积。在标准卷积中，过滤和将输入组合成新输出都在一个步骤中完成。在MobileNet中，深度可分离卷积将这些步骤分为过滤层和组合层。这一步大大减少了计算量和模型大小。Inceptionv3 （ Christian ， Vincent ， Sergey ， Jon Wojna ，2016&）是Google的Deep卷积架构的第三个版本，并在ImageNet数据集的1000个类上进行训练，其准确率超过78.1%。它有42层，计算成本比VGGNet更有效Xception（Chollet，Francois.，2017年）是《盗梦空间》的极端版本。它具有深度卷积的修改版本，优于Inceptionv3。它有一个逐点卷积，然后是结合视觉特征和文本嵌入该模型在从预训练的DCNN模型获得视觉特征向量和从新的3步过程获得文本特征向量（词嵌入）之后执行两个融合操作。该模型首先将视觉特征向量与300维词嵌入融合，然后将视觉特征向量与减少的64维嵌入融合。然后，该模型使用不同家族的多个分类算法，即随机森林，SVM，决策树和朴素贝叶斯，来计算特征在图像分类中的有效性。最后，该模型比较了这两个最终连接向量的有效性，并且只考虑了视觉特征向量，只考虑了300维和64维的词嵌入。通过这种方式，可以观察到哪个特征集给出最佳准确度与以往研究的在Mahalakshmi等人（2020）提出的方法中，Yahoo语料库数据集用于测试所提出的DE-BiLSTM方法。然而，数据集中特定于图像的标签并不用于评估这种技术。所提出的方法通过使用Cloud Vision API生成与图像相关且特定于图像的描述关键字来解决这个问题，从而确保最大的分类准确性，因为相同类别的图像具有相同或密切相关的关键字。使用的CLEVR数据集（Messina等人，2020）在功能程序中具有3D渲染的场景和对应的问题答案是获得与图像或场景相关的文本特征。但函数程序的生成仅适用于图像简单、背景均匀、只有一个目标的情况。所提出的方法可以更好地处理更通用和复杂的图像和现实生活中的场景，其中存在许多对象。Mahalakshmi et al.（2020）和Messina et al. （2020）确实使用LSTM的变体来以句子的形式获得图像的文本描述特征，这使得与视觉内容特征融合更加复杂。该方法使文本描述更容易，更相关的图像内容。该方法只使用单个单词，不需要使用LSTM-RNN组合或Bi-LSTM系统。所提出的方法需要将文本转换为数字向量，这是通过word2vec（Google word2vec在线链接）完成的。然而，获得的矢量是300维的。这个长度意味着任何处理都将非常耗时，因为每个图像有十个关键字，每个关键字替换为300维向量将为单个图像提供3000维特征向量。这也只考虑文本特征。DSSM-LSTM组合用于将单个向量减少到64维，以提高处理速度。实验环境Google Colab（Google Colabonline link）是一个在线环境，用于在浏览器中编写和运行Python代码，用于运行本文的所有Python代码。Colab提供免费访问资源的权限，如GPU，这些资源对于训练深度学习模型至关重要Colab笔记本使用谷歌本文利用Wang数据集（Wang，Li Wiederhold，&2001），其中包含1000张图像，分为10类，每类100张图像。这些图像中的每一个都是224× 224的大小，并且是彩色的。数据集被分成70-本文考虑的性能指标是准确性。深度方面，也就是说，它首先执行11卷积，然后执行通道式空间卷积。此外，修改的深度方向可分离卷积不具有任何中间ReLU非线性。精度（TP+TN）（1）（TP+FP+TN+FN）S.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001088=-=-i=1其中，真阳性的TP计数、真阴性的TN计数、假阳性的FP计数、假阴性的FN余弦相似度用于计算词向量之间的相似度，并获得分配给图像的每个关键字的同义词表2在不同分类算法上进行迁移学习后，从不同预训练的DeepCNN模型中提取的特征向量的分类精度比较。方法预训练模型自动提取特征相似性A BA组B组∑nAi×Bi（二）随机森林Xception 96.66（，）=A×B=∑nA2√̅∑̅̅̅̅̅n̅̅̅̅̅B̅̅̅2̅VGG 89.66结果和讨论i=1i×i=1我MobileNet 95.33开始v3 96SVM Xception 97.33VGG 89.66本节介绍了论文的结果。表1显示了所选择的每个分类算法的准确性，仅基于其文本特征对图像进行分类，如i）从word 2- vec获得的图像的每个关键字的300维单词嵌入，以及ii）从后续DSSM-LSTM处理获得的64维单词嵌入，并为每个关键字/嵌入添加五个同义词。从比较中可以推断，DSSM-LSTM的附加步骤和每个算法的同义词添加提高了准确性。使用支持向量机（SVM）模型观察到准确度的最大提高，准确度从87.33%提高到95.66%。朴素贝叶斯决策树表3移动网络96.66启动v3 95.33Xception 96.33VGG 83.33移动网络93.66启动v3 94.66Xception 94.66VGG 87.33移动网络91.66启动v3 92.33对预训练的DCNN模型进行微调，以获得数据集中每个图像这些特征向量仅基于vi-比较了具有视觉和文本特征的两种融合向量在不同分类算法下的分类精度。然后将这些数据输入到下面提到的分类算法中，精确度如表2所示。可以观察到，Xception模型在每个分类算法中给出了最好的准确性。word2vec的方法模型嵌入+CNN特征DSSM-LSTM嵌入与同义词+CNN的融合Rithm。输入SVM模型的Xception特征提供了97.33%的最佳准确率。如前所述，本文执行了两个融合操作。第一个是融合预先训练的模型特征（视觉特征）和从word2vec获得的每个关键字的300维向量（文本特征）。第二个融合是预先训练的模型特征（视觉特征）与从DSSM-LSTM获得的64维向量和同义词添加（额外处理的文本特征）。与表1的结果类似，DSSM-LSTM的额外步骤和同义词添加导致整体准确性增加。在这些结果中，如表2所示，Xception在所有分类算法中优于所有其他预训练模型。此外，与表2的结果类似，Xception与SVM的组合给出了98.33%的最大准确度。此外，据观察，视觉特征和文本特征的融合比单独考虑视觉或文本特征表现得更好。随机森林SVM天真Bayes决策树表4Xception 97 97.66VGG 93.66 96.33移动网络启动v3 96.66 97Xception 98.33VGG 92 96.66MobileNet 97 97.66启动v3 96 97.33Xception 97.66 98VGG 87 91.33移动网络94.33 96启动v3 95 95.33Xception 95 96VGG 89.33 90.33MobileNet 92 93.33启动v3 94 95.33在表4中，将所提出的方法的结果与其他现代CBIC方法。在一些论文中，如果一个特定的特征集，如文本特征或文本和图像特征的融合比较所提出的方法与现有的基于内容的图像分类的相关技术。不考虑，则在表中留空因此，可以推断我们所提出的系统在所有其他方法中给出了最高的98.33%的准确度此外，如果只有视觉特征，视觉方法的特征的准确性文本特征精度融合精度相比之下，该方法的最高准确率为97.33%。如果只考虑基于文本的特征，再次，所提出的系统给出了95.66%的最大准确度。表1基于word 2 vec的矢量化文本描述符和基于DSSM-LSTM的简化矢量化文本描述符在不同分类算法下的分类精度比较InceptionResNetv2（Subhadip Maji例如， 2021年）基于模糊的融合描述符（Shikha，Pandove Dahiya，2020&）语义分割（Ouni，RoyerChevaldonn'e，2021）基于重新排序的混合方法（B. J.Dange，Yadav &Kshirsagar，2020年）低级图像特征，词袋（SalahuddinUnar等人，2019年度）九十六点一二九十五八十八70 42 8578 74 77基于word2vec的嵌入方法基于DSSM-LSTM的同义词嵌入拟议方法随机森林93.33 95.33结论SVM 87.33 95.66朴素贝叶斯85 86.66基于文本的特征和视觉特征单独地表现令人满意，但当这些特征的融合用于CBIC时表现更好决定树木85.33 89因此两特征贡献重要信息为S.D. Thepade和J.A. Jaison智能系统与应用16（2022）2001089=分类任务，它们的融合是必不可少的，以获得最佳性能的CBIC任务。该模型从Google Cloud Vision API获取文本描述符。这些标签被替换为从word2vec获得的300维数值向量。本文提出了一种新的技术，提高准确性，使用文本特征。在DSSM-LSTM上训练后，300维的单词嵌入减少到64维嵌入。然后，通过对新的64维词嵌入进行余弦相似度排名，将图像的每个关键字替换为五个同义词。据观察，这些额外的步骤提供了增加的准确度。预训练模型如今被广泛用于特征提取。本文为我们的子任务使用了四个微调的预训练模型，即VGG 16，MobileNet，Incep-tionv 3和Xception。这里使用四种分类算法来使用我们的特征向量执行分类任务。算法有随机森林、SVM、朴素贝叶斯和决策树。最后，观察到使用3步嵌入过程和从预训练模型自动提取的特征的矢量化文本描述符的融合给出了最高的性能。资金这项工作没有收到资金CRediT作者贡献声明苏迪普湾Thepade：概念化，方法论，写作-原始草案，监督。木星A Jaison：数据管理，调查，可视化，软件，验证。利益冲突我们希望确认，本出版物不存在已知的利益冲突，也不存在可能影响其结果的重大财务支持引用Howard Andrew，Menglong，Zhu，Bo，Chen，Dmitry，Kalenichenko，Weijun，Wang，Tobias，Weyand. Hartwig，Adam（2017）. MobileNets：用于移动视觉应用的高效卷积神经网络2017年。Barbhuiya，A.一、卡什河K.，&贾恩河，巴西-地（2021年）。基于CNN的手语特征提取和分类。多媒体工具和应用，80，3051-3069。https://doi.org/10.1007/s11042-020-09829-y，2021年。Bhandi，V.，&Sumithra Devi，K. A.（2019年）。通过融合预训练的深度卷积神经网络的特征进行图像检索。在第一届智能控制、环境、计算通信工程&国际会议（ICATIECE）上，35-40）。https://doi.org/10.1109/ICATIECE45860.2019.9063814，2019.弗朗索瓦·肖勒（2017年）。Xception：使用依赖可分离卷积的深度学习。1800-1807.doi：10.1109/CVPR.2017.195。Szegedy Christian，Vincent，Vanhoucke，Sergey，Ioffe，Jon，Shlens，Wojna，Z.B.&（.2016）。重新思考计算机视觉的Inception架构CVPR2017.doi：10.1109/CVPR.2016.308。丹热湾J.，亚达夫，S. K.，&Kshirsagar，D. B.（2020年）。利用混合方法提高图像检索和重排序效率. 在设计，环境，管理，规划和计算智能创新国际会议（ICSIDMPC2020）（pp. 20-26）。https://doi.org/10.1109/ICSIDEMPC49020.2020.9299579Google Cloud Vision API。在线链接https://cloud.google.com/vision/（最后访问日期：2021年10月18日谷歌可乐。在线链接https://colab.research.google.com/? utm_source scs-index（最后访问：18 October（2021））.谷歌word2vec。在线链接。https://code.google.com/archive/p/word2vec/（最后访问日期：2021年10月18日）。Hamid，Palangi，Deng，Li，Shen，Yelong，Gao，Jianfeng，He，Xiaodong，Chen，Jianshu，. Ward，Rabab.使用长短期记忆网络的深度句子嵌入：信息检索的分析和应用。IEEE/ACM Transactions on Audio Speech and Language Processing，24（4），694https://doi.org/10.1109/TASLP.2016.2520371。Https://doi.org/ April2016.Huang，Xiao，Wang，Cuizhen，Li，Zhenlong，Ning，Huan（2019）.洪水事件期间洪水相关推文自动标记的International Journal of Digital Earth，12（11），1248-1264.https://doi.org/10.1080/17538947.2018.1523956Inceptionv3图像参考。https://cloud.google.com/tpu/docs/inception-v3-advanced（最后访问日期：2022年1月11日放大图片作者：Li，Jia，Wang.（2003年）的报告。用统计建模方法对图片进行自动语言索引。 IEEE Transactions on Pattern Analysis and Machine Intelligence ， 25（9），1075-1088. 2003数据集可从http://wang.ist.psu.edu/docs/related/获得。Li，Z.，Nie，F.，张，X.，杨，Y.，张，C.，&Sebe，N.（2018年a）。基于多特征谱聚类的动态仿射图构造。IEEE transactions on neural networks and learning systems，29（12），6323-6332. https://doi.org/10.1109/TNNLS.2018.2829867，2018DecEpub 2018 May 18.PMID：29994548。Li，Z.，Nie，F.，张，X.，涅湖，加-地张洪，&Yang，Y.（2018年b）。一种具有灵活嵌入的秩约束谱聚类算法IEEE Transactions on Neural Networksand LearningSystems，29（12），6073-6082. https://doi.org/10.1109/TNNLS.2018.2817538. 号决定2018年Li，Z.，姚湖，张，X.，Zhan，K.，孙，J.，Zhang&，H.（2019年）。基于事件自适应概念相关性挖掘的零镜头事件检测。Pattern Recognition，88，595-603.https://doi.org/10.1016/j.patcog.2018.12.010，2019年。Mahalakshmi，P.，&Fatima，N. S.（2020年）。基于BiLSTM和残差网络的协同文本和图像信息检索模型第三届智能可持续系统国际）958-964）。https://doi.org/10.1109/ICISS49785.2020.9315886，2020.墨西拿，N.，Amato，G.，Carrara，F.，等（2020年）。学习关系CBIR的可视化功能。InternationalJournalofMultimediaInformationRetrieval ， 9 ， 113-124.doi.org/10.1007/s13735-019-00178-7，2020.MobileNet 图像参考。 https://medium.com/analytics-vidhya/image-classification-with-mobilenet-cc 6 fbb 2cd 470（最后访问时间：2022年1月11日）。Ouni，A.，Royer，E.， Chevaldon n'e，M.，等人（2021年）。利用语义分割用于混合图像检索方法。神经计算与应用网址：//doi. org/10.1007/s00521-021-06087-3，2021。Shikha，B.，Pandove，Gitanjali，Dahiya，Pawan（2020）.&一个有效的基于聚类的融合描述符的图像检索系统

下载后可阅读完整内容，剩余1页未读，立即下载