面向细粒度识别的场景文本知识挖掘

123 浏览量更新于2023-10-25 收藏 2.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4624面向细粒度识别的场景文本知识挖掘王浩1*，廖俊超1 *，陈天恒1*，高泽文1*，李浩2*，任波2 *，向柏1 *，刘文宇1 *，华中科技大学2 *，腾讯优图实验室{wanghao4659，liaojc，thch，gaozw，xbai，liuwy} @ hust.edu.cn，{ivanhliu，timren} @ tencent.com摘要近年来，场景文本的语义已被证明是必不可少的细粒度图像分类。然而，现有的方法主要利用场景文本的字面意义进行细粒度识别，这可能是不相关的，当它不是显着相关的对象/场景。我们提出了一个端到端的可训练网络，挖掘场景文本图像背后的隐式上下文知识，并增强语义和相关性，以微调图像表示。与现有方法不同，我们的模型集成了三种模式：视觉特征提取、文本语义提取、背景知识关联（一）(b)（c）第（1）款to fine细grained粒度image图像classification分类.具体来说，我们employKnowBert检索语义表示的相关知识，并结合图像特征进行细粒度分类。在两个基准数据集Con-Text和Drink Bottle上的实验表明，我们的方法分别比最先进的方法高出3.72%mAP和5.39%mAP。为了进一步验证所提出的方法的有效性，我们创建了一个新的数据集的人群活动识别的评估。这项工作的源代码和新数据集可在此存储库1中获得。1. 介绍文本是传达人类信息、知识和情感的重要载体。自然场景图像中的文本包含复杂的语义信息，可以用于许多视觉任务，如图像分类，视觉搜索和基于图像的问题回答。提出了几种方法[2，15，22，23，26，39]来将场景文本的语义线索用于图像分类或检索，并实现了显着的性能改进。这些方法遵循一个通用的流程，首先通过场景文本阅读系统识别文本，然后将识别出的单词转换为文本特征，图像特征用于后续任务。*作者贡献相同。†通讯作者。1https://github.com/lanfeng4659/KnowledgeMiningWithSceneText（d）：维基百科中关于（c）图1.这三个图像都属于“苏打”的范畴。(d)显示图像中体现的场景文本背后的知识(c) 维基百科知识库。每个文本实例包含存储在知识库中的一个或多个实体。相关的描述进一步解释了实体的确切含义。为简单起见，只列出了两个文本实例的实体。本文探讨了如何深入挖掘背景知识，提取场景文本的上下文信息，以实现细粒度图像分类任务。与文档文本不同，在我们的观察中，自然场景文本通常是稀疏的，表现为几个关键字而不是完整的句子。此外，这几个关键词可能是模糊的，并且当它们的语义线索与图像传达的精确含义不直接相关时，对分类模型没有线索。如图在图1（a）和（b）中，关键词“Soda”的字面含义然而，我们很难理解图中的对象。1（c）通过单独提取场景文本的语义线索。为了更好地理解图像，获取更多关于图像的相关上下文知识是至关重要的。因此，我们探讨如何挖掘额外的背景知识和挖掘上下文信息，以增强场景文本和图片之间的相关性。例如，图1中的表1（d）展示有关资料或知情─文本实体实体说明“党”政党一群有着相同意识形态的人“党”党社交活动“列宁主义” 列宁纳德苏联主题的柠檬汽水4625（c）中体现的场景文本的边缘。实体Leninade的描述告知它是苏打饮料瓶。因此，以这种方式提取的知识补充了原始文本的字面意义，并减少了由于仅使用场景文本的字面意义而导致的语义损失具体地，在通过场景文本读取系统从图像中提取文本之后[20，40]，我们从数据库中检索相关知识，例如（例如，WordNet [25]和维基百科），存储了丰富的人类策划的知识，与目标的所有可能的相关性如图1（d）、可能的实体（例如，政党和政党）可以从知识数据库中为文本实例“政党”提取然而，所有检索到的上下文知识可能不一定提供有用的语义线索来理解视觉内容。为了从不相关的信息中过滤出相关的上下文信息，我们设计了一个关注模块，它关注对象或场景的语义学的非常相关的知识我们在两个公共基准数据集Bottles [2]和Con-Text[16]上评估了我们的方法的性能实验结果表明，在场景文本中使用上下文知识可以显著提高细粒度图像分类模型的性能。为了进一步证明我们的方法的有效性，我们开发了一个由21个类别和8785个自然图像组成的新然而，该数据集主要关注人群活动，而大多数图像包含多个场景文本实例。据我们所知，现有的人群活动数据集不包含场景文本实例。然而，日常人类活动与场景文本存在高度相关，例如，游行，展览，新闻发布会和销售活动。该数据集将是探索场景文本对人群活动的作用在本文中，我们提出了一种方法，挖掘场景文本背后的上下文知识，以提高性能的多模态理解任务。为此，我们设计了一个基于深度学习的架构，该架构结合了三种模态特征，包括视觉内容、场景文本和用于细粒度图像识别的知识。我们的方法实现了显著的改进，并且可以应用于其他任务，例如视觉基础[33]和文本视觉问题回答[3]，而不是细粒度图像分类任务。此外，我们提出了一种新的数据集，其中每个图像包含多个场景文本实例，这促进了多模态人群活动分析的研究。2. 相关工作2.1. 细粒度图像分类细粒度图像分类的任务需要区分某些领域中对象类别之间具有细微视觉差异的图像，例如动物物种[12，18]，植物物种[24]和人造物体[19]。上一页现有的方法[6，10]仅用视觉线索对对象进行分类，并旨在找到有区别的图像路径。最近，一些方法已经显示出越来越多的兴趣，采用文本线索，结合视觉线索，这个任务。Movshovitz等人[26]首先提出通过使用场景文本的视觉线索来利用场景文本进行细粒度图像分类任务。然而，由于文本实例的模糊和遮挡，提取场景文本的鲁棒视觉线索具有挑战性Karaoglu等人[15]使用场景文本的文本线索作为区分信号，并结合GoogLeNet [38]获得的视觉特征来区分商业场所。为了充分利用视觉信息和文本线索的互补性，一些方法[2，22]提出将两种模态的特征与注意力模块融合。Bai等人[2]提出了一种注意力机制，用于从已识别单词的单词嵌入中选择文本特征为了克服光学字符识别错误，Mafla等。[22]利用PHOC [1]表示的使用来构建一个文本单词包以及对文本形态进行建模的Fisher向量[29尽管取得了可喜的进展，但这些解释方法利用了场景文本的字面意义，忽视了文本的有意义的人类策划知识2.2. 知识感知语言模型预训练的语言模型（如ELMo [30]和BERT [8]）经过优化，可以预测下一个单词或者在给定的序列中的一些掩码词。彼得罗尼和al. [32]发现预先训练的语言模型，如像BERT一样，可以回忆起事实和常识知识。这些知识隐式地存储在语言模型的参数中，并且对于下游任务（例如视觉问答）很有用[17]。该知识通常从由预训练模型产生的潜在上下文表示中获得，或者通过使用预训练模型的参数来初始化任务特定模型以用于进一步微调来获得。为了进一步增强语言模型对人类策划知识的感知，一些作品[31，34]明确地将知识库中的知识在我们的方法中，我们采用BERT [8]和KnowBert [31]作为知识感知语言模型，并应用它们来提取知识特征。虽然以前的方法[36]从视觉语言任务的句子中提取知识特征，但它们需要图像-文本对的注释。3. 方法如图2，所提出的网络接受图像，知识库和场景文本阅读系统（如[20，40]）发现的场景文本作为输入。该框架中的特征提取部分由三个分支组成，视觉特征提取分支，用于检索相关知识的知识边缘提取分支4626我保护环境图2.我们方法的框架。该模型结合了视觉线索和文本线索进行分类。输入文本实例由场景文本读取系统识别KARC和VKAC分别表示知识注意力和再语境化成分以及视觉知识注意力成分以及知识增强特征分支，其采用所检索的知识来增强场景文本的呈现。然后，视觉知识注意组件（VKAC）输入视觉特征和知识增强的文本特征，并输出注意特征。此外，视觉特征和关注特征的级联被馈送到后续分类器。在我们的方法中，我们采用ViT [9]来提取输入图像的全局视觉特征。我们主要在下面的小节中详细介绍了知识提取分支、知识增强特征分支和视觉知识注意分支。3.1. 知识提取分支该分支的目标是从维基百科中提取相关知识并将其嵌入特征。这种知识通过实体存储在知识库中，相关实体可以通过场景文本实例进行查询。然而，由于文本含义的不确定性，大多数文本实例可以映射到多个实体。例如，文本这就需要一个实体可以指定的选择器，它接受一个句子作为输入，并返回一个C潜在实体的列表。受文献[11]的启发，我们使用实体先验来进行实体可识别性选择.先验是指文本实例是实体的概率，它是通过对维基百科、大型Web语料库[37]和YAGO词典[14]的超链接计数统计进行平均计算得出的如图所示3、首先，将所有场景文本实例按发现顺序组合成句子。然后，像BERT一样获得该句子的标记。实体候选日期选择器基于先验知识生成每个文本实例的前C个实体候选。最后，实体嵌入-文字实例实体跨度前科实体说明联合----党政治党[1，1]0.20一群有着相同意识形态的人党党[1，1]0.15社交活动列宁纳德列宁纳德[2，2]1.00苏联主题的柠檬汽水图3.知识提取分支的过程。span是句子中标记的[start index，end index]。通过KnowBert中预先计算的实体编码器获得dings。具体地说，实体编码器采用了一个类似skip-gram的目标，从维基百科的描述中学习维基百科页面标题的300维嵌入。因此，这样的实体嵌入对从维基百科描述中挖掘的事实知识进行编码。3.2. 知识增强功能分支该分支旨在使用检索到的实体嵌入来增强文本的表示。该体系结构改编自KnowBert，通过在特定层插入知识关注和重构组件（KARC），将知识基础纳入BERT。在KnowBert之后，我们将Wikipedia插入BERT编码器的第10该分支的简要流水线如图所示。二、为了-最后，将一个词段标记序列馈送到BERT的前10个连续编码器层，输出上下文表示Hi。然后，KARC将Hi和候选实体嵌入作为输入，并输出知识增强表示H′。最后，这些增强的表示被馈送到编码器的剩余部分，ViT编码器层数：0~12层池化视觉特征提取分支BERT编码器层数：0~10KARCBERT编码器层数：VKAC分类器场景文本医生对柴油机知识增强功能分支维基百科实体候选选择器实体编码器知识提取处维基百科实体候选实体嵌入编码器“jointparty实体候选4627∈∈·v∈我Σ−我我我我我我3.3.视觉知识注意成分通常，并非图像中的所有文本知识都必须与对象或场景具有语义关系。一些重新获得的知识可能与图像具有强相关性，其他知识可能根本不相关。因此，我们-F符号是一个注意力组件，它关注对象或场景语义的非常相关的SE知识。其基本思想是，我们将全局视觉特征fv R1×D作为从所有知识特征H RN× D中查询并检索出与f v高度相似的知识特征。参数D是特征尺寸。上下文嵌入候选实体嵌入形式上，给定fv和H，我们首先计算它们的simi-图4.知识注意和重构-文本化组件的架构。BERT，生成最终的知识增强特征。间隙，其定义为：01 - 02 -2016刘晓波（θ（f）（θ（H））T（4）BERT的每个编码器层中的模块是公式化为Hi= TransformerBlock（Hi−1，Hi−1，Hi−1）.（一）该块使用Hi−1作为查询、键和值，以允许每个向量相互关注KARC是将检索到的实体嵌入集成到Hi的关键组件。与KnowBert不同的是，KARC将跨度的宽度限制为1。也就是说，这些实体命名为一个其中θ和θ都是将特征投影到特征空间中的单个线性函数，WR1×N是外部相似性矩阵。然后，W用于加权知识特征。最后，将加权特征馈送到残余连接块。实施过程定义如下：Hatt=W·N（H），（5）Hout=κ（Hatt）+Hatt，（6）由于场景文本的稀疏性，文本实例被忽略KARC的细节在图中给出4、字块其中H出来∈R1×D是被关注的知识特征，κ表示（Hi）首先通过线性层投影到Hp链接到至少一个实体的那些词块的表示被TransformerBlock上下文化为上下文词表示Se。同时，每个标记的C个候选实体表示被平均以形成加权实体嵌入 F 。具体来说，正如KnowBert所做的那样，我们忽略分数低于固定阈值的所有候选实体，并将剩余分数归一化以加权相应的候选实体。是线性函数。3.4.分类器和损失函数由全连接层和softmax层组成的分类器执行分类任务，输入全局视觉特征和知识增强特征的级联。目标函数被公式化为Mtty表示。然后，通过添加实体嵌入F来更新Se，以形成w实体表示S′e。S′e是用来用一个Trans来重新实现HpL=11（m=y）logp Mm=1、（7）formerBlock，其中我们用H p代替查询y，而S′e对于key和value：H′p=TtransformerBlock（H p，S′e，S′e），（2）其中M是类别数，pm是概率-将样本预测为第m个类别的概率，y是关联的标签。4. 实验最后，剩余连接适于融合H′p和Hi，形成已知的增强表示H′：H′=g（H′p）+Hi，（3）首先，我们介绍了我们的实验中使用的数据集和我们创建的新数据集。然后给出了具体的实现细节。第三，我们在我们提出的人群活动数据集上评估我们的方法并进行比较我我用最先进的方法最后，我们进行其中，g是线性函数。在我们的方法中采用全连接层。消融研究。我们与以前的方法进行比较下的度量mAP加权和党列宁纳德H′p我平均QTransformerBlockK斯埃v+党Hip列宁纳德TransformerBlockHi列宁纳德党列宁纳德党列宁纳德党列宁纳德党联合线性列宁纳德党联合列宁纳德党联合H我M4628大多数现有的方法。4629庆祝圣诞节举行运动会举行音乐会生日会名人演讲教学毕业典礼野餐新闻简报购物感恩节保护动物保护环境和平呼吁BrexitCOVID-19选举移民尊重女性种族平等Mou. 我的马甲。图5.来自人群活动数据集的21个类别的示例。方法日常生活示威地图C.C.H.S.H.C.B.P. C.S.teac。G.C.pic. P.B. 店T.G.P.A.体育A.P.brex。协变量电机股份imm. R.F.R.E.M.D.R152 [13]59.6 92.570.471.148.488.789.680.583.286.468.868.562.474.384.750.659.656.568.8 48.291.071.6[9]第九话76.0 98.781.183.657.185.393.584.793.088.673.673.671.578.885.775.674.675.884.3 60.091.080.3fastText [4]58.3 46.955.356.033.446.159.631.752.047.927.187.282.776.778.957.669.669.873.0 55.075.459.1[31]第三十一话62.8 56.355.359.551.454.170.346.154.845.945.889.979.278.578.172.873.867.077.2 64.274.964.7Mafla等人[22日]60.0 90.975.676.449.489.086.483.579.094.267.183.176.282.488.765.572.471.474.7 67.795.577.6Mafla等人[23日]72.3 87.578.180.750.391.686.581.173.089.162.687.479.286.585.675.579.173.180.3 67.997.079.2我们83.0 98.588.886.160.589.495.789.194.094.578.292.492.489.695.483.082.184.790.1 73.798.187.5增益3.911.17.2表1.基线的分类性能和建议的方法在人群活动数据集上。KB表示KnowBert。4.1. 数据集Con-Text数据集由Karaoglu [16]引入，是ImageNet数据集[7]的子集。该数据集是通过选择“建筑物”和“营业场所”的子类别构建的饮料瓶数据集由Bai [2]提出，由ImageNet数据集中软饮料和酒精饮料集合中包含的各种类型的饮料瓶图像组成[7]。该数据集包含18，488张图像，分为20个类别。现有两个数据集中的所有类别都是关于产品或业务地点的这些类别的文本线索是明显的，大多数图像可以通过场景文本的表面意义而不是它们背后的知识来理解因此，我们创建了一个新的数据集，集中在人群的活动的细粒度的图像分类任务，命名为人群活动数据集，自动理解人群活动是有意义的社会保障。该数据集是新的col-4630选择，其中的图像主要是在互联网上搜索，并通过移动电话从街道上收集。此数据集中的所有图像都包含至少一个文本实例。这些类别来自日常生活活动和近年来热点事件激发的演示。具体而言，该数据集由21个类别和8785张图像组成如图5、这21个类别大致分为两类：日常生活活动（即，庆祝圣诞节、举行运动会、举行音乐会、庆祝生日会、名人演讲、教学、毕业典礼、野餐、新闻发布会、购物、庆祝感恩节）和示范（即，保护动物，保护环境，呼吁和平，英国脱欧，COVID-19，选举，移民，尊重女性，种族平等，运动des gilets jaunes）。4.2. 实现细节在训练之前，我们首先通过Google OCR或E2E-MLT提取场景文本。然后，对该方法的模型进行训练4631××方法愿景文本定位器嵌入Con-Text瓶活动卡劳等人[16个]弓自定义鲍勃39.00--卡劳等人[第十五条]BOW+GoogLeNet JaderbergProbs七十七点半--Bai等人[二]《中国日报》GoogLeNet文本框手套78.90--Baiet al. [二]《中国日报》GoogLeNetGoogle OCR手套80.50 74.50-Mafla等人[22日]ResNet-152E2E-MLT手套77.58 74.9172.58Mafla等人[22日]ResNet-152E2E-MLTfastText77.77 75.4073.01Mafla等人[22日]ResNet-152SSTR-PHOCPHOC75.9373.84Mafla等人[22日]ResNet-152SSTR-PHOCFV80.21 77.3877.57Mafla等人[23日]ResNet-152E2E-MLTfastText82.36 78.1475.31Mafla等人[23日]ResNet-152SSTR-PHOCPHOC82.77 78.2775.45Mafla等人[23日]ResNet-152SSTR-PHOCFV83.15 77.8677.54Mafla等人[23日]ResNet-152Google OCRfastText85.81 79.8779.25我们ResNet-152E2E-MLTKnowBert84.93 79.3281.91我们ViTE2E-MLTKnowBert87.28 84.0185.68我们ViTGoogle OCRKnowBert89.53 85.2687.45表2.最先进方法在Con-Text、Drink-Bottle和Activity数据集上的分类性能BOW表示视觉词汇袋BoB表示Bag of Bigrams。FV表示Fisher向量。以端到端的方式。对于图像上的数据增强，我们首先在原始图像上随机裁剪一个图像块，比例从0.05到1.0，同时保持比率在[0.75，1.33]的范围内接下来，将图像块的大小调整为224 224。最后，我们通过将平均值和标准偏差设置为（0. 5，0。5，0。（五）。至于训练BERT和KnowBert，除了在将场景文本分组为句子之前打乱场景文本的顺序之外，没有使用数据增强，因为BERT和KnowBert在输入文本不太丰富时都可以快速过拟合我们采用AdamW [21]来优化整个网络，初始学习率为3e-5。同时采用了500次迭代的学习率预热和余弦加权的热重启策略。所有模型都在数据集上训练了10个epoch。我们基于PyTorch进行所有实验[27]。152.第152章和第153章，你是我的，我是你的，你是我的，我是你的，我是你的，对于ResNet-152和ViT，ImageNet上的预训练模型用于微调。[8]和KnowBert的实现来自huggingface变换器[42]和[31]。Book- Corpus [43]和英文维基百科预训练模型加载在BERT上。此外，我们使用torchtext，这是PyTorch为GloVe [28]和fastText[4]提供的包在测试过程中，图像的短边被调整为224。然后，从图像中心裁剪224 224图像块。至于斑点场景文本，我们保持BERT和KnowBert的原始顺序。4.3. 人群活动数据集我们将我们的方法与几种基线方法进行了比较，包括视觉基线（ResNet-152和ViT），文本/知识基线（fastText和KnowBert）以及多个模态基线（[22]和[23]）在我们提出的人群活动数据集上。我们使用两种不同的数据集设置进行两种类型的实验。1)视觉基线和多模态基线模型在所有训练图像上训练，并在所有测试图像上测试2）在由点状文本组成的图像子集上训练和测试文本/知识基线模型。[22]和[23]中使用的文本提示来自fastText。选项卡. 1显示人群活动数据集的定量比较。在以前的方法中，ViT实现了最先进的性能，而我们的方法优于ViT 7.2%mAP。特别是，演示子集的改善达到超过11.0%mAP，这是比日常生活活动的最高增益。原因是这些演示活动的视觉线索非常微妙。例如，大多数场景是抗议游行者举着旗帜和标语走在街上。这种微妙的视觉线索需要宝贵的知识来更好地理解这些场景。因此，性能的提高证实了场景文本实例在数据集中的重要性，如人群活动的细粒度图像的鲁棒分类。4.4. 与最先进方法的Bai等人[2]以GoogLeNet [38]作为视觉支柱，而最新的最先进的方法[22，23]采用ResNet-152 [13]。为了进行公平的比较，我们首先使用ResNet-152评估我们的方法，并将E2 E-MLT [5]作为文本定位器。然后，我们在ViT和Google OCR环境下进行了实验。如Tab.所示。2.我们的模型在三个数据集上都取得了最好的性能。该方法[23]利用了一般方法的特点，4632保护环境GT：A。和平GT：C. 讲话GT：毕业GT：新闻简报。GT：COVID-19GT：C. 讲话GT：圣诞节P. Env. ：0.9992A. P.：0.542 2C. S.：0.8209毕业。：0.9947按B.：0.9889COVID：0.9032选举：0.9986音乐会：0.4973GT：理发师GT：干洗店GT：餐厅GT：剧院GT：SteakHouseGT：汽车旅馆GT：干洗店GT：面包店理发师：0.9858干燥C.：0.9997晚餐：1.0000剧院：0.9999牛排H.：0.9356汽车旅馆：1.0000晚餐：0.7703C.价格：0.9824GT：苦味GT：吉尼斯GT：SauterneGT：chablisGT：百事可乐GT：姜味GT：SauterneGT：焦炭苦味：0.9993吉尼斯：0.9972索登：0.9957白葡萄酒：0.8962百事：0.9996ginger.：0.9987白葡萄酒：0.9671根啤：0.8911图6.分类结果的一些例子。GT表示Ground Truth。Top-1预测及其概率显示在每张图片下方。有些类别的名称是缩写的。愿景EMB.C.T.瓶活动目视R152-70.9673.4171.58ViT-79.2480.8180.29R152手套73.9776.6774.75目视+的R152fastText73.6676.6774.89文本ViTViT手套fastText79.7979.8280.5681.1881.2580.71目视+文字+知识R152R152ViTViT伯特BERTKB81.5985.4286.5189.5377.9480.1782.8185.2681.6883.7985.3487.45图7.可视化结果。上面两个是ResNet-152 grad- CAM [35]结果，下面两个是ViT注意力图。图像中的对象然而，我们的模型在饮料瓶和Con-Text数据集上分别超过了5.39%和3.72%。方法[22]不使用一般对象的信息。因此，我们的方法在两个公共数据集上的性能优于方法[22]。与现有方法相比，我们提出的模型的一致性优于现有方法，证明了整合场景文本中的知识以更好地理解对象或场景的重要性和有效性为了进一步验证将知识引入这项任务的重要性，我们在我们的人群活动数据集上将我们的方法与[22]和[23具体来说，我们用他们官方发布的代码23训练模型。所示2http://github.com/DreadPiratePsyopus/FineGrained Clf3https://github.com/AndresPMD/GCN分类表3.不同视觉和嵌入模型组合在三个数据集上的性能。R152表示ResNet-152。名字的缩写，vis。知道。意味着视觉和知识。文+知。是指包含文本知识的特征。C.T.意思是关联文本。（度量单位：mAP）选项卡. 2.我们的方法比[23]的方法提高了8.20%mAP，这进一步说明了挖掘知识对于充分理解自然图像的意义是如图所示，我们的方法的一些定性结果。6.该方法可以在饮料瓶和Con-Text数据集上识别出这些视觉如图所示，4.3，图像中场景文本的视觉线索和字面意义在人群活动数据集上是非常微妙的。然而，我们的方法仍然很好地分类它们。4.5. 消融研究本节提供了详细的消融研究，以验证所提出的知识挖掘模型中包含的不同模块的效果因此，我们给出了不同组合下三个数据集的4633表4. KARC和VKAC组件的消融研究。应用ViT从图像中提取特征。C.T.表示Con-Text数据集。（度量单位：mAP）模型联系我们瓶活动ViT79.2480.8180.29KnowBert47.0753.2864.66模型A81.4782.2681.79模型B89.5385.2687.45表5.模型A以单独的方式训练模型B以端到端的方式进行训练。（度量单位：mAP）视觉特征和文本特征的结合然后，我们讨论了KARC和VKAC组件的影响最后，我们展示了联合优化整个网络的优势。视觉功能的影响如Tab.3、引入文本线索（即，Glove和fastText）到ResNet- 152模型可以显著提高性能高达3% mAP。然而，ViT模型的性能改善不超过1%mAP。我们通过可视化ResNet-152和ViT的两个模型（仅用图像数据训练）的注意力图，进一步比较了这两个模型与定性示例如图所示7、ResNet- 152模型主要关注视觉内容。然而，ViT模型通过自我注意机制捕获视觉内容并从图像中获取文本线索。因此，嵌入特征提供了补充信息来提高ViT的性能，而不是仅仅利用场景文本的字面意义。如前所述，挖掘知识的直接方法是利用BERT编码器的输出特征。如Tab.所示。3、采用BERT中的知识增强特征，比典型的词嵌入特征（GloVe/fastText）有明显的改进。ViT+BERT模型在Con-Text、饮料瓶和人群活动上的性能分别超过ViT+fastText模型6.69%、1.63%和4.63%这种优越的性能证明，知识库中的显式知识显着丰富了场景文本的语义理解对象。此外，与BERT不同，KnowBert明确地将知识库中的知识引入模型。实验结果表明，KnowBert模型的预测效果明显优于BERT模型.因此，将场景文本背后的知识引入神经网络特征学习，增强了对自然图像的理解。如图8.知识的使用大大丰富了分类精度，因为“PM2.5”背后的知识告诉我们第三个图像是关于环境的。GT：庆祝圣诞节ViT：庆祝圣诞节（0.9997）ViT + fastText：庆祝圣诞节（1.0000）ViT +KnowBert：庆祝圣诞节（0.9998）GT：生日派对教育（0.9136）ViT + fastText：生日派对（0.8939）ViT+ KnowBert：生日派对（0.8141）GT：保护环境ViT：呼吁和平（0.3469）ViT + fastText：种族平等（0.4324）ViT + KnowBert：保护环境（0.8439）图8.不同模型的分类结果。KARC 和 VKAC 组件的影响4 型号 B是默认配备KARC和VKAC的型号仅在模型A中集成KARC提高了所有数据集的性能。此外，在模型B中，将VKAC集成在KARC之上，在Con-Text、Bottles和Crowd Activity数据集上，每千次mAP的识别率分别提高了2.28%、1.67%和1.29%。实验结果表明，融合多模态特征的有效性。联合优化将知识挖掘、特征提取和分类的过程集成在一个统一的网络中，使联合优化成为可能由于特征提取和分类器分离是相互补充的过程，联合优化的模型比单独优化的模型具有更好的性能。为了证实这一假设，我们首先在分类任务的监督下分别用图像数据和场景文本训练ViT和KnowBert的模型。然后，训练分类器和VKAC，接受来自预训练模型的视觉特征和知识增强特征作为输入。如表1所示。5、以端到端方式训练的模型显著优于单独训练的模型，表明将知识挖掘过程集成到网络中的必要性。5. 结论在本文中，我们已经证实，使用场景文本背后的知识可以提高细粒度图像分类任务的性能。在两个基准数据集和建议的人群活动数据集上的实验未来，我们将进一步探索场景文本知识挖掘在其他多模态融合任务中的应用，如场景文本、视觉问答、视觉背景等。致谢本工作得到国家自然科学基金61733007的资助。KARCVKACC.T.瓶活动基线型号A型号B√√√86.5187.2589.5382.8183.5985.2685.3486.1687.454634引用[1] 乔恩·阿尔马兹、阿尔伯特·戈多、艾丽西亚·福恩和欧内斯特·V·阿尔韦尼。单词识别和嵌入式的attribute。IEEETPAMI，2014年。2[2] Xiang Bai，Mingkun Yang，Pengyuan Lyu，YongchaoXu，and Jiebo Luo.整合场景文字与视觉外观以进行细粒度影像分类。IEEE Access，6：66322一、二、五、六[3] AliFurkanBiten ， Ru be`nTito ， And re` sMafla ， Llu`ısGo`mezi Bigorda ， Mar c alRusi nBogol ， C.V. Jawahar，ErnestValv eny，andDimosthenis Karatzas.场景文本可视化问答。在ICCV，第4290-4300页，2019年。2[4] Piotr Bojanowski，Edouard Grave，Armand Joulin，andTomas Mikolov.用子词信息丰富词向量。TACL，2017年。五、六[5] 米哈尔·布斯塔，亚什·帕特尔，和吉瑞·马塔斯E2 E-MLT-一种用于多语言场景文本的无约束端到端方法。在Gustavo Quiniro和Shaodi You，编辑，ACCV，2018年。6[6] Jean-Baptiste Cordonnier、Aravindh Mahendran、AlexeyDosovitskiy 、 Dirk Weissenborn 、 Jakob Uszkoreit 和Thomas Unterthiner。图像识别中的可微块选择。在CVPR中，第2351-2360页，2021年。2[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，2009。5[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在NAACL-HLT，2019年。二、六[9] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。三五六[10] 傅建龙，郑和良，陶梅。看得更近些，看得更清楚：用于细粒度图像识别的递归注意卷积神经网络。在CVPR，2017年。2[11] 屋大维-欧根·加内亚和托马斯·霍夫曼。基于局部神经元注意力的深层联合实体消歧。在EMNLP，2017年。3[12] 葛宗元， Chris McCool ， Conrad Sanderson ， PengWang，Lingqiao Liu，Ian D. Reid和Peter I.科克利用时态信息进行基于dcnn的细粒度对象分类。InDICTA，2016. 2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。五、六[14] JohannesHoffart ， MohamedAmirYosef ， IlariaBordino，HagenFürstenau，ManfredPinkal，MarcSpananish ， BilyanaTaneva ， Stefan Thater ， andGerhard Weikum.文本中命名实体的健壮消歧。载于EMNLP，2011年。3[15] Sezer Karaoglu、Ran Tao、Theo Gevers和Arnold W. M.史默德斯关键词：用于图像分类和检索的场景文本IEEE TMM，2017. 一、二、六4635[16] Sezer Karaoglu ， Jan C.van Gemert ， . ，还有西奥·盖弗斯上下文：使用背景连通性进行文本检测，用于细粒度对象分类. InACM MM，2013.二、五、六[17] Aisha Urooj Khan ， Amir Mazaheri ， Niels daVitoria Lobo，and Mubarak Shah.MMFT-BERT：多模态融合变换器，采用BERT编码，用于视觉问答。在EMNLP，2020。2[18] Aditya Khosla，Nityananda Jayadevaprakash，Bangpeng Yao，and Fei-Fei Li.用于细粒度图像分类的新数据集：斯坦福的狗。InProc. CVPR Workshopon FGVC，2011. 2[19] Jonathan Krause，Michael Stark，Jia Deng，and LiFei-Fei. 用于细粒度分类的3d 对象表示。载于ICCVW，2013年。2[20] 廖明辉，庞关，黄晶，塔尔·哈斯纳，白翔.掩码textspotter v3：分割建议网络的鲁棒场景文本定位。在ECCV，2020年。2[21] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。2019年，在ICLR。6[22] 还有马弗拉、苏纳克·德·伊、阿里·富尔坎·比滕、卢·鲁斯·戈麦斯和迪莫塞尼斯·卡拉扎斯。结合视觉和局部文本特征的细粒度图像在WACV，2020年。一、二、五、六、七[2

下载后可阅读完整内容，剩余1页未读，立即下载