没有合适的资源?快使用搜索试试~ 我知道了~
4291场景文本可视化问答Ali Furkan BitenBounce,1Rube` nT itoBounce,1AndresMaflaBounce,1 Lluis Gomez1 MarcBounce al RusinBouncel1ErnestValv eny1C.V. Jaw ahar2DimosthenisKaratzas11计算机视觉中心,UAB,西班牙2CVIT,IIIT海得拉巴,印度{abiten,rperez,amafla,lgomez,marcal,dimos}@ cvc.uab.es摘要当前的视觉问答数据集不考虑图像中的文本所传达的丰富语义信息。在这项工作中,我们提出了一个新的数据集,ST-VQA,其目的是突出利用高层次的语义信息存在于图像中的文本线索在视觉问题的处理过程中的重要性。我们使用这个数据集来定义一系列难度越来越大的任务,对于这些任务,阅读视觉信息提供的上下文中的场景文本是必要的,以便推理并生成适当的答案。我们提出了一个新的评价指标,这些任务的推理错误,以及文本识别模块的缺点。此外,我们还提出了一系列基线方法,为新发布的数据集提供了进一步的见解,并为进一步的研究奠定了基础。1. 介绍在人造环境中的文本内容传达了信息-问:香蕉每公斤的价格是多少A:11.98美元问:这列火车开往哪里?A:到纽约A:纽约问:红色标志是什么意思?答:停问:路牌上的出口号码是多少?A:2A:2号出口重要的高级语义信息,它是明确的,在场景中以任何其他形式都不可用。在人造环境中解释书面信息是必不可少的,以便执行大多数日常任务,例如进行采购,使用公共交通工具,在城市中寻找一个地方,获得预约,或检查商店是否开放,仅举几例。在大规模数据集中,文本存在于大约50%的图像因此,设计利用这些明确线索的模型是至关重要的。确保场景文本得到适当的解释不是一个边缘研究问题,而是整体场景解释模型的核心。在过去的十年里,阅读系统的研究界取得了重大进展[26,15]。的*同等缴款。图1.识别和解释文本内容至关重要场景理解。在场景文本视觉问题回答(ST-VQA)数据集中,利用图像中的文本信息是解决QA任务的唯一方法。场景文本理解的当前技术水平允许赋予计算机视觉系统基本的阅读能力,尽管社区还没有将其用于解决更高级的问题。与此同时,当前的视觉问答(VQA)数据集和模型由于忽略场景文本内容而存在严重的局限性,在需要场景文本理解的问题上的结果令人失望。因此,我们认为现在是时候把这两个研究领域的VQA。为了走向更人性化的推理,我们考虑在视觉和文本上回答4292形成是必要的。在现有的VQA管道中集成文本模态并不简单。一方面,发现场景中的相关文本信息需要执行关于位置、颜色、对象和语义的复杂推理,以在视觉内容的上下文中或任何其他可用的上下文信息中定位、识别并最终解释所识别的文本。另一方面,目前的VQA模型主要基于经典[44]和操作性(工具性)条件反射[51]的原理。这些模型显示出重要的数据集偏差[23]以及计数失败[9,1],比较和识别属性。这些限制使得当前的模型不适合直接集成场景文本信息,这些信息通常与图像的视觉统计数据正交且不相关。为此,在这项工作中,我们提出了一个新的数据集,称为场景文本视觉问题分类(ST-VQA),其中的问题和答案是以一种只能基于图像中存在的文本来回答问题的方式获得的我们有意识地从具有通用问题/答案对的数据集中提取大多数(85.5%)ST-VQA图像,这些问题/答案对可以与ST-VQA结合,以建立更通用、更全面的图1显示了收集的数据集中的一些示例图像和此外,我们还介绍了三个增加难度的任务,它们模拟了上下文信息的不同程度的可用性最后,我们定义了一个新的评估指标,以更好地辨别模型的回答能力,该指标采用Levenshtein距离[34]来解释推理错误以及文本识别子系统[15]的缺点。数据集以及性能评估脚本和在线评估服务可通过ST-VQA门户网站1获得。2. 相关工作自然图像中的文本检测和识别任务为广义VQA系统设置了起点,该系统可以集成文本线索以实现完整的场景理解。阅读系统社区中最常见的方法包括两个步骤,文本检测和识别。已经提出了一些解决文本检测的工作,如[36,35,60,21],这些工作主要基于全卷积神经网络。文本识别方法,例如所呈现的方法在[22]中,提出了从90K英语单词词汇表中识别单词级别的文本作为分类问题(单词定位)。使用连接主义时态分类的方法也已经广泛用于场景文本识别,尤其是在诸如[47,7,57,12,38]的作品中。后来的工作集中在端到端架构,如[8,39,20]所提出的架构,其中主要包括:1 https://rrc.cvc.uab.es/? ch=11它由一个初始的卷积神经网络(CNN)和一个长短期记忆(LSTM)组成,前者充当编码器,后者与注意力结合充当解码器。视觉问题分类(VQA)旨在为给定的关于图像的自然语言问题提供答案。自推出以来,VQA受到了计算机视觉社区的大量关注[4,11,46,16,23,2],这得益于访问允许训练VQA模型的大规模数据集[4,16,33,58,52,40]。尽管VQA与本文提出的任务,是最近的作品Kafle等人。[24]Kahou et al.[25]关于问题回答条形图和图表,工作Kise等人。[32]机器打印文档图像的QA,以及Kembhavi等人的工作。[29]关于教科书问题的回答。教科书问答(TQA)数据集[29]旨在回答给定文本、图表和图像上下文的多模态问题,但文本信息以计算机可读格式提供对于[24,25]中提出的数据集的图表和图表来说,情况并非如此,这意味着模型需要某种文本识别来解决此类QA任务。然而,在这些数据集上找到的文本以标准字体类型呈现,并且具有良好的质量,因此与我们工作中使用的场景文本相比,它代表了一个不那么具有挑战性的设置。TextVQA [50]是一个并发的工作,以一个在这里提出的。类似于ST-VQA,TextVQA提出了用于VQA的替代数据集,其需要关于场景文本的阅读和推理。此外,[50]还引入了一种新颖的架构,该架构将标准VQA模型[49]和独立训练的OCR模块[7]与指针网络[54,17]启发的TextVQA和ST-VQA数据集在概念上是相似的,尽管在实现和设计选择上存在重要差异。 我们在这里提供了关键差异的高级总结,而第3.2节给出了两个数据集之间的定量比较。在ST-VQA的情况下,使用了许多不同的源图像数据集,包括场景文本理解数据集,而在TextVQA的情况下为了选择要为ST-VQA注释的图像,我们明确要求存在最小量的两个文本实例,而在TextVQA中,基于类别对图像进行采样,强调预期包含文本的类别。在提供的问题方面,ST-VQA侧重于可以直接使用部分图像文本作为答案明确回答的问题,而在TextVQA中,允许任何需要阅读图像文本的问题。4293尽管存在差异,但这两个数据集是高度互补的,因为所使用的图像源彼此不相交,从而为两个数据集之间的转移学习创造了机会,并且可能组合数据以用于训练具有更大泛化能力的模型。3. ST-VQA数据集3.1. 数据收集在本节中,我们描述了为ST-VQA数据集收集图像、问题和答案的过程随后,我们详细介绍了拟议的任务,并介绍了评估度量。图像:ST-VQA数据集包括23,038个图像,这些图像来自公共数据集的组合,包括场景文本理解数据集以及通用计算机视觉数据集。我们总共使用了六种不同的数 据 集 , 即 : ICDAR 2013[27] 和 ICDAR2015[26] ,ImageNet[10] , VizWiz[18] , IIITSceneTextRetrieval[42],Visual Genome [33]和COCO-Text [53]。组合来自各种数据集的图像的关键益处是减少数据集偏差,例如已显示存在于流行图像数据集中的选择、捕获和负集偏差[30]。因此,数据集的组合导致问题的更大可变性。为了自动选择图像来定义问题和答案,我们使用端到端的单镜头文本检索架构[13]。我们自动选择包含至少2个文本实例的所有图像,从而确保所提出的问题包含至少2个可能的选项作为答案。每个数据集的图像和问题的最终数量见表1。原始数据集图像问题可可文本7,52010,854视觉基因组8,49011,195VizWiz8351,303ICDAR1,0881,423ImageNet 3,680 5,165IIIT-STR共计23,038 31,791表1.每个数据集收集的图像和问题的数量问题和答案:ST-VQA数据集包括31,791个问题。为了收集我们数据集的问题和答案,我们使用了众包平台Amazon Mechanical Turk(AMT)。在收集问题和答案的过程中,我们鼓励工作人员提出封闭式问题,这些问题可以用图像中的文本明确回答,禁止他们提出是/否问题或只能基于视觉信息回答的问题收集问题和答案对的过程包括两个步骤。首先,工作人员得到一张图片,并要求他们提出一个可以使用图片中的文本回答的问题工人们被要求写三个问题和答案对。然后,作为验证步骤,我们执行第二个AMT任务,该任务包括向不同的工人提供图像,并要求他们回答严格定义的问题。我们过滤了在两个步骤中没有获得相同答案的问题,以去除模棱两可的问题。作者对模棱两可的问题进行了检查,并在必要时进行了纠正,然后添加到数据集中。在某些情况下,两个答案都被认为是正确的并被接受,因此ST-VQA问题最多有两个不同的有效答案。总的来说,所提出的ST-VQA数据集包括23,038个图像,其中31,791个问题/答案对被分成19,027个图像-26,308个用于训练的问题和2,993个图像-4,163个用于测试的问题。我们在图1中展示了数据集的问题和答案的示例。3.2. 与TextVQA的分析与比较在图2中,我们提供了ST-VQA数据集收集的问题和答案的长度分布,并与最近提出的TextVQA进行了比较。可以观察到,两个数据集的长度统计是密切相关的。2015105060504030201000 5 10 15 20#单词图2.包含特定字数的问题(顶部)和答案(底部)的百分比。为了进一步探索我们数据集的统计数据,图3可视化了ST-VQA问题是如何形成的。正如可以理解的那样,我们的问题是从“什么、哪里、哪、如何和谁”开始的。鉴于任务的性质,正如预期的那样,相当大的比例以“什么”问题开始。然而,要认识到的一个关键点是,这些问题并没有明确地要求场景中出现的特定文本;相反,它们是以一种需要具有某些先验知识/经验的方式来制定的。例如,一些这需要关于品牌或网站是什么的一些明确的知识。在处理语言问题上做了很多努力St-VQA文本-VQA答案(%)问题(%)4294数据集内的先验[16,23,59]。在数据集中具有语言先验的原因之一是数据集中答案的不均匀在VQA v1 [4]中,由于数据集是由MSCOCO [37]的图像形成的,因此“什么运动……”问题的答案。是网球和棒球超过50%。另一个例子是“是否存在...",在超过70%的情况下回答是肯定的。从图4中可以看出,除了“符号”和“年份”问题之外,我们的数据集图3.ST-VQA系列中的问题分布,按其起始4-gram排列为了更好的可视化,没有显示具有小贡献的单词。从ST-VQA的角度来看,VQA 2.0 [16]是社区中最大的数据集,包含110万个问题,其中只有8 k(对应于不到总问题的1%另一方面,TextVQA [50]数据集包含28,408张图像和45,336个问题。由于不同的收集程序,因此,所有ST-VQA问题都可以使用图像中的文本直接明确地回答,而在TextVQA的情况下,据报道39%(18k)的答案不包含任何OCR标记2。这可能是由于所定义的问题的类型,或者由于所采用的文本识别引擎的缺点。ST-VQA答案明确地基于场景文本的事实,允许我们为每个问题收集单个答案。2TextVQA挑战赛,CVPR 2019软度量,其要求其具有到正确答案的小的编辑距离(参见3.4节),以这种方式在评估过程中考虑文本识别子系统的性能在TextVQA的情况下,每个问题收集10个答案,并且至少有三个受试者支持的任何答案都被认为是正确的。为了更好地理解我们的方法与收集多个响应(如TextVQA)相比的效果,我们进行了一项实验,为1000个ST-VQA问题的随机子集收集了10个我们的分析显示,在84。1%的病例受试者的主要问题与原始答案一致。TextVQA的相同指标为80。3%,证实了定义单个明确的答案在评估时导致类似的低模糊性。3.3. 任务我们定义了3个新的任务,适用于ST-VQA数据集,即提出的任务区分可以通过人类如何利用先验知识来争论他们的现状来解释。ST-VQA中的这种先验知识作为字典提供,对于每个任务都不同使用动态每图像字典的类似我们对任务的制定受到了以前概念的启发,每个任务的难度逐渐增加。在强情境化任务中,我们通过为所描绘的特定场景创建每个图像的字典来捕获这种在弱上下文任务中,我们提供了一个包含数据集答案中所有单词的字典。最后,对于开放字典任务,我们将问题视为白板,其中没有先验和外部信息可用于模型。对于强情境化任务(1),遵循用于端到端单词识别的标准实践[27,26,55],我们为每个图像创建一个词典,其中包含出现在该图像上为问题定义的答案中的单词,以及一系列干扰项。distractor- tors产生的两种方式。一方面,它们包括由应用于图像的文本识别器返回的场景文本的实例。另一方面,它们包括通过利用场景的语义理解而获得的单词,其形式为动态词典生成模型的输出[43,14]。用于强上下文任务的词典是100个单词长,并且每个图像都有定义。在弱语境化任务(2)中,我们为所有数据集的图像 提 供 了 30 , 000 个最 后 , 对 于 打 开 词 典 任 务(3),我们没有提供额外的信息,因此我们可以将其视为4295图4.ST-VQA训练集中不同类型问题的答案分布每种颜色代表一个不同的唯一答案。一个开放词典任务。通过提出上述任务,VQA问题以具有一定优势的新颖方式被构思。首先,它为自动处理和生成这些先验信息,以及它对模型设计和性能的影响的研究铺平了道路。其次,它为端到端阅读系统提供了一个有趣的训练场,其中所提供的字典可以用于启动文本定位方法。3.4. 评估和公开挑战由于我们的数据集的答案包含在图像中找到的文本中,这取决于所采用的OCR的准确性,因此VQA任务的经典评估度量对于我们的数据集不是最佳的,例如。如果模型对答案进行了适当的推理,但是在识别阶段犯了一些字符的错误,如图6(第一行,第三列)所示,则典型的准确度得分将为0。然而,我们提出的名为平均归一化Levenshtein相似度(ANLS)的度量将给出0.5和1之间的中间分数,这将对OCR错误进行轻微处罚。因此,定义捕获OCR准确性以及模型推理的度量的动机是显而易见的。为此,在所有3个任务中,我们使用归一化的Levenshtein相似性[34]作为评估指标。更正式地,我们定义ANLS如下:字符串aij和oqi之间的距离(注意,非线性Levenshtein距离是0和1之间的值)。我们定义阈值τ=0。5,惩罚大于该值的度量,因此如果NL大于τ,则最终得分将为0。阈值背后的直觉是,如果输出的编辑距离大于0。5到一个答案,意味着得到一半的答案是错误的,我们推理输出是从选项中选择的错误文本作为答案。否则,该指标具有平滑的响应,可以优雅地捕获文本识别中的错误。此外,我们提供了一个在线服务,其中托管了开放挑战[5],研究人员可以使用该服务来评估他们的方法对公共验证/测试数据集的影响。4. 基线和结果以下部分描述了本工作中采用的基线以及对所进行的实验中获得的结果的分析。建议的基线有助于我们展示建议的数据集及其任务的难度除了旨在利用所有可用信息(视觉信息、场景文本和问题)的基线之外,我们还特意包括了忽略一个或多个可用信息的基线,以建立性能的下限。采用以下基线评价数据集:随机:作为一种评估漫无目的的机会的方式,我们重新-1ΣNANLS=.maxs(aijΣ,oqi)(一)从为每个人提供的字典中随机选择一个单词任务(详见第3.3节)。Ni=0j.场景文本检索:此基线利用单个拍摄CNN架构[13],同时预测s(aij,oqi)=(1−NL(aij,oqi))如果NL(aij,oqi)<τ0,如果NL(aij,oqi)>τ边界框和字符的金字塔直方图(PHOC)[3]。PHOC是单词的紧凑表示,其考虑每个字符的空间位置以其中N是数据集中的问题的总数,M是每个问题的GT 答 案 的 总 数 , a i j 是 基 本 事 实 答 案 , 其 中i={0,.,N},并且j={0,. M},并且〇qi是网络对于第 i 个 问 题 q i 的 答 案 。 NL ( aij , oqi) 是 归 一 化 的Levenshtein构建结果编码。此基线忽略问题和图像的任何其他视觉信息。我们定义了两种方法:第一个(“STR检索”)使用特定的任务字典作为对给定图像的查询,并且返回前1个检索到的单词作为停止201120082010200920072012201324296答案;第二个(我们从找到的最大边界框中获取文本表示,然后在相应的字典中找到最近的场景图像OCR:使用最先进的文本识别模型[20]来处理测试集图像。根据置信度得分对检测到的文本进行排名,并且将最有信心的文本检测与任务1和任务2的所提供的词汇表之间的最接近匹配在任务3中,最有信心的文本检测直接作为答案。标准VQA模型:我们评估两个标准的VQA模型。第一个名为一方面,ResNet-152 [19]用于提取尺寸为14×14×2048 的 图 像 特 征 , 而 问 题 则 通 过 使 用多 层LSTM进行标记和嵌入。在图像特征和问题嵌入的组合之上,获得多个注意力图(一瞥)对图像特征和LSTM的最后状态的注意力一瞥的结果被连接并馈送到两个完全连接的层中,以根据类别获得答案概率的分布。我们使用Adam优化器[31]优化模型,批次大小为128,持续30个时期。初始学习率为0。001,其每50K次迭代衰减一半。第二个模型名为提出了两种问题编码方法,一种使用LSTM,另一种使用CNN,根据评估的数据集,这两种方法都会产生类似的结果。由CNN或LSTM编码的问题与图像特征一起使用我们优化了模型,批次大小为100,150个历元。使用的优化器是RMSProp,初始学习率为0。0003,衰减值为0。九九九九。总的来说,根据输出的分类向量,提出了三个不同的实验。第一个是通过在ST-VQA训练集中选择最常见的1 k个答案串形成的,如[4]所示。对于第二个,我们选择了5k个最常见的答案,以便我们可以看到两个VQA模型中输出向量逐渐增加的效果。在第三个中,使用在训练集中找到的所有答案(19,296)来复制场景文本图像的广泛词汇,并捕获在训练集中找到的所有融合模态-标准VQA模型+场景文本检索:使用前面描述的VQA模型,此基线的目的是将从场景文本检索模型获得的文本特征与场景文本检索模型中的示例结合起来。安装VQA管道。为了实现这一点,我们使用来自[13]的模型,并且我们在执行非最大抑制步骤(NMS)之前采用输出张量。相对于单个网格单元选择高于阈值的 最 置 信 PHOC 预 测 选 定 的 特 征 形 成 一 个 大 小 为14×14×609的张量,在前面描述的两个VQA基线上计算注意力地图之前,将其与图像特征连接起来然后,使用所关注的特征来输出分类向量上使用与之前描述的相同的策略来优化模型4.1. 结果根据定义的任务,所有提供的基线结果作为一种方式 来 比 较 所 提 出 的 平 均 归 一 化 Levenshtein 相 似 性(ANLS)度量,我们还计算每个基线的准确度。通过计算模型预测和收集的答案之间的精确匹配来计算准确度,这是VQA文献中的标准实践。表2中的最后一列(上限)显示了根据所评估的方法可以实现的最大可能得分标准VQA模型的上限准确度是其中正确答案是模型输出词汇的一部分的问题的百 分 比 , 而 上 限 ANLS 是 通 过 根 据 与 正 确 答 案 的Levenshtein距离将最接近的单词(输出类)作为答案来计算的在场景文本检索(STR检索)[13]模型的情况下,通过假设正确答案是单个单词并且该单词被模型检索为所提供词汇表中所有单词中的前1个来计算上限在表2中,我们认识到忽略来自图像的文本信息的标准VQA模型实现了相似的分数,范围在0.085至0.102 ANLS之间,或6.36%至7.78%的准确度。一个相关的观点是,尽管在VQA v1 [4]中,SAAA [28]模型的性能优于SAN [56],但在我们的数据集中,由于我们的数据集和任务大纲与VQA v1的性质不同,发现的效果相反。另一个重要的点是,当使用更大的分类向量大小(从1 k到5 k类)时,SAAA模型增加了其准确性和ANLS得分;然而,从5 k到19 k类,结果更差,这表明以分类方式学习如此大的词汇表是不可行的。值得注意的是,所提出的ANLS度量一般跟踪准确性,这表明度量之间具有广泛的兼容性。但是,除此之外,ANLS还可以处理边界情况(即正确的预期响应,但是稍微错误的识别文本),其中准确性是基于精确匹配的硬度量,不能。由于文本识别阶段的错误,这样的边界情况是频繁的。考试-4297方法OCRQV任务1ANLS Acc.任务2ANLS Acc.任务3ANLS Acc.上界ANLS Acc.随机✗ ✗ ✗0.0150.960.0010.000.000.00--STR [13](检索)✓✗✗0.17113.780.0735.55--0.78268.84STR [13](bbox)✓✗✗0.1307.320.1186.890.1287.21--[20]第二十话✓✗✗0.1458.890.1328.690.1408.60--[28]第28话✗✓ ✓0.0856.360.0856.360.0856.360.57131.96SAAA+STR(1k cls)✓ ✓ ✓0.0916.660.0916.660.0916.660.57131.96[28]第二十八话✗✓ ✓0.0876.660.0876.660.0876.660.74041.03SAAA+STR(5k cls)✓ ✓ ✓0.0967.410.0967.410.0967.410.74041.03[28]第二十八话✗✓ ✓0.0846.130.0846.130.0846.130.86252.31SAAA+STR(19k cls)✓ ✓ ✓0.0876.360.0876.360.0876.360.86252.31QA+STR(19k cls)✓ ✓✗0.0694.650.0694.650.0694.650.86252.31SAN(LSTM)[56](5k cls)✗✓ ✓0.1027.780.1027.780.1027.780.74041.03SAN(LSTM)+STR(5kcls)✓ ✓ ✓0.13610.340.13610.340.13610.340.74041.03SAN(CNN)+STR(5kcls)✓ ✓ ✓0.13510.460.13510.460.13510.460.74041.03表2. ST-VQA数据集三项任务的基线结果比较。我们为利用OCR,Question(Q)和Visual(V)信息的不同方法提供平均归一化Levenshtein相似性(ANLS)和准确性。0.60.50.40.30.20.10.0302520151050图5.按问题类型列出的ST-VQA开放词汇任务中基线方法的结果在图6中所示的一些答案的定性结果中可以看到这种行为的情况(以橙色表示)。这也解释了为什么最后,我们注意到,标准VQA模型,忽略任何文本信息,执行更差或相当于最好的这一观察结果证实了利用文本信息作为提高VQA模型性能的一种方式的必要性。我们通过使用视觉特征和基于PHOC的文本特征的组合略微改进VQA模型(SAAA和SAN)的结果来证明这种效果(有关详细信息,请参见SAAA+STR和SAN+STR基线描述)。为进一步分析基准模型为了进行比较,我们在图5中提供了两个条形图,其中显示了不同问题类型的具体结果。在大多数情况下,STR模型在ANLS方面优于PHOC嵌入的效果在SAN模型上尤其明显,可以正确回答诸如“哪一年”、“哪个公司”和“哪个”之类的问题类型。此外,没有一个模型能够回答有关车牌,“谁”和“什么号码”的问题这是将VQA视为纯分类问题的模型的固有限制,因为它们不能处理词汇表外的答案。在这方面,使用PHOC特征的重要性在于它们能够捕获单词的形态而不是它们的语义,如在其他文本嵌入中[41,45,6];因为数据集中的几个文本实例和答案在预先训练的语义模型中可能没有任何表示。使用像PHOC这样的形态嵌入可以提供Avg. 诺姆利未记随机STRST-OCRSAAASAAA+STRSanSAN+STR准确度(%)4298问:机器是什么牌子的?A:bongardSAN(CNN)+STR:raySAAA+STR: ray场景图像OCR:zbongardSTR(bbox):1问:巴士的路线是什么A:紫色路线SAN(CNN)+STR:66SAAA+STR:508场景图像OCR:1208STR(bbox):紫色问:高等法院在哪里?A:德里SAN(CNN)+STR:delhiSAAA+STR:delhi场景图像OCR:高STR(bbox): delhi问:本次活动的汽车赞助商是谁A:kiaSAN(CNN)+STR:kiaSAAA+STR: kia场景图像OCR:kinSTR(bbox):0问:黑色标签上写的是什么?A:GemoroSAN(CNN)+STR:圣乔治角SAAA+STR:esplanadeScene ImageOCR:gemorsSTR(bbox): genoaQ:有哪些甜点A:甜甜圈A:素食甜甜圈SAN(CNN)+STR:tSAAA+STR:Donuts场景图像OCR:175STR(bbox): north问:街道名称是什么?A:place d'armes SAN(CNN)+STR:10th StSAAA+STR:ramistrasseScene ImageOCR:问:什么是预热烤箱温度?答:350SAN(CNN)+STR:350SAAA+STR:0场景图像OCR:高STR(bbox):应收款图6.不同方法对ST-VQA数据集任务1(强情境化)的定性结果 对于每张图像,我们显示问题(Q),地面实况答案(蓝色)和不同方法提供的答案(绿色:正确答案,红色:错误答案,橙色:在准确性方面不正确的答案,但在ANLS方面部分正确(0。5≤ANLS1))。数据集的起点,包含多种语言的文本和答案,以及字典中的单词,如车牌、价格、方向、名称等。5. 结论和未来工作这项工作引入了一个新的和相关的层面的VQA域。我们提出了一个新的数据集视觉问题分类,场景文本VQA,其目的是强调适当利用以场景文本形式存在于图像中的高级语义信息的重要性,以告知VQA过程。该数据集包括高可变性的问题和答案,并且对当前VQA方法提出了极其困难的挑战我们彻底分析了ST-VQA数据集,通过执行一系列的实验与基线方法,建立了较低的性能界限,并提供了重要的见解。虽然我们证明了将文本信息添加到通用VQA模型会导致改进,但我们还表明,ad-hoc基线(例如基于OCR,利用上下文单词)可以超越它们,加强不同途径的需要。现有的VQA模型通常将问题作为分类任务来解决,但是在基于场景文本的答案的情况下,可能的类的数量是棘手的。对单个单词进行定义的词典也是有限的。相反,需要诸如在图像字幕中使用的生成流水线的生成流水线来捕获多词答案,并且从诸如数字、车牌或代码的字典字符串中所提出的度量,即平均归一化Levenshtein相似性,更适合于生成模型相比,评估分类性能,而在同一时间,它有一个平滑的响应的文本识别性能。致谢这项工作得到了项目TIN 2017 - 89779-P,Marie-Curie(712949 TECNIOspring PLUS),aB- SINTHE(BBVA基金会2017),CERCA计划的/ Generalitat de Catalunya,欧洲社会基金赠款(CCI:2014 ES 05 SFP 007 ) , NVIDIA 公 司 和 AGAUR(2019-FIB 01233)和UAB的博士奖学金4299引用[1] Manoj Acharya、Kushal Kafle和Christopher Kanan。Tal-lyqa:解决复杂的计数问题。在AAAI人工智能会议论文集,第33卷,第8076-8084页,2019年[2] Aishwarya Agrawal , Dhruv Batra , Devi Parikh , andAnirud- dha Kembhavi.不要只是假设;看一看并回答:有视觉问答的前科。在IEEE计算机视觉和模式识别会议论文集,第4971-4980页,2018年[3] 乔恩·阿尔马兹、阿尔伯特·戈多、艾丽西亚·福恩和欧内斯特·V·阿尔韦尼。单词识别和嵌入式的attribute。IEEETransactionsonPatternAnalysisandMachineIntelligence,36(12):2552[4] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在IEEE计算机视觉国际会议论文集,第2425- 2433页[5] AliFurkanBiten,Rube`nTito,AndresMafla,LluisGomez , MarcalRusinol , MineshMathew ,CVJawahar,ErnestVal-veny,andDimosthenisKaratzas.Icdar 2019竞赛现场文字视觉问答。arXiv预印本arXiv:1907.00490,2019。[6] Piotr Bojanowski,Edouard Grave,Armand Joulin,andTomas Mikolov.用子词信息丰富词向量Transactions ofthe Association for Computational Linguistics,5:135[7] FedorBorisyuk , AlbertGordo , andViswanathSivakumar. Rosetta:用于图像中文本检测和识别的大型系统。第24届ACM SIGKDD国际知识发现数据挖掘会议论文集,第71-79页。ACM,2018。[8] Michal Busta,Lukas Neumann,and Jiri Matas.深度文本分析器:一个端到端可训练的场景文本定位和识别框架。在IEEE计算机视觉国际会议论文集,第2204- 2212页[9] Prithvijit Chattopadhyay,Ramakrishna Vedantam,Ram-prasaath R Selvaraju,Dhruv Batra,and Devi Parikh.在日常场景中计算日常物品。 在IEEE计算机视觉和模式识别会议论文集,第1135-1144页[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年[11] Haoyuan Gao , Junhua Mao , Jie Zhou , ZhihengHuang,Lei Wang,and Wei Xu.你在跟机器说话吗?用于多语言图像问题的数据集和方法。神经信息处理系统的进展,第2296-2304页,2015年[12] Yunze Gao , Yingying Chen , Jinqiao Wang , andHanqing Lu.阅读场景文本与注意力卷积序列建模。arXiv预印本arXiv:1709.04303,2017。[13] Llu' ısGo'mez , Andre'sMafla , MarcRusinol ,andDimosthe-nis Karatzas.单镜头场景文本检索。法律程序欧洲计算机视觉会议(ECCV),第700-715页,2018年。[14] LluisGomez , YashPatel , Marc alRusinBachol ,DimosthenisKaratzas,and CV Jawahar.通过将图像嵌入到文本主题空间来进行视觉特征的自监督学习。在IEEE计算机视觉和模式识别会议论文集,第4230-4239页[15] Raul Gomez , Baoguang Shi , Lluis Gomez , LukasNeumann,Andreas Veit,Jiri Matas,Serge Belongie,and Dimosthenis Karatzas.icdar 2017在coco-text上的强大阅读挑战。2017年第14届IAPR国际文件分析与识别会议(ICDAR),第1卷,第1435- 1443页。IEEE,2017年。[16] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要:提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集,第6904-6913页[17] Caglar Gulcehre 、 Sungjin Ahn 、 Ramesh Nallapati 、Bowen Zhou和Yoshua Bengio。指着不认识的字。 在第54届计算语言学协会年会上,ACL 2016,第140-149页。计算语言学协会(ACL),2016年。[18] Danna Gurari , Qing Li , Abigale J Stangl , AnhongGuo , Chi Lin , Kristen Grauman , Jiebo Luo , andJeffrey P Bigham. Vizwiz大挑战:回答盲人的视觉问题。 在IEEE计算机视觉和模式识别会议论文集,第3608- 3617页[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[20] 何彤、田智、黄伟林、沈春华、乔宇、孙长明一个端到端的textspotter,具有明确的对齐和注意力。在IEEE计算机视觉和模式识别会议论文集,第5020-5029页[21] 何文豪,张旭尧,尹飞,刘成林。面向多场景文本检测的深度直接回归。在IEEE计算机视觉国际会议论文集,第745-753页[22] 马克斯·贾德伯格,凯伦·西蒙尼安,安德里亚·维达尔迪,和安德鲁·齐瑟曼.使用卷积神经网络在野外阅读文本International Journal of Computer Vision,116(1):1[23] J. 约翰逊湾哈里哈兰湖范德马滕湖飞飞C. Lawrence Zitnick和R.娘娘腔。Aidur:A diagnosticdataset for composite language and elementary visualreasoning. In Proceedings of the IEEE Conference计算机视觉和模式识别,第2901- 2910页,2017年。[24] Kushal Kafle , Brian Price , Scott Cohe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功