没有合适的资源?快使用搜索试试~ 我知道了~
单镜头场景文本检索Llu´ısGo´mez,Andr´esMafla,MarcalRusinol,and DimosthenisKaratzasC omputerVisionC enter,UniverrsitatAuto`nomadeBa rcelonaEdifici O,08193 Bellaterra(巴塞罗那),西班牙.{lgomez,andres.mafla,marcal,dimos}@ cvc.uab.es抽象。在场景图像中发现的文本信息提供了关于图像及其上下文的高级语义信息,并且可以利用它来更好地理解场景。在本文中,我们解决的问题场景文本检索:给定的文本查询,系统必须返回所有包含查询文本的图像。所提出的模型的新颖性在于使用单镜头CNN架构,该架构同时预测边界框和其中单词的紧凑文本表示。以这种方式,基于文本的图像检索任务可以被投射为在整个图像数据库上的CNN的输出上的查询文本表示的简单最近邻搜索。我们的实验表明,所提出的架构优于以前的国家的最先进的,同时它提供了一个显着增加的处理速度。关键词:图像检索·场景文本·词识别·卷积神经网络·区域建议网络·PHOC1介绍我们创造的世界充满了文字信息。大部分日常场景图像包含文本,特别是在城市场景中[1,2]。文本检测、文本识别和单词识别是近年来发展迅速的重要研究课题尽管在深度学习技术的出现推动下取得了重大进展[3],但无约束条件下的场景文本理解仍然是一个开放的问题,吸引了计算机视觉研究界越来越多的兴趣除了科学兴趣之外,一个关键的动机来自于由自动化场景文本理解实现的大量潜在应用,例如改进的基于场景文本的图像搜索、图像地理定位、人机交互、视力受损者的辅助阅读、机器人导航和工业自动化,仅举几例。场景图像的文本内容以显式的非平凡数据的形式携带高级语义,这通常不可能单独通过分析图像的视觉信息来获得例如,即使对于人类来说,自动标记图像(诸如图1中所示的图像)也是非常具有挑战性的。这些作者对这项工作做出了同样的2L. Go'mez,A. Mafla,M.RusinacetonolandD. Karatzas了图1.一、这种差异的使用范围是可以灵活变化的。如果不阅读其中的文本,似乎不可能正确地标记它们我们的场景文本检索方法返回所有的图像在这里显示的排名前10位的结果,甚至有一个10000的数据,为textuery“t e a”。如图1所示,茶店仅凭其视觉外观,而不实际阅读店面标志。最近的研究实际上表明,商店分类器最终会自动学习解释文本信息,因为这是区分企业的唯一方法[4]。近年来,已经提出了几种利用图像中包含的文本的尝试,不仅可以实现细粒度的图像分类[5,6],还可以促进图像检索。Mishra等人。 [7]介绍了场景文本检索的任务,其中,给定文本查询,系统必须返回可能包含此类文本的所有图像。成功地解决这样的任务需要快速的单词识别方法,能够很好地推广到训练期间从未见过的字典外查询实现场景文本检索的一种可能的方法是使用端到端的阅读系统,并简单地在其输出中查找查询词的出现已经表明[7],由于各种原因,这种尝试通常产生低性能。首先,值得注意的是,端到端阅读系统在不同的任务上被评估,并且在不同的度量上被优化,选择高精度,并且更经常地利用关于每个图像的显式信息(例如,针对每个图像给出的短字典)。相反,在检索系统中,更高数量的检测可能是有益的。其次,端到端系统通常在处理图像时速度较慢,这阻碍了它们在实时场景中的使用或用于索引大规模收藏.在本文中,我们提出了一个实时的,高性能的单词识别方法,检测和识别文本在一个单一的镜头。我们在大多数场景文本检索基准测试中展示了最先进的性能。此外,我们表明,我们的场景文本检索方法产生同样好的结果字典和字典外(从未见过)的文本查询。最后,我们表明,所得到的方法是显着的速度比任何国家的最先进的方法,在场景图像中的单词定位。所提出的架构基于YOLO[8,9],YOLO是一种众所周知的单次对象检测器,我们将其改写为PHOC(字符金字塔直方图)[10,11]预测器,因此能够同时有效地执行单词检测和识别。本文的主要贡献是论证了使用PHOC作为词表示而不是直接表示单镜头场景文本检索3在封闭字典上的词分类,提供了一种优雅的机制来概括任何文本字符串,允许该方法有效地处理字典外查询。通过学习预测单词的PHOC表示,所提出的模型能够将从训练数据中获得的知识转移到表示以前从未见过的单词本文的其余部分组织如下。第2节概述了场景文本理解任务的最新技术,第3节描述了单镜头场景文本检索的建议架构第4节报告了基于场景文本的图像检索在不同基准上获得的实验和结果最后,在第五节中给出2相关工作第一次尝试识别场景图像中的文本分为两个不同的步骤,文本检测和文本识别的问题。例如,在Jaderberg等人的工作中。[12]场景文本分割由文本建议机制执行,该机制后来由CNN进行了改进,该CNN回归了边界框的正确位置之后,这些边界框被输入到CNN,CNN根据预定义的词汇对其进行分类。古普塔等[13]遵循类似的策略,首先使用全卷积回归网络进行检测,并使用与Jaderberg相同的分类网络进行识别。 Liao等人[14,15]使用了适用于文本的SSD [16]对象检测架构的修改版本,然后使用CRNN [17]进行文本识别。然而,将问题分解成两个单独且独立的步骤呈现了重要的缺点,因为检测误差可能显著地阻碍进一步的识别步骤。最近,将问题作为一个整体来处理的端到端系统已经获得了社区的关注。由于分割和识别任务从端到端的角度高度相关Buvsta等人。 [18]提出使用全卷积神经网络进行文本检测,另一个模块采用CTC(连接主义时间分类)进行文本识别。这两个模块首先独立训练,然后进一步结合在一起,以形成端到端的可训练架构。Li等人。 [19]提出了一种管道,包括CNN以获得文本区域建议,然后是区域特征编码模块,该模块是LSTM的输入以检测文本。检测到的区域是另一个LSTM的输入,该LSTM输出要由LSTM解码的特征,并注意识别单词。从这个意义上说,我们坚信,单镜头对象检测范例(如YOLO[9])可以通过具有能够在独特步骤中定位和识别所需文本的独特架构,为场景文本识别领域带来许多好处然而,场景文本检索问题与经典场景文本识别应用略有不同在检索场景中,用户应该能够4L. Go'mez,A. Mafla,M.RusinacetonolandD. Karatzas投射他想要检索的任何文本查询,而大多数识别方法基于使用可能在场景图像内找到的单词的预定义词汇表例如,引入场景文本检索任务的Mishra等人[7]和Jaderberg等人[12]都使用固定词汇表来创建包含图像中单词存在的倒排索引这样的方法显然限制了用户,使其不能自由地抛出词汇表查询。为了解决这样的问题,基于n元语法频率的文本字符串描述符,如PHOC描述符,已经成功地用于单词识别应用[20,10,21]。通过使用文本字符串的矢量编码,用户可以在处理时转换任何查询,而不限于特定的词集。3单镜头单词识别体系结构所提出的架构,如图2所示,包括一个单镜头CNN模型,该模型同时预测边界框和其中单词的紧凑文本为了实现这一点,我们调整了YOLOv2对象检测模型[8,9],并将其转换为PHOC [10]预测器。虽然所提出的方法可以在我们选择YOLOv 2的其他对象检测框架之上实现,因为它可以比Faster R-CNN [22]等两阶段框架快10倍,并且处理时间对我们来说至关重要,因为我们的目标是以高分辨率处理图像以正确地处理小文本。YOLOv2架构由21个卷积层组成,其中Leaky ReLU激活和批量归一化[7]和5个最大池化层。它使用3× 3滤波器,并在每个池化步骤后将通道数量加倍,如VGG模型[17],但也使用1×1滤波器穿插在3× 3卷积之间来压缩特征图,如[9]。主干包括一个从第二个卷积层开始传递通过层,然后是最终的1× 1卷积层,其具有线性激活,其中滤波器的数量与用于对象检测的期望输出张量大小相例如在PASCAL VOC挑战数据集(20个对象类)需要125个过滤器来预测5个框,每个框有4个坐标,1个对象值,每个框box((4 + 1 + 20)×5 = 125).由此产生的模型达到了最先进的水平在目标检测中,具有比其他单次拍摄更模型,并具有实时对象检测功能。YOLOv2体系结构在单词识别任务中的一个直接应用是将每个可能的单词视为一个对象类。以这种方式,输出张量中的独热分类向量将针对每个边界框预测对可能单词的预定义列表(词典)中的单词类别概率分布进行编码。这种方法的缺点是,我们在模型可以检测到的单词数量方面受到限制。对于20个单词的字典,模型理论上可以执行PASCAL数据集的20个对象类,但对于更大的字典(例如,英语词汇表中100,000个最常用单词的列表[12])将需要一个包含500,000个过滤器的最终层,以及大量的训练单镜头场景文本检索5卷积网络输出张量(1 ×609)ab c d e...s t...z 0...9 a...9联系我们PHOC(1 ×604)图二.我们的卷积神经网络同时预测边界框坐标x,y,w,h,对象得分c,以及每个边界框中单词的字符金字塔直方图(PHOC)。如果我们想为100,000个类中的每一个类都有足够的样本,就需要使用数据即使我们能够设法训练这样一个模型,它仍然会受到字典大小的限制,并且无法检测到任何不存在的单词。我们希望有一个能够泛化到在训练时没有看到的单词的模型,而不是固定词汇表的方法。这是将网络作为PHOC预测器的基本原理。PHOC [10]是文本字符串的紧凑表示,如果特定字符出现在字符串的特定空间区域中,则进行编码(参见图3)。直观有效学习预测PHOC表示的模型将隐含地学习识别特定区域中特定字符的存在通过独立地学习字符属性来创建边界框。这样,从训练数据获取的知识可以在测试时间针对在训练期间从未观察到的单词进行转移,因为在单词的特定位置处的字符的存在独立于单词中的其他字符转换为PHOC表示此外,PHOC表示提供了无限的表现力(它可以表示任何单词),具有固定长度的低维二进制向量(在我们使用的版本中为604维为了使YOLOv2网络适应PHOC预测,我们需要解决这个描述符的一些特殊性首先,由于PHOC表示不是一个热向量,我们需要在分类输出中摆脱YOLOv2使用的softmax函数。其次,由于PHOC是二进制表示,因此将对应于PHOC向量的网络输出压缩到范围0…1.为了实现这一点,在最后一层中使用了sigmoid激活函数。第三,我们建议修改原始的YOLOv2损失函数,以帮助模型完成学习过程。原始YOLOv2模型优化了以下多部分损失函数:L(b,C,c,nb,Cn,cn)=λboxLbox(b,nb)+Lobj(C,Cn,λobj,λnoobj)+λclsLcls(c,cn)(1)X y W H C 10 0 0 1十一...0 0...0 0...06L. Go'mez,A. Mafla,M.RusinacetonolandD. KaratzasL1超越abcde【· · ·】m no【· · ·】xyzBeyL2翁德贝L3哟nda b c dea b c dea b c dea b c dea b c de【· · ·】【· · ·】【· · ·】【· · ·】【· · ·】m nom n om nom n om n o【· · ·】【· · ·】【· · ·】【· · ·】【· · ·】x y zx y zx y zx y zx y z了 图 3. 第 三 章 。 Pyramidalh 是 本 书 “beyond” 第 1 、 2 和 3 级 的 字 符 串(PHOC)[10]的语法。最终的PHOC表示是这些部分直方图的级联。其中b是具有坐标到锚定边界框的偏移的向量 所有上述损失本质上是地面真值(b,C,c)和prdicted(b,C,c)值的平方和误差。在PH0C实施例中,在具有1个值的非限制性阈值的情况下,选择在L分类中使用交叉熵损失函数,如在多标签分类任务中Lcls(c,c)= −1ΣNNn=1[cnlog(cn)+(1−cn)log(1−cn)](2)其中N是PHOC描述符的维度。与[8]类似,平方和误差Lbox和Lobj与交叉熵损失Lcls的组合由缩放参数λbox、λobj、λnoobj和λcls控制。除了到目前为止在原始YOLOv2架构之上所做的修改之外,我们还更改了网络用于预测边界框的预定义锚框类似地,如在[8]中,我们已经通过要求对于每个边界框注释,在B中存在至少一个锚框,其中交集在并集上至少为0,为我们的训练数据集找到了锚框B的理想集合。6.图4展示了13个边界框,它们更适合我们的训练数据,以及它们与对象检测模型中使用的边界框的差异在测试时,我们的模型提供了总共W/32 × H/32 × 13个边界框建议,W和H是图像输入大小,其中每个都有一个o bjctnescore(C)和一个PHOCprdiction(c)。YOLOv2模块的一般性使用检测阈值τ对边界框候选进行过滤,考虑到如果C(max(c())彡τ,则边界框是有效的。如果满足该holdcition,则应用非最大抑制(NMS)策略以去除单镜头场景文本检索7a)b)c)图4.第一章COCO中用于对象检测的原始YOLOv2模型中使用的锚框(a)PASCAL(b)数据集。(c)我们的文本检测锚框集。对同一物体的重叠探测在我们的情况下,阈值仅应用于b_j_e_s_e(C()),但具有多个平均值(τ=0)。0025)比原始模型(τ≈ 0. 2),我们不应用NMS。的原因一个词的存在的任何证据,即使它很小,它可能是如果其PHOC表示与所查询单词的PHOC具有小的距离,则在检索方面是有益的。有了这个阈值,我们为数据集中的每个图像生成平均60个描述符,所有这些描述符都符合我们的检索数据库。以这种方式,在整个图像数据库中的CNN的输出上,利用查询PHOC表示的简单最近邻搜索来执行给定查询词的场景文本检索。虽然PHOC之间的距离通常是使用余弦相似度计算的,但我们没有发现使用欧氏距离进行最近邻搜索有任何明显的缺点。3.1实现细节我们已经在Gupta等人的合成数据集的修改版本中训练了我们的模型。[13]。首先,数据集生成器已均匀修改为使用 Jaderberg等人 [12]提出的具有90K最频繁英语单词的自定义词典,而不是Gupta等人最初使用的Newsgroup20数据集[23]词典。其基本原理是在原始数据集中没有控制单词出现,并且单词实例的分布对新闻组电子邮件中发现的停止词有很大的偏见此外,Newsgroup20数据集的文本语料库包含具有特殊字符和非ASCII字符串的单词,我们在PHOC表示中没有考虑最后,由于具有强旋转的单词的PHOC表示在所采用的金字塔方案下没有意义,因此修改数据集生成器以允许旋转文本高达15度。通过这种方式,我们生成了一个包含100万张图像的数据集,用于训练目的。图5显示了我们训练数据的一组8L. Go'mez,A. Mafla,M.RusinacetonolandD. Karatzas图五.使用Gupta等人 [13]的方法的修改版本生成的合成训练数据。我们使用了一个自定义词典,其中包含90K最常见的英语单词,并将随机旋转的范围限制为15度。该模型使用SGD对数据集的30个时期进行训练,批量大小为64,初始学习率为0。001,动量为0。9,衰减为0。0005.我们使用在Imagenet上预训练的YOLOv2主干初始化模型的权重。在前10个时期,我们只训练模型对于单词检测,没有反向传播PHOC预测的损失,并使用448× 448的固定输入大小 在接下来的10个时期,我们开始学习PHOC预测输出,其中λcls参数设置为1。0. 之后,我们继续学习10个epoch,学习率为0。0001,并将参数λbox和λcls设置为5。0和0。015分别。在他我们还采用了多分辨率训练,通过在352× 352到800× 800范围内的14种可能的尺寸中随机选择输入图像,并在我们的训练数据中添加新的样本。特别是,添加的样本是ICDAR2013 [24]和ICDAR2015 [25]数据集的1,233个训练图像在整个训练过程中,我们使用了与在[8]中。4实验和结果在本节中,我们提出了基于文本的图像检索的不同标准的基准上获得的实验和结果首先,我们描述了在我们的实验中使用的数据集,之后,我们提出了我们的结果,并将它们与出版的最先进的。最后,我们讨论了所提出的检索方法的可扩展性。4.1数据集IIITSceneText Retrieval(STR)[7]数据集是一个场景文本图像检索数据集,由从Google图像搜索引擎和Flickr收集的10,000张图像组成。数据集有50个预定义的查询词,提供它们中的每一个10-50个相关图像(包含查询词)的列表。这是一个具有挑战性的数据集,其中相关文本出现在许多不同的字体和样式,并从不同的观点,在许多干扰因素(图像没有任何文字)。单镜头场景文本检索9IIIT Sports-10 k数据集[7]是另一个场景文本检索数据集,由从体育视频剪辑中提取的10,000个图像组成。它有10个预定义的查询词与其相应的相关图像在这个数据集中的场景文本检索是特别具有挑战性的,因为图像是低分辨率的,往往是嘈杂或模糊的,与小文本通常位于广告招牌。街景文本(SVT)数据集[26]由从Google街景中获取的图像组成,其中显示了来自商业标志和名称的文本。 它包含了900多个单词,在350个不同的图像中进行了注释。在我们的实验中,我们使用官方分区,将图像分割为100张图像的训练集和249张图像的测试集。该数据集还提供了一个每个图像50个单词的词典,用于识别目的,但我们没有使用它。对于图像检索任务,我们认为作为查询的427个独特的词注释的测试集。4.2场景文本检索在场景文本检索任务中,目标是检索数据集分区中包含查询词实例的所有图像。给定一个查询,数据库元素根据包含查询词的概率进行排序。我们使用平均精度作为准确性度量,这是检索任务性能的标准度量,基本上相当于精度-召回曲线下方的区域请注意,由于系统总是返回一个包含数据集中所有图像的排名列表,因此召回率总是100%。替代性能测量包括仅考虑排名前η的图像并且计算在该特定截止点(P@n)处的精度。表1将所提出的方法与用于在IIIT-STR、Sports-10 K和SVT数据集上进行基于文本的图像检索的现有我们展示了使用两种不同输入大小(576× 576和608× 608)的同一训练模型的平均精度(mAP)和处理速度,以及将模型的输出以三种分辨率(544,576和608)。处理时间已经使用Titan X(Pas- cal)GPU计算,批处理大小为1。我们意识到,我们的方法优于以前公布的方法在两个基准测试,而它显示了竞争力的性能上的SVT数据集。 为了与最先进的端到端文本识别方法进行比较,我们还提供了与B u ˇ sta等人的模型的预测试结果的比较。[18] Heet a l. [27]第10段。对于基于识别的结果,通过查询与由每个模型检测到的文本之间的直接匹配来执行查找即使当使用预定义的最后,我们与He等人 [27]的变体进行了比较,但这次查询和模型可以看出,PHOC空间没有为端到端识别方法提供任何优势。10L. Go'mez,A. Mafla,M.RusinacetonolandD. Karatzas表1.与基于文本的图像检索的先前技术状态的比较:IIIT-STR和Sports-10 K以及SVT数据集的平均精度(mAP)(*)Mishra等人报道的在[7]中,不是原始作者。(†)使用原作者公开代码计算的结果方法STR(mAP)体育(mAP)室上性心动过速(mAP)FPSSWT [28]+ Mishra等人[29] Wanget al. [ 26日]----19.2521.25美元 *TextSpotter [30]--23.32*1.0Mishra等人[七]《中国日报》42.7-56.240.1Ghosh等人[三十一]--60.91米什拉[32]44.5-62.150.1A lmaza'netal. [10个国家]--79.65[34]第三十三话:我的世界64.9†67.5†85.90†0.4Jaderberg等人[12个]66.566.186.300.3B uˇstaetal. [18个国家]62.94†59.62†69.37†44.21He等人[27日]50.16†50.74†72.82†1.25Heet al. [27](with dictionary)66.95†74.27†80.54†2.35He等人 [27](PHOC)46.34†52.04†57.61†2.35拟定(576 ×576)68.1372.9982.0253.0拟定(608 ×608)69.8373.7583.7443.5建议(多分辨率)71.3774.6785.1816.1表2通过在Sports-10 K数据集上在10(P@10)和20(P@20)处的精度表2.与基于文本的图像检索的先前技术状态的比较:对于Sports-10 K数据集,在n(P@n)处的精度。方法体育-10 K(P@10)体育-10 K(P@20)Mishra等人[七]《中国日报》44.8243.42米什拉[32]47.2046.25Jaderberg等人[12个]91.0092.50拟定(576 ×576)91.0090.50建议(多分辨率)92.0090.00在表3中,我们显示了Sports-10 K数据集在10和20时的与其他查询相比,查询“castrol”的低性能然而,通过可视化该查询的前10个排名的图像,如图6所示,我们可以看到数据集具有许多未注释的“castrol”实例真正的P@10单镜头场景文本检索11我们的模型实际上是90%而不是50%。看来注释器没有考虑被遮挡的单词,而我们的模型能够以一致的方式检索部分遮挡的图像实际上,在前10个没有“castrol”单词的图像中,唯一检索到的图像通过人工检查,我们计算出P@10和P@20为95。0和93。5的比例。表3.Sports-10 K每查询平均精度(AP),P@10和P@20得分。AP94167461777592708989P@101005010090100801009010090P@201005510085100851009510090了图 六、 以便为查询“cas t rol”排序数据。我们的模型在训练时没有看到这个词。总的来说,“castrol”查询所表现出的性能我们通过分析我们的模型在训练过程中没有看到的六个IIIT-STR查询词的结果,进一步支持了这一图7示出了查询“apollo”、“bata”、“bawarchi”、“maruti”、“newsagency”和“vodafone”的排名前5的图像在所有 其中,我们的模型在5.就mAP而言,与使用作为训练集一部分的其他单词获得的结果相比,这些查询的结果并没有显示出特别的下降这六个单词的平均精确度是74。92,阿迪达斯嘉实多占空免费现代诺基亚巴基斯坦百事依赖索尼12L. Go'mez,A. Mafla,M.RusinacetonolandD. Karatzas了图7.第一次会议。从底部开始,对“a pollo”、“bata”、“b a warch i”、“m a rut i”、“newsa g e n c y”和“v o d a f o n e”等问题进行排序。尽管在训练时没有看到这些单词,但它能够为所有单词实现100%的P@5。单镜头场景文本检索13而对于剩余的44个查询是69个。14. 为了进一步分析我们的模型为此,我们手动将一些带有不同拉丁脚本语言(法语,意大利语,加泰罗尼亚语和西班牙语)文本的图像添加到IIIT-STR数据集。我们已经观察到,我们的模型虽然只使用英语单词进行训练,但总是能够正确地检索任何这些语言的查询文本为了分析我们的模型所产生的错误,我们手动检查了我们的模型的输出以及五个查询的基础事实IIIT-STR数据集上的较低mAP:“ibm”、“indian”、“institute”、“sale”和“technology”。在大多数这些查询中,我们的模型的低准确性可以解释为数据库中只有非常小和模糊的实例。在“ibm”的情况下,这个词的所有实例中的特征字体类型往往被我们的模型忽略,并且对于一些计算机生成的图像(即,“ibm”)也发生了同样的情况。非场景图像),其包含单词图8示出了这些实例的一些示例总而言之,分析表明,虽然我们的模型能够很好地泛化训练时未看到的文本字符串,但我们的直觉是,这个问题可以通过更丰富的训练数据集轻松缓解。图8. 错误分析:我们的模型产生的大部分错误都来自于具有特定样式、字体类型、大小等的文本实例这在我们的训练数据中并没有很好地体现出来。4.3检索速度分析为了分析所提出的系统的检索速度,我们已经运行了检索实验的IIIT-STR和体育-10K数据集与不同的近似最近邻(ANN)算法在一个标准的PC与i7 CPU和32 Gb的RAM。在表4中,我们认识到,那些ANN方法,搜索时间在索引样本的数量中是次线性的,达到检索速度比基于球树的精确最近邻搜索快几个数量级,而不会导致检索精度的任何显著损失。14L. Go'mez,A. Mafla,M.RusinacetonolandD. Karatzas表4.IIIT-STR和Sports数据集上不同近似最近邻算法的平均精度和检索时间性能(秒)IIIT-STR Sports-10K算法地图secs PHOC数量地图secsPHOC数量基线(球树)0.69830.4321620K0.73750.68261M[35]第35话0.68830.0027620K0.72840.03721M[36]第36话0.69220.0018620K0.72470.02231MFalconn LSH(approximatelyNN)[37]0.69030.0151620K0.72010.01781M5结论在本文中,我们详细介绍了一种实时单词识别方法,基于一个简单的架构,使其能够检测和识别文本在一个单一的镜头和实时的速度。所提出的方法显着改善了IIIT-STR和Sports-10 K数据集上的场景文本检索的最新结果,同时产生与SVT数据集中的最新结果相当的此外,与其他现有技术方法相比,它可以实现更快的速度重要的是,所提出的方法完全能够处理字典外(以前从未见过)的文本查询,与以前在训练集中看到的查询词这是由于使用PHOC作为单词表示,而不是针对直接的单词分类。可以看出,网络能够学习如何有效地提取这种表示,很好地推广到看不见的文本字符串。合成具有不同特征的训练数据可以提高性能,并且是我们未来将探索的方向之一,同时研究PHOC以外的词嵌入的使用在 这 项 工 作 中 使 用 的 代 码 , 预 训 练 模 型 和 数 据 在https://github.com/lluisgomez/single-shot-str上公开。确认这项工作得到了西班牙研究项目TIN 2014 - 52072-P、CERCA计划/加泰罗尼亚政府、欧盟H2020 Marie Skodowska-Curie行动(赠款协议编号712949)的部分 支 持 。 ( TECNIOspring PLUS ) 、 加 泰 罗 尼 亚 政 府 商 业 竞 争 力 署( ACCIO ) 、 CEFIPRA 项 目 5302-1 和 “aB-S I NT HE-AYU DASFUNDACIO´NBBVAAEQUIPOSDEINVESTIGACIONCIENTIFICA 2017.我们非常感谢NVIDIA公司捐赠用于本研究的Titan X PascalGPU单镜头场景文本检索15引用1. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:Microsoft COCO:上下文中的公用对象。In:Proc. of theEuropeanConferencéonComputerVision,Springer(2014)740-7552. Veit,A.,Matera,T.诺伊曼湖Matas,J.,Belongie,S.:COCO-text:自然 图 像 中 文 本 检 测 和 识 别 的 数 据 集 和 基 准 arXiv 预 印 本 arXiv :1601.07140(2016)3. LeCun,Y.,Bengio,Y.,Hinton,G.:深度学习Nature 521(7553)(2015)4. Movshovitz-Attias,Y.余,Q,Stumpe,M.C.,Shet,V.,Arnoud,S.,Yatziv,L.:街景店面细粒度分类的本体监督。IEEE计算机视觉与模式识别会议论文集。(2015)16 935. Karaoglu,S.,陶河van Gemert,J.C.,Gevers,T.:Context:文本检测,用于 细 粒 度 对 象 分 类 。 IEEE Transactions on Image Processing 26 ( 8 )(2017)39 656. Bai,X.,杨,M.,Lyu,P.,Xu,Y.:集成场景文本和视觉外观,使用卷积神经网络进行细粒度图像分类。arXiv预印本arXiv:1704.04613(2017)7. Mishra,A. Alahari,K.,Jawahar,C.:使用文本线索的图像检索。In:Proc. oftheIEEEInter natin (2013)30408. Redmon,J.,Divvala,S.,格尔希克河Farhadi,A.:你只看一次:统一的实时物体检测。在:IEEE计算机视觉和PATTERNRECOGNITION会议上。(2016)7799. Redmon,J.,Farhadi,A.:YOLO9000:更好、更快、更强。arXiv预印本arXiv:1612.08242(2016)10. Almazan'n,J., G〇rd〇,A., 对于A来说 Valveny,E. :使用嵌入式属性创 建 和 重 新 定 位 。 IEEE Transactionson PatternAnalysisandMachineIntelligence36(12)(2014)2552-256611. Sudholt,S.,Fink,G.A.:Phocnet:一个深度卷积神经网络,用于手写文档中的单词识别。在:IEEEInternationalConferenceonFrontiersinHandwritingRecognition. (2016)27712. Jaderberg,M.,西蒙尼扬,K.,Vedaldi,A.,齐瑟曼,A.:使用卷积神经网络在野外阅读文本。国际计算机视觉杂志116(1)(2016)113. Gupta,A.,Vedaldi,A.,齐瑟曼,A.:用于自然图像中的文本定位的合成数据。In:Proc.在IEEE计算机视觉和模式识别会议上。(2016)231514. Liao,M.,施,B.,Bai,X.,王,X.,刘伟: Textboxes:一个具有单个深度神经网络的快速文本检测器。在:AAAI人工智能会议的论文集。(2017)416115. Liao,M.,施,B.,白X:文本框++:一种面向单镜头的场景文本检测器。arXiv预印本arXiv:1801.02765(2018)16. 刘伟,Anguelov,D.,Erhan,D.,塞格迪角Reed,S.,Fu,C.Y.,Berg,A.C.:SSD:单次触发多盒探测器。In:Proc. of the European Conference onComputerVision,Springger(2016)2117. 施,B.,Bai,X.,Yao,C.:一个端到端可训练的神经网络用于基于图像的序列识别及其在场景文本识别中的应用。IEEE Transactions onPattern Analysis and Machine Intelligence 39(11)(2017)16L. Go'mez,A. Mafla,M.RusinacetonolandD. Karatzas18. Buvsta,M.,诺伊曼湖Matas,J.:深度文本分析器:一个端到端可训练的场景文本定位和识别框架。In:Proc.的IEEE Interna-tionalCo nferenceo nComputerVisio n.(2017)220419. Li,H.,王,P.,沈C:使用卷积递归神经网络 arXiv预印本arXiv:1707.03985(2017)20. Aldavert , D. , Rusin〜 ol , M. , 托 莱 多 河 , LLADO 的 , J 。 :I_t_e_g_t_i_g_v_i_u 在 : Proc.oftheIEEEInternationalCon-fe-nceonDocumentAnalyisandRecognition. (2013年)51121. 戈什,S.K.,Valveny,E.: 基于字符串词识别的查询克索引在:IEEE国际会议论文集,关于文档分析和检索。(2015)88122. Ren,S.,他,K.,格尔希克河孙杰: 更快的R-CNN:实现实时对象使 用 区 域 建 议 网 络 进 行 检 测 。 In : Proc. of the International ConferenceonNeuralIin NPr oce s S y stinSys. (2015)9123. Lang,K.,Mitchell,T.: 新闻组20数据集。(1999年)24. Karatzas , D. Shafait , F. , Uchida , S. , Iwamura , M. i Bigorda , L.G. ,Mestre,S.R.,Mas,J.,Mota,D.F.,Almazan,J.A.,De Las Heras,L.P.:ICDAR 2013年稳健阅读竞赛。在:IEEE国际会议论文集,关于文档分析和检索。(2013)148425. Karatzas,D.戈麦斯-比戈达湖Nicolaou,A.,Ghosh,S.,Bagdanov,A.,岩村M.,Matas,J.,诺伊曼湖钱德拉塞卡V.R. Lu,S.,等:ICDAR 2015年关 于 稳 健 阅 读 的 竞 赛 。 In : Proc.IEEE International Conference onDocumentA nalysis and Reg ni t itio n.(2015)115626. Wang,K.,Babenko,B.,Belongie,S.: 端到端场景文本识别。 In:Proc.的IEEEIinterrnat io nC o n f e r Con p u t e r V i s o n的所有C o n feren f e rCo n f e r V i s on。(2011) 145727. 他 T 田 志 黄 伟 , Shen , C. , Qiao , Y. , Sun , C. : 一 个 端 到 端 的textspotter,具有明确的对齐和注意力。在:CVPR中。(2018年)28. Epshtein,B.,Ofek,E.,Wexler,Y.: 自然场景中的笔画文字检测宽度变换在:IEEE计算机视觉和图形学会议的论文集中。(2010)296329. Mishra,A.Alahari,K.,Jawahar,C.:场景文本的自上而下和自下而上提示识别.在:IEEE计算机视觉和模式识别会议的论文集中。(2012)268730. 诺伊曼湖Matas,J.:实时场景文本定位与识别。In:Proc.IEEE计算机视觉与模式识别会议(2012年)31. 戈什,S.K.,戈麦斯湖Karatzas,D. Valveny,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功