复杂场景下的文本定位和检索方法研究

180 浏览量更新于2023-10-16 收藏 2.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1杂乱场景荣雪坚<$楚才毅<$田英丽<$美国纽约市立大学城市学院§HERE North America LLC，美国{xrong，ytian}@ ccny.cuny.educhucai. here.com摘要文本实例作为一类自描述对象，为理解和描述复杂场景提供了重要的信息。在本文中，我们探讨了明确的文本定位和检索的任务，准确地定位一个特定的目标文本实例在一个混乱的图像给定的自然语言描述，是指它。为了解决这个问题，首先提出了一种新的递归密集文本定位网络（DTLN），以顺序地将杂乱场景图像的中间卷积表示解码为一组不同的文本实例检测。我们的方法避免了重复检测在多个尺度的同一文本实例，通过循环记忆，ING以前的检测，并有效地处理拥挤的文本实例非常接近。其次，我们提出了一个上下文推理文本检索（CRTR）模型，该模型通过一个递归网络联合编码文本实例及其上下文信息，并通过上下文兼容性的评分函数排名本地化的文本边界定量自然语言文本实例检索文本识别通过对标准场景文本定位基准测试和一个新的场景文本检索数据集的测试，验证了该模型在场景文本定位和检索方面的有效性和优越性。1. 介绍场景图像中的文字、词语、字符串等文本实例为理解和解释场景提供了最简洁、最准确的自然语言表达。从基于摄像机的自然场景中读取文本信息，即场景文本提取，在场景理解及其相关应用中发挥着重要作用，如导航、定位、上下文检索、端到端机器翻译和视障者寻路等。然而，现有的场景文本提取方法大多将文本实例视为对象的一个通用类别，并试图将文本实例编码为可分离的图1：一个明确的文本本地化和检索的例子. 给定一个杂乱的场景图像和候选文本边界框（白色，由建议的DTLN检测CRTR模型用于检索基于自然语言描述的特定文本实例（它可以根据文本属性、空间配置和上下文信息对文本框进行评分和排名。特征表示，然后将场景中存在的所有文本实例分配给预定义的预测标签。这意味着文本实例并不能比其他对象对场景的理解和描述做出更大的贡献，即使文本与上下文环境更相关，并且在语义上是自我描述的。准确地说，对于自然场景图像中的文本实例，当前主流的文本提取方法可以生成它们的位置和顺序字符代码，我们将其称为空间和文字信息。然而，为了全面地描述和解释一个高度杂乱的自然场景，更高层次的线索，如语义和概念，5494“$398”一堆橘子上的大文本红色和黄色的文字在中间右上角的白色文本5495文本信息是必要的。已经有很多工作探索场景文本提取的实际应用，例如杂货店的购物助理[1，2]，特别是对于盲人或视力受损的人。但是，只有当用户感知到文本实例来自何处时，文本信息才有助于场景理解。例如，当盲人或视力受损的人在杂货店中使用场景文本提取来帮助查找产品的价格时，他/她会更喜欢购物助理应用程序为了生成自然语言描述，例如{在一篮红苹果上方的红色标志上的大字，在右侧}，而不是从文本提取的离散和无序的单词列表，如图所示。1.一、此外，委员会认为，在日常生活中，由于精细识别过程通常发生在粗略定位1之后的大脑中，所以对于人类来说，基于对象和场景文本实例的属性、外观和空间配置来参考它们是更自然的。为了更好地利用自然场景中的文本信息，本文探讨了文本实例与其上下文之间的关系。我们提出了一个新的框架，基于文本的场景理解，它结合了本地化的文本实例从一个场景的信息和明确的自然语言描述本地化的文本实例。这种自然语言描述被称为指称表达[3，4，5]。我们知道，如果文本实例被准确地定位，则文本实例的上下文描述对于整个场景的理解和描述是有效的。能够从自然图像中重新检索场景文本实例是至关重要的在使用自然语言接口的许多应用中，例如控制机器人（例如，Alexa，请阅读我的绿色笔记旁边的冰箱}），或与照片互动编辑软件（例如，{Picasa，请模糊灰色前门上的白色门牌号}）此外，它还为视觉和语言系统的研究提供了一个本文的贡献有三个方面。首先，我们提出了一个基于文本的场景理解框架，它结合了文本包围盒的定位其次，我们提出了场景文本实例与场景图像中的上下文概念之间的关系建模。第三，构建了一个新的大规模数据集，用于评估无歧义文本实例检索的性能。该框架首次提出了基于图像的场景文本本地化与本地化文本实例的基于语言的描述的联合建模解决方案。该方法扩展了传统的场景文本检索任务，可用于复杂场景的理解和在我们提出的框架中，场景文本实例的空间信息和场景文本位置可以提供关键和1http://tinyurl.com/nerorec用于场景图像的整个或区域的上下文描述的精确信息，而上下文描述可以提供更用户友好的方式来将所提取的文本信息及其上下文结合到实际应用中。2. 相关工作通常，文本检测与识别、文字图像检索、图像字幕与描述、指称表达的生成与理解可以看作是同一视觉语言超任务的不同方向，共同对自然语言信息和图像内容进行建模。我们讨论这些相关领域如下。在野外进行文本提取。场景文本提取包括文本本地化和文本识别。作为国家-现有的文本识别技术在裁剪后的文字图像上的识别准确率已经达到98%以上[6]，文本定位性能大多数现有的文本定位方法[7，8，9，10，11]通常采用基于滑动窗口或连接组件的自下而上的流水线，其通常是硬编码的，鲁棒性和可靠性较差，并且其性能严重依赖于低级图像滤波。尽管卷积神经网络（CNN）大大改进了通用对象检测，但由于场景文本实例的外观和结构高度可变且不确定，因此从杂乱场景图像中定位文本仍然是一个具有挑战性的问题[12，13，14]。最近，在[15]中提出了一种新的合成文本数据集，用于训练一个完全卷积回归网络，用于文本本地化，类似于YOLO [16]，并在几个流行的数据集上取得了不错的结果，尽管失败经常发生在微小或拥挤的文本实例上。此外，类似YOLO的方法不能从一个网格单元预测两个以上的实例，而我们提出的模型能够从一个小区域生成可变长度的预测集，并以高密度处理拥挤的实例。[17]旨在使用LSTM水平连接顺序的精细文本提案，从而在文本本地化方面实现最佳性能然而，在实际应用中，很容易违反水平文本行的强假设。许多深度神经网络[18，19，20]被提出来有效地将场景图像或其子区域编码为分类任务的特征表示，这些网络可以用于场景文本提取。然而，在杂乱的场景图像中，它们忽略了文本实例与其周围对象之间的关系.在我们提出的DTLN网络中，CNN仍然用于获得场景图像的深度卷积表示，但我们采用基于长短期记忆（LSTM）[21]的解码器来联合建模文本实例及其上下文。这种架构在生成图像字幕[22]和机器翻译[23]方面工作得非常好与5496场景文本图像DTLNLSTM解码器512CNN编码器1停止11520CNN编码器局部目标特征红底白字联合预测CRTRe一堆苹果不篮子里的苹果红a一个拿着红色水果的人一堆橙苹果一堆红苹果对箱白色字母黑色金属衬衫穿蓝衣服的男人LSTM语言查询方式：“whiteLSTM当地LSTM全球空间和关系特征全局上下文特征图2：建议的密集文本定位网络（DTLN）和上下文推理文本检索（CRTR）模型的架构。对于输入图像，DTLN模型直接将CNN特征解码为可变长度的文本实例候选集CRTR模型汇集了来自三个不同LSTM模型的信息，并对候选文本区域进行联合评分和排名，由DTLN生成。借助LSTM网络，我们提出的DTLN可以记住先前生成的文本边界框，并避免在多个尺度上重复检测同一目标。图片说明和指称表达。提出了几种方法来探索自然语言对场景图像的描述和解释[24]。在最近的工作[3]中，图像内容由CNN的隐藏激活表示，然后作为输入馈送到LSTM框架中用于字幕生成。然而，这些图像字幕方法的目的是描述整个图像，没有建模的文本实例或一些通用对象及其上下文的空间定位。我们的方法采用了类似的网络架构来生成本地化文本区域的上下文描述。在视觉语言学研究领域，语境描述与概念指称表达密切相关。指称表达式生成是自然语言处理中的一个经典问题。在这个问题中有几个重要的问题。它探讨了人们通常用来描述视觉对象的属性类型，并处理了高阶关系的使用（例如，空间比较）[4]。然而，场景图像的文本实例的引用表达仍然未被探索，我们的框架利用场景文本的上下文描述，从杂乱的场景图像中提取目标本文的其余部分组织如下。秒3提出了我们提出的深度神经网络，用于从基于图像的特征进行密集场景文本定位，以及从基于语言的上下文描述进行场景文本秒4描述了在标准基准数据集上定位文本实例的实验，以及在自建数据集上通过上下文描述检索目标文本实例的实验。秒5、结束本文。3. 拟议框架3.1. 卷积编码网络我们的框架采用VGG-16架构[20]将场景图像I编码为512维特征描述符的M×N网格详细地说，VGG- 16网络由13层3×3卷积和5层2×2最大池化交织层组成。我们在最终池化层之前绘制网络数据作为特征图，即conv5。特征图覆盖了原始场景图像的大感受野，并对ImageNet [25]中的对象类别进行编码，然后将其输入到2×2的平均池层中。54973.2. 密集序列文本定位虽然场景文本实例在检测阶段通常被视为一种特殊的对象类别，但其高度变化的外观/尺度和自我描述属性显着区别于一般对象。如上所述的卷积编码网络将原始场景图像的跨越区域编码成512维特征描述符的向量。根据基于LSTM的语言模型的最新发展[23，26]，我们构建了一个递归解码器，以便对所有潜在的目标对象进行联合预测，这些目标对象是我们框架中的场景文本实例。基于CNN的编码器与基于LSTM的解码器的组合在我们的框架中起着至关重要的作用它能使基因-LSTM单元，并将结果馈送到下一个LSTM单元。该网络通过LSTM解码器学习在文本实例的边界框上精确回归。在训练过程中，基于LSTM的解码器输出一组过完备的边界框以及它们的置信度分数。具有较高置信度分数的边界框在COCO-TextRef数据集上，我们将过完备集限制为前5个预测。在我们的实验中，更多的预测大大增加了计算复杂度，但没有获得明显的性能改善。在训练过程中，依次生成文本包围盒的假设。文本边界框输出由LSTM表示，由6维向量b={b，b}，其中b=[bx，by，bw，bh，bw·bh]∈R5是以可变长度对连贯的预测集进行运算位置cPOSWHWHW·H这些属性已成功用于生成图像标题[22]，机器翻译[23]和人员检测[27]。[27]中的方法在人检测方面效果很好，但不涉及具有高度不规则和变化空间构型的对象的检测。另外，该方法主要是为了解决场景文本实例很少出现的遮挡问题。生成连贯集的能力在我们的任务中至关重要，因为没有关于在局部区域中会出现多少文本实例的先验知识，并且我们的系统需要记住先前生成的文本预测并避免对同一目标的重复预测。解码过程。512维特征描述符概括了跨越区域的内容，并承载了关于跨越区域内对象的大小、位置和类别的信息基于LSTM的解码器将从这些CNN编码的特征描述符中智能地提取目标场景文本实例基于LSTM的解码器顺序地输出新的边界框及其对应的置信度分数。该分数指示在边界框的位置处可以找到先前未检测到的文本实例的概率。按照置信度分数的降序生成绑定框。当基于LSTM的解码器无法在跨步区域中找到更多具有更高置信度分数的边界框时，产生停止符号以结束整个解码过程。收集来自场景图像的所有跨步区域的所有输出边界框和置信度分数作为场景文本实例的预测。实作详细数据。根据卷积编码网络，场景图像中有M×N个跨越区域，因此相同数量的M×N个LSTM控制器在1×1×512个网格单元上并行运行。在我们的框架中，我们根据实验结果设置 M=15 和N=20LSTM单元有500个记忆状态，没有偏置项，也没有输出非线性。在每一步中，我们将VGG-16特征图与对象的相对位置、宽度、高度和区域大小边界框，并且bc∈[0，1]是实值置信度。在LSTM中，文本边界框的所有假设都通过内存状态与之前的对应项相关联。置信度分数低于预先规定的阈值被解释为测试阶段的停止符号。较高的置信度分数bc指示边界框更可能覆盖真正的肯定文本实例。在实践中，我们使用匈牙利损失项作为输出绑定框，如[27]所示。典型的检测错误，如误报，遗漏检测和重复预测相同的地面实况实例在训练过程中受到惩罚文本区域细化。所提出的文本定位方法被训练来预测网格单元内的多个边界框为了在测试阶段处理整个图像，我们从15×20网格的每个单元格生成预测，图像，然后递归地拼接和合并预测。从网格上的连续单元格中提取。因此，所提出的方法可以处理密集和杂乱的微小文本实例，同时仍然捕获大尺寸的文本实例，占据大面积的场景图像。3.3. 文本实例本节提出了一种基于自然语言的场景文本实例检索的在测试阶段，给定图像以及自然语言查询和一组候选文本边界框（地面实况或由所提出的 DTLN 生成），CRTR从DTLN的输出中选择与查询上下文描述匹配的文本边界框的子集。视觉关系建模。场景图像中的文本实例通常嵌入在含有各种上下文离群点的复杂背景中，如果不考虑文本实例与类属之间5498郎郎当地上下文中的对象。这在直觉上是有道理的：自然场景中的文本实例通常由出现在某些对象表面上的印刷或手写字符组成，并且它们的视觉关系通常主导自然场景图像的整体解释。由于文本实例和上下文概念之间的关系集（例如，对象，东西，人）是巨大的和排列增长，我们专注于上下文概念，直接关联和互动的文本实例。然而，它仍然是不容易获得足够的训练样本，以涵盖所有这种关系对。为了简化这个问题并找到最小可行解，我们将语义空间缩减到只包含单个文本实例和单个上下文对象之间的关系，因为所有可能的关系对的语义空间远大于单个文本实例和上下文对象的视觉关系被表示为语言查询，如{text-relationship-context}，其中关系可以是空间、介词、比较或其他可能的类别（例如，没有动作和交互的文本实例作为主题）[28]的文本实例。为了避免场景文本实例的上下文描述的评估中的歧义，我们专注于它们的空间关系和文本属性的预测，类似于[4]中的方案，如图所示。二、上下文推理文本检索。受LRCN [26]和SCRC [29]体系结构的启发，我们用于自然语言场景文本实例检索的上下文推理文本检索（CRTR）模型由几个组件组成，如图2所示。该模型有三个由LSTMlang表示的LSTM单元， LSTMlocal 和 LSTMglobal，一个局部和一个全局CNN，以及单词嵌入和预测层，与[26]和[29]并发。在测试中，给定图像I、查询文本序列S和候选文本集合S，在I中的边界框{bpos}，网络输出得分si对于基于局部图像描述的第i个候选框Bpos在b位置上的变量x框、框相对于场景的空间配置b位置、以及全局上下文特征 x 上下文。局部描述符xbox 由CNNlocal从bpos上的局部区域Ibox提取，并且由另一个网络CNNglobal在整个图像Iim上提取的特征被用作场景级上下文特征xcontext。在空间上，b的形状=[bx，by，bw，bh，bw·bh]∈R5是一个5-年龄区域I框，整体图像Iim，空间配置b位置和所有先前输入的单词。我曾在《易经》中，以《易经》和《易经》为题，分别作《易经》和《易经》。在ImageNet数据集[ 25 ]上训练的VGG-16 net [20]仍然用作CNN本地和CNN全局的CNN 架构，我们提取 1000 维 fc 8 输出作为 xbox 和xcontext，并使用与中[26]和[29]。三个LSTM单元中的每一个都有1000维的状态ht。值得注意的是，CNN全局可以共享DTLN模型的特征在测试在该阶段，给定输入图像I、查询文本S和一组候选文本边界框{b pos}，使用以局部图像区域、整个图像和框的空间配置为条件的S的似然性对第i个候选框对查询文本S进行评分，其可以计算为s=p（S|I box，I im，{bc，b pos}）和具有检索最高分数（对于地面实况输入BC=1以及对于文本本地化输入，b∈[0，1]在训练阶段，每个实例是图像包围盒描述元组，其在实验中从作为训练实例的基本事实注释构建（如果对于相同的文本实例存在多个描述，或者对于非常接近的多个文本实例存在相同的描述，在训练过程中，模型参数从预训练的网络中初始化，并使用具有较小学习率的SGD进行微调，使网络能够适应自然语言文本检索领域。整个CRTR网络通过反向传播进行端到端训练4. 实验节中4.1和4.2我们介绍了文本本地化数据集和新收集的场景文本检索数据集的细节。实验和相应的讨论在第二节中介绍。4.3和4.4。4.1. 用于文本本地化的数据集首先，在标准基准上训练和评估所提出的密集文本定位方法，包括SynthText数据集，ICDAR2013数据集[30]和街景文本数据集[31]。那么整个明确的文本POSWH WHW·H本地化框架在新收集的类似于DTLN中的三维表示。在查询文本序列S中，单词{wt}被表示为独热向量，并通过线性单词嵌入矩阵嵌入，并由LSTM 语言处理作为输入时间序列。在每个时间步t，LSTMlocal接受[h（t），xbox，bpos]，LSTMglobal接受[h（t），xcontext]。最后，基于h（t）和COCO-TextRef数据集。wild数据集中的SynthText。这是一个包含800，000个合成训练图像的数据集，这些图像在[15]中生成每个图像都有用字符和单词级边界框注释的单词实例。ICDAR 2013数据集。ICDAR（International Conferenceon Document Analysis and Recognition）2013年数据集（吨）全球，单词预测层预测条件获取标牌、书籍下一个单词的概率分布基于本地冒名顶替者和具有世界级轴对齐的H5499表1：我们提出的框架与ICDAR 2013上以前的场景文本本地化方法之间的性能比较[30]和SVT数据集[31]的PASCAL Eval [32]和DetEval [33]的测量最大精度（P）和召回率（R）报告了F-测量（F）和平均计算时间（T）。粗体数字表示每个测量指标的最佳性能。在这些场景文本本地化方法上花费的平均时间（最后一列）表明，所提出的DTLN实现了最先进的F测量，同时运行速度与竞争方法相当。PASCAL EvalDetEval时间IC13SVTIC13SVTAvg.FPRFPRFPRFPRT/s[30]第三十话------0.67 0.70 0.65----[8]第十八话------0.74 0.88 0.65---0.3Yin等人[9]第一章------0.76 0.88 0.66---0.43Lu等人[34个]------0.78 0.89 0.70----亚德尔伯格[12]0.76 0.87 0.68 0.54 0.63 0.47 0.77 0.89 0.68 0.25 0.28 0.237.3Zhang等人[35]第三十五届------0.80 0.88 0.74---60.0[第13话]------0.83 0.88 0.78---2.1FCRNall+filts [15] 0.84 0.94 0.76 0.63 0.65 0.60 0.83 0.94 0.77 0.27 0.29 0.261.27Tian等人[17个]0.88 0.93 0.83 0.66 0.68 0.65------0.14DTLN0.85 0.92 0.79 0.64 0.65 0.63 0.85 0.92 0.78 0.28 0.29 0.270.35图3：场景文本本地化的示例结果。绿色边界框包含正确的检测;红色边界框包含误报;红色虚线框（例如，右下角的图像）包含假阴性。边界框注释。它由229幅训练图像和233幅测试图像组成。街景文本（SVT）数据集。该数据集由从Google StreetView中获取的图像组成，这些图像使用单词级别的轴对齐边界框进行注释。SVT比ICDAR数据更具挑战性，因为它包含较小且分辨率较低的文本，具有较高的可变性。它由100幅训练图像和249幅测试图像组成。4.2. 文本实例检索的数据构造据我们所知，用于评估对象检索和引用表达的最大数据集是来自[5]的ReferIt数据集然而，该数据集没有提供任何场景文本实例的注释和表达式，因此我们创建了一个新的大规模数据集来评估所提出的框架。我们选择COCO-Text和Google Refexp数据集的交集部分，建立一个新的数据集，包含-5500查询=query =query =query =图4：在COCO-TextRef数据集上提出的上下文推理文本检索（CRTR）模型的文本区域检索结果。首先，红框被用来表示上下文概念。然后添加绿色框以标识与上下文概念相关联的成功检索的文本其余文本区域由黄色框标记。将文本实例注释和背景概念注释与描述一起使用。当自然文本实例的数量远小于上下文概念时，通过[15]中的方法在某些图像上渲染合成文本实例，这个数据集被称为COCO-TextRef，它总共包含6，638张图像，其中31，870张来自（都是{text-relationship-context}样式，并通过人工评估进一步过滤），指的是11,342个不同的物体。它包含17，355个文本实例及其字面翻译。4.3. 文本本地化实验建议的密集文本定位网络在来自SynthText in theWild数据集的800，000张图像上进行训练。每个图像的大小为480×640。VGG-16重量为使用ImageNet [25]上预训练的权重进行初始化，并进行微调以满足解码过程的新需求。解码器中的所有权重从均匀分布初始化。在每次迭代中，训练在一个图像的所有网格单元上并行进行。所有权重都在区域和LSTM 步骤之间绑定。在 Wild 数据集中对整个SynthText进行训练需要在NVIDIA Titan X（Maxwell）GPU上花费大约15个小时，进行200，000次迭代。以下标准用于评估文本本地化结果。 (1) 标准PASCAL VOC检测标准：如果检测的边界框和地面实况之间的交集大于并集（IoU）超过50%，则检测是真阳性的。(2)DetEval [33]标准：一种更注重检测质量的评价指标，已在ICDAR竞赛中得到广泛应用。为了进一步提高性能，我们遵循后处理规则-5501表2：左表显示了我们的方法与之前的方法在COCO-TextRef数据集上注释的地面真值边界框上权表中给出了我们的方法与先前方法相比的前1名、前5名召回率，其中检测到的文本区域由所提出的DTLN方法生成图像中所有带注释的文本区域，这类似于对象检索问题。在这种情况下，我们单独评估我们提出的CRTR模型。其次，作为一个更具挑战性但实际的工作，给定的图像和自然语言查询，该模型应该检索的文本区域从一组候选文本区域场景文本定位方法产生在这两种情况下，我们方法P@1LRCN [26]0.264方法R@1 R@5[26] 0.083 0.213遵循标准PASCAL VOC检测标准：如果IoU >50%，则认为重新检测的文本区域是正确的，否则它是假阳性。这相当于计算precision@1度量（得分最高的文本区域正确的百分比）。然后我们平均所有图像的分数表2将我们提出的CRTR模型的评估结果与以前的模型进行了[6]引入的时间来过滤掉硬假阳性。具体来说，首先我们使用二进制文本/非文本随机森林分类模型来过滤掉非文本提案;其次，文本区域提案通过基于CNN的回归来改进。表1显示了我们的DTPN模型的性能。最大F-测度的精确度和召回率，以及我们的基本模型在两个数据集上的平均计算时间。结合简单的二进制文本/无文本随机森林分类器[6]以进一步消除误报检测，它在召回率方面优于最先进的方法，并达到相当的精度。定性结果如图3所示，表明所提出的方法有效地处理了相对拥挤的场景文本实例，并将它们从杂乱复杂的背景中提取出来。基于对评估结果的分析以及与最近最先进的基于单词的文本检测方法（如[15]和[17]）的比较，我们提出的DTPN对于稀疏文本实例同样表现良好，并且在检测相对密集和拥挤的文本时表现更好。然而，它仍然无法处理一些具有挑战性的情况，如过度扩展和大字符间距。图3中的红色实线（假阳性）和虚线（假阴性）框表示了一些失效情况。4.4. 文本检索实验在新收集的COCO-TextRef数据集上对上下文推理文本检索（CRTR）模型进行了评估由于DenseCap [36]解决了区域描述和检索的类似问题，其中文本实例被视为一种特殊类别的对象并表示为符号，单词或字母，因此我们使用COCO-TextRef数据集微调DenseCap并将其作为我们的基线。我们将我们的方法与LRCN [26]和SCRC [29]进行了比较，它们也在COCO-TextRef数据集上进行了微调，以获得检索文本实例的能力。CRTR模型评估两种情况。首先，给定自然场景图像和自然语言查询，该模型从为文本实例检索调整的对象检索模型我们观察到，CRTR优于大多数以前的方法，在精度方面，对个人文本检索评估，并在recall@1（最高得分的文本边界框建议的百分比是正确的）和recall@5（前5名最高得分的文本边界框建议中至少有一个是正确的百分比）措施联合文本本地化和文本检索评估。图4显示了top-1处成功检索的文本实例的示例，其中来自我们的CRTR模型的最高得分候选实验结果表明，该模型能够有效地定位和检索目标文本基于输入的自然语言查询的区域。此外， {text-relationship-context} 建模，SCRC模型没有明确地处理实质性填充在基于图像的场景文本定位和基于语言的场景理解之间的差距，通过本地化的文本实例，并提高性能。5. 结论为了利用文本实例理解自然场景，我们提出了一个框架，结合基于图像的文本本地化与基于语言的上下文描述的文本实例。在许多实际应用中，上下文描述使得本地化的文本信息能够以更用户友好的方式传递场景文本区域的精确定位保证了场景图像的简洁准确的语言描述，以及从上下文描述中有效地检索文本实例。我们未来的工作将集中在结合场景文本定位和场景文本检索的模型，产生一个端到端的系统。性能也可以通过预处理技术进一步改善，例如图像超分辨率[37，38]和去模糊[39，40]。鸣谢。这项工作得到了NSF基金EFRI-1137172、IIP-1343402和IIS-1400802的部分支持。DenseCap [36] 0.291DenseCap [36] 0.0950.229SCRC [29]0.457SCRC [29]0.1350.313CRTR0.582CRTR0.1840.3945502引用[1] B. Xiong和K.格劳曼使用重复先验的商店中的文本检测。在WACV，2016年。[2] C. Yi，Y. Tian和A.阿迪提基于便携式相机的盲人手持物体上的文字和产品标签阅读。 IEEE Trans. onMechatronics，2014.[3] L. Yu，P.Poirson，S.Yang，杨树A.C. Berg和T.L. 伯格。指称表达中的修饰语境. 在ECCV，2016年。[4] J. Mao，J. Huang，A.托舍夫岛Camburu，A.尤尔，还有K. 墨菲无歧义对象描述的生成与理解在CVPR，2016年。[5] S. Kazemzadeh，V. Ordonez M. Matten和T. L.伯格。推荐游戏：指自然景物照片中的物体。EMNLP，2014年。[6] M. Jaderberg，K. Simonyan、A. Vedaldi和A.齐瑟曼。使用卷积神经网络在野外阅读文本国际计算机视觉杂志，2015年。[7] B. Epshtein，E.Ofek和Y.韦克斯勒基于笔画宽度变换的自然场景文本检测in CVPR，2010.[8] L. Neumann和J.马塔斯实时场景文本定位与识别。inCVPR，2012.[9] X. Yin，K. Huang和H.浩自然场景图像中的鲁棒文本检测。 IEEE Trans. on Pattern Analysis and MachineIntelligence，2014.[10] X. 荣角，澳-地Yi，X.Yang和Y.田基于文本跟踪的多帧场景文本ICME，2014年。[11] X.殷，W. Pei，J. Zhang，，and H.浩基于自适应聚类的多方向场景文本检测。在TPAMI，2015年。[12] M. Jaderberg，A. Vedaldi和A.齐瑟曼。文本定位的深层功能。in ECCV，2014.[13] Z. Zhang C.，中国古猿科Zhang，W.申角Yao，W.刘，和X。柏使用完全卷积网络的多方向文本检测。在CVPR，2016年。[14] X.荣角，澳-地Yi和Y.田利用级联定位网络识别基于文本的交通引导面板。ECCV研讨会，2016年。[15] A.古普塔A。Vedaldi和A.齐瑟曼。用于自然图像中的文本定位的合成数据。在CVPR，2016年。[16] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时对象检测。在CVPR，2016年。[17] Z.田，W. Huang，T.他潘他和Y。乔基于连通主义文本建议网络的自然图像文本检测。在ECCV，2016年。[18] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，2012年。[19] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015年。[20] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。ICLR，2015年。[21] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。[22] A.卡帕西和李飞飞用于生成图像描述的深度视觉语义对齐。在CVPR，2015年。[23] I. Sutskever，O.Vinyals和Q.诉乐用神经网络进行序列到在NIPS，2014年。[24] E. Krahmer和K.范·迪姆特。引用表达式的计算生成。Comp. Linguistics，2012.[25]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A. 卡帕西A.科斯拉，M。伯恩斯坦A. Berg和F.李图像网大规模视觉识别挑战。国际计算机视觉杂志，2015年。[26] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在CVPR，2015年。[27] R. Stewart和M.安德里卢卡拥挤场景中的端到端人员检测。在CVPR，2016年。[28] C.卢河，巴西-地克里希纳，M。Bernstein和F.李视觉关系-船舶检测。在ECCV，2016年。[29] R. Hu，H.Xu，M.Rohrbach，J.Feng，K.Saenko和T.达雷尔。自然语言对象检索。在CVPR，2016年。[30] D.卡拉查Icdar 2013稳健阅读比赛。in IC-DAR，2013.[31] K. Wang和S.贝隆吉在野外发现单词。在ECCV，2010年。[32] M. Everingham，S. M.阿里埃斯拉米湖V. Gool，C. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。国际计算机视觉杂志，2015年。[33] C.沃尔夫和J M.乔里安用于评估目标检测和分割算法的目标计数/面积图。国际文献分析与检索杂志，2006年。[34] S. Lu，T.Chen，S.Tian，J.Lim和C.Tan. 基于边缘和支持向量回归的场景文本提取in IJDAR，2015.[35] Z. Zhang，W.申角么，还有X。柏自然场景中基于对称性的文本行检测。在CVPR，2015年。[36] J. Johnson，A.卡帕西和李飞飞Densecap：用于密集字幕的全卷积定位网络。在CVPR，2016年。[37] R.达尔M. Norouzi和J.史伦斯像素递归超分辨率。arXiv：1702.00783，2017年。[38] Y. Xian和Y.田单个深度图和对齐图像的分辨率增强在WACV，2016年。[39] X. Rong和Y.田自适应收缩级联盲图像反卷积。在DSP，2016年。[40] J. Pan，D.孙，H.Pfister和M.杨基于暗通道先验的盲图像在CVPR，2016年。

下载后可阅读完整内容，剩余1页未读，立即下载