没有合适的资源?快使用搜索试试~ 我知道了~
9699基于深度关系推理图网络的任意形状文本检测张世学1,朱晓斌1,侯杰波1,刘畅1,杨春1,王宏发4,尹旭成1,2,31北京科技大学计算机与通信工程学院2北京科技大学人工智能研究所3科大讯飞人工智能联合实验室,4腾讯科技(深圳)有限公司zhangshixue111@163.com,{zhuxiaobin,chunyang,xuchengyin}@ ustb.edu.cn网址:houjiebo@gmail.com,lasercat@gmx.us,网址:www.example.com,hongfawang@tencent.com摘要由于场景文本的高度多样性和复杂性,本文提出了一种用于任意形状文本检测的统一关系推理图网络。在我们的方法中,一个创新的局部图通过卷积神经网络(CNN)连接了一个文本提案模型,并通过图卷积网络(GCN)连接了一个深度关系推理网络,使我们的网络具有端到端的可训练性。具体地说,每个文本实例将被划分为一系列小的矩形组件,几何属性(例如,高度、宽度和方向)将由我们的文本提案模型来估计。在给定几何属性的情况下,局部图查询模型可以粗略地在不同文本组件之间建立链接。为了进一步的推理和duduc- ing之间的链接组件和它的邻居的可能性,我们采用了基于图的网络进行局部图的深层关系推理。公共可用数据集上的实验证明了我们方法的最新性能。代码可在https://github.com/GXYM/DRRG上获得。1. 介绍场景文本检测已广泛应用于各种应用中,例如在线教育、产品搜索、即时翻译和视频场景解析[39,26]。随着深度学习的繁荣,文本检测算法[27,42,21,19]在文本实例具有规则形状或纵横比的受控环境中取得了令人印象深刻的性能。然而,由于文本表示形式的局限性,早期的文本识别方法往往不能识别任意形状的文本。近年来,一些方法,*通讯作者。图1.关系推理(Relational Reasoning):基于文本组件的几何属性生成局部图;最后将节点分类结果分组到文本中。TextSnake [17] 和 CRAFT [1] , 尝 试 使 用 连 接 组 件(CC)策略解决这个问题。然而,这些方法In the CC-based method, one essential task is to ex-cavate the rational relations between separated charac-ter/component regions for linking them into holistic text in-stances.现有的方法通常使用预定义规则、链接映射或嵌入映射将检测到的组件分组为文本实例。一般来说,对具有学习到的链接关系或嵌入关系的文本组件进行分组比使用预定义规则更鲁棒,特别是在长文本和曲线文本的情况下。从我们的关键观察和实验来看,挖掘这些组成区域之间稳定关系的深层关系推理可以大大提高AR的性能。9700bitrary形状文本检测。基于链接或嵌入的方法[21,28]通常使用CNN来推断分离的分量的链接年龄,但分离的分量实际上是非欧几里德数据,CNN并不好处理非欧几里德数据因此,简单的链接映射或嵌入映射不足以学习两个不相邻组件之间的稳定关系。非欧数据可以用图来表示,因此我们可以将单独的文本组件转换为图。如图1、把一个文本成分看作一个节点。因此,我们可以选择一个节点作为枢轴,并将其与周围的节点连接到一个局部图中,如第2节所述。3.3.局部图中包含的上下文信息(节点之间的边)是用于估计枢轴和其他节点之间的链接可能性的信息。图网络在推导图中节点之间的关系方面具有先天的优势,这已最近,基于GCN的方法在人脸聚类[33]和各种任务的全局推理[2]方面取得了显着的性能。在[33,2]中的工作的高度激励下,我们应用图卷积网络对局部图进行深度推理,以推断组件与对应邻居之间的深度链接可能性,用于任意形状的文本检测。在本文中,我们提出了一种新的统一的深度关系推理图网络的任意形状的文本检测。根据CTPN [27]和TextSnake [17],我们将每个文本实例划分为文本组件,并提出一个文本建议网络来估计这些文本组件的几何属性为了对生成的组件进行分组,我们采用基于图的网络进行深度关系推理,并使用组件和邻居的几何属性来推断链接关系。此外,设计了一个局部图来连接文本建议网络和关系推理网络,使我们的网络具有端到端的可训练性。最后,我们将检测到的文本组件成整体的文本实例,根据关系的结果。总之,本文的主要贡献有三个方面:• 我们提出了一个新的统一的端到端的任意形状的文本检测可训练的框架,其中一个新的局部图桥基于CNN的文本建议网络和基于GCN的关系推理网络。• 据我们所知,我们的工作是通过图卷积网络进行深度关系推理的第一次尝试之一,用于任意形状的文本检测。• 该方法在多边形数据集和四边形数据集上都达到了最先进的性能2. 相关工作基于回归的方法这种类型的方法依赖于具有单词级和行级先验知识的基于框回归的对象检测框架与一般对象不同,文本通常以具有各种长宽比的不规则形状呈现。为了解决这个问题,RRD [11]调整SSD [13]的锚 比 , 以 适 应 不 规 则 形 状 中 的 纵 横 比 变 化 。Textboxes++ [10]修改卷积核和锚框,以有效地捕获各种文本形状。EAST [42]直接推断单词候选的像素级四边形,而无需锚机制和pro-tumor检测。虽然基于回归的方法在四边形文本检测中取得了很好的效果,但它们往往基于分割的方法。 这类方法[3,30,28,34,17]主要从语义切分方法中得到启发,通过估计单词来边界区域。在PixelLink [3]中,预测像素与其相邻像素之间的链接关系,用于对属于同一实例的像素进行分组。为了有效区分相邻的文本实例,PSENet [30]采用渐进缩放算法来逐渐扩展预定义的内核。Tian等人[28]将每个文本实例视为一个聚类,并通过嵌入映射。TextField [34]采用深度方向字段来链接相邻像素并生成候选文本部分。然而,这些方法的性能受到分割精度的质量的强烈影响。基于CC的方法。基于CC的方法通常首先检测单个文本部分或字符,然后进行链接或组后处理过程以生成最终文本。基于CC的方法[24,38,41,37]已被在深度学习普及之前,在深度学习时代,基于CC的方法也得到了广泛的研究[27,21,25,1,4]。CTPN[27]使用Faster R-CNN [20]的修改框架SegLink[21]将每个场景文本分解为两个可检测的元素,即片段和链接,其中链接指示一对相邻片段属于同一个词。CRAFT [1]通过探索每个字符和字符之间的亲和力来检测文本区域TextDragon [4]首先检测文本的局部区域,然后根据它们的几何关系对这些边界框进行分组。关系推理。基于CC的方法通常对于长文本或非四边形文本是鲁棒的,但是这些方法的性能强烈地依赖于分组或链接结果的鲁棒性文本像素聚集通过在[3]中学习像素与其相邻像素之间的链接关系。在[28]中,嵌入特征是9701图2.我们整体架构的概述我们的网络主要由五个部分组成,共享卷积、文本组件预测、局部图、关系推理和链接合并。用于提供实例信息并生成文本区域。CRAFT [1]通过弱监督学习预测字符区域映射和仿射映射。区域映射用于本地化字符,亲和映射用于将字符分组到单个实例中。这些方法基于CNN,由于局部卷积算子的限制,CNN不能直接捕获远距离分量区域之间的关系。最近,Wanget al.[33]提出了一种基于谱的GCN来解决人脸聚类问题,该GCN能够在复杂的场景中合理地连接属于同一个人的不同人脸实例。3. 该方法3.1. 概述我们的方法的框架如图所示二、文本组件建议网络和深度关系推理图网络共享卷积特征,共享卷积使用VGG-16 [23]和FPN [12]作为骨干,如图所示。3.第三章。文本建议网络使用共享特征来估计文本组件的几何属性。在获得几何属性之后,局部图可以粗略地在不同的文本组件之间建立链接。基于局部图,关系推理网络将进一步推断深层可能性,图3.共享卷积的架构,其中CR表示文本分量预测中的分类和回归操作,并且细节在等式中列出。3.第三章。文本组件的方向。h是h1和h2之和,如图所示第4(c)段。通过对h进行线性变换获得w,其计算为:wmin,hi=2·wmin,组件与其相邻组件之间的连接。wi=hi/2, 2·wmin= 2·w 最大3.2. 文本成分预测在我们的工作中,每个文本实例都是由一系列有序的矩形组件构成的,如图所示。第4(a)段。并且每个文本成分D与一组几何属性相关联,即,D=(x,y,h,w,cosθ,sinθ),其中x和y为文本框的轴;h和w为组件的高度和宽度;cosθ和sinθ表示组件的其中hi表示第i个文本分量的高度。在实验中,我们根据经验设置wmin= 8和wmax= 24。为了定义文本分量的方向并容易地提取文本中心区域(TCR),我们使用[17]中的方法来计算文本区域的头部和尾部,如图中的黑色箭头所示。第4(a)段。文本区域沿长边(由黄线9702H如图4(a)),因此我们可以得到两组点P 1={tp0,tp1,.,tpi,.,tp n}和P 2 ={bp0,bp1,..., bpi,., bpn}。标有红点的线是顶线,绿点是底线。在我们的方法中,我们需要根据以下标准明确定义每个文本实例的顶部和底部ΣnP=i=0时sin(vi),vi∈V,(2)其中V(V={tp0−bp0,., tpi−bpi,.,tpn−bpn})是一组顶点(tpi是顶线的中心,bpi是底线的中心)。如果p >= 0,则P1是上,P2是下,否则P1是下,P2是上.向量vi的角度表示文本分量的方向θ。TCR是通过收缩文本区域(TR)获得的,如图1B所示。第4(b)段。首先计算出文本的中心线,然后将中心线的两端缩小0。5wend pixels,使网络很容易分离相邻的文本实例,降低NMS的计算成本最后,图4.文本部分提案的说明:(a)生成文本部分;(b)提取文本中心区域;(c)计算几何属性。TCR区如下:Lreg=Lh+β(Lsin+Lcos),(6)我们将中心线面积扩大0。3小时萃取后共享功能,两个卷积层应用于预处理,Lsin =平滑L1(sinθ−sinθ),(7)将文本组件的属性定义为Lcos=smoothL1(ωsθ−cosθ),(8)CR=conv1×1(conv3×3(F份额)),(3)其中CR∈H×W×8,分类器有4个通道Lh=1ΣΩi∈Ω(log(h+1)Σ2k=0胡基smoothL1( −1)),(9)kiTR/TCR的对数和4个回归通道h1,h2,cosθ和sinθ的对数。最终的预测是通过软最大化TR/TCR并正则化cosθ和sinθ以使平方和等于1来获得的[17]。最终检测结果由阈值和位置感知NMS在阳性样本上产生。检测损失。文本分量预测损失由两个损失组成,并且计算为:Ldet=Lcls+Lreg,(4)其中Lreg是平滑L1[20]回归损失,Lcls是交叉熵分类损失。分类损失计算如下:Lcls=Ltr+λ1Ltcrp+λ 2Ltcrn,(5)其中Ltr表示TR的损失;Ltcrp仅计算TR 内部的像素,Ltcrn仅计算TR外部的像素Ltcrn用于抑制TCR中的背景噪声 以这种方式,所获得的TCR可以有益于后处理步骤。TR损失采用OHEM [22],其中正负之间的比率设置为3:1。在我们的实验中,权重λ1和λ2被经验地设置为1。0和0。5所示。由于非TCR区域没有高度和方向属性,因此我们只计算回归损失其中hki、sinθ和cosθ是地面真值,hki、sinθ和cosθ是相应的预测值,其中k表示TCR中正元素的集合;h是地面实况中文本分量的高度。权值log(h+ 1)有利于大规模文本分量的高度回归。超参数β被设置为1。0在我们的工作中3.3. 局部图生成我们估计两个节点(文本组件)之间的联系可能性的基础上,他们的上下文信息在一个局部图。为每幅图像构造一个完整的图是低效的,因为文本组件通常只具有与其邻居连接的可能性。因此,我们为每个图像构建多个局部图这些局部图通常包含有限数量的节点,这将使关系推理变得高效。我们修改IPS [33]以生成局部图,其中枢轴在我们的工作中,我们只是使用2跳作为节点的局部图。为了清楚地解释,Vp用于表示局部图Gp中的节点,p表示枢轴。p的1跳邻居由8个最近邻居组成,p的2跳邻居由4个最近邻居组成。高阶邻居提供了主元及其邻居之间上下文的局部结构的辅助信息[33]。这里我们9703仅考虑用于执行KNN运算的节点之间的欧几里得相似性Es,并且Es计算为Es= 1−D ( p , vi ) /max ( Hm , Wm ) ,vi∈Vp,(10)其中D(p,vi)是p和vi之间的L2距离,Hm是图像高度,Wm是图像宽度。为了避免训练中由于许多相同的图而导致的容易样本的梯度积累,枢轴p应该满足以下标准:图5. g(X,A)生成的图解。Fr表示几何特征;X为节点特征矩阵;A是邻接矩阵; g(X,A)表示局部吉欧 =Gp<$Gq <$,p,q∈T,(11)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功