没有合适的资源?快使用搜索试试~ 我知道了~
1深度匹配先验网络:更紧密的多方向文本检测刘玉良,金连文华南理工大学电子信息工程学院电子邮箱:jinyanlianwen.jin@ gmail.com摘要由于场景文本的多方向性、视角畸变、文本大小、颜色和比例的变化,检测场景文本是一项具有挑战性的任务以往的文本定位方法都是采用矩形包围盒或水平滑动窗口,这可能会产生多余的背景噪声、不必要的重叠甚至信息丢失。为了解决这些问题,我们提出了一种新的基于卷积神经网络(CNN)的方法,称为深度匹配先验网络(DMPNet),以检测具有更紧密四边形的文本。首先,我们在几个特定的中间卷积层中使用四边形滑动窗口来粗略地回忆具有较高重叠区域的文本,然后提出了一种共享Monte-Carlo方法来快速准确地计算多边形区域。在此基础上,我们设计了一个相对回归的序贯算法,该算法可以准确地预测具有紧凑四边形的文本。此外,还提出了一种辅助平滑Ln损失,以进一步回归文本的位置,它具有更好的整体性能比L2损失和平滑L1损失的鲁棒性和稳定性。我们的方法的有效性进行了评估,在一个公共的词级,多方位的场景文本数据库,ICDAR 2015年强大的阅读比赛挑战4我们的方法的性能进行了评估,通过使用F-测量,发现是70.64%,优于与F-测量63.76%的现有的最先进的方法。1. 介绍场景文本检测是许多基于内容的应用程序的重要先决条件[32,31,37,1,34多语种翻译、盲导航和汽车导航。特别是在识别阶段,往往需要对场景文本进行预先定位,因此对检测方法提出了严格、鲁棒的定位要求。相机捕获的场景文本通常质量较低;这些文本可能具有多个方向,每个方向(a) 矩形边界框导致不必要的重叠。(c) 边缘文字不能用矩形精确本地化。(d) 矩形包围盒会带来冗余噪声。图1.四边形包围盒与矩形包围盒在文本定位中的比较视觉失真,以及文本大小,颜色或比例的变化[40],这使得它成为一项非常具有挑战性的任务[39]。在过去的几年中,各种现有的方法已经成功地用于检测水平或近水平文本[2,4,23,11,10]。但是,由于水平直角约束,多方位文本在实际应用中的检索受到限制。在ICDAR 2015竞赛挑战4最近,许多技术[35,36,13,39]已经被设计用于多方向文本检测;这些方法使用旋转矩形来定位定向文本。然而,Ye和Doermann [34]指出,由于字符变形,文本的边界可能失去矩形形状,并且矩形约束可能导致Redun。19621963如图1所示,当检测失真的附带场景文本时,会产生不必要的背景噪声、不必要的重叠甚至信息丢失。从图中可以看出,基于矩形的方法必须面对三种情况:i)冗余信息可能会降低检测置信度的可靠性[18],并使后续识别更加困难[40]; ii)边缘文本可能不会完全本地化; iii)当使用非最大抑制[21]时,不必要的重叠可能会消除真正的预测。为了解决这些问题,在本文中,我们提出了一种新的基于卷积神经网络(CNN)的方法,称为深度匹配先验网络(DMPNet),用于更严格的文本检测。据我们所知,这是第一次尝试检测四边形文本。基本上,我们的方法包括两个步骤:粗略地调用文本并精细地调整预测的边界框。首先,基于文本内在形状的先验知识,我们在特定的中间卷积层中设计了不同类型的四边形滑动窗口,通过将重叠区域与预定义的阈值进行比较来粗略地召回文本。在这个粗略的过程中,由于需要计算滑动窗口(SW)和地面实况(GT)之间的大量多边形重叠区域,我们设计了一种共享的Monte-Carlo方法来解决这个问题,定性地证明了它比以前的计算方法更准确[30]。在粗略回忆文本后,对重叠面积较大的SW进行微调,使其更好地定位;与现有的用矩形预测文本的方法[2,4,23,11,10,35,36,39]不同,我们的方法可以使用四边形来更紧密地局部化场景文本,这归功于我们所设计的顺序协议和我们使用的相对回归。此外,本文还提出了一种新的平滑Ln损失法,用于进一步回归文本位置,具有更好的整体性能在鲁棒性和稳定性方面,L2损失和光滑L1在公共词汇水平和多方向数据集上的实验,ICDAR 2015年稳健阅读竞赛挑战4我们将我们的贡献总结如下:• 首次提出了先验四边形滑动窗口,显著提高了召回率.• 本文提出了一种顺序协议,用于唯一确定任意平面凸四边形中4个点的阶数,从而使我们的方法能够使用相对回归来预测四边形包围盒。• 提出的共享Monte-Carlo计算方法可以快速准确地计算多边形重叠面积。• 在鲁棒性和稳定性方面,所提出的光滑Ln损失比L2损失和光滑L1• 我们的方法显示了国家的最先进的性能检测附带场景文本。2. 相关工作近年来,野外阅读文本得到了广泛的研究,因为场景文本传达了许多有价值的信息,可以用于许多智能应用,例如。自动驾驶汽车和盲人导航。与一般的物体不同,场景文本具有不受约束的长度、形状,特别是透视变形,这使得文本检测很难简单地采用其他领域的技术。因此,文本检测的主流方法总是集中在单个字符的结构和字符之间的关系[40],例如。基于连接组件的方法[38,27,22]。这些方法通常使用笔划宽度变换(SWT)[9]或最大稳定极值区域(MSER)[20,24]来首先提取字符候选,并使用一系列后续步骤来消除非文本噪声以精确连接候选。虽然这些方法是准确的,但在实践中,这些方法在一定程度上局限于保留各种真实的字符[3]。另一种主流方法是基于滑动窗口[2,15,8,17],其从图像中以多个尺度移动每个位置的窗口以检测文本。虽然这种方法可以有效地召回文本,位置的分类可能是敏感的误报,因为滑动窗口往往携带各种背景噪声。最近,卷积神经网络[28,6,26,19,25]已被证明具有足够的能力来抑制误报,这启发了场景文本检测领域的研究人员;在[10]中,Huang et al.集成MSER和CNN,以显着提高性能超过传统的方法; Zhang等人利用全卷积网络[39]有效地生成像素级文本/非文本显着地图,在公共数据集上实现了最先进的值得一提的是,这些成功方法的共同点是利用文本内在信息来训练CNN。受此启发,我们设计了大量基于文本内在形状的四边形滑动窗口,而不是使用受约束的矩形,这在实践中显着提高了3. 拟议方法本节介绍了深度匹配先验网络(DMPNet)的详细信息。它包括使我们的方法可靠和准确的文本本地化的关键贡献:首先,利用四边形滑动窗口对文本进行粗回忆;然后,使用共享Monte-Carlo方法快速1964(a) 回忆场景文本的比较。(b)水平滑动窗口。(c)提出的四边形滑动窗口。图2.水平滑动窗口与四边形滑动窗口的比较。(a):黑色边界框表示地面实况;红色代表我们的方法。蓝色代表水平滑动窗口。可以看到,四边形窗口比具有较高交并比的矩形窗口更容易召回文本。(b):[19]中使用的水平滑动窗(c):拟议的四边形滑动窗口。不同的四边形滑动窗口可以用不同的颜色区分。和多边形面积的精确计算;使用四边形精细定位文本,并设计Smooth Ln损失,用于适度调整预测边界框。3.1. 利用四边形滑动窗口实现文本的粗回忆以前的方法[19,26]已经成功地在中间卷积层中采用滑动窗口来粗略地回忆文本。虽然方法[26]可以基于滑动窗口准确地学习区域建议,但这些方法对于实时或近实时应用来说太慢。为了提高速度,Liu [19]简单地在具有不同尺度的几个特征图中的每个位置处评估一小组不同纵横比的先验窗口,其可以成功地检测小物体和然而,在我们的实践中,水平滑动窗口很难回忆起多方向的场景文本。受最近成功的将文本特征与CNN相结合的方法[10,39]的启发,我们提出了基于文本内在形状的多个四边形滑动窗口来粗略地回忆文本。在粗处理过程中,使用重叠阈值来判断滑动窗口的正负。如果滑动窗口是正的,它将被用来精细地本地化文本。基本上,小的阈值可能会带来大量的背景噪声,降低精度,而大的阈值可能会使文本更难被回忆。但是如果我们使用四边形滑动窗口,滑动窗口和地面真实值之间的重叠区域可以足够大,以达到更高的阈值,这有利于提高召回率和精度,如图2所示。如图所示,我们保留了水平滑动窗口,同时根据文本固有形状的先验知识在其中设计了几个四边形:a)两个45度的矩形在正方形的内部添加; b)在长矩形内增加两个长平行四边形。c)在高矩形内添加两个高平行四边形。通过这些灵活的滑动窗口,粗定界框变得更加精确,从而使后续的精细定界过程更容易实现文本的精确定位。此外,由于背景噪声较少,这些四边形滑动窗口的置信度在实际中可以更可靠,可以用于消除误报。3.1.1共享Monte-Carlo方法如前所述,对于每个地面实况,我们需要计算其与每个四边形滑动窗口的重叠面积。然而,以前的方法[30]只能计算矩形面积,计算精度不令人满意,因此我们提出了一种共享的Monte-Carlo方法,在计算多边形面积时具有高速度和高精度特性我们的方法包括两个步骤。a) 首先,我们在地面实况的外切矩形中均匀地采样10,000个点.地面实况面积(SGT)可以通过计算重叠点在总点中的比率乘以外接矩形的面积来计算。在这一步中,地面实况中的所有点都将被保留用于共享计算。b) 其次,如果每个滑动窗口的外接矩形和每个地面实况的外接矩形不具有相交,则重叠区域被认为是零,并且我们不需要进一步计算。 如果重叠区域不为零,则采用相同的采样策略计算滑动窗口的面积(SSW),然后计算滑动窗口内第一步保留点的数量。内点的比率乘以外接矩形的面积为1965图3.在计算重叠面积时,与以往方法进行了比较重叠区域。特别地,该步骤适合于使用GPU并行化,因为我们可以使用每个线程来负责计算具有指定地面真值的每个滑动窗口,因此我们可以在短时间内处理数千注意,我们使用[12]中提出的一种方法来判断一个点是否在多边形内部,这种方法也被称为交叉数算法或奇偶规则算法[5]。前面的方法和我们的算法之间的比较如图3所示,我们的方法在实践中显示出令人满意的性能计算多边形面积。3.2. 使用四边形精细本地化文本精细的过程集中于使用那些具有较高重叠区域的滑动窗口来紧密地定位文本。与水平矩形可以由两个对角点确定不同,我们需要预测四个点的坐标来定位四边形。但是,简单地使用这4个点来塑造一个四边形容易自相矛盾,因为主观的注释可能会使网络在决定哪个是第一个点时产生歧义。因此,在训练之前,提前订购4个点是必不可少的坐标顺序协议。提出的方案可用于确定平面凸四边形中四点的序列,其包含如图4所示的四个步骤。首先,我们确定具有最小值x的第一点。如果两个点同时具有最小值x,那么我们选择具有较小值y的点作为第一个点。第二,我们把第一个点到其他三个点,第三个点可以找到图4. 唯一确定平面凸四边形四点列的方法。从中间斜率的直线开始。第二点和第四点位于中线的相对侧(定义为“较大”侧和“较小”侧)。这里,我们假设中线Lm:ax+by+c=0,并且我们定义未确定点P(xp,yp)。 如果Lm(P)>0,我们假设P在“较大”的一侧。如果Lm(P)0,则假定P<基于这个假设,在“较大”一侧的点将被指定为第二点,最后一个点将被视为第四点。最后一步是比较两条对角线(线13和线24)之间的斜率从具有较大斜率的线中,我们选择具有较小x的点作为新的第一点。特别地,如果较大的斜率是无穷大的,则具有较小y的点将被选择为第一点。同样,我们找出第三点,然后第二点和第四点可以再次确定。完成这四个步骤后,1966H,d,d,dp−pp−pp−p凸四边形的四点列可以唯一确定。w3w3ChrHp−ph3h3CHRW4w4w4CHRH4基于顺序协议,DMPNet可以通过计算与中心点的相对位置来清晰地学习和回归每个点的坐标不同于[26]回归两个坐标和两个长度的直角预测,我们的回归方法预测两个坐标和八个长度的四边形检测。对于每个地面实况,四个点的坐标将被重新格式化为(x,y, w1, h1, w2, h2, w3, h3,w4,h4),其中x,y是最小外接水平矩形的中心坐标,w1,h4是第i个点(i={1,2,3,4})与中心点的相对位置.如图5所示,(x1,y1,x2,y2,x3,y3,x4,y4)=(x+w1,y+h1,x+w2,y+h2,x+w3,y+h3,x+w4,y+h4)。注意,wi和hi可以是负数。实际上,八个坐标足以确定四边形的位置,而我们使用十个坐标的原因是因为我们可以避免回归八个坐标,因为八个坐标不包含相关信息,并且更难学习。实践[6]。 受[26]的启发,我们还使用Lreg(pi;p)=h4h4. 这可以被认为是从一个Chr四边形滑动窗口到附近的地面实况框。3.3. 平滑Ln损耗与[19,26]不同的是,我们的方法使用提出的平滑Ln损失而不是平滑L1损失来进一步定位场景文本。平滑L1损失对离群值的敏感性低于R-CNN [7]中使用的L2损失,然而,这种损失对于调整数据来说不够稳定,这意味着回归线可能会在小调整时跳得很大,或者只是在大调整时进行了一点修改对于所提出的平滑Ln损失,回归参数是数据的连续函数,这意味着对于数据点的任何微小调整,回归线将始终仅略微移动,从而提高定位小文本的精度。对于较大的调整量,回归总是可以在平稳Ln损失的基础上移动到一个适度的步长,这在实际中可以加速训练过程的逆过程。如3.2节所述,递归损失Lreg定义在一个真边界盒回归tar的元组上。i获取p 顺利多任务损失的R(pi-pi),其中R是我们建议的损失函数(平滑Ln),将在第[6]中提出的L1损失由下式给出:3.4. p=(p,p,p,p,p,p,p,p,p,p)Xyw1H1w2H2w3H3w4H 4Lreg(p;p)=光滑(p,p),(1)表示10个参数化坐标,预测边界框(滑动窗口),并且p=(px,py,pw1,p h1,pw2,ph2,pw3,ph3,pw4,ph4)表示其中,i∈SL1我地面真相smoothL1(x)=. 0的情况。5x2如果|X|<1|-0。| − 0. 5否则(二)函 数 中 的 x 表 示 预 测 值 和 地 面 实 况 之 间 的 误 差(x=w·(p-p))。光滑L1的偏差函数为:.偏差L1(x)=x如果|X|<1(x)否则。(三)图5. 四边形各点的位置可由中心点和相对长度计算。从给定的坐标,我们可以计算外接矩形的最小值x(x min)和最大值x(x max),以及外接水平矩形的宽度w chr=x max−x min。同样,我们可以得到hchr=ymax−ymin。我们采用10个坐标的参数化为如下:如等式3所示,偏差函数是分段函数,而平滑Ln损失是连续可导函数。建议的平滑Ln损失由下式给出:ΣLreg(p;p)=smoothLn(pi,p), (4)i∈S其中,int x =(|D|10-12 - 2013(|D|+1)− |D|,(5),光滑Ln的偏差函数为:偏差Ln(x)=sign(x)·ln(sign(x)·x +1)。(六)HW3 ===1967WXy,d,d,d,d,dpd=px−px,d=Chryychrw1w1w1chrh1方程5和方程6都是连续函数p−pp−pp−ph1h1CHRW2w2w2CHRH2h2h2CHRW3用一个简单的方程式。对于方程6,很容易证明HWHWH=====1968平滑的L1损失平滑ln损失L2损失损失5 54 43 32 21 10 0−1 −1−2 −2−3−3−4−4−5−5 −4 −3 −2 −1 0 1 2 3 4 5x(错误)(a) 前向损失函数−5−5 −4 −3 −2 −1 0 1 2 3 4 5x(错误)(b) 后向偏差函数图6. 三种损失函数(L2、平滑L1和平滑Ln)之间差异的可视化。这里,L2函数使用相同的系数0.5,具有平滑的L1损失.财产二语损失平滑L1损失平滑Ln损失稳健性稳定性最糟糕好最好最糟糕好最好表1. 不同损失函数的不同性质。稳健性表示抗数据中异常值的能力,稳定性表示调整回归步长的能力。| ≥ |偏差Ln(x)|,这意味着平滑Ln损失对离群值的敏感性也低于R-CNN [ 7 ]中使用的L2损失。|,which means the smooth Ln loss is also less sensitive tooutliers than the L2loss used in R-CNN [7].三个损失函数之间的差异的直观表示如图6所示。耐用性和稳定性方面的特性比较总结见表1。结果表明,平滑的Ln损失承诺更好的文本本地化和相对紧密的包围盒周围的文本。4. 实验我们的测试环境是运行Ubuntu的桌面14.04 64位版本,带有TitanX。在本节中,我们-为了适应我们的方法,我们已经将一些矩形标签修改为四边形标签。数据集- ICDAR 2015 Competition Challenge 4与之前的ICDAR竞赛不同,在ICDAR竞赛中,文本被很好地捕捉,水平的,并且通常在图像中居中。该数据集包括1000张训练图像和500张测试附带场景图像,其中文本可以出现在任何方向和任何位置,尺寸小或分辨率低,所有边界框的注释都在单词级别标记。基线网络。DMPNet的主要结构基于VGG-16模型[28],与单次检测器[19]类似,我们使用相同的中间卷积层来应用四边形滑动窗口。所有输入图像将被调整为800x800,以保留微小的文本。试验结果为了全面评估我们的算法,我们收集并在表2中列出了竞争结果[14]。以前最好的方法在公共数据集上评估我们的方法:IC-DAR 2015竞赛挑战4:“附带场景文本”[14],据我们所知,这是唯一一个文本既有单词级别又有多方向的数据集。我们的方法的所有结果都来自其在线评估系统,该系统将计算召回率,精确度和F-度量来对提交的方法进行排名。这三个指数的一般标准可解释如下:• 召回率是评价文本发现能力的• 精度是对预测边界框可靠性的评价。• F-measure 是 查 全 率 和 查 准 率 的 调 和 平 均 值(Hmean),通常用于对方法进行排序。特别是,我们只是使用官方的1000张训练图像作为我们的训练集,而没有任何额外的数据增强,数据集,由Yaoet al. [33],实现了63.76%的F测量,而我们的方法获得了70.64%。这两种方法的精度相当,但召回率大大提高,这主要是由于3.1节中描述的四边形滑动窗口图7显示了ICDAR 2015挑战4测试集的几个检测结果。DMPNet可以鲁棒地定位各种场景文本,具有更少的背景噪声。但是,由于附带场景的复杂性,一些错误的检测仍然存在,我们的方法可能无法重新调用一些不显眼的文本,如图7的最后一列所示。5. 结论和今后的工作在本文中,我们提出了一种基于CNN的方法,称为深度匹配先验网络(DMPNet),可以有效地减少背景干扰。该网是首次尝试采用四边形滑动网,平滑的L1损失平滑ln损失L2损失损失1969表 2. 2015 年 ICDAR Robust Reading Challenge 4“IncidentalScene Text”本地化竞赛评估算法召回率(%)精密度(%)H平均值(%)基线(SSD-VGGNet)25.4863.2536.326建议DMPNet68.2273.2370.64[33]第三十三话56.9672.4063.76CTPN [29]51.5674.2260.85MCLAB FCN [14]43.0970.8153.58[14]第十四话36.7477.4649.84[14]第十四话46.2753.3949.57[14]第十四话39.5361.6848.18[14]第十四话35.8272.7348.00AJOU [16]46.9447.2647.10[14]第十四话37.7944.0040.66[36]第三十六话32.1149.5938.98美国有线电视新闻网(CNN)提议[14]34.4234.7134.57[14]第十四话34.8124.9129.04图7. ICDAR 2015挑战4样本的实验结果,包括多尺度和多语言单词级文本。我们的方法可以紧密本地化的文本与较少的背景信息,如前两列所示。最后一列的前三个图像是所提出的方法的故障回忆情况特别是,在某些图像中丢失了一些标签,这可能会降低我们的准确性,因为最后一列的第四张图像中列出了红色边界框。基于文本内在形状的先验知识设计的记忆结构,用于粗略地回忆文本。我们使用一个建议的顺序协议和一个相对回归的方法来精确定位文本没有自相矛盾。针对粗计算过程中需要计算大量多边形重叠面积的问题,提出了一种共享Monte-Carlo方法,以实现快速准确的计算。此外,还采用了一种新的光滑Ln损失对预测进行了进一步的调整,在鲁棒性和稳定性方面,该损失比L2损失和光滑L1损失具有更好的综合性能在著名的ICDAR 2015鲁棒阅读挑战4数据集上的实验表明,DMPNet在检测附带场景文本方面可以实现最先进的性能在下文中,我们将讨论与我们的方法有关的一个问题,并简要描述我们未来的工作。原文的Ground Truth 摄像机拍摄的图像中的文字往往存在透视畸变.然而,标注数据的直角约束会带来大量的背景噪声,标注边缘文本时可能会因为不包含所有文本而丢失信息据我们所知,ICDAR 2015挑战4是第一个使用四边形标记的数据集,我们的方法证明了利用四边形标记的有效性。因此,对场景文本的四边形标记可能更合理。未来的工作。DMPNet的高召回率主要依赖于大量预先设计的四边形滑动窗口。虽然我们的方法已被证明是有效的,但人为的滑动窗口形状可能不会是最优的设计。在未来,我们将探索使用形状自适应滑动窗口对更严格的场景文本检测。确认本研究得到国家自然科学基金部分资助(批准号:61472144 ) 、 国 家 重 点 发 展 & 计 划 ( No.2016YFB1001405 ) 、 广 东 科 技 园 ( 批 准 号 : 2015B010101004、2015B010130003、2015B010131004)、广药集团(编号:201607010227)。引用[1] A.比西斯托湾Cummins,Y. Netzer和H.没有Pho- toocr:在不受控制的情况下阅读文本。在IEEE计算机视觉国际会议,第7851[2] X. Chen和A. L.尤尔。在自然场景中检测和读取文本。在IEEE计算机协会计算机视觉和模式识别上,第366一、二[3] H.周,M。Sung和B. Canny文本检测器:快速、鲁棒的场 景 文 本 定 位 算 法 。 在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,第3566-3573页,2016年。2[4] B. Epshtein,E. Ofek和Y.韦克斯勒基于笔画宽度变换的自 然 场 景 中 文 字 检 测 在 计 算 机 视 觉 和 模 式 识 别(CVPR),2010年IEEE会议上,第2963-2970页。IEEE,2010。一、二[5] M. Galetzka和P. O. Glauner。复杂多边形点问题的一个正确的奇偶算法。CVPR,2012年。4[6] R.娘娘腔。快速R-CNN。IEEE国际计算机视觉会议,第1440-1448页,2015年二、五[7] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集,第580-587页五、六[8] S. M.哈尼夫和L.普雷沃基于约束adaboost算法的复杂场景图像1970正确2009年第10届国际文件分析与识别会议,第1-5页。IEEE,2009年。2[9] W. Huang,Z.Lin,J.Yang和J.王. 使用笔划特征变换和文本协方差描述符的自然图像文本定位国际计算机视觉会议,第1241-1248页,2013年。2[10] W. Huang,Y.黄氏Y.乔和X.唐基于卷积神经网络的多树文本检测算法。在ECCV,第497-511页,2014年。一、二、三[11] M. Jaderberg,A. Vedaldi和A.齐瑟曼。文本定位的深层功能 。在欧洲 计算机 视觉会 议上, 第 512-528页。Springer,2014. 一、二[12] H. Kai和A.阿加索斯任意多边形的多边形中点问题计算几何,20(3):131 4[13] L.康,Y。Li和D.多尔曼自然图像中的方向鲁棒文本行检测。2014年IEEE计算机视觉和模式识别会议,第4034- 4041页IEEE,2014。1[14]D. Karatzas,S. Lu,F. Shafait,S. Uchida、E.Valveny,L. Gomezbigorda,A.Nicolaou,S.戈什A.Bagdanov和M.岩村Icdar 2015稳健阅读竞赛。在2015年的文件分析和识别国际会议上。一、六、七[15] K. I.金,K. Jung和H. K.晋利用支持向量机和连续自适应均值漂移算法进行基于纹理的图像文本检测PatternAnalysis Machine Intelligence IEEE Transactions on,25(12):1631-1639,2003. 2[16] H. I. Koo和D.H. Kim. 基于连通域聚类和非文本过滤的场景文本检测IEEE Transactions on Image Processing APublication of the IEEE Signal Processing Society , 22(6):2296-2305,2013. 7[17] J. - J. Lee,P.- H.李,S.- W. Lee,A. L. Yuille,和C.科赫Adaboost用于自然场景中的文本检测。载于ICDAR,第429-434页,2011年。2[18] M. 我和李娜。K.塞西基于信心的主动学习。IEEETransactions on Pattern Analysis Machine Intelligence ,28(8):1251-61,2006。2[19] W. Liu,L.安格洛夫,D。埃尔汉角Szegedy和S.里德Ssd : 单 发 多 盒 探 测 器 。 arXiv 预 印 本 arXiv :1512.02325,2015年。二三五六[20] J. Matas,O. Chum,M. Urban和T.帕杰拉鲁棒的宽基线立体声从最大稳定的极值区域。图像视觉计算,22(10):761-767,2004. 2[21] A. Neubeck 和 L. V.Gool 有 效 的 非 最 大 抑 制 。 在International Conference on Pattern Appraisition,第850-855页,2006年。2[22] L. Neumann和J.马塔斯实时场景文本定位与识别。在IEEE计算机视觉和模式识别会议上,第3538-3545页,2012年。2[23] L. Neumann和J.马塔斯基于有向笔画检测的场景文本定位与IEEEInternational Conference on Computer Vision,第97-104页,2013年。一、二[24] D. Nistr和H.斯图纽斯线性时间最大稳定极值区。计算机视觉-ECCV 2008,欧洲计算机视觉会议,法国马赛,2008年10月12日至18日,会议记录,第183-196页,2008年21971[25] J.雷德蒙,S.迪夫拉河,巴西-地Girshick和A.法哈迪。你只看一次:统一的实时物体检测。arXiv预印本arXiv:1506.02640,2015年。2[26] S. Ren,K.赫利河Girshick和J.太阳更快的r-cnn:用区 域 建 议 网 络 进 行 实 时 目 标 检 测 。 IEEETransactionsonPatternAnalysisMachineIntelligence,第1-1页,2016年。二三五[27] C.施角,澳-地王湾,澳-地肖氏Y. Zhang,S. Gao和Z.张某基于部分树结构特征检测的场景文本识别在IEEE计算机视觉和模式识别会议上,第2961-2968页2[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度 卷 积 网 络 。 arXiv 预 印 本 arXiv : 1409.1556 ,2014。二、六[29] Z. 田,W.Huang,T.他,P。他和Y。乔基于连接主义文本建议网络的自然图像文本检测。施普林格国际出版社,2016年。7[30] Z. 图,Y。马,W。Liu,X.Bai和C.耀在自然图像中检测任意方向的文本在IEEE计算机视觉和模式识别会议上,第1083- 1090页二、三[31] J. J. Weinman,Z. Butler,D. Knoll和J.菲尔德对整体 场 景 文 本 阅 读 的 影 响 。 IEEE Transactions onSoftware Engineering,36(2):375-87,2014。1[32] J. J. Weinman,E. Learned-Miller,和A. R.汉森使用相似性和稀疏置信传播词典的场景文本识别。IEEETransactionsonPatternAnalysisMachineIntelligence,31(10):1733-46,2009。1[33] C. Yao,J. Wu,X. Zhou C.,中国青冈C. Zhang,S.Zhou,Z. Cao和Q.尹附带场景文字理解:icdar 2015阅读竞赛挑战赛4的最新进展。PAMI,2015年。二六七[34] Q. Ye和D.多尔曼图像中的文本检测和识别:一个调查。IEEE Transactions on Pattern Analysis MachineIntelligence,37(7):1480-1500,2015。1[35] C. Yi和Y.田基于结构划分和分组的自然场景文本串检测。IEEE Transactions on Image Processing,20(9):2594-605,2011. 一、二[36] X. C.殷,W. Y. Pei,J. Zhang,and H. W.浩自适应聚类的多方向场景文本检测。IEEE Transactions onPattern Analysis Machine Intelligence , 37 ( 9 ) :1930-7,2015。一、二、七[37] X. C. 阴、X。Yin,K.Huang和H.W. 浩自然场景图像 中 的 鲁 棒 文 本 IEEE Transactions on PatternAnalysis Machine Intelligence,36(5):970-83,2014. 1[38] A. 赞贝莱蒂湖诺斯和我加洛基于快速特征金字塔和多分辨率最大稳定极值区域的文本定位在亚洲计算机视觉会议上,第91-105页。Springer,2014. 2[39] Z. Zhang C.,中国古猿科Zhang,W.申角Yao,W.刘,和X。柏使用完全卷积网络的多方向文本检测。arXiv预印本arXiv:1604.04018,2016. 一、二、三[40] Y. Zhu,C.么,还有X。柏场景文本检测和识别:最新进展和未来趋势。Frontiers of Computer Science,10(1):19-36,2016. 一、二
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功