简单且强大的不规则文本识别基线：Show, Attend and Read

需积分: 0 182 浏览量更新于2024-07-01 收藏 1.68MB PDF 举报

"王鹏等人提出了一种名为'Show, Attend and Read'的简单而强大的不规则文本识别基线方法，该方法在2019年AAAI预会议演讲中介绍。文章主要关注的是不规则文本识别任务，这是文本识别领域的一个挑战，包括在自然场景中读取常规和不规则文本。" 在图像识别和处理领域，文本识别是至关重要的一环，特别是对于不规则文本的识别。不规则文本通常出现在复杂背景或自然场景中，例如历史建筑的标志、街头广告等。传统的光学字符识别（OCR）技术在处理简单背景中的规律文本时表现良好，但在面对弯曲、扭曲的不规则文本时效果欠佳。 “Show, Attend and Read”方法借鉴了机器翻译和图像 captioning 的思想，采用编码器-解码器架构。其中，编码器通常由卷积神经网络（CNN）构成，用于提取图像特征；解码器则通常由循环神经网络（RNN）组成，用于生成文本序列。在这一过程中，注意力机制（Attention Mechanism）扮演了关键角色，它能帮助模型在解码阶段动态聚焦于图像的特定区域，从而更准确地识别不规则形状的字符。传统的方法，如基于校正的技术，虽然可以解决轻微的文本扭曲，但难以应对严重扭曲或曲线。而基于注意力的方法需要字符级别的标注，这些标注数据收集起来困难且耗时。多方向编码方法虽然引入了更复杂的框架设计，但可能增加了实现的复杂性。王鹏等人的工作提供了一个新的视角，他们构建的模型相对简单，但仍能有效地处理不规则文本识别问题。通过展示、关注并阅读图像中的关键信息，模型能够适应各种文本形状和排列，无需过于复杂的设计或额外的标注数据。这使得该方法在实践中具有很大的应用潜力，特别是在自动化文本检测和理解的场景下，比如智能交通、历史资料数字化等领域。 "Show, Attend and Read" 提出了一种新的、简洁的基线方法，对于不规则文本识别领域是一个重要的贡献，它简化了模型结构，提高了对非结构化文本的识别能力，降低了对标注数据的依赖，有助于推动文本识别技术的进步。

Existing Approaches

• Rectification based [Liu et al. 2016][Liu, Chen and Wong. 2018][Shi et al.

2018]

✗Difficult to tackle severe distortion or curvatures

• Attention based [Cheng et al. 2017]

✗Need character-level annotations which are hard to collect

• Multi-directional encoding based [Cheng et al. 2018]

✗sophisticated framework design and implementation

剩余16页未读，继续阅读

赵伊辰

粉丝: 67
资源: 314

简单且强大的不规则文本识别基线：Show, Attend and Read

bo_reception_process_record表中有process_id，attend，status，people_num字段，现在想根据process_id筛选出来的数据，获取到attend = 2时attend = 1时status = 10时status = 20不同状态下，计算people_num的总数，请帮我写一个sql

show attend and tell

sqlalchemy.exc.InvalidRequestError: Table 'ods_beisen.attend_day_report' is already defined for this MetaData instance. Specify 'extend_existing=True' to redefine options and columns on an existing Table object.

Show, Attend and Tell的损失函数

最新资源