动态低分辨率蒸馏:高效端到端文本识别新方法

0 下载量 79 浏览量 更新于2024-06-19 收藏 2.5MB PDF 举报
“动态低分辨率蒸馏:经济高效的端到端文本识别” 在当前的文本识别领域,端到端的解决方案因其全局优化能力和高可扩展性而备受青睐。然而,一个关键的问题是输入图像的分辨率对计算成本的影响。识别小文本实例通常需要放大整个图像,这不仅增加了计算负担,也降低了系统运行的效率。针对这一挑战,文章提出了“动态低分辨率蒸馏”(DLD)框架,旨在在保证识别准确性的同时,降低计算成本。 DLD框架的核心是一个分辨率选择器,它能够根据不同的文本实例动态调整输入图像的分辨率。这一机制考虑了推理精度和计算成本之间的平衡,使得低分辨率的图像也能被有效地处理。此外,为了弥补低分辨率图像中可能丢失的细节信息,研究者采用了序列知识蒸馏(SKD)策略。通过在文本识别分支上应用SKD,低分辨率输入能够在保持高性能的同时,减少计算需求。 这种方法允许端到端的优化,并且可以无缝集成到现有的文本识别框架中,增强了框架的实用性。实验结果在多个文本识别基准上验证了DLD的有效性,显著提高了低分辨率模型的可用性。代码已公开在https://github.com/hikopensource/DAVAR-Lab-OCR/,供研究者参考和使用。 关键词涉及到的方面包括端到端文本识别、动态分辨率选择、序列知识蒸馏等。端到端文本识别技术的发展,已经替代了传统的文本检测和识别两步流程,减少了错误传递和维护成本。近年来,为提升实时性,研究人员通过创新设计模型结构,适应不同几何形状的文本。DLD在此基础上,引入了动态分辨率的概念,解决了低分辨率带来的识别难题,从而在效率和准确度之间找到了一个新的平衡点。 通过DLD,即使在较低的分辨率下,模型依然能够保持良好的识别性能,这对于资源有限的设备尤其有价值。这种技术对于应用场景广泛,如金融文档处理、教育资料分析、智能交通系统的文字识别等,都有显著的实用价值。未来,DLD可能会推动更多高效、低成本的文本识别解决方案的诞生。