UnrealText: 3D图形驱动的高效真实场景文本图像合成

6 浏览量更新于2025-01-16 收藏 1.76MB PDF 举报

UnrealText是一项由卡内基梅隆大学和Megvii（Face++）Technology Inc.合作开发的创新技术，专注于高效地生成逼真场景中的文本图像合成。这项工作旨在解决训练场景文本检测和识别模型时面临的挑战，尤其是对大量真实世界标注数据的需求。传统的数据收集方式成本高昂，难以满足各种应用场景对多样化文本样本的需求。 UnrealText利用3D图形引擎的优势，通过整体渲染技术，生成的文本图像不仅在视觉上接近真实世界，还能提供精确的场景信息，如对象布局和光照条件，这对于生成自然遮挡和复杂背景的文本区域尤为重要。这种方法有助于克服现实数据中常见的问题，如模糊、弯曲的文本，以及不同字体、背景和照明条件的多样性。在研究中，UnrealText不仅验证了其在场景文本检测方面的有效性，而且也展示了在识别任务中的优越性能。值得注意的是，该技术还支持多语言版本，这为跨语言场景文本处理的研究者提供了宝贵的资源。为了促进后续研究，研究团队发布了UnrealText的相关代码和生成的数据集，链接为：<https://jyouhou.github.io/UnrealText/>。尽管现有的合成算法已经在某些场景下显示了积极影响，但UnrealText通过提供更全面、细致的模拟环境，有望进一步提升模型的泛化能力和鲁棒性。通过与真实数据结合使用，UnrealText有可能打破合成数据在特定挑战场景下性能提升的局限，为场景文本领域的研究开辟新的可能性。UnrealText是一项具有深远意义的技术革新，它将显著降低数据采集的成本，推动场景文本处理技术的发展。

5490

个别文本实例[37，21，2，39]。尽管在单个数据集上

有了显著的改进，但那些最广泛使用的基准数据集通

常非常小，测试集中只有大约

500

到

1000

张图像，因此

很容易过度拟合。不同领域的推广能力仍然是一个悬

而未决的问题，尚未研究。究其原因，是由于真实数

据非常有限，合成数据不够有效。因此，我们的合成

引擎的一个重要的动机是作为一个垫脚石一般场景文

本检测。

大多数场景文本识别模型由基于CNN的图像特征提

取器和注意力LSTM [9]或基于Transformer [43]的编码

器-解码器组成，以预测文本内容[3，38，15，22]。由

于编解码器模块本质上是一种语言模型，场景文本识

别器对训练数据的要求很高，训练数据的词汇量很

大，这对于真实世界的数据是极其困难的。此外，场

景文本识别器处理的是具有简单背景的图像作物因

此，合成数据对于场景文本分析器是必要的，并且合

成数据本身通常足以实现最先进的性能。此外，由于

识别模块需要大量数据，因此在训练端到端文本识别

系统时也需要合成数据[17，7，29]。

三维虚拟世界中的场景文本

3.1.

概述

在本节中，我们将详细介绍我们的场景文本图像合

成引擎UnrealText，它是在UE4和UnrealCV插件上开发

的[30]。合成引擎：（1）产生照片般逼真的图像，

（2）

3.2.

取景器

取景器模块的目的是从3D场景的整个空间中自动确

定合理且非平凡的一组相机位置和旋转，从而去除诸

如来自内部对象网格（例如，图3右下）。

基于学习的方法，例如导航和探索算法，可能需要

额外的训练数据，并且不能保证推广到不同的3D场

景。因此，我们转向基于规则的方法并设计配备有

辅

助相机锚的物理约束的

随机行走

（图3第一行）。

3.2.1

物理约束的三维随机游动

从一个有效的位置开始，物理约束的3D随机游走的目

标是找到下一个有效的和非平凡的位置。与有效相

反，如果位置位于对象网格内部或远离场景边界，则

位置无效。非平凡位置不应否则，新的视点将与当前

视点相似。所提出的3D随机游走使用受物理约束的光

线投射[35]来检查物理环境以确定有效和非平凡的位

置。

在每一步中，我们首先随机改变摄像机旋转的俯仰

和然后，我们从摄像机位置向视点方向光线在碰到任

何对象网格或达到固定的最大长度时停止。通过设

计，从当前位置到停止位置的路径没有任何障碍，

即，不在任何对象网格内。因此，沿此射线路径的点

都是有效的。最后，我们在这条路径的第

个和第

个

之间随机采样一个点，并将其设置为新位置

3 3

效率高，仅需

。

秒来渲染和生成新的场景文本图

像，并且（3）是通用的并且与现成的3D场景模型兼

容。如图2、流水线主要由

取景器

模块（秒-

第3.2节）、

环境随机化

模块（第3.3节）、

文本区域生

成

模块（第3.4节）和

文本渲染

模块（第3.5节）。

首先，取景器模块用相机探索3D场景，生成相机视

点。然后，随机调整环境照明。然后，在图形引擎

中，基于2D场景信息提出文本区域，并利用3D网格信

息进行细化。之后，文本前景将使用随机采样的字

体、颜色和文本内容生成，并作为平面网格加载。最

后，我们检索RGB图像和相应的文本位置以及文本内

容来制作合成数据集。

这是很重要的所提出的随机游走算法可以产生不同的

摄像机视点。

3.2.2

辅助摄像机附件

然而，所提出的随机游走算法在探索方面是低效的因

此，我们在3D场景中手动选择一组N

个

在每T步之后，

我们将相机的位置重置为随机采样的相机锚点。我们

设置N

150-200，T

100。请注意，选择相机时代锚只

需要很少的谨慎.我们只需要确保覆盖整个空间。每个

场景大约需要20到30秒，这是微不足道的，不是可伸

缩性的瓶颈手动但有效的相机选择是兼容的随机游走

算法，产生不同的观点。

剩余10页未读，继续阅读

cpongm

粉丝: 6

UnrealText: 3D图形驱动的高效真实场景文本图像合成

pbUDK工具集：Maya与UDK内容处理与导出

来自3D引擎的合成场景文本-C/C++开发

pbUDK:使用UDK的Maya工具

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

最新资源