EAST文本检测模型解析：Unet结构与特征融合

需积分: 0 43 浏览量更新于2024-06-30 收藏 675KB DOCX 举报

"EAST学习笔记1主要介绍了EAST文本检测模型的结构和实现细节，包括其基于FCN（全卷积网络）的Unet架构，以及如何选择和使用不同的backbone网络，如PVANet、VGG16和开源代码中的Resnet50。模型的特征融合过程通过双线性上采样（UnPooling）和多个卷积层进行，旨在提高文本检测的精度。" 在深度学习领域，EAST（Efficient and Accurate Scene Text Detector）是一种用于场景文本检测的高效且精确的模型。它采用了全卷积网络（FCN）的设计，允许端到端的训练和预测，特别适合于实时应用。在这个笔记中，EAST模型的主体结构被描述为Unet，这是一种在图像分割任务中广泛使用的网络结构，因为它能很好地保留图像的边缘信息。 backbone网络在EAST中起到特征提取的作用，可以选择不同的网络架构，如PVANet、VGG16或Resnet50。预训练模型通常是在ImageNet数据集上完成的，这样可以利用大量的预训练权重来加速训练并提高模型性能。在提供的代码中，作者选择了Resnet50作为backbone，从中抽取了4个不同大小的特征图，分别对应输入图像的1/4，1/8，1/16和1/32大小。 UnPooling是模型中的另一个关键组件，用于恢复特征图的尺寸。在EAST中，双线性插值被用作UnPooling的方法，因为它可以提供平滑的上采样结果。双线性插值通过插值计算新像素值，从而保持图像的连续性和细节。在特征融合阶段，来自backbone的多尺度特征图被逐步合并，这一过程涉及到多个卷积层。每个尺度的特征图与前一尺度的特征图结合，并通过卷积操作来提取更丰富的信息。这里的代码显示了如何使用`tf.concat`函数将不同尺度的特征图沿通道维度连接，然后通过卷积层进行信息融合。对于更高尺度的特征图，还进行了额外的卷积层以进一步提升特征表示能力。 EAST学习笔记1揭示了EAST模型的内部工作原理，包括网络架构的选择、特征提取和融合策略，以及如何利用预训练模型进行初始化。这些细节对于理解EAST模型在场景文本检测任务中的强大性能至关重要。

with slim.arg_scope(resnet_v1.resnet_arg_scope(weight_decay=weight_decay

logits, end_points = resnet_v1.resnet_v1_50(images, is_training=is_t

with tf.variable_scope('feature_fusion', values=[end_points.values]):

batch_norm_params = {'decay': 0.997, 'epsilon': 1e-5, 'scale': True,

with slim.arg_scope([slim.conv2d], activation_fn=tf.nn.relu, normali

normalizer_params=batch_norm_params, weights_reg

# 特征提取层输出特征

f = [end_points['pool5'], end_points['pool4'],

end_points['pool3'], end_points['pool2']]

for i in range(4):

print('Shape of f_{} {}'.format(i, f[i].shape))

# 合并层搭建

g = [None, None, None, None]

h = [None, None, None, None]

num_outputs = [None, 128, 64, 32]

for i in range(4):

if i == 0:

h[i] = f[i]

else:

c1_1 = slim.conv2d(tf.concat([g[i-1], f[i]], axis=-1), n

h[i] = slim.conv2d(c1_1, num_outputs[i], 3)

if i <= 2:

g[i] = unpool(h[i])

else:

g[i] = slim.conv2d(h[i], num_outputs[i], 3)

print('Shape of h_{} {}, g_{} {}'.format(i, h[i].shape, i, g

# 输出层搭建

# here we use a slightly different way for regression part, we f

# range, and also this is do with the angle map

F_score = slim.conv2d(g[3], 1, 1, activation_fn=tf.nn.sigmoid, n

geo_map = slim.conv2d(g[3], 4, 1, activation_fn=tf.nn.sigmoid, n

# angle is between [-45, 45]

angle_map

= (slim.conv2d(g[3], 1, 1, activation_fn=tf.nn.sigmoi

F_geometry = tf.concat([geo_map, angle_map], axis=-1)

return F_score, F_geometry

剩余14页未读，继续阅读

奔跑的楠子

粉丝: 28
资源: 299

EAST文本检测模型解析：Unet结构与特征融合

学习笔记1

python做一个east模型

east5.0制度原文

qmzn-down.s3.ap-east-1.amazonaws.com

PaddleOCR使用了EAST算法进行文字检测，介绍一下EAST算法如何进行文字检测的

east算法训练数据

银行的EAST系统业务流程

east5.0是什么

介绍一下EAST文本检测算法

opencv east

最新资源