CRNN torch

### 使用 PyTorch 实现 CRNN 模型 CRNN (Convolutional Recurrent Neural Network) 是一种用于序列识别任务的强大架构，在光学字符识别(OCR)等领域表现优异。下面展示如何利用 PyTorch 来构建这样一个网络。 #### 构建卷积层部分首先定义 CNN 部分，负责提取图像特征： ```python import torch.nn as nn class CRNN_CNN(nn.Module): def __init__(self, img_channel, output_size): super(CRNN_CNN, self).__init__() self.cnn = nn.Sequential( nn.Conv2d(img_channel, 64, kernel_size=3, stride=1, padding=1), nn.ReLU(True), nn.MaxPool2d(kernel_size=2, stride=2), nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1), nn.ReLU(True), nn.MaxPool2d(kernel_size=2, stride=2), nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1), nn.BatchNorm2d(256), nn.ReLU(True), nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1), nn.ReLU(True), nn.MaxPool2d((2, 2), (2, 1), (0, 1)), nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1), nn.BatchNorm2d(512), nn.ReLU(True), nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1), nn.ReLU(True), nn.MaxPool2d((2, 2), (2, 1), (0, 1)), nn.AdaptiveAvgPool2d(output_size=(None,output_size)) ) def forward(self, input): conv = self.cnn(input) b, c, h, w = conv.size() assert h == 1, "the height of conv must be 1" conv = conv.squeeze(2) # remove h dimension, [b, c, w] => [b,c,h*w] conv = conv.permute(2, 0, 1) #[seq_len,batch_size,num_classes] return conv ``` 此代码创建了一个多层CNN结构，它接受输入图片并输出一系列特征向量[^3]。 #### 添加循环神经网络(RNN)组件接着是 RNN 层的设计，通常采用双向 LSTM 或 GRU 单元来处理由 CNN 提取出来的特征序列: ```python class BidirectionalLSTM(nn.Module): def __init__(self, nIn, nHidden, nOut): super(BidirectionalLSTM, self).__init__() self.rnn = nn.LSTM(nIn, nHidden, bidirectional=True) self.embedding = nn.Linear(nHidden * 2, nOut) def forward(self, input): recurrent, _ = self.rnn(input) T, b, h = recurrent.size() t_rec = recurrent.view(T * b, h) output = self.embedding(t_rec) # [T * b, nOut] output = output.view(T, b, -1) return output ``` 这部分实现了双向 LSTM 结构，可以更好地捕捉时间维度上的依赖关系。 #### 完整的 CRNN 类最后组合上述两部分形成完整的 CRNN 模型类： ```python class CRNN(nn.Module): def __init__(self, imgH, nc, nclass, nh, leakyRelu=False): super(CRNN, self).__init__() assert imgH % 16 == 0, 'imgH has to be a multiple of 16' ks = [3, 3, 3, 3, 3, 3, 2] ps = [1, 1, 1, 1, 1, 1, 0] ss = [1, 1, 1, 1, 1, 1, 1] nm = [64, 128, 256, 256, 512, 512, 512] cnn_kwargs = {'leakyRelu': leakyRelu} self.cnn = CRNN_CNN(nc, imgH//16-1) self.rnn = nn.Sequential( BidirectionalLSTM(512, nh, nh), BidirectionalLSTM(nh, nh, nclass)) def forward(self, input): # conv features conv = self.cnn(input) # rnn features logits = self.rnn(conv) return logits ``` 这段代码完成了整个 CRNN 的搭建工作，其中包含了前面提到的 CNN 和 RNN 组件，并设置了合适的参数配置。

阅读全文

相关推荐

CRNN：端到端文字识别技术

chainer-crnn库实现CRNN模型链接器应用示例

CRNN音频分类技术的深入研究与应用

crnn：卷积递归神经网络（CRNN），用于基于图像的序列识别

crnn-ctc-loss-pytorch:使用 PyTorch 框架使用 CRNN 和 CTC 损失进行多位序列识别

Chineseocr:YOLO3+CRNN （基于windows+pytorch安装试用）

(源码)基于YOLOv3和CRNN的中文场景文字检测与识别系统.zip

基于深度学习的手写汉语拼音识别，采用Pytorch框架，整体采用主流深度学习文字识别算法CRNN+CTC方法.zip

chineseocr_lite:超轻量级中文ocr，支持竖排文字识别, 支持ncnn、mnn、tnn推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet(378KB)) 总模型仅4.7M

crnn pytorch实现代码

crnn.pytorch怎么训练

CRNN如何用代码实现

比crnn字符识别模型更准的

CRNN技术在中文字符识别中的应用研究

CRNN算法：端到端不定长文字识别技术解析

zip4j.jar包下载,版本为 2.11.5

基于node.js完成登录

aapt_v0.2-eng.ibotpeaches.20151011.225425_win.tar.cab

(2368806)CCNA中文版PPT

大家在看

B-6 用户手册.doc

线性代数导论第5版课后答案

深究标准IO的缓存

运动插件一套.zip

polsarpro官方教程、操作说明 PolSARpro v5.0 Software Training Course

最新推荐

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

"互动学习：行动中的多样性与论文攻读经历"

传感器集成全攻略：ICM-42688-P运动设备应用详解

matlab 中实现 astar

掌握Dash-Website构建Python数据可视化网站

关系数据表示学习