def Bottlenecktransformer

BoTNet（Bottleneck Transformer Network）是一种基于Transformer的新骨干架构，它同时使用卷积和自注意力机制。在ResNet的最后3个bottleneck blocks中使用全局多头自注意力（Multi-Head Self-Attention, MHSA）替换3 × 3空间卷积。这种结构可以在保持高精度的同时，大大减少模型的计算量和参数数量。BoTNet已经在多个计算机视觉任务中取得了优异的表现，例如图像分类、目标检测和语义分割等。 ```python import torch import torch.nn as nn class MHSA(nn.Module): def __init__(self, dim, num_heads): super(MHSA, self).__init__() self.num_heads = num_heads self.head_dim = dim // num_heads self.scale = self.head_dim ** -0.5 self.query = nn.Linear(dim, dim, bias=False) self.key = nn.Linear(dim, dim, bias=False) self.value = nn.Linear(dim, dim, bias=False) self.out = nn.Linear(dim, dim) def forward(self, x): b, n, _, h = *x.shape, self.num_heads qkv = [l(x).reshape(b, n, h, self.head_dim).transpose(1, 2) for l, x in zip((self.query, self.key, self.value), (x, x, x))] dots = qkv[0] @ qkv[1].transpose(-2, -1) * self.scale attn = dots.softmax(dim=-1) out = attn @ qkv[2] out = out.transpose(1, 2).reshape(b, n, -1) return self.out(out) class Bottleneck(nn.Module): def __init__(self, dim, num_heads, expansion_factor=4): super(Bottleneck, self).__init__() self.mhsa = MHSA(dim, num_heads) self.norm1 = nn.LayerNorm(dim) self.mlp = nn.Sequential( nn.Linear(dim, expansion_factor * dim), nn.GELU(), nn.Linear(expansion_factor * dim, dim), ) self.norm2 = nn.LayerNorm(dim) def forward(self, x): x = x + self.mhsa(self.norm1(x)) x = x + self.mlp(self.norm2(x)) return x class BoTNet(nn.Module): def __init__(self, layers, channels, num_classes, num_heads=4, expansion_factor=4): super(BoTNet, self).__init__() self.stem = nn.Sequential( nn.Conv2d(3, channels[0], kernel_size=3, stride=2, padding=1, bias=False), nn.BatchNorm2d(channels[0]), nn.ReLU(inplace=True), nn.Conv2d(channels[0], channels[0], kernel_size=3, stride=1, padding=1, bias=False), nn.BatchNorm2d(channels[0]), nn.ReLU(inplace=True), nn.Conv2d(channels[0], channels[0], kernel_size=3, stride=1, padding=1, bias=False), nn.BatchNorm2d(channels[0]), nn.ReLU(inplace=True), nn.MaxPool2d(kernel_size=3, stride=2, padding=1), ) self.layer1 = self._make_layer(dim=channels[0], num_heads=num_heads, expansion_factor=expansion_factor, num_blocks=layers[0]) self.layer2 = self._make_layer(dim=channels[1], num_heads=num_heads, expansion_factor=expansion_factor, num_blocks=layers[1], stride=2) self.layer3 = self._make_layer(dim=channels[2], num_heads=num_heads, expansion_factor=expansion_factor, num_blocks=layers[2], stride=2) self.layer4 = self._make_layer(dim=channels[3], num_heads=num_heads, expansion_factor=expansion_factor, num_blocks=layers[3], stride=2) self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) self.fc = nn.Linear(channels[3], num_classes) def _make_layer(self, dim, num_heads, expansion_factor, num_blocks, stride=1): layers = [Bottleneck(dim, num_heads, expansion_factor=expansion_factor)] for _ in range(num_blocks - 1): layers.append(Bottleneck(dim, num_heads, expansion_factor=expansion_factor)) return nn.Sequential(*layers) def forward(self, x): x = self.stem(x) x = self.layer1(x) x = self.layer2(x) x = self.layer3(x) x = self.layer4(x) x = self.avgpool(x) x = x.flatten(1) x = self.fc(x) return x ```

阅读全文

def Bottlenecktransformer

相关推荐

BottleneckTransformers:视觉识别的瓶颈变压器

可以参网_DEFDEF_

python中def是做什么的

gulp-def:优雅.def的gulp插件

DFT的matlab源代码-PyDEF:PyDEF

SystemDll.def

def_python

rice.def

FANUC 0601 def

sqlite.def

pipeline_def

def_init

SeaColor.def

DEF-CON-Links:DEF CON 28安全模式的简易链接和指南

dll_Is_Sample3.rar_dll def_windows .def dll

dll2def:Windows 32/64位DLL的DEF文件创建器-开源

node-sqldef:sqldef的简单包装器，可轻松与节点一起使用

6.用户自定义控件中 Control Type Def 和 Strict Type Def 的区别-综合文档

simple_def_censor:简单的Python脚本可对DEF之外的标准单元格名称进行审查

Basedef.rar_Basedef_Tantra-Online_tantra_tantra online_tantra se

大家在看

定位面研磨-半导体材料

iometer使用指南

基于yoloV4目标检测框架，baidu语音识别，控制西门子1200PLC.zip

千方百剂服务器及客户端安装白皮书

Linux下rsync文件同步详解

最新推荐

python中def是做什么的

python自定义函数def的应用详解

MingW VC 之.a .lib .dll .def 关系

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集