深度学习与视觉模型：从OpenMMLab到Transformer

需积分: 0 115 浏览量更新于2024-08-04 收藏 2.88MB DOCX 举报

"通用视觉框架OpenMMLab图像分类与基础视觉模型是专注于深度学习和计算机视觉领域的一个教程，主要涵盖了从图像分类的基本概念到深度学习模型的发展，特别是卷积神经网络和Transformer的应用。该课程旨在帮助学习者理解从特征工程到特征学习的转变，并掌握现代视觉模型的工作原理。" 在图像分类和基础视觉模型的学习中，首先要了解问题的数学表示，这包括如何定义模型，如何通过训练数据找到最佳参数，以及如何进行预测。传统的图像处理方法依赖于人工设计的特征，如方向梯度直方图（HOG），它能提取出有助于物体识别的特征。然而，随着深度学习的兴起，特别是卷积神经网络（CNN）和Transformer的引入，特征学习变得更加自动化和高效，实现了层次化的特征表示。深度学习的发展历程是图像分类模型进步的关键。AlexNet在2012年的突破开启了深度学习在计算机视觉中的广泛应用。它有5个卷积层和3个全连接层，使用ReLU激活函数，显著提升了模型的训练速度。接着，VGG网络通过使用小尺寸的3×3卷积核和深度增加来提高模型的表达能力，而GoogLeNet（Inception v1）则引入了Inception模块，减少了参数数量，同时保持了模型的性能。残差网络（ResNet）是深度学习中的另一个里程碑，它解决了深度网络中的梯度消失问题。ResNet通过设计残差块使得新增层可以学习浅层网络与深层网络之间的差异，从而更容易训练，并允许梯度直接回传到浅层，确保每个层都能有效贡献。ResNet-34是其中的一个变种，包含34层，通过残差模块和全局平均池化实现图像分类。最新的发展趋势是Vision Transformers，它们借鉴了自然语言处理中的Transformer架构，用自注意力机制替换传统的卷积操作，展示了在图像分类任务上的强大潜力。Transformer模型能够捕捉到全局的上下文信息，为视觉任务提供了新的视角。 OpenMMLab图像分类与基础视觉模型的学习涵盖了深度学习模型的发展历史、关键模型的结构与工作原理，以及当前的前沿技术，是深入了解计算机视觉和深度学习领域的重要资源。

图像分类与基础视觉模型学习笔记

课程从什么是图像开始逐渐深入，讲解了图像分类与基础视觉模型的基础知识，以及卷积神

经网络等。

一、发展

1.问题的数学表示

2.超越规则：让机器从数据中学习：收集数据-定义模型（含参变量的函数）-训练（寻找最

佳参数 Θ ∗）-预测（对于新图像 𝑋，用训练好的模型预测其类别）

3.从特征工程到特征学习

（1）传统方法：设计图像特征 (1990s~2000s)

（2）从特征工程到特征学习

方向梯度直方图（Histogram of Oriented Gradients）在局部区域统计像素梯度的方向的分

布，将图像映射成一个相对低维的特征向量，同时保留足够识别物体的信息

下载后可阅读完整内容，剩余5页未读，立即下载

spring小郭

粉丝: 6
资源: 1

深度学习与视觉模型：从OpenMMLab到Transformer

交大PPT通用视觉框架OpenMMlab课程02图像分类与MMClassification

通用视觉框架OpenMMlab课程01计算机视觉与OpenMMLab概述

LabVIEW通用视觉框架

深度学习预训练库，集成各种经典backbone，基于OpenMMLab_MMPretrain库！！！.zip

OpenMMLab与计算机视觉基础：AI实战营Day1精华

OpenMMLab：计算机视觉开源框架深度解析

MMDetection3D v0.11.0发布：OpenMMLab下一代3D检测平台获奖

基于OpenMMLab-MMPretrain的深度学习预训练库及其多技术项目源码

学会使用mmdetection目标检测框架进行模型构建

复古怀旧教室桌椅素材同学聚会毕业纪念册模板.pptx

最新资源