深度学习与计算机视觉理论概要

版权申诉

3 浏览量更新于2024-07-14 收藏 27KB DOCX 举报

"该文档是关于计算机视觉理论学习的总结，涵盖了深度学习的基本概念，如神经网络中的反向传播、梯度消失与爆炸问题，以及解决策略如dropout、正则化和批归一化。此外，还讨论了卷积神经网络（CNN）的设计原则，包括局部连接、滤波器尺寸选择、输出尺寸计算、池化操作，以及一些常见的CNN模型。" 深度学习是计算机视觉领域的核心工具，它基于神经网络模型进行图像分析。在神经网络中，Backpropagation（反向传播）是计算梯度的关键步骤，用于更新权重以最小化损失函数。初始化权重时，应避免全为零，以防止对称失效，即所有层的激活值过于相关。梯度消失和梯度爆炸是训练神经网络时遇到的挑战，其中梯度消失主要由sigmoid等激活函数的饱和性质引起，而梯度爆炸则可能因过大的权重造成。为缓解这些问题，可以采用dropout技术随机失活部分神经元，使用L1或L2正则化避免过拟合，以及应用批归一化（Batch Normalization）使输出保持一致分布。卷积神经网络（CNN）是专为处理图像数据设计的网络结构。其核心思想是采用局部连接和参数共享，减少模型复杂性。滤波器（filter）尺寸通常是奇数，以捕获图像的边缘信息。输出尺寸可通过卷积步长和填充（padding）进行调整。池化（pooling）操作进一步减小输出尺寸，降低计算复杂性并提高模型泛化能力。常见的CNN模型有LeNet、AlexNet、VGG、GoogLeNet、ResNet等，它们各自具有不同的架构特点和性能表现。卷积层后的池化层通常有Max Pooling和Average Pooling两种，前者选择最大值，后者取平均值，以保留关键信息或降低敏感性。RNN（循环神经网络）也被提及，它是处理序列数据的有效工具，允许信息在时间维度上流动，但在计算机视觉领域，RNN通常与CNN结合，如在视频分析中，以处理时间序列的图像帧。在深入学习计算机视觉时，理解这些基本概念至关重要，它们构成了构建和训练高效视觉模型的基础。通过掌握这些理论，可以更好地设计和优化模型，以应对各种计算机视觉任务，如图像分类、目标检测、语义分割等。

小越好。这种度量差异的方式实际上叫做 Jensen-Shannon divergence。

3、GAN 的实际计算方法

因为我们不可能有 Pdata(x)的分布，所以我们实际中都是用采样的方式来

计算差异（也就是积分变求和）。具体实现过程如下：

有几个关键点：判别方程训练 K 次，而生成模型只需要每次迭代训练一次，

先最大化（梯度上升）再最小化（梯度下降）。

但是实际计算时 V 的后面一项在 D(x)很小的情况下由于 log 函数的原因会

导致更新很慢，所以实际中通常将后一项的 log(1-D(x))变为-logD(x)。

实际计算的时候还发现不论生成器设计的多好，判别器总是能判断出真假，

也就是 loss 几乎都是 0，这可能是因为抽样造成的，生成数据与真实数据的交

集过小，无论生成模型多好，判别模型也能分辨出来。解决方法有两个：1、

用 WGAN 2、引入随时间减少的噪声

4 、对 GAN 有一些改进有引入 f-divergence，取代 Jensen-Shannon

divergence，还有很多，这里主要介绍 WGAN

5、WGAN 上面说过了用 f-divergence 来衡量两个分布的差异，而 WGAN

的思路是使用 Earth Mover distance ( 挖掘机距离 Wasserstein

distance)。

第二部分、机器学习准备

1、决策树树相关问题

（1）各种熵的计算

熵、联合熵、条件熵、交叉熵、KL 散度（相对熵）

●熵用于衡量不确定性，所以均分的时候熵最大

5 / 22

剩余21页未读，继续阅读

mair123456

粉丝: 6
资源: 6万+

深度学习与计算机视觉理论概要

线上学习总结.docx

计算机视觉导航综述.docx

计算机专业毕业实习总结.docx

计算机系毕业实习总结.docx

2022计算机应用毕业实习总结.docx

单目视觉导航学习笔记.docx

计算机视觉三维重建理论与应用.docx

计算机专业的毕业实习总结.docx

2022年关于计算机专业实习总结.docx

2021计算机专业实习总结范文.docx

最新资源