深度解析：CS231n全连接神经网络及其图像分类挑战

需积分: 35 50 浏览量更新于2024-07-09 1 收藏 3.87MB PDF 举报

本篇笔记主要介绍的是斯坦福大学在线课程CS231n中的全连接神经网络部分，着重讲解了图像分类这一关键概念和数据驱动方法。图像分类是计算机视觉领域的核心任务，目标是将输入的图像与预定义的标签集对应起来，如判断一张图片是猫、狗、帽子还是马克杯。图像作为输入，实际上是高维度的3维数组，如248x400x3像素的RGB图像，包含大量数字表示色彩信息。在处理图像分类时，面临诸多挑战，如视角变化、大小变化、形变、遮挡、光照条件和背景干扰等。这些因素增加了识别的复杂性，要求模型能够适应物体在不同场景下的变化。数据驱动方法则是解决这个问题的关键，即提供大量的训练样本，让模型通过学习算法理解各类物体的特征，从而在未知图像中做出准确分类。这个过程通常涉及深度学习，特别是全连接神经网络，通过反向传播和优化算法调整网络参数，提高模型的泛化能力。全连接网络是一种常见的神经网络结构，每层神经元都与下一层所有神经元相连，这种设计使得网络能够捕捉到输入数据中的复杂模式。在训练过程中，通过前向传播计算输出，后向传播更新权重，不断优化网络以减小预测错误。此外，可能还会用到批量归一化、Dropout等技术来提高模型的稳定性和防止过拟合。这篇笔记提供了对全连接神经网络在图像分类任务中的基础理解，包括其工作原理、应用场景以及面对的挑战，以及如何通过数据驱动的方法来应对这些问题。这对于理解和实践深度学习在计算机视觉中的应用具有重要意义。

两个列向量的内积等于前一个列向量的转置乘以另一个列向量

其中是权重的第j行，被变形为列向量。然而，一旦开始考虑更复杂的评分函数公式，这样做就

不是必须的了。

有的数据集中表现好一点



正则化（Regularization）：上面损失函数有一个问题。假设有一个数据集和一个权重集W能够正确地

分类每个数据（即所有的边界都满足，对于所有的i都有）。问题在于这个W并不唯一：可能

有很多相似的W都能正确地分类所有的数据。一个简单的例子：如果W能够正确分类所有数据，即对于

每个数据，损失值都是0。那么当时，任何数乘都能使得损失值为0，因为这个变化将所

有分值的大小都均等地扩大了，所以它们之间的绝对差值也扩大了。举个例子，如果一个正确分类的分

值和举例它最近的错误分类的分值的差距是15，对W乘以2将使得差距变成30。

换句话说，我们希望能向某些特定的权重W添加一些偏好，对其他权重则不添加，以此来消除模糊性。

这一点是能够实现的，方法是向损失函数增加一个正则化惩罚（regularization penalty）部分。最常

用的正则化惩罚是L2范式，L2范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重：

上面的表达式中，将中所有元素平方后求和。注意正则化函数不是数据的函数，仅基于权重。包含

正则化惩罚后，就能够给出完整的多类SVM损失函数了，它由两个部分组成：数据损失（data loss），

即所有样例的的平均损失，以及正则化损失（regularization loss）。完整公式如下所示：

将其展开完整公式是：

其中，是训练集的数据量。现在正则化惩罚添加到了损失函数里面，并用超参数来计算其权重。该

超参数无法简单确定，需要通过交叉验证来获取。



上述表述说实话我自己都没怎么看懂，那么我这里来解释解释通俗一点：

举个例子：

这里有X=[1,1,1,1]，W1=[1,0,0,0]，W2=[0.25,0.25,0.25,0.25]

那么将他们内积得到的结果都是1，但是R1(W)=1 > R2(W)=0.25

所以我们引入正则化就是帮助我们选择更好的数据



代码：下面是一个无正则化部分的损失函数的Python实现，有非向量化和半向量化两个形式：

def L_i(x, y, W):

"""

设置Delta：你可能注意到上面的内容对超参数及其设置是一笔带过，那么它应该被设置成什么值？

需要通过交叉验证来求得吗？现在看来，该超参数在绝大多数情况下设为都是安全的。超参

数和看起来是两个不同的超参数，但实际上他们一起控制同一个权衡：即损失函数中的数据损失和

正则化损失之间的权衡。理解这一点的关键是要知道，权重的大小对于分类分值有直接影响（当然

对他们的差异也有直接影响）：当我们将中值缩小，分类分值之间的差异也变小，反之亦然。因

此，不同分类分值之间的边界的具体值（比如或）从某些角度来看是没意义的，

因为权重自己就可以控制差异变大和缩小。也就是说，真正的权衡是我们允许权重能够变大到何种程度

（通过正则化强度来控制）。

与二元支持向量机（Binary Support Vector Machine）的关系：在学习本课程前，你可能对于二元支

持向量机有些经验，它对于第i个数据的损失计算公式是：

unvectorized version. Compute the multiclass svm loss for a single example

(x,y)

- x is a column vector representing an image (e.g. 3073 x 1 in CIFAR-10)

 with an appended bias dimension in the 3073-rd position (i.e. bias trick)

- y is an integer giving index of correct class (e.g. between 0 and 9 in CIFAR-

10)

- W is the weight matrix (e.g. 10 x 3073 in CIFAR-10)

"""

delta = 1.0 # see notes about delta later in this section

scores = W.dot(x) # scores becomes of size 10 x 1, the scores for each class

correct_class_score = scores[y]

D = W.shape[0] # number of classes, e.g. 10

loss_i = 0.0

for j in xrange(D): # iterate over all wrong classes

 if j == y:

  # skip for the true class to only loop over incorrect classes

  continue

 # accumulate loss for the i-th example

 loss_i += max(0, scores[j] - correct_class_score + delta)

return loss_i

def L_i_vectorized(x, y, W):

"""

A faster half-vectorized implementation. half-vectorized

refers to the fact that for a single example the implementation contains

no for loops, but there is still one loop over the examples (outside this

function)

"""

delta = 1.0

scores = W.dot(x)

# compute the margins for all classes in one vector operation

margins = np.maximum(0, scores - scores[y] + delta)

# on y-th position scores[y] - scores[y] canceled and gave delta. We want

# to ignore the y-th position and only consider margin on max wrong class

margins[y] = 0

loss_i = np.sum(margins)

return loss_i

剩余43页未读，继续阅读

Esaka7

粉丝: 295
资源: 2

深度解析：CS231n全连接神经网络及其图像分类挑战

最新资源