softmax与softmax-loss：提升深度学习泛化能力的几何视角

下载需积分: 0 | PDF格式 | 2.37MB | 更新于2024-08-05 | 40 浏览量 | 举报

本文主要讨论了softmax、softmax loss以及与之相关的交叉熵损失函数在机器学习中的应用，特别是从SVM（支持向量机）的角度理解softmax loss的Max Margin概念。softmax是一种用于多分类问题的概率函数，它将神经网络的输出转换为各个类别的概率分布，使得概率总和为1。 1. **Softmax Loss理解**： Softmax loss是一种用于多分类问题的损失函数，其目的是最小化预测概率分布与实际标签之间的差异。当考虑Max Margin时，softmax loss试图在最大化类别间的间隔（margin），就像SVM中的间隔最大化一样，但它的实现方式更为间接。softmax通过计算每个样本对所有类别的条件概率，然后基于负对数似然原则来定义损失，这使得模型倾向于将预测概率集中在正确类别上。 2. **由softmax到Softmax Loss再到Cross Entropy**：从softmax的输出概率向量出发，转化为Softmax Loss，是通过计算每个样本的真实类别对应的预测概率的负对数，这样做的好处是可以直接优化模型参数以提高预测的准确性。而进一步到交叉熵损失（Cross Entropy），则是对Softmax Loss的一个推广，常用于深度学习中的多分类任务，因为它能够处理类别不平衡的问题，并且对梯度消失问题有所缓解。 3. **几何视角下的Softmax Loss**：在几何上，Softmax Loss可以理解为将样本点映射到高维空间中，每个类别的权重向量形成一个锥形区域，样本点落在哪个锥形内取决于其与该类权重向量的投影长度。原始的softmax可能导致决策边界不够明显，特别是在深度学习中，因为过拟合问题，很多样本的预测概率接近1，这会导致梯度更新较小，不利于模型收敛。 4. **拓展Max Margin**：为了解决Softmax在泛化方面的不足，文章提到的主要策略有两个：一是限制特征向量（f）的L2范数，以防止过度拟合；二是通过对softmax进行改进，例如引入CenterLoss，这是一种将样本拉近其类中心的损失，从而增强样本间以及样本与类中心的距离。总结来说，本文深入探讨了softmax loss及其与SVM中Max Margin概念的关联，并通过几何解释揭示了其在多分类问题中的作用。同时，针对softmax的局限性提出了通过调整特征向量和引入其他损失函数来扩展margin的方法，以提高模型的泛化性能。这对于理解和应用深度学习模型，特别是多分类任务中的模型优化具有重要的指导意义。

1.softmaxloss理解

2.centerloss

3.由softmax到softmaxloss到crossentropy

1.softmaxloss理解

对于SVM来讲，margin的概念十分清晰易懂，那么对于Softmax而言，如果我们要引入

Max

Margin

的概念，那么所谓的margin究竟是什么？

为了能对这一系列工作有更深刻的理解，我们需要从几何上来理解softmax loss究竟在做什

么。为了方便表述，下文所指softmax loss均指softmax之前的全连接层+softmax loss

function，即

其中f_i为第i个sample的feature，y_i为其对应的label，w_{y_i}为y_i类对应的weight。为

了方便后文推导，我们可以认为bias term b = 0。这里有一个关键的变换是，我们把inner

product表示为：

这个简单的变换是后面这一系列工作的核心：我们可以看到这个inner product的大小，和三

个元素相关：

的

l2 norm

，

的

l2 norm

，

和

这

两个

向

量

的

夹

角

。如果我们对于类别没有特殊的

假设，那么w的l2 norm可以认为是一致的。那么

可

以

影

响

结

果

的

就

只

有

后

两

项

了

，后面介绍的一

系列工作都是在这两项上进行改动。在开始之前，我们需要一个在二维的空间中直观的解释来帮

助理解：

在这些图中，黄色和绿色的点分别代表两类样本，黑色的虚线代表decision boundary，

黑

色

的

实

线

代

表

两个

class

的

weight

。

这

些

weight vector

，

把

整

个

空

间

划分

成

了

若

干

个

锥

形

，

每

个

锥

形

对

应

着

一

类

样

本

的

空

间

。

如果假设每一类的weight的l2 norm是一致的，那么每个样本属于哪

一类就只和

这

个

样

本

在

这

些

weight vector

的

方

向

上

投

影

长

度

相

关

。



最左侧的图中，显示的是原始的softmax，可以看到，由于softmax并没有显式地加强margin，会

导致训练样本可以分对，但是泛化性能并不好的情况。尤其是对于Deep Learning 模型而言，由

下载后可阅读完整内容，剩余6页未读，立即下载

LauraKuang

粉丝: 23
资源: 334

softmax与softmax-loss：提升深度学习泛化能力的几何视角

Loss_ToolBox-PyTorch:PyTorch实现焦点损失和Lovasz-Softmax损失

pytorch-loss:标签平滑，amsoftmax，散焦，三重损失，lovasz-softmax。 也许有用

tensorflow中四种不同交叉熵函数tf.nn.softmax_cross_entropy_with_logits() -

TensorFlow tf.nn.softmax_cross_entropy_with_logits的用法

tf.losses.softmax_cross_entropy 在 tensorflow2

tf.nn.softmax_cross_entropy_with_logits_v2()如何使用？

最新资源

pytorch-loss:标签平滑，amsoftmax，散焦，三重损失，lovasz-softmax。也许有用