首页X = torch.normal(0, 1, (2, 5)) X_prob = softmax(X) X_prob, X_prob.sum(1)中 X_prob, X_prob.sum(1)的含义

X = torch.normal(0, 1, (2, 5)) X_prob = softmax(X) X_prob, X_prob.sum(1)中 X_prob, X_prob.sum(1)的含义

时间: 2023-10-24 20:06:14 浏览: 153

softmax pytorch从零实现的代码

获取Fashion-MNIST训练集和读取数据在介绍softmax回归的实现前我们先引入一个多类图像分类数据集。它将在后面的章节中被多次使用，以方便我们观察比较算法之间在模型精度和计算效率上的区别。图像分类数据集中最常用的是手写数字识别数据集MNIST[1]。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法之间的差异，我们将使用一个图像内容更加复杂的数据集Fashion-MNIST[2]。我这里我们会使用torchvision包，它是服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。torchvision主要由以下几部分构成： torchvision.

`X = torch.normal(0, 1, (2, 5))` 会创建一个形状为 (2, 5) 的张量，其中的元素是从均值为 0，标准差为 1 的正态分布中随机采样的。 `X_prob = softmax(X)` 会对张量 X 中的每一行进行 softmax 操作，即将每行的元素转换为概率分布。具体地，对于形状为 (m,n) 的张量 X，softmax 操作会对 X 的每一行进行如下操作： $$ \text{softmax}(X_{i, j}) = \frac{\exp(X_{i, j})}{\sum_{k=1}^n \exp(X_{i, k})} $$ 其中 $1 \leq i \leq m$，$1 \leq j \leq n$。这个操作的结果是一个形状为 (m,n) 的张量，其中第 $i$ 行是 X 的第 $i$ 行元素做 softmax 操作后得到的概率分布。 `X_prob.sum(1)` 会对 X_prob 的第二个维度（也就是每行）进行求和操作，得到一个形状为 (m,) 的张量，其中第 $i$ 个元素是 X_prob 的第 $i$ 行元素之和。这个操作的结果是一个包含每行概率之和的向量。由于每行的元素已经做了 softmax 转换，因此这个向量的每个元素都应该接近于 1。

阅读全文