斯坦福CS224d深度学习与自然语言处理大作业解析

需积分: 0 37 浏览量更新于2024-06-30 收藏 1.08MB PDF 举报

"这篇资源是关于斯坦福大学CS224d课程——深度学习与自然语言处理的大作业测验1的解答，由胡杨和胥可翻译，寒小阳和龙心尘解答与编排。内容包括Softmax函数的相关证明和计算问题。" 在深度学习与自然语言处理领域，Softmax函数是一个重要的概念，它常用于多分类问题的概率输出。在本篇资料中，Softmax函数被用来证明其输出不会因输入向量的全局偏移（添加常数c）而改变，这是一个在实际应用中非常实用的性质。这是因为Softmax函数的本质是对输入向量进行归一化，使得各个元素变为概率分布，而全局偏移不会影响各个元素之间的相对大小。具体证明如下：设原始Softmax函数为： \[ \text{softmax}(x)_i = \frac{\exp(x_i)}{\sum_{j=1}^{n}\exp(x_j)} \] 当向量x的所有元素都加上常数c，得到的新向量为x+c，对应的Softmax函数变为： \[ \text{softmax}(x+c)_i = \frac{\exp((x_i+c))}{\sum_{j=1}^{n}\exp((x_j+c))} \] 注意到指数函数的性质，\(\exp(x)\)是一个单调递增函数，所以： \[ \exp(x_i+c) = \exp(x_i) \cdot \exp(c) \] \[ \exp(x_j+c) = \exp(x_j) \cdot \exp(c) \] 将这些代入Softmax函数，我们有： \[ \text{softmax}(x+c)_i = \frac{\exp(x_i) \cdot \exp(c)}{\sum_{j=1}^{n}\exp(x_j) \cdot \exp(c)} \] 由于分母和分子都乘以了相同的\(\exp(c)\)，这个因子可以约去，得到： \[ \text{softmax}(x+c)_i = \frac{\exp(x_i)}{\sum_{j=1}^{n}\exp(x_j)} = \text{softmax}(x)_i \] 这证明了Softmax函数的输出不会因为全局偏移c而改变。接下来的部分是关于计算N行d列输入矩阵每一行的softmax概率。在大规模数据处理时，为了避免数值溢出，通常会使用“截断指数”技巧，即对每个元素减去最大值，确保所有元素都在较小的范围内。这样可以提高计算的稳定性和效率。这部分可能涉及具体的数学计算，包括对矩阵每一行分别应用Softmax函数，以及如何有效地计算这些概率。但具体内容在提供的摘要信息中没有给出，可能需要查阅原文档获取详细解答。这篇资源提供了对深度学习中Softmax函数理解和应用的深入洞察，对于学习自然语言处理和深度学习的学生来说是非常有价值的参考资料。通过解决这样的作业和测验，学生能够加深对理论知识的理解，并提升解决实际问题的能力。

1. def gradcheck_naive(f, x):

2. """

3. 对一个函数f求梯度的梯度检验

4. - f 输入x，然后输出loss和梯度的函数

5. - x 就是输入咯

6. """

7. rndstate = random.getstate()

8. random.setstate(rndstate)

9. fx, grad = f(x)

10. h = 1e-4

11. # 遍历x的每一维

12. it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])

13. while not it.finished:

14. ix = it.multi_index

15. old_val = x[ix]

16. x[ix] = old_val - h

17. random.setstate(rndstate)

18. ( fxh1, _ ) = f(x)

19. x[ix] = old_val + h

20. random.setstate(rndstate)

21. ( fxh2, _ ) = f(x)

22. numgrad = (fxh2 - fxh1)/(2*h)

23. x[ix] = old_val

24. # 比对梯度

25. reldiff = abs(numgrad - grad[ix]) / max(1, abs(numgrad),

abs(grad[ix]))

26. if reldiff > 1e-5:

27. print "Gradient check failed."

28. print "First gradient error found at index %s" % str(ix)

29. print "Your gradient: %f \t Numerical gradient: %f" % (grad[ix],

numgrad)

30. return

31. it.iternext() # Step to next dimension

32. print "Gradient check passed!"

(part g) (8 分)

现在，在q2 neural.py中，写出只有一个隐层且激活函数为sigmoid的神经网络前向和后向传播代码。使用

python q2_neural.py测试自己的代码。

旁白：一入DL深似海...

1. def forward_backward_prop(data, labels, params, verbose = False):

2. """

3. 2个隐层的神经网络的前向运算和反向传播

4. """

5. if len(data.shape) >= 2:

剩余19页未读，继续阅读

魏水华

粉丝: 18
资源: 282

斯坦福CS224d深度学习与自然语言处理大作业解析

cs224d:斯坦福大学自然语言处理的深度学习

斯坦福 cs224d 深度学习与自然语言处理讲义 fix1

斯坦福 cs224d 深度学习与自然语言处理讲义

Stanford-CS224-Homework:这是我对斯坦福CS224课程家庭作业的解决方案

cs224n:斯坦福CS224n

stanford_cs229.zip_Stanford_cs229_cs229下载_screen4yb_深度学习

斯坦福CS224N自然语言处理作业解析

斯坦福CS231n 2020作业解决方案：深度学习技术详解

斯坦福CS231n深度学习课程作业详解与实践指南

deep-nlp:深度学习的自然语言处理

最新资源