深度学习与小规模标签:从SGD到宽极小值

需积分: 5 0 下载量 30 浏览量 更新于2024-07-10 收藏 1.54MB PDF 举报
"小规模标签Chaudhari-SPIGL2020.pdf" 这篇文档主要探讨了在小规模标签数据集上进行机器学习,特别是针对深度学习中的几个关键概念和方法。作者Pratik Chaudhari提及了在有限的标注样本情况下如何训练模型,以及这种环境下的挑战和解决方案。 首先,学习小规模标签数据的核心问题在于,模型需要从少量的样例中捕获足够的信息来泛化到未见过的数据。传统的优化目标是找到最小化损失函数的参数,即: $$\theta^* = \arg\min_{\theta} \frac{1}{N}\sum_{i=1}^{N} f_i(\theta)$$ 在实践中,随机梯度下降(SGD)是解决这类问题的常用方法,它通过迭代更新参数来逼近最优解: $$\theta_{t+1} = \theta_t - \eta \frac{1}{b}\sum_{k=1}^{b} \nabla f_{\omega_k}(\theta_t)$$ 其中,$\theta_t$是当前的参数,$\eta$是学习率,$b$是批量大小,$\omega_k$是从训练集中随机选择的样本。 然而,SGD往往在深度网络中找到的是宽泛的局部最小值,这意味着模型可能对输入的微小变化过于敏感。为了改进这一点,文献提出了Local Entropy的概念,这是一种修改后的损失函数: $$f_{\gamma}(\theta) = -\log \left(G_{\gamma}^* e^{-f(\theta)}\right)$$ Local Entropy旨在通过引入熵来鼓励模型学习更平滑的决策边界。 另外,文档还介绍了Parle,这是一个并行化的SGD方法,结合马尔可夫链蒙特卡洛(MCMC)与分布式更新,以实现 state-of-the-art 的性能。实验结果表明,Parle 在处理小规模标签数据时,如WRN-28-10在CIFAR-10上的表现,即使在较小的计算节点数下也能取得优于传统SGD的准确率。 该文档涉及了小样本学习、SGD优化、深度学习的局部最小问题以及利用并行化技术提高训练效率的策略。这些内容对于理解在AI、人工智能,特别是自然语言处理(NLP)领域中,如何高效地利用有限的标注数据进行模型训练具有重要价值。