深度学习与小规模标签：从SGD到宽极小值

人工智能

nlp

需积分: 5 34 浏览量更新于2024-07-10 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"小规模标签Chaudhari-SPIGL2020.pdf" 这篇文档主要探讨了在小规模标签数据集上进行机器学习，特别是针对深度学习中的几个关键概念和方法。作者Pratik Chaudhari提及了在有限的标注样本情况下如何训练模型，以及这种环境下的挑战和解决方案。首先，学习小规模标签数据的核心问题在于，模型需要从少量的样例中捕获足够的信息来泛化到未见过的数据。传统的优化目标是找到最小化损失函数的参数，即： $$\theta^* = \arg\min_{\theta} \frac{1}{N}\sum_{i=1}^{N} f_i(\theta)$$ 在实践中，随机梯度下降（SGD）是解决这类问题的常用方法，它通过迭代更新参数来逼近最优解： $$\theta_{t+1} = \theta_t - \eta \frac{1}{b}\sum_{k=1}^{b} \nabla f_{\omega_k}(\theta_t)$$ 其中，$\theta_t$是当前的参数，$\eta$是学习率，$b$是批量大小，$\omega_k$是从训练集中随机选择的样本。然而，SGD往往在深度网络中找到的是宽泛的局部最小值，这意味着模型可能对输入的微小变化过于敏感。为了改进这一点，文献提出了Local Entropy的概念，这是一种修改后的损失函数： $$f_{\gamma}(\theta) = -\log \left(G_{\gamma}^* e^{-f(\theta)}\right)$$ Local Entropy旨在通过引入熵来鼓励模型学习更平滑的决策边界。另外，文档还介绍了Parle，这是一个并行化的SGD方法，结合马尔可夫链蒙特卡洛（MCMC）与分布式更新，以实现 state-of-the-art 的性能。实验结果表明，Parle 在处理小规模标签数据时，如WRN-28-10在CIFAR-10上的表现，即使在较小的计算节点数下也能取得优于传统SGD的准确率。该文档涉及了小样本学习、SGD优化、深度学习的局部最小问题以及利用并行化技术提高训练效率的策略。这些内容对于理解在AI、人工智能，特别是自然语言处理（NLP）领域中，如何高效地利用有限的标注数据进行模型训练具有重要价值。

资源详情

资源推荐

Parle: parallelizing stochastic gradient descent

Couple MCMC and distributed updates to get state-of-the-art

performance [Chaudhari et al., SysML18]

0 100 200 300 400

wall-clock time (min)

top1 error (

)

3.77 3.24

4.38

4.234.29

WRN-28-10: CIFAR-10

Parle (n=3)

Parle (n=8)

Elastic-SGD (n=3)

Entropy-SGD

SGD

0 10 20 30 40 50

wall-clock time (min)

top1 error (

)

6.08

6.8

6.15

All-CNN: CIFAR-10 (

25%

data)

Parle (n=6)

Elastic-SGD (n=6)

SGD (full)

剩余60页未读，继续阅读

Jayxp

粉丝: 6
资源: 137

深度学习与小规模标签：从SGD到宽极小值

Django 2 Web Development Cookbook 3rd Edition.pdf

Jaya全局优化算法_优化算法

radiopaedia_embedding_2020

wbdv-team-project-proprental

SU-Map:使用谷歌地图 API 的 Android 应用程序

pyEyeTrack:PyEyeTrack是一个基于python的学生跟踪库。 该库使用商品网络摄像头跟踪眼睛，并提供实时的眼睛坐标流

C# WinForms YOLOv11-ONNX实例分割模型部署（包含详细的完整的程序和数据）

API接口详解与使用方法

Pycluster-1.59-cp38-cp38-win_amd64.whl

nx二次开发.docx

ujson-5.3.0-cp311-cp311-win_amd64.whl

Java项目: 基于SpringBoot+mysql+vue学生选课系统(含源码+数据库+答辩PPT+开题报告+毕业论文)

GNU 8.1.0直接解压缩可用版

JSON-Fortran is a user-friendly, thread-safe, and object-oriente

代码生成器-【service模板】

twisted_iocpsupport-1.0.2-cp38-cp38-win_amd64.whl

pycharm-community-2021.2.3安装包.rar

大学生入学审核&基于java大学生入学审核系统的设计与实现（毕业论文+ppt+开题报告）

学生综合考评管理系统.zip

tinyarray-1.2.4-cp39-cp39-win_amd64.whl

最新资源

pyEyeTrack:PyEyeTrack是一个基于python的学生跟踪库。该库使用商品网络摄像头跟踪眼睛，并提供实时的眼睛坐标流