大模型理论基础：语言模型与历史回顾

机器学习

需积分: 0 37 浏览量更新于2024-08-03 收藏 1.96MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"大模型理论基础打卡Task01" 大模型理论基础主要涉及语言模型，尤其是自回归语言模型，以及信息理论的相关概念，如熵和n-gram模型。语言模型在机器学习领域扮演着重要角色，它能评估和生成符合语言规则的序列。 1. 语言模型（LM）是计算序列概率的工具，它基于令牌序列的概率分布来评估一个句子的合理性。一个优秀的语言模型需要具备强大的语言理解和世界知识。语言模型不仅可以用于评估，还可以用于生成任务，即根据给定的序列预测下一个可能的令牌。 2. 自回归语言模型是一种特殊类型的语言模型，它们利用前馈神经网络等方法计算每个条件概率，即基于已生成的令牌来预测下一个令牌。在生成序列时，需要逐个生成令牌，每次生成都依赖于前面生成的令牌。 3. 在实际操作中，由于真实语言模型的复杂性，通常不会直接从模型中采样。此外，我们往往希望得到最优化的序列，而不是平均序列。为此，可能需要采用如退火等策略来调整生成过程，确保生成序列的质量。 4. 在计算条件概率时，可能会遇到概率分布不归一化的问题。为了解决这个问题，可以通过重新标准化概率分布，确保其总和为1。 5. 信息理论中的香农熵是衡量数据编码成比特串所需预期比特数的指标。达到香农极限非常困难，但编码理论致力于此目标的研究。 6. 英语的熵是衡量英语文本压缩效率的一个指标。交叉熵则用于评估使用模型q对来自真实分布p的样本进行编码所需的比特数。交叉熵提供了一个上界，即真实熵H(p)，这意味着可以通过构建近似的语言模型q来估计H(p)。 7. n-gram模型是语言模型的一种早期形式，尤其在语音识别和机器翻译等下游应用中起到了关键作用。n-gram模型基于相邻单词的组合（n个单词的短语）来预测下一个单词，从而帮助系统理解语言模式。 8. 1970年代的语音识别系统和1990年代的机器翻译系统广泛采用了基于词的n-gram模型，这些模型虽然简单，但在当时的技术条件下为处理自然语言提供了有效的解决方案。大模型理论基础涵盖了语言模型的原理与应用，信息理论的基本概念，以及n-gram模型在实际任务中的重要性，这些都是理解和开发现代语言模型如自回归模型的基础。

资源详情

资源推荐

第⼀章：引⾔

1.1 什么是语⾔模型

语⾔模型(LM)的经典定义是⼀种对令牌序列

(token)的概率分布

语⾔模型需要具备卓越的语⾔能⼒和世界知

识,才能准确评估序列的概率

语⾔模型也可以做⽣成任务。如定义所示,语

⾔模型p接受⼀个序列并返回⼀个概率来评估

其好坏。

实际上,我们通常不直接从语⾔模型中进⾏采

样,这既因为真实语⾔模型的限制,也因为我

们有时希望获得的不是⼀个“平均”的序列,⽽

是更接近“最佳”序列的结果。

⾃回归语⾔模型(Autoregressive

language models)

⾃回归语⾔模型的特点是它可以利⽤例如前馈

神经⽹络等⽅法有效计算出每个条件概率分布

在⾮⾃回归的⽣成任务中,要从⾃回归语⾔模

型中⽣成整个序列,我们需要⼀次⽣成⼀个

令牌(token),该令牌基于之前以⽣成的令牌

进⾏计算获得:

然⽽,如果我们仅将概率提⾼到1/T的次⽅,概

率分布可能不会加和到 1。我们可以通过重

新标准化分布来解决这个问题。

退⽕

1.2⼤模型相关历史回顾

1.2.1信息理论、英语的熵、n-gram模型

⾹农熵

熵实际上是⼀个衡量将样本编码(即压缩)成

⽐特串所需要的预期⽐特数的度量。举例来

说,"the mouse ate the cheese" 可能

会被编码成 "0001110101"。

需要注意的是,实际上达到⾹农极限

(Shannon limit)是⾮常具有挑战性的(例

如,低密度奇偶校验码),这也是编码理论研究

的主题之⼀。

1.2.1.1英语的熵

交叉熵

这测量了需要多少⽐特(nats)来编码样本

x∼p,使⽤由模型q给出的压缩⽅案(⽤⻓度为

1/q(x)的代码表示x)

⼀个关键的属性是,交叉熵H(p,q)上界是熵

H(p):

这意味着我们可以通过构建⼀个只有来⾃真实

数据分布p样本的(语⾔)模型 q来估计

H(p,q),⽽通常⽆法访问H(p),如果p是英语

的话。

1.2.1.2⽤于下游应⽤的N-gram模型

语⾔模型⾸先被⽤于需要⽣成⽂本的实践应

⽤: 1970年代的语⾳识别(输⼊:声⾳信号,

输出:⽂本) 1990年代的机器翻译(输⼊:源

语⾔的⽂本,输出:⽬标语⾔的⽂本)

语⾳识别和机器翻译系统使⽤了基于词的n-

gram语⾔模型(最早由⾹农引⼊,但针对的是

字符)。

N-gram模型

将n-gram模型拟合到数据上⾮常便宜且可扩

展。因此,n-gram模型被训练在⼤量的⽂本

上。

n-gram模型有其根本的限制

如果n太⼩,那么模型将⽆法捕获⻓距离的依

赖关系,如果n太⼤,统计上将⽆法得到概率的

好估计(所有⻓序概率均为零）

因此,语⾔模型被限制在如语⾳识别和机器翻

译等任务中,其中声⾳信号或源⽂本提供了⾜

够的信息,只捕获局部依赖关系(⽽⽆法捕获

⻓距离依赖关系)并不是⼀个⼤问题。

1.2.1.3神经语⾔模型

总结语⾔模型最初是在信息理论的背景下研

究的,可以⽤来估计英语的熵。

N-gram模型在计算上极其⾼效,但在统计上

效率低下。

N-gram模型在短上下⽂⻓度中与另⼀个模型

(⽤于语⾳识别的声学模型或⽤于机器翻译的

翻译模型)联合使⽤是有⽤的。

神经语⾔模型在统计上是⾼效的,但在计算上

是低效的。

随着时间的推移,训练⼤型神经⽹络已经变得

⾜够可⾏,神经语⾔模型已经成为主导的模型

范式。

1.3这⻔课的意义

尺⼨的增加。

1.3.1能⼒

能⼒的示例

可以通过提示填空的⽅式进⾏问答

也可以通过提示解决词汇类⽐的问题

还可以通过提示⽣成新闻⽂章的标题

上下⽂学习。

GPT-3给出的答案既不是最具信息性的,也许

我们更希望直接得到答案⽽不是整个句⼦。

与监督学习的关系

在正常的监督学习中,我们指定了⼀组输⼊-

输出对的数据集,并训练⼀个模型(例如通过

梯度下降的神经⽹络) 以拟合这些示例。每

次训练运⾏都会产⽣⼀个不同的模型

通过上下⽂学习,只有⼀个语⾔模型可以通过

提示来完成各种不同的任务。上下⽂学习显然

超出了研究⼈员预期的可能性,是新出现⾏为

的⼀个例⼦。

1.3.2现实世界中的语⾔模型

1.3.3⻛险

可靠性

⼤部分时间它仍然⽆法产⽣正确的答案

社会偏⻅

机器学习系统存在偏⻅:它们在不同⼈群之间

存在性能差异,并且其预测可能会强化刻板印

象。

社会偏⻅当然存在于数据中,基于这些数据进

⾏训练的模型将继承数据的特性。

有害性

⼤型语⾔模型是基于⼤量互联⽹数据(例如

Reddit)进⾏训练的,其中不可避免地包含了

冒犯性内容。

RealToxicityPrompts 是⼀个评估语⾔模

型产⽣有害内容倾向的数据集。

虚假信息

GPT-3可以轻松制造虚假的新闻⽂章。

这项技术可以被恶意⾏为者更轻松地⽤于进⾏

虚假信息宣传。由于⼤型语⾔模型具有语⾔能

⼒,外国国家⾏为者可以更容易地创建流利、

具有说服⼒的⽂本,⽽⽆需雇佣⺟语者所带来

的⻛险。

安全性

⼤型语⾔模型⽬前是基于公共互联⽹的抓取进

⾏训练的, 这意味着任何⼈都可以建⽴⼀个

可能进⼊训练数据的⽹站。从安全⻆度来看,

这是⼀个巨⼤的安全漏洞,因为攻击者可以进

⾏数据中毒攻击。

通常来说,毒性⽂档可能是隐蔽的,并且由于

现有训练集的缺乏精⼼筛选,这是⼀个巨⼤的

问题。

法律考虑

语⾔模型是基于版权数据(例如书籍)进⾏训

练的。这是否受到公平使⽤的保护?即使受到

保护,如果⽤户使⽤语⾔模型⽣成恰好是受版

权保护的⽂本,他们是否对版权侵权负责?

成本和环境影响

⼤型语⾔模型在使⽤过程中可能⾮常昂贵。训

练通常需要数千个GPU的并⾏化。例如,估计

GPT-3的成本约为500万美元。这是⼀次性的

成本。

对训练模型进⾏推理以进⾏预测也会带来成

本,这是⼀个持续性的成本。

获取

1.3.4 总结

单⼀的⼤型语⾔模型是⼀个万事通(也是⼀⽆

所⻓)。它可以执⾏⼴泛的任务,并且能够具

备上下⽂学习等新出现的⾏为。

它们在现实世界中得到⼴泛部署。

⼤型语⾔模型仍然存在许多重要的⻛险,这些

⻛险是开放的研究问题。

成本是⼴泛获取的⼀⼤障碍。

1.4 课程架构

⼤型语⾔模型的⾏为

我们的⽬标是理解这些被称为⼤型语⾔模型的

对象的⾏为,就像我们是研究⽣物体的⽣物学

家⼀样。在这个层⾯上,许多关于能⼒和危害

的问题可以得到回答。

⼤型语⾔模型的数据背后

深⼊研究⽤于训练⼤型语⾔模型的数据,并解

决诸如安全性、隐私和法律考虑等问题。即使

我们⽆法完全访问模型,但可以访问训练数

据,这为我们提供了有关模型的重要信息。

构建⼤型语⾔模型

研究如何构建⼤型语⾔模型(模型架构、训练

算法等)。

超越⼤型语⾔模型

以超越语⾔模型的视⻆结束课程。

下载后可阅读完整内容，剩余3页未读，立即下载

qq_57067122

粉丝: 84
资源: 5

大模型理论基础：语言模型与历史回顾

大模型理论基础打卡Task04

大模型理论基础打卡Task05

并创建打卡任务与打卡记录关联表

有开工打卡，挂起打卡，重新开工，完工打卡，怎么计算工时代码

要求有上班打卡和下班打卡两个按钮，点击打卡后自动显示打卡时间

： 齐齐哈尔大学健康打卡系统ER图

使用Python编写人脸识别打卡系统

软测大作业考勤打卡功能测试用例

代码编写 判断当天是否已打卡

autojs 企业微信打卡

pyqt5显示打卡情况

python 当前打卡时间大于当天时间则未打卡

怎么设计一个打卡软件，记录每天6次打卡的时间

java判断当天已打卡则不能继续打卡

mysql 每天中最后一次打卡时间

uniapp上下班打卡

微信小程序打卡calendar

钉钉自动打卡 github

最新资源

：齐齐哈尔大学健康打卡系统ER图

代码编写判断当天是否已打卡