"大规模语言模型调研：多种模型分析与关系解析"

140 浏览量更新于2024-01-09 收藏 594KB DOCX 举报

大语言模型是近年来人工智能领域中备受关注的研究方向，而随着ChatGPT等模型的出现，各种大语言模型如雨后春笋般涌现出来，给人们带来了极大的惊喜和好奇。这些模型来源于不同的机构，具有各种功能特点，如GPT-3.0和GPT 3.5等版本，以及羊驼、小羊驼和骆驼等命名，给人们带来了无尽的探索乐趣。首先，基础语言模型是指仅在大规模文本语料中进行预训练的模型，没有经过任何指令、下游任务微调或人类反馈等对其进行优化。它们按照不同的模型结构可以被分为几种类型。GPT-style是指仅包含解码器的自回归语言模型，而T5-style是指包含编码器和解码器的语言模型。GLM-style则表示具有特殊模型结构的GLM模型。此外，还有一种称为Multi-task的模型结构，这类模型结合了ERNIE 3.0的结构，是目前大多数大语言模型采用的解码器结构。为什么目前的LLM都是Decoder only的架构，这个问题需要进一步研究。有许多大语言模型并没有开源，但OPT、BLOOM和LLaMA等模型是主要面向开源促进研究和应用的模型。这意味着开发者可以自由使用和探索这些模型，进一步推动研究和应用的发展。除了基础语言模型外，还有一些其他的大语言模型值得关注。例如BERT是一种广泛应用于自然语言处理任务的预训练模型，其采用了Transformer结构，并通过掩盖部分输入来预测余下的词。RoBERTa则是对BERT的改进版本，在预训练阶段进行了更多的训练步骤，取得了更好的性能。另一个有趣的模型是GPT-3，它具有1750亿个参数，是当今最大的语言模型之一，被广泛用于生成自然语言文本。此外，还有一些模型专注于特定领域的语言理解和生成任务。例如ELMo是一种基于双向语言模型的预训练模型，它通过将前向和后向的上下文信息融合，提供了更好的上下文理解能力。而ERNIE则是在中文任务上进行了预训练的模型，针对中文语境进行了优化，取得了很好的效果。总之，大语言模型在自然语言处理和人工智能领域发挥了巨大的作用。通过预训练大规模文本语料，这些模型可以学习到丰富的语言知识和语义理解能力，在各种语言任务上取得了不错的效果。虽然还存在许多挑战和待解决的问题，但大语言模型的迅猛发展为我们带来了更多的可能性和机遇，相信在不久的将来，它们将为我们创造出更加智能和便捷的人工智能应用。

LaMDA[4]

LaMDA 是谷歌在2021年开发者大会上公布的专用于对话的大语言模型，具有 137B 个参数。论文中提出

三个指导模型更好训练的指标：质量/Quality（合理性/Sensibleness、特异性/Specificity、趣味

性/Interestingness， SSI）、安全性/Safety、真实性/Groundedness。和其他大模型一样， LaMDA

分为预训练和微调两步，在微调阶段，生成式任务（给定上下文生成响应）和判别式任务（评估模型生

成响应的质量和安全性）应用于预训练模型进行微调形成

LaMDA。对话期间， LaMDA 生成器在给定多

轮对话上下文时生成几个候选响应，然后 LaMDA 判别器预测每个候选响应的 SSI 和安全分数。安全分

数低的候选响应首先被过滤掉，剩下的候选响应根据 SSI 分数重新排名，并选择分数最高的作为最终响

应。为提升 LaMDA 生成响应的真实可靠性，收集标注用户与 LaMDA 间对话的数据集，并在适用的情况

下使用检索查询和检索结果进行注释。然后，在这个数据集上微调

LaMDA，学习与用户交互期间调用外

部信息检索系统，提升生成响应的真实可靠性。

剩余17页未读，继续阅读

千源万码

粉丝: 1089
资源: 419

"大规模语言模型调研：多种模型分析与关系解析"

大语言模型调研汇总.docx

大语言模型介绍.docx

必看！大语言模型调研汇总！！.pdf

深度调研：大语言模型解封的全面汇总及关系解析

算法模型工程化场景调研.xmind

2010数学建模模拟试题资料模型参考汇总.rar

Kylin调研报告

企业级数据模型构建策略.pptx

需求调研基本表格

河南移动中层人员素质模型概述.docx

最新资源