谷歌&HuggingFace研究：零样本学习中解码器结构优势

版权申诉

121 浏览量更新于2024-08-04 收藏 1.82MB PDF 举报

"谷歌与HuggingFace合作研究了语言模型的结构和预训练目标对零样本学习（zero-shot learning）能力的影响，发现仅Decoder结构的语言模型在zero-shot泛化中表现最佳，而Encoder-Decoder结构结合MLM任务则更适合多任务微调。研究还揭示了一种更节省成本的训练方法，计算量仅为原来的九分之一。论文标题为《What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?》。" 这篇由谷歌和HuggingFace共同完成的研究论文探讨了当前大模型设计的趋势与背后的原理。在预训练模型领域，尽管19年的T5模型表明Encoder-Decoder结构配合Masked Language Modeling (MLM)任务在下游任务微调时效果优异，但在2022年的最新实践中，如GPT系列、PaLM和Chinchilla等大模型普遍采用仅Decoder的结构。研究者对此现象进行了深入探索。论文的核心发现是，对于提升模型的零样本学习能力，Decoder结构配合语言模型任务是最优选择。这意味着在没有特定示例的情况下，这种结构的模型能更好地理解和生成语言。然而，当涉及到多任务微调时，Encoder-Decoder结构加上MLM任务又显示出优势，这可能是由于Encoder能更好地捕获上下文信息，而Decoder则专注于生成。此外，论文的一个重要贡献是找到了一种既高效又节省成本的训练策略。通过大量实验，研究者发现可以通过调整训练方法，将计算量降低到原来的九分之一，同时保持模型的性能。这一发现对于资源有限的机构或个人来说具有极大的价值，因为它降低了训练大规模语言模型的门槛。论文在两个基准上进行了实验，进一步验证了这些结论。它不仅提供了关于模型结构和预训练目标选择的洞察，也为未来模型设计和优化提供了指导。随着人工智能向着通用人工智能（AGI）迈进，理解如何构建能够有效进行零样本学习的模型显得至关重要。这项工作为该领域的研究开辟了新的方向，并可能推动下一代大模型的设计。

2023/6/28 17:17

谷歌&HuggingFace| 零样本能力最强的语言模型结构

https://mp.weixin.qq.com/s/hTUxSctHsetjORMvm8XkSw

1/9

谷歌&HuggingFace| 零样本能力最强的语言模型结构

收录于合集

#卖萌屋@自然语言处理

97个

文  | iven

从 GP T3 到 Prompt，越来越多人发现大模型在零样本学习（zero-shot）的设定下有非常好的

表现。这都让大家对 AGI 的到来越来越期待。

但有一件事让人非常疑惑：19 年 T5 通过“调参” 发现，设计预训练模型时，Encoder-Decoder

的模型结构 + MLM 任务，在下游任务 finetune 效果是最好的。可是在 2202 年的当下，主流

的大模型用的都是仅  decoder 的模型结构设计，比如 OpenAI 的 GPT 系列、 Google 的

PaLM [1]、Deepmind 的 Chinchilla [2] 等等。这是为什么？难道这些大模型设计都有问题？

今天带来一篇 Hugging Face 和 Google 的文章。这篇文章与 T5 在实验上的思路相似，通过大

量对比设计，得到一个重磅结论：要是为了模型的  zero-shot 泛化能力， decoder 结构  +

语言模型任务最好；要是再 multitask finetuning， encoder-decoder 结构 + MLM 任务

最好。

除了找到最好的训练方式，作者通过大量的实验，还找到了最好的同时还能最节省成本的训练

方式。训练计算量只需要九分之一！

论文题目 :

What Language Model Architecture and Pretraining Objective Work Best for Zero-

iven 2022-06-23 12:05 发表于四川

原创

夕小瑶科技说

下载后可阅读完整内容，剩余8页未读，立即下载

普通网友

粉丝: 1274
资源:
5623

谷歌&HuggingFace研究：零样本学习中解码器结构优势

提升语言模型零样本学习能力：指令微调

深度学习零样本识别技术探究

微软GPT-4大模型指令微调提升零样本性能

带有辅助任务的零样本文本到 SQL 学习.pdf

别再双塔了！谷歌提出DSI索引，检索效果吊打双塔，零样本超BM25！.pdf

基于大样本的Logistic回归和零膨胀回归模型的汽车贷款违约概率预测模型.pdf

ACS580样本_ZH.pdf

gpt2-language_models_are_unsupervised_multitask_learners.pdf

谷歌&HuggingFace_ 零样本能力最强的语言模型结构.rar

安庆市建筑施工现场安全管理资料台帐(十四本台账样本).pdf

最新资源