谷歌&HuggingFace研究:零样本学习中解码器结构优势

版权申诉
0 下载量 100 浏览量 更新于2024-08-04 收藏 1.82MB PDF 举报
"谷歌与HuggingFace合作研究了语言模型的结构和预训练目标对零样本学习(zero-shot learning)能力的影响,发现仅Decoder结构的语言模型在zero-shot泛化中表现最佳,而Encoder-Decoder结构结合MLM任务则更适合多任务微调。研究还揭示了一种更节省成本的训练方法,计算量仅为原来的九分之一。论文标题为《What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?》。" 这篇由谷歌和HuggingFace共同完成的研究论文探讨了当前大模型设计的趋势与背后的原理。在预训练模型领域,尽管19年的T5模型表明Encoder-Decoder结构配合Masked Language Modeling (MLM)任务在下游任务微调时效果优异,但在2022年的最新实践中,如GPT系列、PaLM和Chinchilla等大模型普遍采用仅Decoder的结构。研究者对此现象进行了深入探索。 论文的核心发现是,对于提升模型的零样本学习能力,Decoder结构配合语言模型任务是最优选择。这意味着在没有特定示例的情况下,这种结构的模型能更好地理解和生成语言。然而,当涉及到多任务微调时,Encoder-Decoder结构加上MLM任务又显示出优势,这可能是由于Encoder能更好地捕获上下文信息,而Decoder则专注于生成。 此外,论文的一个重要贡献是找到了一种既高效又节省成本的训练策略。通过大量实验,研究者发现可以通过调整训练方法,将计算量降低到原来的九分之一,同时保持模型的性能。这一发现对于资源有限的机构或个人来说具有极大的价值,因为它降低了训练大规模语言模型的门槛。 论文在两个基准上进行了实验,进一步验证了这些结论。它不仅提供了关于模型结构和预训练目标选择的洞察,也为未来模型设计和优化提供了指导。随着人工智能向着通用人工智能(AGI)迈进,理解如何构建能够有效进行零样本学习的模型显得至关重要。这项工作为该领域的研究开辟了新的方向,并可能推动下一代大模型的设计。