语义相似度:判断两个句子是否语义上市是相关的;
分类:判断输入文本是指定的哪个类别。
将无监督学习的结果用于左右有监督模型的预训练目标,因此叫做生成式预训练
(Generative Pre-training,GPT)。这种半监督学习方法,由于用大量无标注
数据让模型学习“常识”,就无需标注信息了。
2018年6月,在谷歌的 Transformer 模型诞生一周年时,OpenAI公司发表了论
文“Improving Language Understanding by Generative Pre-training”《用生成式
预训练提高模型的语言理解力》,推出了具有1.17亿个参数的GPT-1
(Generative Pre-training Transformers, 生成式预训练变换器)模型。
GPT-1 使用了经典的大型书籍文本数据集(BookCorpus)进行模型预训练,之
后,又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训
练(又称为微调,fine-tuning)。最终训练所得的模型在问答、文本相似性评
估、语义蕴含判定、以及文本分类这四种语言场景,都取得了比基础
Transformer模型更优的结果,成为了新的业内第一。
由于 GPT-1 的诞生,这一年也被称为NLP(自然语言处理)的预训练模型元
年。
从此以后,自然语言识别的主流模式就是GPT-1这样的:先在大量无标签的数据
上预训练一个语言模型,然后再在下游具体任务上进行有监督的fine-tune,以此
取得还不错的效果。
GPT-1 具体是怎么做的呢?
首先,预训练模型是用了transformer的decoder部分,利用语言模型的目标来训
练预训练模型。
其次,GPT-1 采取预训练 + FineTuning两个阶段,它采取Transformer的
decoder作为特征抽取器,总共堆叠12个。
预训练阶段采用“单向语言模型”作为训练任务,把语言知识编码到decoder里。
第二阶段,在第一阶段训练好的模型基础上,将预训练模型学习的知识迁移到下
游任务,适配能力强。GPT-1通过统一的表征形式,对下游各种任务只需要很少
的适配,具体适配方式就是加不同的任务分类头,另外,对不同任务的输入形式
做了设计。