三、GPT-2
⾃从 Bert 炸街后,跟⻛效仿的改进模型也就越来越多了,⽐如 albert、roberta、ERNIE,BART、XLNET、T5 等
等五花⼋⻔。
最初的时候,预训练任务仅仅是⼀个完形填空任务就可以让语⾔模型有了极⼤进步,那么,很多⼈就想,给 LLM
模型出其它的语⾔题型,应该也会对模型训练有极⼤的帮助。
想要出语⾔题型不是很简单么,什么句⼦打乱顺序再排序、选择题、判断题、改错题、把预测单字改成预测实体词
汇等等,纷纷都可以制定数据集添加在模型的预训练⾥。很多模型也都是这么⼲的。
既然出题也可以,把各种NLP任务的数据集添加到预训练阶段当然也可以。那就把机器翻译、⽂本摘要、领域问答
统统往预训练⾥加。
这个过程也和⼈脑很像,⼈脑是⾮常稳定和泛化的,既可以读诗歌,也可以学数学,还可以学外语,看新
闻,听⾳乐等等,简⽽⾔之,就是⼀脑多⽤。
我们⼀般的 NLP 任务,⽂本分类模型就只能分类,分词模型就只能分词,机器翻译也就只能完成翻译这⼀件
事,⾮常不灵活。
GPT-2 主要就是在 GPT 的基础上,⼜添加了多个任务,扩增了数据集和模型参数,⼜训练了⼀番。效果如下:
GPT-2学习效果图