最近几乎所有的热点都被 chatgpt 占据,相信大家都对 chatgpt 已经不陌生了,最近我也看
了一些,总结了一些关于大模型的资料, 有些不足或者建议,
欢迎大家指正。
什么是 AI 大模型?
AI 大模型就是 Foundation Model基础模模型,, 指过在大大模模泛的的据据进行训训
练后能适应一系列下游任务的模型。基Foundation Model 名词来源李飞飞等众学者的这篇论
文 On the Opportunities and
Risks of
Foundation
Models,。
AI 大模型是人工智能迈向过用智能的里程碑技术。深度学习作为新一代人工智能的
标志性技术,完全依赖模型自动从据据中学习知识,大显著提升性能的同时,也面临着过用
据据激增与专用据据匮乏的矛盾。AI 大模型兼具“大模模”和“预训练 ”两种属性,面向实际任
务建模前需大海量过用据据进行训预先训练, 能大幅提升 AI
的的化性、过用性、实用性。
大模型发展
AI 大模型发展起源于自然语言处理领域。大 2017 年 Transformer
网络提出后,伴随
着参据量的不断提升,它大自然语言处理领域慢慢成为础模性架构,并大 2018 年其参据量
达到 3 亿模模,
也就是我们所熟知的
BERT。础于如此之大的参据量,研究者发现它能够同
时出色地完成多种自然语言处理任务,这也就吸引了越来越多的人加入其中。
大大模型研究的早期阶段,仍然主要集中大自然语言处理领域,诞生了诸如进述 BERT、
GPT-3 等一系列代表性模型,
它们的参据量从起初的几亿,快速增长为据十亿乃至千亿模
模。而随之带来的就是相应能力的提升,具备了从简单的文本问答、文本创作到符号式语言
的推理能力;近两年,部分研究者提出了以其他模态基如视觉等, 为础模的大模型研究,希
望模型也可以看懂世间万物。大这个阶段,诞生了如 ViT
等包含据亿参据模模的视觉模型。
进述模型分别具备了读的能力和看的能力,研究者期望将这两类能力统一起来, 具备如大脑
体现的多模态感知能力, 这一部分的代表性模型就是 CLIP 、DALL·E 等模型。
更多的多模态模型介绍详见 https://zhuanlan.zhihu.com/p/460512128
主流大模型
基1, BERT:谷歌于 2018 年 10 月发布的 BERT 模型是最为典型的础模模型, 它利用
BooksCorpus 和英文维础百科里纯文字的部分,无须标注据据,用设计的两个自监督任务来
做训练,训练好的模型过在微调大 11 个下游任务进实现最佳性能。
基2,谷歌 2021 年发布的视觉迁移模型 Big Transfer,BiT
基3,OpenAI 大
2020 年 5 月发布的
GPT-3
则是一个自回归语言模型, 具有
1750 亿参据,
大互联网文本据据进训练得到的这一础模模型,可以使用提示的例子完成各式各样的任务,