AI 大模型的分类
AI 大模型根据不同维度有不同的分类方式,如根据任务类型可分为监督学习模型、无
监督学习模型和强化学习模型;根据模型结构可分为 DNN 深度神经网络、CNN 卷积神经网
络、RNN 循环神经网络;根据模型规模可以分为大规模模型和中小规模模型。而我们重点
从模型数据类型、模型工作模式和模型开发模式来分析 AI 大模型的分类。
(1) 按模型数据的媒体类型,AI 大模型可以分为语言模型,图像模型以及多模态模型:
�语言模型(Language Models):
语言模型是一种用于预测和生成自然语言文本的统计模型,通过给定的输入序列,学
习单词(或字符)之间的关系和上下文来推断一个序列中下一个词或字符的概率,旨在理
解和生成自然语言文本。语言模型的训练通常需要大量的文本数据,以便能够捕捉到不同
单词之间的统计规律和语义关系。训练好的语言模型可以用于机器翻译、文本生成、语音
识别纠错等多种自然语言处理任务,为人工智能应用提供文本处理能力。
最常用的语言模型是基于 N-gram 的模型和基于神经网络的模型。N-gram 模型基于前
n-1 个单词来预测下一个单词的概率,而神经网络模型则使用深度学习技术,如循环神经
网络(RNN)或者 Transformer 来建模长期依赖关系和上下文信息。GPT(生成式预训练
Transformer)系列模型就是一种广为使用的语言模型。
�图像模型(Image Models):
图像模型是一种用于处理和分析图像数据的模型,用来理解、识别和生成图像中的内
容,从而实现图像分类、目标检测、图像生成等多种计算机视觉任务。图像模型可以分为
传统的基于特征工程的方法和基于深度学习的方法。基于特征工程的方法是通过手动选择
和设计特征来表示图像或使用传统机器学习算法来对提取的特征进行分类或回归的方式对
图像进行分析处理;基于深度学习的方法是目前常用的图像模型处理方法,如通过卷积神
经网络的多个卷积层和池化层来自动学习图像中的特征,并通过全连接层进行分类或回
归、再如利用预训练的大型神经网络模型来提取图像特征的迁移学习等。经典的图像模型
包括 AlexNet、VGG、ResNet 和 EfficientNet 等。
� 多模态大模型(Multimodal Models):
多模态大模型是指能够同时处理多种输入模态(如图像、文本、语音等)和输出模态
(如图像生成、文本生成、语音合成等)的庞大模型。它能够将多种模态的信息进行融合