计算机视觉的大模型有哪几个
时间: 2024-06-15 16:02:22 浏览: 502
计算机视觉(Computer Vision, CV)领域的大模型通常指的是深度学习中用于图像和视频理解的大型神经网络模型。近年来,一些标志性的大模型在CV领域取得了显著成就,以下是其中一些知名的模型:
1. **AlexNet** (2012):由Alex Krizhevsky等人开发,首次使用深度学习在ImageNet比赛中获胜,开启了深度学习在CV的黄金时代。
2. **VGGNet** (2014):由Karen Simonyan和Andrew Zisserman设计,以极深的网络结构而闻名,展示了深度对模型性能的提升。
3. **GoogleNet/Inception** (2014):由Google的团队提出,引入了Inception模块,通过并行处理不同大小的特征来优化计算效率。
4. **ResNet** (2015):由Kaiming He等人开发,引入残差连接解决深度网络训练过程中的梯度消失问题,显著提高了模型深度。
5. **DenseNet** (2016):由Gao Huang等人提出,每个层都与所有之前层相连,减少了冗余和参数量。
6. **Mask R-CNN** (2017):由Ross Girshick等人开发,用于实例分割和物体检测,基于Faster R-CNN进行了改进。
7. **Transformer-based models** (2017-Present):如ViT (Vision Transformer) 和 MViT,将自注意力机制引入CV,尤其是对于大规模无监督预训练和多模态任务表现突出。
8. **EfficientNet** (2019):由Mishkin Shvets等开发,通过网络宽度、深度和分辨率的协调扩展来优化模型性能。
9. **YOLO (You Only Look Once)** 系列:从YOLOv1到YOLOv5,连续迭代,实现在实时速度下的高精度目标检测。
10. **DETR (DEtection TRansformer)** (2020): 引入了Transformer架构进行目标检测,改变了传统检测方法的思路。
阅读全文