efficientnet: rethinking model scaling for convolutional neural networks
时间: 2023-04-25 11:02:24 浏览: 117
EfficientNet是一种新型的卷积神经网络模型,它重新思考了模型缩放的问题。它通过使用复合缩放方法,即同时缩放深度、宽度和分辨率,来提高模型的效率和准确性。这种方法可以在不增加计算成本的情况下,显著提高模型的性能。EfficientNet已经在多个计算机视觉任务上取得了优异的表现,包括图像分类、目标检测和语义分割等。
相关问题
卷积神经网络参考文献
根据科技情报大数据挖掘与服务系统平台AMiner从人工智能领域国际顶会/期刊中提取出的“卷积神经网络”相关关键词,筛选推荐了100篇经典必读论文,内容包含CNN在检测/识别/分类/分割/跟踪等领域的理论与实践,并按被引用量进行了排序整理。此外,最新的卷积神经网络分类研究进展也会经常出现在计算机视觉相关的国际学术会议和期刊上,例如CVPR、ICCV、ECCV等会议和TPAMI、IJCV等期刊。以下是一些卷积神经网络的参考文献:
1. "ImageNet Classification with Deep Convolutional Neural Networks" by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton (2012)
2. "Very Deep Convolutional Networks for Large-Scale Image Recognition" by Karen Simonyan and Andrew Zisserman (2015)
3. "Going Deeper with Convolutions" by Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich (2015)
4. "Rethinking the Inception Architecture for Computer Vision" by Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna (2016)
5. "Deep Residual Learning for Image Recognition" by Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun (2016)
6. "Mask R-CNN" by Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick (2017)
7. "YOLOv3: An Incremental Improvement" by Joseph Redmon and Ali Farhadi (2018)
8. "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" by Mingxing Tan and Quoc V. Le (2019)
9. "Vision Transformers" by Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby (2020)
10. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" by Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo (2021)
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning
《Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning》是一篇关于视频处理的论文。该论文提出了一种新的视频处理模型,即 Sparse Video Tubes(SVT),旨在实现图像和视频的联合学习。
SVT 的核心思想是将视频分解为一系列稀疏的视频管,每个视频管由少数帧图像组成。这种分解方式可以减少视频处理的计算量,同时也能够保留视频中的重要信息。SVT 使用 Vision Transformer(ViT)来对视频管进行编码,从而实现对图像和视频的联合学习。具体来说,SVT 将图像和视频的特征映射到同一个向量空间中,通过最小化图像和视频之间的距离来实现联合学习。
SVT 模型的优点在于:
1. 可以有效地减少视频处理的计算量,提高处理效率。
2. 通过将图像和视频的特征映射到同一个向量空间中,实现了图像和视频的联合学习,可以更好地利用数据进行训练。
3. 使用 ViT 模型,可以处理任意大小的视频,并且可以处理不同分辨率的图像。
总之,SVT 是一种非常有前景的视频处理模型,可以为联合学习提供一种新的思路和方法。