2202年，ViT、MLP、CNN结构之争：真的有意义吗?

版权申诉

148 浏览量更新于2024-08-04 收藏 6.05MB PDF 举报

"本文讨论了2202年中关于ViT、MLP、CNN结构的比较和讨论，引用了MSRA的一篇博文，指出Transformer和CNN在结构上的相似性，并提到马毅教授的观点，强调这类结构比拼可能并非最有意义。文章还回顾了Transformer、CNN、MLP之间的争论起点，提及谷歌大脑团队的MLP-Mixer论文，该论文提出了一种纯MLP架构在视觉任务上表现与CNN和Transformer相当的实验结果。" 在2202年的科技领域，尤其是在人工智能和计算机视觉（CV）方面，继续对比ViT（Vision Transformer）、MLP（多层感知机）和CNN（卷积神经网络）的结构有效性引发了讨论。MSRA的研究表明，尽管Transformer以其自注意力机制在序列处理任务中表现出色，但深度卷积神经网络（Depth-wise CNN）在经过优化后，其性能指标与Transformer相差无几。这两种模型虽然实现方式不同，但它们都在输入和输出之间建立了全局依赖关系，从而捕捉到图像中的特征。马毅教授的观点对此类结构比较提出了质疑，认为不断优化Transformer、CNN或MLP的结构比拼可能不是最有益的方向。他过去曾对类似研究表示过类似的看法，认为过度关注模型结构的改进可能忽略了其他关键问题。这场争论的起源可以追溯到2021年，当时谷歌大脑团队发表了一篇名为《MLP-Mixer: An all-MLP Architecture for Vision》的论文。论文中提出的MLP-Mixer架构摒弃了卷积和注意力机制，仅依靠多层感知机构建，却在图像分类任务上取得了与CNN和Transformer相当的性能。这一发现挑战了传统认知，即卷积和注意力机制是图像处理的关键要素。这些讨论反映了AI研究社区对模型效率、可解释性和计算复杂性的持续关注。随着技术的发展，研究人员不断探索新的架构，以期在保持高性能的同时，减少计算资源的需求和提高模型的泛化能力。 ViT、MLP和CNN各有优势和适用场景，理解它们的本质差异和潜在相似性，对于推动AI领域的进步至关重要，而不仅仅是单纯地比较谁优谁劣。因此，尽管结构比拼可能引发争议，但它仍然是推动技术创新和理论理解的重要途径。

2023/6/28 22:31

2202年了，继续大比拼ViT、MLP、CNN结构有意义吗？？

https://mp.weixin.qq.com/s/zW0B8T9NO3T1adzuiz6V6g

1/10

2202年了，继续大比拼ViT、MLP、CNN结构有意义吗？？

收录于合集

#卖萌屋@计算机视觉

15个

文  | 卖萌菌

近日， MSRA 发布了一篇题为《 Transformer 不比 CNN 强  Local Att entio n 和动态 Depth-

wise卷积前世今生》的博文，再次谈论了这个老生常谈的话题。文中提到，Depth-wise CNN

和 attention 存在高度相似的结构，调参优化之后，从结果上来看，指标上也没相差多少。如

果从输入到输出的传播路径上来看，CNN 和 self-attention ，从视角上看，其最终汇总到的特

征，的确都是类似的，例如，self-attention 一层可以看作是全连接的一跳，经 N 层之后，形

成了 N 跳可达。CNN 则也类似，二者都是在整个输入空间下，各单元之间的关联强度。只是

实现路径不同。

博文发出之后，加州大学伯克利分校，统计学大佬，马毅教授转发并评论：

卖萌菌 2022-05-11 12:05 发表于四川

原创

夕小瑶科技说

下载后可阅读完整内容，剩余9页未读，立即下载

地理探险家

粉丝: 1211
资源: 5492

2202年，ViT、MLP、CNN结构之争：真的有意义吗?

2202年了，继续大比拼ViT、MLP、CNN结构有意义吗？？.rar

vit和cnn用于病理图像论文.pdf

VIT比CNN的优势是什么？

vit对比CNN的优势

vit和cnn混合代码

vit相比cnn的优势

pytorch中如何在vit_b_16后面添加一个mlp层

swin-transformer和ViT模型相比，有什么不同？

3D CNN 作为vit的预处理

vit中mlp block和mlp head区别

最新资源