vision transformers中的token
时间: 2023-11-24 16:08:38 浏览: 106
DiffiT- Diffusion Vision Transformers for Image Generation
在Vision Transformers中,token是指对图像进行分块后得到的视觉单元。这些视觉单元可以是图像的小块,也可以是整个图像。这些token可以被视为输入序列的一部分,用于对视觉信息进行编码和建模。在Vision Transformers中,我们使用transformers来对这些视觉tokens之间的交互进行建模,以便更好地理解图像中的语义信息。通过使用更少的tokens覆盖更多可能的概念,我们可以支持具有可变含义的视觉tokens。
阅读全文