视频Transformer
时间: 2023-10-14 16:58:27 浏览: 149
视频Transformer是一种处理视频数据的模型。它通过使用Transformer架构来处理视频的高维性和复杂性。在处理视频之前,视频数据需要进行降维和标记化处理。为了提高性能,视频Transformer还可以利用视频的时间结构。此外,视频Transformer还可以与其他模态进行整合。在训练视频Transformer时,可以使用自监督方法和其他损失函数。为了克服Transformer在处理视频时的局限性,一些方法包括将注意力操作分解为更小的操作或渐进的操作,并引入局部性的归纳偏置。这些改进可以提高视频Transformer的速度和精度。\[1\]\[2\]\[3\]
#### 引用[.reference_title]
- *1* *2* [Transformer如何用于视频?最新「视频Transformer」2022综述](https://blog.csdn.net/m0_59596990/article/details/122605943)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [Video Transformer](https://blog.csdn.net/afadgas/article/details/130362873)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文