TCFormer：以人为中心的视觉Transformer，通过token聚类优化表示

需积分: 12 48 浏览量更新于2024-08-04 收藏 1.89MB DOCX 举报

"TCFormer是一种新的视觉Transformer模型，专为以人为中心的计算机视觉任务设计，通过token聚类来更有效地处理图像中不同区域的重要性差异。该模型能够在关注关键区域（如人体）的同时，减少背景区域的计算负担，提高对细节的捕捉能力。TCFormer在全身姿势估计和三维人体网格重建等任务上表现出优越性能，其代码已在GitHub上开源。" 在计算机视觉领域，transformer架构已经逐渐成为处理复杂视觉任务的核心工具，尤其在那些需要理解对象间关系的任务中。传统的transformer将图像划分为固定网格，每个单元作为一个独立的token处理。然而，这种处理方式在以人为中心的任务中可能会遇到问题，因为人体部分通常需要更精细的表示，而背景可能只需要粗略的建模。 TCFormer提出的解决方案是通过渐进式聚类合并tokens，使得模型能够动态地适应图像内容。这种方法允许tokens以灵活的形状和大小合并，集中于图像中的重要区域，如人体部分，同时用较少的tokens来表示背景。具体来说，TCFormer可以调整token的形状以匹配语义概念，对包含关键细节的区域（如脸部）使用高分辨率的token，从而更好地捕获这些细节信息。在介绍部分，文章指出了以人为中心的任务，如人脸对齐和人体姿态估计，对于许多应用如动作识别、虚拟现实和增强现实的重要性。近年来，视觉transformer已经在这些任务中展现出先进的性能，尤其是在捕捉长距离依赖关系方面。TCFormer通过其独特的token聚类机制，进一步优化了这一过程，提高了模型的效率和准确性。 TCFormer的优越性能在多个挑战性的任务和数据集上得到了验证，包括在COCO-WholeBody上进行的全身姿势估计和在3DPW上进行的三维人体网格重建。通过与标准网格方法的比较（如图1所示），TCFormer的动态token分配策略明显地在关注人体区域和处理背景时更加有效。 TCFormer是一种创新的transformer架构，专门针对以人为中心的视觉任务，通过智能的token管理策略提升了模型的性能，尤其是在处理细节和关键区域时。它的开源代码使得其他研究者和开发者能够利用这一技术，推动计算机视觉领域的进步。

并非所有 token 都是平等的：通过 token 聚类 transformer 进行以人为中心的可视化分析

摘要

视觉 transformer 在许多计算机视觉任务中都取得了巨大的成功。大多数方法通过将图像分割成一个有规律的固定网格，并将每个单元视为一

个 token 来生成视觉 token。然而，在以人为中心的视觉任务中，并不是所有的区域都同样重要，例如，人体需要用许多 token 进行精细表示，而

图像背景可以用少数 token 进行建模。为了解决这个问题，我们提出了一种新的视觉 Transformer，称为 TCFormer，它通过渐进式聚类来合并

token，其中的 token 可以从不同的位置以灵活的形状和大小合并。TCFormer 中的 token 不仅可以集中在重要区域，还可以调整 token 形状以适应

语义概念，并对包含关键细节的区域采用精细的分辨率，这有利于捕捉细节信息。广泛的实验表明，TCFormer 在不同的以人为中心的挑战性任务

和数据集上的表现一直优于其同行，包括 COCO-WholeBody 上的全身姿势估计和 3DPW 上的三维人体网格重建。代码见 https://github.com/

zengwang430521/TCFormer.git。

图 1. （a）标准网格和（b）TCFormer 生成的视觉 token 之间的比较。不同 token 的区域，或视觉 token 所代表的图像区域，用不同的颜色来表示。

从左到右，不同的图像代表不同的阶段。如（a）所示，基于网格的 token 对所有区域一视同仁。而(b)中的 token 则是动态地处理图像区域。token

在人体上的分布更加密集。对于背景区域，大面积的区域由单个 token 表示（蓝色），而对于包含重要细节的区域，如脸部区域，则使用具有精细

空间尺寸的 token（红色）。

1、介绍

计算机视觉中以人为中心的任务，如人脸对齐，人体姿势估计，以及三维人体网格重建，由于其广泛的应用，如动作识别，虚拟现实和增强现

实，已引起越来越多的研究关注。

受自然语言处理中 transformer 的成功启发，最近开发了视觉 transformer，以解决以人为中心的计算机视觉任务，并取得最先进的性能。

transformer 的特性，如图像斑块之间的长距离注意力，有利于对不同身体部位之间的关系进行建模，因此在以人为中心的视觉分析中至关重要。

由于传统的 transformer 采用了一连串的 token 作为输入，大多数现有的视觉 transformer 都遵循这一范式，将输入图像划分为一个有规律的固

定网格，其中每个单元（图像斑块）都被当作一个 token，如图 1（a）所示。基于网格的 token 生成很简单，在许多计算机视觉任务中取得了巨大

的成功，如图像识别、目标检测和分割。

然而，基于固定网格的视觉 token 对于以人为中心的视觉分析来说是次优的。在以人为中心的视觉分析中，人体的图像区域比图像背景更关键，

这促使我们用具有动态形状和大小的视觉 token 来表示不同的图像区域。但基于网格的视觉 token 区域是具有固定位置、形状和大小的矩形区域。

均匀的视觉 token 分布无法将更多的 token 分配给重要区域。

为了解决这个问题，我们提出了一个新颖的视觉 transformer，名为 TCFormer，它通过渐进式的 token 聚类生成 token。TCFormer 在每个阶段

都会动态地生成标记。如图 1（b）所示，它能够生成具有不同位置、大小和形状的 token。首先，与基于网格的 token 不同，聚类后的 token 不限

于规则的形状，可以集中在重要的区域，如人体。其次，TCFormer 动态地生成具有适当大小的 token，以代表不同的区域。对于充满重要细节的区

域，如人脸，会分配更精细的 token。相反，单个 token（如图 1（b）中的蓝色标记）被用来代表大面积的背景。

在 TCFormer 中，特征图中的每个像素在第一阶段被初始化为一个视觉 token，其 token 区域为该像素所覆盖的区域。我们逐步合并具有相似语

义的 token，并在不同阶段获得不同数量的 token。为此，我们精心设计了一个聚类 token 合并（CTM）模块。首先，给定前一阶段的 token，CTM

通过对 token 特征应用基于密度峰的 k-近邻聚类算法将其分组。其次，通过对 token 特征的平均化，将分配到同一聚类的 token 合并为一个 token。

最后，token 被送入一个 transformer 块进行特征聚合。合并后的 token 区域是输入 token 区域的联合。

多阶段特征的聚合被证明有利于以人为中心的分析。大多数先前的工作将视觉 token 转化为特征图，并以特征图的形式聚合特征。然而，当把

我们的动态视觉 token 转化为特征图时，多个 token 可能位于同一个像素网格中，导致细节的丢失。为了解决这个问题，我们提出了一个多阶段 token

聚合（MTA）头，它能够以一种有效的方式在所有阶段保留图像细节。具体来说，MTA 头从最后一个阶段的 token 开始，然后逐步对 token 进行上

下载后可阅读完整内容，剩余6页未读，立即下载

shop_keeper

粉丝: 61
资源: 5

TCFormer：以人为中心的视觉Transformer，通过token聚类优化表示

基于CVPR21Chal-SLR论文进行毕设手语识别模型搭建及部署python源码（高分项目）.zip

CVPR 2022 LaTex 模板

Redmon-You-Only-Look-CVPR-2016-paper中文翻译版 (Chinese (simplified))

CVPR-2023-论文汇总

e2sri:论文“学习从事件中超级分辨强度图像”的代码（CVPR-2020-Oral）

CVPR-2020-point-cloud-analysis:专注于点云分析的CVPR 2020论文

Awesome-CVPR2021-CVPR2020-Low-Level-Vision:CVPR2021CVPR2020低层视觉的论文和代码合集

CVPR-2020-Semi-Low-Light

CVPR-2021-纸

CVPR-2020-2021-Image-Segmentation-and-detection-challenge

最新资源