谷歌大脑Pix2Seq：统一计算机视觉任务接口

版权申诉

39 浏览量更新于2024-08-04 收藏 2.32MB PDF 举报

"Pix2Seq是谷歌大脑提出的一种用于计算机视觉（CV）任务的统一接口模型，旨在解决CV领域中各种任务需要定制不同模型和损失函数的问题。该模型灵感来源于NLP领域的序列生成框架，通过将输入图像像素和输出结果都转化为token序列，实现了对多种CV任务的通用性建模。 Pix2Seq的核心思想是将图像识别任务转化为序列到序列（Sequence-to-Sequence）的问题。在传统的CV任务中，输出形式多样，如边界框（bounding boxes）、密集掩码（dense masks）或人体关键点等。这些不同的输出形式使得建立统一模型变得复杂。而Pix2Seq则尝试将这些多样化的输出转化为token序列，如同NLP中将文本转化为单词序列一样。 Pix2Seq最初的目标是针对目标检测任务，它建立了像素到序列的映射，使得模型能预测一系列的tokens来描述图像中的目标。随着Pix2Seq v2的推出，该模型的适用范围进一步扩大，不仅覆盖了目标检测和实例分割，还涵盖了人体关键点检测和图像描述生成等任务。即使这些任务的输出形式各异，Pix2Seq v2都能通过将它们转换成token序列来处理，从而实现模型的通用性和跨任务复用。通过Pix2Seq，研究人员和开发者可以使用相同的底层模型来处理多种CV任务，减少了对特定任务的模型定制需求。这极大地简化了模型开发流程，提高了效率，并可能促进模型泛化能力的提升。此外，这种方法也有助于利用预训练模型，通过微调适应新的任务，减少了训练数据的需求。总体而言，Pix2Seq是一种创新的尝试，它试图打破CV任务之间的界限，构建一个统一的大规模预训练模型框架。这种方法有可能成为CV领域的一个重要里程碑，推动人工智能向着更通用、更灵活的方向发展。随着技术的不断进步，未来可能会有更多类似 Pix2Seq 的模型出现，进一步推动CV任务的统一和模型的普适性。"

2023/6/28 17:12

Pix2Seq：谷歌大脑提出 CV 任务统一接口！

https://mp.weixin.qq.com/s/F4xkRINbT40ua0UuulMjDw

1/8

Pix2Seq：谷歌大脑提出 CV 任务统一接口！

文 | 青豆

最近一个大趋势就是将各类任务统一在一个大一统框架下。大规模预训练语言模型已成功打通各类

文本任务，使得不同的NLP任务上，都可以用这种统一的sequence生成框架作为基础模型，只需

要通过prompt的方式，指导模型生成目标结果。

这种大一统的sequence生成框架在NLP任务成功的关键是任务描述和任务输出都可以序列化成text

tokens。

但CV任务输入输出都更加多样，那不是得为不同的任务定制不同的模型和损失函数？这也是CV任

务大一统框架的瓶颈。

以自然语言为输出的任务，比如image captioning、visual question answering这类任务，天然

可以转化为生成 text token sequence 。但模型的输出形式还存在很多其他的形式，例如

bounding box、dense masks等。

Pix2Seq在这样的动机下诞生了：既然输出形式不同是难点，能否将各类输出形式都统一成token

sequence？

去年Google Brain提出的Pix2Seq就以目标检测作为出发点，建立Pixel-to-Sequence的映射，探

索了这种可能性（戳《图灵奖大佬+谷歌团队，为通用人工智能背书！CV 任务也能用 LM 建

模！》）。

青豆 2022-07-20 12:05 发表于北京

原创

夕小瑶科技说

下载后可阅读完整内容，剩余7页未读，立即下载

地理探险家

粉丝: 1212
资源: 5501

谷歌大脑Pix2Seq：统一计算机视觉任务接口

Pix2Seq：谷歌大脑提出 CV 任务统一接口！.rar

图灵奖大佬+谷歌团队，为通用人工智能背书！CV 任务也能用 LM 建模！ .pdf

深度学习 Pix2Pix：图像转换的突破

Cisco PIX防火墙详解：配置、规则与基本命令

Cisco PIX防火墙基础：命令、配置与模式详解

Pix4UAV：全自动无人机数据处理，高效精准建模

Pix2Vox: 从单视图和多视图图像进行上下文感知的3D重建

Pix2NeRF：无监督神经辐射场转换

"Patch2Pix：像素级对应的新视角和细化网络

"Unicorn: 一个统一的多任务目标跟踪网络结构和学习范式

最新资源