没有合适的资源?快使用搜索试试~ 我知道了~
19649−Cerberus Transformer:语义、示能和属性的联合解析陈小雪1,刘天宇2,赵浩3,4,周谷月1,张亚琴11清华大学AIR2香港科技大学3北京大学4英特尔实验室{chenxiaoxue,zhouguyue,zhangyaqin} @ air.tsinghua.edu.cntianyu.connect.ust.hk,zhao-hao@pku.edu.cn,hao. intel.com摘要多任务室内场景理解被广泛认为是一个有趣的公式,因为不同任务的亲和力可能会导致性能的提高。在这篇文章中,我们解决了联合语义,启示和属性解析的新问题然而,成功地解决它需要一个模型来捕获长期依赖性,从弱对齐数据中学习,并在训练过程中适当地平衡子任务。为此,我们提出了一个基于注意力的架构命名Cerberus和一个量身定制的培训框架。我们的方法有效地解决了上述挑战,并在所有三项任务上实现了最先进的性能此外,深入的分析表明,概念亲和力符合人类的认知,这启发我们探索弱监督学习的可能性。令人惊讶的是,Cerberus仅使用0. 1% 1%注释。可视化进一步证实,这一成功归功于跨任务的共同注意力地图。代码和模型可以通过https访问//github.com/OPEN-AIR-SUN/Cerberus网站。1. 介绍理解室内场景是一个基本的计算机视觉主题,在智能机器人和虚拟世界中有许多应用。为了实现全面的理解,需要解决许多子任务,人们普遍认为并证明,共同解决这些子任务会带来更准确的结果[46] [9] [35][40] [10]。不同于以往的艺术,我们研究了一个新的和具有挑战性的提法:联合语义,启示,和属性解析从一个单一的图像。如图1所示,这三项任务涵盖了人类识别和认知能力的广泛范围。对象(如木材或光泽)的属性是低级物理特性。区域的语义范畴(如地板或沙发)是一个语义层次的概念。可供性预测(如可移动或可行走)是一个认知层面的问题。这三项任务紧密相关,因为具有特定语义的对象往往具有特定属性图1.地狱犬Transformer。给定一个图像,Cerberus同时解析属 性 、 启 示 和 语 义 。 这 幅 漫 画 归 功 于 https ://www.redbubble.com/i/sticker/Baby-Cerberus-by-ArtOfBianca/48150266.EJUG5。或启示。联合分析它们是一种自然但尚未探索的公式。这种新的配方带来了挑战和机遇。为了用一个模型解决三个任务,我们需要学习有效地服务于所有任务的共享表示。同时,预期表示以原则性方式对输入的长期依赖性进行建模为了同时满足这两个要求,我们求助于Transformer架构[36],它在每一层都有一个全局感受野。该架构被命名为Cerberus。我们的公式受到另一个不常见的问题的挑战:弱对齐数据。在场景理解技术的历史发展过程中,属性[47]和启示[27]注释逐渐添加到原始NYUd2语义解析数据集[34]。不幸的是,它们的图像-注释对在空间域中仅弱对齐。这与利用对齐的单输入多输出数据集的先前多任务场景理解方法形成对比。为此,我们开发了一个自适应的训练框架,将三个数据集作为单独的源,并利用梯度投影技术19650−--P×F {}T=12Xp2×预先计算的任务梯度张量。它释放了多任务学习的力量,并将所有三项任务的量化结果提升到最先进的水平。如前所述,机遇与挑战并存。我们首先进行深入的分析,调查概念亲和力在我们的三个任务。有趣的是,我们观察到概念亲和矩阵与人类认知常识很好地一致例如,如果一个像素被预测为地板,那么它自然应该被标记为可行走。这一发现激励我们利用任务亲和力进行弱监督学习。在Cerberus的训练过程中,我们将特定子任务的注释量减少到只有0。1% 1%并依赖于其他子任务学习的表示。 它显示Ceberus在这些设置中始终以显著的幅度超过基线。更重要的我们认为这是一个类似人类的学习特征:如果一个(例如,婴儿)知道什么是地板,那么她就可以用很少的例子来学习哪里是可以行走的。本文的主要贡献如下:(1)提出了一种新颖的多任务密集预测Transformer命名为Cerberus,数据[39] [20]通过利用多任务一致性证明了深度模型的鲁棒性。虽然语义、启示和属性是场景理解中的三个基本任务,但以前的作品[22][15][24][29]据我们所知,Cerberus第一次在这个大型文献中解决了联合语义,启示和属性解析。如上所述,本研究报告所处理的新挑战和抓住的新机会与以往的研究报告不同。3. 方法在本文中,我们的目标是分析语义,启示和属性联合。语义(例如,沙发或橱柜)描述室内场景中的对象/物品类别。支撑力是指物体而属性则是指物体的材质如金属或表面属性如光泽.通过预测这些标签,智能体以全面的方式理解室内场景我们定义O={o,o,...,作为语义标签集,用于室内场景中的联合语义、示能和属性解析;(2)Cerberus在所有三个任务上都实现了最先进的结果,同时需要一个向前传递,这需要一个从弱对齐数据中学习的任务权重平衡框架的帮助。(3)通过广泛的分析,我们表明Cerberus学习与人类认知一致的任务亲和力,并且仅使用0.1%的注释就实现了强大的弱监督学习性能。2.相关作品Transformer[36]自问世以来就改变了自然语言由于其 强 大 的 建 模 能 力 和 捕 获 上 下 文 信 息 的 能 力 ,Transformer已被证明对2D [18][26]和3D [19] [4]场景理解问题都是有效的除了这个既定的优势,我们认为Transformer非常适合另一个潜在的场景:多任务密集预测。直觉是,相关的任务自然共享注意力权重,例如,地板和步行。有趣的是,我们使用强弱监督学习结果和直观的可视化来验证这一点。场景理解长期以来一直在多任务环境中解决,甚至在深度学习出现联合概率公式可以包含先验知识,并允许物理上更合理的理解[11] [30] [6]。整合深度表征导致引人注目的整体理解能力,包括布局,对象和人[5] [21] [41]。语义场景补全自然会涉及重建和语义标记[35][42] [43] [2]. [44]第四十四章:我的天=f1,f2,.,fy作为示能表示标签集,并且=t1,t2,…t z作为属性标签集。给定图像I,对于每个像素Ii,该任务被正式表述为映射Ii→ O × P(F)× P(T)(1)其中是幂集运算符,是笛卡尔乘积运算符。这意味着每个像素对应于一个语义标签、j个示能表示标签和k个属性标签,其中0≤j≤y,0≤k≤z。3.1. Cerberus的网络架构直觉上,这三个任务不是独立的,例如,枕头本质上是可移动的。我们相信,用一个单一的网络来解析它们可以通过利用不同任务之间的归纳偏差来提高性能。然而,什么是多任务密集预测的最佳架构仍然是一个悬而未决的问题。通用原则确实存在:这样的架构应该捕获视觉输入中的长距离依赖性,并学习有效地服务于多个任务的共享表示我们的观察是trans-former很好地满足了这两个要求:注意操作者具有全局感受野,如果不同的子任务标签共存于该区域,则学习注意集中因此,我们提出了第一个多任务密集预测Transformer,用于联合语义,affodance和属性解析,它被命名为Cerberus,如图所示。二、Transformer编码器。给定一幅H-W像素的图像,将其分成N-p个H-W不重叠的正方形从大小为p 2的不平衡补丁中进行有效表示学习的有效性。 如示于图2(b),集合19651输入ResNet-50块B(1)B(2)B(3)Transformer编码器B(4)令牌E(1)E(2)…英(9)…(b)令牌重新组装操作{}(1){}(2)R(1)R(2){}(3)R(3){}(4)R(4)⊕MLP属性示能Fatr(1)法国农业部(1)Fatr(2)法国农业部(2)Fatr(4)FFatr(3)法国法国农业部规范多头注意力语义FSEM(3)FSEM(4)规范输出预测头顺序融合块工位埋(a)整体架构12F()个令牌(c)Transformer编码器--Np-1Np(d)重新组装操作R(n-1)公司简介(e)融合块RCUF(-1)----×× × ××ΣHWSS001122... N pNResNet-50pTransformer编码器图2. Cerberus的整体网络架构。 给定一个图像,ResNet-50从输入图像中提取特征以形成一组令牌。令牌由Transformer编码器处理,并由重组操作和融合块解码。通过三个预测头,将特征图转化为最终的属性、示能表示和语义解析结果。补丁被展平为长度为Np的向量,然后通过ResNet-50主干以形成 Np嵌入。嵌入被表示为一组标记:t n,n=1,.,N p.可学习的位置嵌入与标记连接以保留位置信息。在[26]之后,将额外的可学习标记t0添加到序列中,其用于图7中的注意力可视化。它聚集来自整个序列的信息,并被命名为读出标记。然后,所有的Np+1个令牌都被馈送到多头自我注意的顺序块中,这些块学习不同任务的共享表示。重新组装操作。在处理一组令牌t n,n=0,.,Np与Transformer编码器,然后我们作为-将它们转换成图像的特征表示在不同的分辨率,这是在图中所示。第2段(d)分段。首先,我们通过将t0连接到所有其他令牌来获得Np个嵌入,并使用全连接层将嵌入投影到D维特征。然后,将新的Np个特征按初始面片的位置重新排列,得到特征图Frearrange∈Rp×p×D. 接下来,我们使用空间非采样层重新融合块在图中描绘第2段(e)分段。在第n个融合阶段,我们首先使用残余卷积单元(RCU)处理重组后的特征Rn-1,然后在元素求和后通过另一个RCU将其与原始特征Fn 然后我们将结果上采样2倍,得到新的融合特征图Fn−1。我们使用最终的融合特征图来生成特定于任务的预测。预测头。我们使用三个独立的预测头来产生最终的密集预测结果。每个头部由两部分组成:(1)用于生成语义、示能或属性图的全连接层,(2)用于将预测图上采样到原始图像分辨率的插值函数对于启示和属性,我们得到大小为y的地图HW和zHW,其中y和z是标签类别的数量。对于语义,预测图的大小为H W,其中每个像素对应于一个语义类。我们使用y二进制交叉熵损失来监督启示,z二进制交叉熵损失用于属性,x方向交叉熵损失用于语义。3.2. 具有最优权重的弱对齐训练动机如何训练我们的多任务密集预测尺寸F至F∈RH×W×D<$。我们重新组装将来自四个不同阶段(第一和第二ResNet-50块,变换器编码器的层9和层12)的输出的令牌转换成具有不同分辨率的四个图像状表示。融合阻滞。在从上述阶段生成四个特征图之后,Cerberus使用RefineNet风格的[17]特征融合块来逐步对它们进行上采样。的是使用不同任务损失的简单组合不L多任务=wtLt(θ)(2)t=1T是任务数,wt是任务t的损失权重,θ是网络参数如前所示读…重新排列上采样上采样重新排列上采样Transformer在一个有效的方式?一个简单的想法19652L≤LLL不不Σ13α33(b)(c)630 x 460属性特定输入640 x 480示能特定输入560 x 425语义特定输入(d)其他事项(a) 培训步骤①至②子任务梯度图3. 训练框架的图示(左)和梯度向量的布局(右)。研究(例如,图2在[13])中,模型的性能对权重的选择很敏感。手动调整这些权重既困难又昂贵。此外,在训练过程中,最佳权重可能会发生变化,这在我们的实验中得到了验证(图1)。(五)。我们面临着另一个挑战:弱对齐数据。虽然我们使用相同的数据集来训练语义,启示和属性,但这三个任务的注释存在空间移位问题。例如图在图3(a)中,三个任务的输入图像取自同一场景,然而它们并不严格对齐,甚至具有不同的分辨率。这意味着我们为了解决这个问题,同时避免手动调整权重,我们求助于原始的MGDA公式[7],这是自然兼容的。Pr消去法:一个解θ1优于另一个解θ2,如果 t,t(θ1)t(θ2)和 t,t(θ1)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功