没有合适的资源?快使用搜索试试~ 我知道了~
基于硬注意力的延迟敏感视频对象检测和分割方法
1Patchwork:一种用于视频流中有效对象检测和分割的Yuning Chai搜索Google Inc.chaiy@google.com摘要单帧目标检测和分割技术的最新进展已经激发了广泛的工作,以扩展这些方法来处理视频流。在本文中,我们探讨了针对延迟敏感的应用程序的硬注意的想法。我们的方法选择并只处理帧的一个小的子窗口,而不是单独地对每个帧进行推理。然后,我们的技术基于来自先前帧的子窗口和来自当前子窗口的更新来这种硬atten- tion机制的延迟减少是以降低准确性为代价的我们为解决这一问题做出了两项贡献。首先,我们提出了一个专门的内存单元,恢复丢失的上下文时,处理子窗口。其次,我们采用了基于Q学习的策略训练策略,使我们的方法能够智能地选择子窗口,使得存储器中的陈旧性对性能的影响最小。我们的实验表明,我们的方法将延迟降低了大约四倍,而不会显著牺牲ImageNet VID视频对象检测数据集和DAVIS视频对象分割数据集的准确性。我们进一步证明,我们可以将节省的计算重新投资到网络的其他部分,从而导致精度增加,计算成本与原始系统相当,并在低延迟范围内击败其他最近提出的最先进的方法。1. 介绍人类的视觉系统面对的是恒定的视觉流中的大量信息。幸运的是,我们的大脑有足够的能力从以前的经验中记住我们的环境,并能立即找到最佳的视觉注意决策序列,以实现对我们视觉表面的看似毫不费力的感知。正如[4,26]所指出的,我们不认为我们的*现就职于Waymo LLC。我们成功的近年来,由于深度卷积网络的出现,对象检测[9,11,25,31]和分割[5,6,14]技术取得了巨大进展[15,21,35,38]。将这些强大的方法扩展到需要连续流处理的应用程序然而,我们自己的人类视觉感知经验表明,在没有任何时间上下文的情况下,以固定的时间间隔将单帧检测器天真地应用于视频的每一帧是没有效率的。受人类视觉注意力系统[26]的启发,我们引入了Patchwork,这是一种探索记忆和注意力之间微妙相互作用的模型,用于有效的视频流处理。图1a示出了修补工作的概述。在每个时间步,Patchwork从输入帧中裁剪一个小窗口,并将其馈送到特征提取器网络中,该网络已被修改为包含一组分散在网络主体中的专用存储单元。该网络最终预测特定于任务的输出:用于对象检测的一组框或用于分割的掩模。此外,网络预测下一帧的注意窗口,该窗口最有可能包含对任务有用的信息。Patchwork的主要动机是高效的流处理。换句话说,我们的目标是实现尽可能高的检测或分割质量,同时减少延迟和计算成本。对于不需要减少延迟的应用程序,我们可以重新投资节省的资源并提高质量。我们在两个基准数据集上证明了这种延迟减少和质量改善:ImageNet VID [32]用于视频对象检测,DAVIS [29]用于视频对象分割。这种延迟减少由一对超级参数先验地控制我们在实验部分解释了一些超参数的选择。一些选择显著降低了延迟,但质量受到了影响,而其他选择节省了资源,但实现了类似的质量。也有一些配置34153416拼凑细胞(pc)特征Xt,l+1有效3x3转换[0]特征传播状态更新状态St-1,l状态St,l注意At特征Xt,l(a) Patchwork体系结构概述(b)拼凑细胞。图1:a)所提出的Patchwork架构。在视频流的每个时间步,我们的方法只处理帧的一个小的子窗口,但由于一系列有状态的Patchwork Cells(pc),仍然可以对整个帧进行推理。 b)有状态的Patchwork Cell的放大视图,其通过用来自先前状态的上下文特征包围输入特征来调节输入特征。t表示时间步长,而L表示特定的深网层。请参见Sec。3.2详情这些单元取代了网络中所有传统的卷积滤波器,如补充图10所示。9 .第九条。可以在相当的计算量下观察到质量增益。本文的贡献有三个方面:1)我们提出Patchwork,一种受人类视觉感知系统启发的递归架构,用于执行高效的视频流处理。我们的方法利用2)作为记忆单元的补丁工作细胞,跨时间携带环境信息和3)注意力模型,可以预测在下一帧的最佳位置参加。我们的方法是通过Q学习与新的对象检测和分割奖励函数进行训练。2. 相关工作高效的流处理。在应用需求的驱动下,人们对快速实时运行深度学习模型的兴趣越来越大。这些进步分为两个方面。第一个桶包含在其基本级别改变网络的方法,例如,量化[17,43]和层分解[8,22,33]。另一组方法,也就是这项工作所涉及的方法,在更高的算法级别上运行对于图像对象检测,有SSD [25]和YOLO[30],它们都是一级检测器,旨在实现比Faster-RCNN[31]等两级方法更好的速度-准确性权衡。特别是对于视频流,在相邻帧的输出通常相似的假设下,[23,34,45]仅在动态选择关键帧,从而以精确度换取计算。我们的工作还利用了时间一致性,但不是只选择关键帧,而是选择每帧的空间位置循环注意力模型。到目前为止,大多数注意力模型都被设计为重复查看同一图像的部分,而不是跨视频中的不同帧最早的作品之一是循环注意力模型(RAM)[27],它重复地将注意力窗口放置在MNIST图像上以分类数字。一些工作将RAM框架扩展到多标签分类[1],图像生成[12]和单图像对象检测[3]。[3]中的对象检测器逐渐在图像周围移动注意力窗口,直到检测到对象,这与我们的方法有很大不同更重要的是,它的复杂性随着对象的数量线性增长,我们的方法每帧的处理时间是恒定的。在视频领域,[13,19]将注意力模型应用于视频流,尽管它们没有解决空间注意力丢失上下文的问题,这是这项工作的关键贡献。3. 拼凑如图如图1a所示,Patchwork架构是一种重流系统,其中当前帧的预测可以取决于所有先前帧。在每个时间步,任务任务任务关注关注关注基地基地基地局部视图局部视图局部视图t -1不t +1PCPCPCPCPCPCPCPCPC. . .. . .. . .341722注意At+1FC + Argmax注意网络+作用历史Ft图2:(最佳彩色视图)补丁的演变-在五个时间步长内工作细胞记忆。顶部:红色矩形中带有注意窗口的输入帧。底部:Patchwork Cell聚合了由注意力窗口随时间裁剪的原始输入补丁。请注意,仅更新红色矩形中的要素。 因此,特征图看起来杂乱无章,形成拼凑图案(https://en.wikipedia.org/wiki/Patchwork)。注意事项状态St,L特征Xt,L输入帧经历四个阶段:裁剪、特征提取、特定于任务的预测(检测或分割)和注意力预测。在裁剪期间,从输入帧裁剪固定大小的窗口,其中来自先前帧的注意力预测器指示裁剪的位置。我们选择将窗口大小限制为常数是经过深思熟虑的,以便它允许我们提前控制计算成本,因为成本大致与窗口的面积成对于特征提取阶段,我们使用从标准骨干网络MobileNetV2 [33]改编的有状态网络。我们将其所有内核大小大于1x1的卷积层替换为自定义的有状态Patchwork Cell,这将在第二节中详细3.2. 最后,注意力和特定于任务的预测器建立在特征提取之上的适当层请参见补充章节。A详情。我们将本节的其余部分组织如下:该模型的两个关键部分,即反复注意模块和拼凑细胞,在第2节中进行了描述。第3.1节和第3.2. 最后两个子部分描述模型训练:3.3描述了对象检测和分割任务的奖励函数,其余的训练细节在第3.3节中总结。三点四分。Patchwork有两层含义。 首先,它是一个港口-图3:注意力机制。注意力网络建立在Patchwork Cell的记忆单元和动作历史之上,并预测下一个时间步的Q值t表示时间步长,L是网络中的固定层。参见第3.1详情因此可以以监督的方式端到端地训练该机制;[1,27]另一方面,利用了策略梯度,一种强化学习(RL)的风格注意,这些先前工作中的实验仅限于诸如MNIST和CIFAR之类的数据集,这解释了为什么我们在复杂的现实世界对象检测和分割任务上使用任何一种方法都只取得了我们最好的结果是从离散动作空间上的Q学习中获得的。该离散动作空间由所有可能的注意力子窗口组成,并且由两个整数M和N参数化。M表示维度被切片多少次,而N表示有多少相邻切片形成注意力窗口。我们的实验包含三个这样的配置。对于M=2,N=1,存在4个相对大小[1,1]的可能窗口。这些窗口的左上角在[i,j]上,i∈0,1;j∈0,1.M=4,N=2有9种可能性,2 21 1一个补丁式的注意力网络。然而,在这方面,拼布也是针的一种形式相对大小为[2,2]的ble窗口,左上角为在[i,j]上,ni∈0,1,2;j∈0,1,2.M=4,N=1有16个4 41 1将多块布料缝在一起,一个更大的设计-这类似于如何内存内相对大小[4,4]的可能窗口,左上角[i,j]的角点,i∈0,1,2,3;j∈0,1,2,3.4 4每个Patchwork细胞在推断期间出现(见图12)。2)的情况。3.1. 反复注意图图1a显示了经常性注意力网络的概述在现有文献中,注意力窗口(至于训练,[12]使用了边界注意,M和N先验地控制计算量。例如,M=2,N=1的配置使得每个关注窗口关注帧的25%的面积,因此总计算减少到大约25%。接下来,我们构建注意力网络,该注意力网络在时间t从网络中获取一组特征,并将它们映射到Q值Q(St,At; Θ)以进行深度Q学习(DQN [28])。的. . .. . .3418
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功