没有合适的资源?快使用搜索试试~ 我知道了~
首页中文翻译 Action Tubelet Detector for Spatio-Temporal Action Localization 中文版本
中文翻译 Action Tubelet Detector for Spatio-Temporal Action Localiza...
需积分: 45 20 下载量 27 浏览量
更新于2023-03-16
评论
收藏 1.25MB DOC 举报
本资源 利用人工+机器 翻译了 Action Tubelet Detector for Spatio-Temporal Action Localization 如有错误,望指出
资源详情
资源评论
资源推荐
摘要
目前最先进的时空动作定位方法依赖于帧级的检测,然后这些检测将被跨时间链接或
跟踪。在本文中,我们利用视频的时间连续性,而不是在帧级别上操作。提出了一种以帧
序列作为输入,输出管状体的动作图文检测器检测器,即带相关分数的包围盒序列。
同样的,最先进的物体探测器依靠 ,我们的 探测器是
的。我
们在的基础上继续努力。对每一帧提取卷积特征,而分数和回归则基于这些特征的
时间叠加,从而从序列中提取信息。我们的实验结果表明,利用帧序列比使用单个帧显着
地提高了检测性能。我们的管状探测器的增益可以用更精确的分数和更精确的定位来解释
我们的 检测器在 和 数据集上的帧图和视频地图方面的最新方法
优于现有的方法,特别是在高重叠阈值下。
1 介绍
动作定位的重点是对视频中的动作进行分类,并在空间和时间上定位它们。动作定位
任务面临着重要的挑战,例如类内可变性、混乱的背景、低质量视频数据、阻塞、视点的
改变。最近,卷积神经网络!!已经被证明适合于行动定位,因为它们提供了出色的视
频帧表示。
在 本 文 中 , 我 们 提 出 了 超 越 这 一 限 制 , 将 视 频 作 为 帧 序 列 来 处 理 。 我 们 的
"#$% 检测器检测器以固定帧数的短序列作为输入,并输出管状集,即随时间
变化的包围框序列图 。我们的方法考虑把不同尺寸和高宽比的长方体形状的密集取样联
系在一起。在测试时,我们为每个固定长方体生成一个给定动作的分数,并将其转换为一
个管状。重要的是,分数和回归都是基于序列中所有帧的卷积特征映射。当固定长方体由
固定的空间范围随着时间的推移,筒壁改变大小,位置和纵横比随着时间的推移,跟随这
改变。这里我们建立在 框架上,但建议的管状扩展适用于其他基于 的检
测器,例如更快的 &!!。
图 '我们的 探测器概述。在给定帧序列的情况下,我们提取了具有帧间权值的卷积特征。我们从随后的帧中叠加特征
来预测#()中间图,蓝色的分数和回归坐标。根据 的大小,特征来自不同的卷积层(左图,颜色编码:黄色,
红色,紫色,绿色)。作为输出,我们得到了圆管正确的图形,黄色。
我们的实验表明,以帧序列为输入可以提高:动作评分,因为不同动作之间的模糊
性降低,定位精度,因为帧在长方体是共同回归,因此,他们分享信息的角色在相邻的
帧,见图 。我们的 检测器在 和 数据集上获得了最先进的
*++, 和 -()+, 性能,特别是在高重叠阈值时。
总之,我们作出了以下贡献:
.我们介绍了 探测器,这是一种动作管状探测器,它 通过打分和退化
#() 来进行探测。
.我们证明锚长方体可以处理 帧左右的序列中的移动演变。
.我们提供了一项广泛的分析,表明利用帧序列而不是在框架级别操作的明显好处。
2 相关工作
/0%)%"1(%!!'
"$$(2"'
3 ACon Tubelet (ACT) detector
介绍了一种用于视频中动作定位的动作试管检测器 检测器。 检测器以 3 帧
*
、'''、*
3
的序列作为输入,并输出一个时空检测列表,每个都是一个管状,即一个包围盒
序列,具有一个可信度,每个动作类有一个信心得分。这种视频扩展的想法可以应用于各
种最先进的物体探测器之上。在这里,我们将我们的方法应用于 之上,因为它比其他
检测器运行时更低,因此适合于大型视频数据集。
3.1. ACT-detector
本文认为,动作定位的好处在于预测管束以帧序列作为输入而不是在帧层上操作。事
实上,对于一个框架来说,外观甚至运动可能是模棱两可的。考虑更多预测分数的框架,
可以减少这种模糊性图 。此外,这允许在连续帧上联合执行回归。我们的 检测器建
立在 的基础上,请参见图 中的方法概述。接下来,我们详细地回顾了 探测器,
然后介绍了我们的 探测器。
检测器
检测器单镜头多盒检测器通过在不同的位置、尺度和纵横比上考虑一组
(候选区域)来执行目标检测。每一种方法都是为每个对象类和一个背景类
评分,回归以更好地适应对象范围。 使用完全卷积的体系结构,不需要任何对象建
议步骤,启用快速计算。根据(候选区域)的规模使用不同的卷积层进行分类
和回归。注意,神经元的感知场,用来预测分类分数,给定的 (候选区域)的
回归量仍然明显大于该(候选区域)。
)%%
给定 4 帧序列, 检测器计算每个帧的卷积特征。这些卷积特征的权重在所有输入
帧之间共享。通过假设空间范围沿 4 帧随时间的变化,将 的候选区域扩展。然后,我
们从每一个 4 帧中叠加相应的卷积特征图 。堆叠的特征是两个卷积层的输入,一个用于
得分动作类,另一个用于回归候选区域。例如,当考虑基于图 的“红色”特征图预测的候
选区域时,分类和回归是用卷积层以 4 帧中的“红色”堆叠特征地图作为输入进行的。分类
层为每个候选区域 5 分数输出:每个动作类一个加一个背景。这意味着管状分类是根据
帧的顺序进行的。回归输出每个候选区域的 674 坐标每个 4 帧 6。注意,虽然所有的箱子
都是在一个筒子里一起回归的,然而它们对每个帧都会产生不同的回归。
初始候选区域随时间的变化具有固定的空间范围。在 6' 节中,我们通过实验证明了
这种候选区域能够处理短帧序列中的运动角色。注意,用于分割和回归候选区域的神经元
的感受场大于其空间范围。这也使我们能够将预测建立在候选区周围的背景之上,也就是
说,为对象提供知识,他们可以在长方体外活动。此外,回归显着地扭曲了长方体的形状
即使候选区域有固定的空间范围,但在 674 坐标回归后得到的管状体却没有。我们在图
中用锚长方体青色盒和回归的管状体黄色框显示了两个例子。注意,尽管随着时间的推
移,动作盒的纵横比发生了变化,回归任然输出精确的定位。
((8$
对于训练,我们只考虑帧序列,其中 所有帧包含地面真相行动。当我们想要学
习动作管时,所有的正负训练数据都来自 动作发生的序列。我们排除动作开始或结
束的顺序。让 是一组候选区域。我们用 , 表示至少有一个地基筒重叠在 '9 以上的一组
候选区域上,用 ! 表示互补集。在 4 帧上的盒子之间,管束之间的重叠是通过平均通过联
合:/的交点来测量的。, 中的每个候选区域被分配到真实的区域中国,:/ 超过 '9。更
准确地说,设∈;,<是值为 的二进制变量,当且仅当候选区域
(
被赋给标签 = 的真实管
8
0
。培训损失 > 的定义为:
在为正赋值数
和为 ?)@'8(
下文所定义的损失。
?)$ 的 定 义 使 用 了 A+ $。设为 = 类的
(
的 A+ 后的
?)。?)$ 是:
8
($的定义是在预测回归和真实值之 间使用 +%>$ 获得。
在预测的回
归和地面实况目标之间。 我们回归了小管中每个盒子的中心(x,y)的偏移量,以及
宽度 w 和高度 h。
8($ 是 3 帧的平均值。
更确切地说,令为帧 f
k
处 anchor a
i
的 x 坐标的预测回归,并且令 g
j
为真实目标。回归损失定义为:
剩余10页未读,继续阅读
nclgsj1028
- 粉丝: 8
- 资源: 25
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- ExcelVBA中的Range和Cells用法说明.pdf
- 基于单片机的电梯控制模型设计.doc
- 主成分分析和因子分析.pptx
- 共享笔记服务系统论文.doc
- 基于数据治理体系的数据中台实践分享.pptx
- 变压器的铭牌和额定值.pptx
- 计算机网络课程设计报告--用winsock设计Ping应用程序.doc
- 高电压技术课件:第03章 液体和固体介质的电气特性.pdf
- Oracle商务智能精华介绍.pptx
- 基于单片机的输液滴速控制系统设计文档.doc
- dw考试题 5套.pdf
- 学生档案管理系统详细设计说明书.doc
- 操作系统PPT课件.pptx
- 智慧路边停车管理系统方案.pptx
- 【企业内控系列】企业内部控制之人力资源管理控制(17页).doc
- 温度传感器分类与特点.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0