没有合适的资源?快使用搜索试试~ 我知道了~
8510无痛苦,大收益:通过拟合模型级时空曲面钟家兴,周凯晨,胡庆勇,王兵,Niki Trigoni,Andrew Markham牛津{jiaxing.zhong,rui.zhou,qingyong.hu,bing.wang,niki.trigoni,andrew.markham}@ cs.ox.ac.uk摘要点云序列场景流是捕捉三维点云运动场的有力工具。然而,由于点云数据的非结构化,很难或根本不可能对点云数据进行有效的逐点流量估测估计场景流量静态模型(空间)静态模型(时态)聚集通信。 要捕获3D运动而不显式-(a) 基于物理场景流的Vanilla双流框架通过跟踪对应关系,我们提出了一个运动学启发的神经网络(Kinet),通过将ST-曲面的运动学概念推广到特征空间。通过在特征空间中展开ST曲面的法向求解器,Kinet隐式地编码特征级动态,并从使用成熟的反求方法中获得优势点云序列ST-正态估计特征级静态模型(空间)聚集运动学习单元用于静态点云处理的骨骼只有轻微ST曲面动态学习模块(时间)网络结构的变化和低的计算开销,它是无痛的联合训练和部署我们的框架与一个给定的静态模型。在NvGes-ture、SHREC'17、MSRAction-3D和NTU-RGBD上的实验值得注意的是,Kinet在MSRAction-3D上实现了 93.27% 的 准 确 率 , 只 有 3.20M 参 数 和 10.35GFLOPS 。 该 代 码 可 在 https://github.com/jx-zhong-for-academic- purpose/Kinet上获得。1. 介绍由于持续的小型化和大规模生产,3D传感器在几何感知任务中变得越来越普遍。这些传感器通常通过点云表示场景几何形状,点云是由不同的空间3D坐标组成的无序和不规则的数据结构。作为点云理解的基本问题,静态场景[11,30,72]或对象[7,58,59]的分类在过去几年中取得虽然令人印象深刻,但这些技术并不能直接说明真实的3D世界也在变化的事实,通过自我中心和/或自我中心,(b) 由特征级ST-表面引导的运动学双流框架图1. 基于流的框架和我们的框架之间的比较。既没有显式的逐点对应估计,也没有独立的时间分支,我们的框架是轻量级和高效的。偏心运动为了更好地理解我们随时间变化的世界,一些最近的工作[15-17,44,47,48,80 ]已被应用于动态点云分类,其中模型需要为给定的3D点云序列输出视频级别的作为二维光流的自然延伸,三维场景流捕捉点云的运动场。基于光流,双流网络[6,19,68,76,89]已经被证明在基于图像的视频分类中是成功因此,它应该是一个自然的选择,动态点云的场景流的帮助下进行分类。然而,据我们所知,尽管成熟的场景流估计器[3,22,24,43,50,56,73,82]普遍存在,但场景流尚未在点云序列中使用。那么是什么阻碍了我们将场景流应用于动态点云分类呢?虽然场景流是一个强大的工具,但很难从序列点云中高效有效地估计它-三维场景流的计算不可避免地具有较高的时间开销,8511内存消耗较大,精度较二维光流法低。这些挑战主要是由动态点云的不规则性和无序性这种非结构化的性质使得难以跟踪跨不同帧的移动点集的逐点对应为什么不提取动态信息而不显式地找到逐点对应呢?如果这是可能的,研究人员可以从解耦的运动表示中获得优势,而不会遭受场景流的痛苦计算过程。类似于在基于图像的模型中的双流网络中看到的收益,我们将能够在推理和训练中保留成熟静态解决方案的好处,例如基准测试良好的网络架构,可转移的预训练权重和现成的源代码。同时,场景流估计的痛苦将被显著减轻,仅需较小的网络修改和较低的计算开销。为此,我们从运动学中获得灵感,并提出了一种神经网络(Kinet),通过将时空曲面[55](ST-曲面)的运动学概念从点云的物理域推广到特征空间来绕过直接场景流估计。这样一来法向量w.r.t.这些ST-表面(ST-法线)建立了如图1b所示的动态信息的表示域。因此,运动隐式地由特征级ST表面表示,而不显式地计算逐点对应。受迭代法线细化[49]的启发,我们展开ST法线的求解器,并使其以端到端的方式与静态模型一起联合训练Kinet继承了静态网络层的中间特征,与图1a中描述的基于流的框架相比,Kinet在参数上是轻量级的,在计算复杂性上是高效的,而图1a中描述的基于流的框架需要额外的场景流估计和独立的时间分支。实 验 在 四 个 数 据 集 上 进 行 ( NvGes- ture[52] ,SHRECRGBD[66])用于两个任务(手势识别和动作分类),具 有 三 个 典 型 的 静 态 骨 干 ( 基 于 MLP 的PointNet++[60],基于图形的DGCNN[78]和基于卷积的SpiderCNN[83])。值得注意的是,1)在几何识别中,我们的框架首次超过人类,准确率为89。1%; 2)在动作分类上,达到了93. 27%的24帧MSRAction-3D,只有3。20M参数和10. 35G浮点运算。总之,我们的主要贡献如下:• 通过引入Kinet,我们将时间信息从空间特征中分离出来,从而很容易将静态骨干扩展到动态识别,并完全保留了这些成熟骨干的优点。• 没有跟踪逐点对应的痛苦-在特征空间中,我们通过展开ST-法线求解器来该方法与静态模型一起可联合训练,具有较小的结构变化和较低的计算开销。• 在各种数据集、任务和静态主干上的大量实验表明,该算法在性能、参数和计算复杂度方面都有很好的效果,并且对不同的静态主干具有通用性该 代 码 可 在 https://github.com/jx-zhong-for-academic-purpose/Kinet上查阅。2. 相关工作静态点云的深度学习最近,3D点云的深度学习吸引了越来越多的关注[25],在几个领域取得了实质性进展,包括形状分类[7,41,51,58],对象检测[ 7,41,51,58 ],[5,38,57,67]和场景分割[4,11,28,30,85]。这主要归功于各种高质量数据集的可用性[4,11,29]和复杂的神经元算法。chitectures [27,41,58,60].从场景表现的角度看,现有作品大致可分为1)基于体素的方法[10,23,46,65,90],2)基于投影的方法[8,69],3)基于点的方法[31,41,58,60,78,83],以及4)混合方法[12,45,59]。本文在已有的静态分类模型的基础上,尝试将其应用到动态点云识别中,以实现较小的结构手术和较低的计算开销。动态点云上的深度学习最近的一些工作已经探索了点云上的动态问题,例如识别[16,17,44,48,80],检测[32,61,87],跟踪[20,62],预测[34,53,63,64,81]和场景流估计[3,22,24,43,50,56,73,82]。现有的序列分类工作是基于卷积[44,44,47],循环[48],自我注意[16,80]或多流神经网络[79]。作为一个卷积框架,MeteorNet [44]通过时空邻居聚合[44]对点云动态进行建模。同样,PSTNet [17]应用点时空卷积来捕获时间维度和空间域的信息PointLSTM [48]从递归网络中衍生出来,Fan等人[16] Weiet al. [80]随着视频转换器的普及,采用了自我注意结构[21]。通过提取离线动态体素,3DV [79]通过多个流对运动和外观进行我们的Kinet共享与3DV相同的空间和时间信息解耦的思想,但是所提出的框架既不需要离线运动提取,也不需要额外的独立时间流。基于图像的视频的流引导分类器当前的工作从将光流信息编码为用于基于图像的视频分类的深度表示的类似想法中获得灵感[33,37,39,42,8512我我我我我我我ri j ij(吨)场景流(当地)(���−���������−���图2. 二维局部ST面及其法线。场景流(深灰色箭头)位于ST表面S(t),并且它与法线n(t)正交。我我()()()��� −���������+法线估计()��� −���������+邻域加权图4. 运动学习单元。 如图1b的紫色虚线框所示, 这些单元的堆栈构成了我们框架的时间分支备用图3. 迭代法向精化的求解器。颜色的暗度表示相邻点的权重。ST-表面上逐点的权重估计,反之亦然。抽象(红色虚线框)和分组(绿色虚线框)在特征空间中展开ST法向求解器(图3)。只有正方形是参数操作,而矩形不引入参数-运动学学习只需要少量的可学习参数。70、88]。通过沿节奏减去特征图-ral轴,OFF[70],STM [33]和PAN [88]稳健地模拟光流计算。同样,Piergiovanni Ryoo [54]和Fanet al.[18]在网络层内部模仿TV-L1光流迭代[71Heeseung等人[37]将相关性引入连续特征映射。出于加速的目的,利用时间移位模块[42]或空间移位滤波器[39]来对多帧交互进行建模。上述方法依赖于保留图像中规则像素的空间对应关系的特征图,而不规则点云的特征通常不能表现出跨帧的逐点对应关系。因此,上述所有功能级别的操作从3D物理世界到深度表征学习的精细化[49]直观地,以点p(t)为中心的局部ST表面S(t)是拟合p(t)的尽可能多的时空相邻点的表面。图2示出了3帧内的2D动态点云的ST表面,其可以容易地推广到3D情况和更多帧。协议-对于空间运动学[55],瞬时速度矢量总是位于ST表面上。等效地,对于如图2所示的点云序列,Mitraet al.[49]指出由于邻近(即,局部邻域)一致性动作 因此,ST-法线n(t)是正交的(减法、移位、相关等)对点无效云模型 为了实现类似的编码目标,到本地场景流1我这些法线的场描述了从静态功能的动态,我们提出了一个不同的方法。3. 方法连续点云的运动。在数学上,p(t)的时空邻居是一个点集:N<$t(p(t))={p(τ )||t−τ|≤100%,||x(t)−x(τ )||≤为简单起见,下文中称为N(t) S(t)将具有T帧的输入点云序列表示为P=(P1,P2,..., PT−1,PT)。 tth帧Pt={p(t)|i=1,2,…mt− 1,mt}是mt个点的集合,其中点第i个点p(t)的位置由其空间坐标指定。我我由 其 切 平 面 与 曲 面 方 程 Ax+b=t 指 定 , 其 中 系 数A∈R1×3和b满足:Ax(τ )+b=τ,n_p(τ )∈N(t).(一)我natesx(t)=(x(t),y(t),z(t))∈R3. 动态的目标j j i我我我点云分类是输出序列级cat,对于一个特定的输入P,3.1. 背景:运动ST表面我们的方法扩展了ST的运动学概念在实践中,等式(1)可以是超定线性。耳系统,因为局部相邻区域可能太大而不能反映瞬时速度。在这种情况下,空时邻居N(t)不能完全表示为1严格地说,ST-法线n(t)与局部切线正交面[55],并采用迭代法向重构的求解器,场景流平面。(t)我(Static Layer静态图层从LayerStatic Layer静态图层+静态图层从Layer1+ 1抽象联系我们������(分裂分组分裂( (���), ������。,(),。。,(���) )1,1,,/图层的“”()解决ST曲面方程层1+ 1的厚度(mm)解决ST曲面方程������,������ 对于每个k(,,ST-正常偏离ST曲面ST-正常(,��� − ���������+��� − ���������+��� − ���������+,Concatenate(()Concatenate������������(来自图层-1的动态要素对齐到“零”-暗+空间部分ST-法向部分图层中的动态要素对齐到亮度 +1-dim颠部8513J我我J我我我J我j,kj,ki,k我我JJ系数的切平面和存在没有精确的解决方案。因此,引入最小二乘近似以寻求最佳系数A和b:假设我们得到一系列特征F1(P)=F1(P1),F1(P2),.,Fl(PT-1),来自某个静态模型F的第l层(在图4中用蓝色标记)的Fl(PT)。A,b=arg min甲乙丙Σ(τ)(吨)||二、||2.(二)基于序列静态特征Fl(P),我们的学习单元旨在通过拟合特征来获得动态表示PJ∈Ni为了减轻噪声点云的影响,常用的目标是基于加权的相邻点获得系数水平ST表面。使用正态估计进行提取(图4中的红色虚线框)为了减少计算复杂度,复杂性,我们首先利用1×1卷积Dl来减少其A,b=arg min甲乙丙Σw(τ )||Ax(τ )+b−τ||第二条、第三条p(τ)∈N(t)尺寸为c,其中c与静态特征的尺寸成比例。对于给定的点p(t),对应的-c维特征向量表示为f(t)∈Rc。其中w(τ)是这些邻居的逐点权重。作为方程(3)的求解器,迭代法向细化[49]通过ST曲面的法向场对动力学进行鲁棒编码。这最早用于动态几何注册[49],这是一种注册大规模与物理空间类似,特征空间中ST曲面的切超平面由其曲面方程Af+b=t指定,其中系数A和b满足:Af(τ )+b=τ,φp(τ )∈N(t).(四)j j i移动和变形点云。如图3所示,基本思想是交替地重新计算ST-曲面S(t)及其基于邻域权重的法线n(t)同样,这些静态特征的时变变化位于表示空间中相应的ST-(超)曲面上。向量场的法线w.r.t.这些特征-我我w(t),并基于下式对空时邻居N(t)重新加权:水平ST-表面正交地描述动态信息,J I估计的ST表面S(t)直到收敛。3.2. 运动表征学习3.2.1框架vanilla基于流的框架(图1a)显式地提取场景流(或动态体素,如基于静态表示的动画。3D物理空间中的ST-曲面的方程通常是超定的(|N(t)|3),而在c维特征空间中则不是这种情况(|N(t)|
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功