时间Transformer网络：不变性和判别性时间规整

17 浏览量更新于2023-10-18 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12426时间Transformer网络：不变性和判别性时间规整亚利桑那州立大学{slohit，qiao.wang，pturaga}@ asu.edu摘要许多时间序列分类问题涉及开发对时间错位不变的度量。在人类活动分析中，由于各种原因，包括不同的初始相位、传感器采样率和由于受试者特定的生物力学引起的弹性时间扭曲，出现时间错位。过去在这一领域的工作只着眼于通过弹性节奏调整来减少类内变异。在本文中，我们提出了一种混合的基于模型和数据驱动的方法来学习扭曲函数，不仅减少了类内的变化，而且增加了类间的分离。我们称之为时间Transformer网络（TTN）。TTN是一个可解释的可微模块，它可以很容易地集成在分类网络的前端。该模块能够通过生成导致速率鲁棒表示的依赖于输入的扭曲函数来减少类内方差。同时，它通过学习更具区分力的扭曲函数来增加类间方差。我们使用所提出的框架在具有挑战性的数据集上的当训练集较小时，这种改进尤其明显1. 介绍机器学习算法对干扰参数的保证不变性是关键应用中的重要设计传统上，只有在基于模型的方法下才能保证不变性。然而，除了通过经验检验外，学术代表还不能保证不变性[8]。学习建立在现象的分析模型上的不变表示可能有助于弥合这一差距，也有助于为模型提供可解释性。然而，深度学习对学习可解释的不变量提出了挑战，主要是由于不兼容性* 王乔现就职于SRI International。在作为不变设计基础的数学方法和深度学习中流行的架构之间。最近已经尝试利用基于模型和数据驱动的方法来学习跨空间变换[16，14，38]、照明[33，21]和视点[20]的不变表示。另一方面，学习时间速率变化的不变/鲁棒表示受到的关注明显较少。如果tack-led良好，人类活动建模的许多应用将受益，包括用于人机交互的更强大的识别算法，用于计算机生成图像的更丰富的人体运动合成，以及健康应用。基于模型和数据的混合方法：在本文中，我们选择的应用是RGBD设备的活动分类，其中骨架数据可用。活动由于生理和生物力学因素，不同的受试者可以以不同的速率进行诸如行走的运动。我们想设计的表示，提供强大的分类对这些滋扰因素。为此，我们采用基于模型的方法，并使用模型约束深度网络中的某些层。时间变异性的模型是从过去的弹性时间对齐工作中采用的，该工作将时间变异性视为作用于给定时间序列的时间同构的结果[31]。这样的非纯映射的空间具有群结构，并且可以通过利用当代的平方根形式来表示非纯映射而转换为更简单的几何约束[29]。与深度架构的兼容性：我们设计了一个新的模块，我们称之为时间Transformer网络（TTN）。这个模块的特点是它可以易于集成到现有的时间序列分类器中，如时间卷积网络（TCN）[17]和长短期记忆（LSTM）网络[9]。TTN是可解释的，因为它被设计成以预定义的、可预测的和可视化的方式与分类网络交互。TTN是在分类器的开始处添加的可训练网络，并且通过执行输入序列的选择性时间扭曲来对输入序列进行操作。因此，它有能力找出12427图1.时间Transformer网络（TTN）是一个可训练的模块，可以很容易地添加到时间序列分类器的开头其功能是扭曲输入序列，以最大限度地提高分类性能，如图所示，两类波形在通过TTN后变得更具鉴别力TTN的子模块在第4节中解释。速率变化（如果数据中存在的话），以及通过学习将不相似类中的序列彼此远离地对齐来增加类间分离。应用影响：从运动捕捉（ mocap ）系统（如OptiTrack）或深度传感器（如Microsoft Kinect和IntelRealSense）识别人类活动在最近引起了人们的极大兴趣。这些传感器的成本不断降低，姿态估计算法（例如，[34]）使得3D骨架成为动作识别的重要感测模态。由于动作识别问题在类内和类间都存在很大的差异性，我们选择它作为本文的研究重点。贡献• 我们提出了时间Transformer网络（TTN），它执行联合表示学习以及用于包括动作轨迹的时间序列分类的类感知判别对准• 我们设计的TTN生成高度表达的非参数，保序的同构。• TTN利用最佳比对（在等价类之间）的非唯一性来生成用于改进分类的区分性扭曲。• 所提出的TTN可以很容易地集成到现有的时间序列分类架构中，只需一行代码即可使用扭曲模块。我们验证了我们的贡献，展示了改进的性能，小型和大型，真实和合成的数据集，从两种不同的方式-Kinect和mocap获得的3D姿态动作识别TTN和分类器的组合架构consis- tently产生改进的分类性能相比，几个基线分类器。2. 相关工作不变量表示的深度学习：这项工作的主要灵感之一是Jaderberg et在空间Transformer网络（STNs）上，较小的网络首先预测由仿射变换或薄板样条参数化的输入网格的几何变换。然后将变换应用于输入，然后将其馈送到分类网络。最近的一项工作是Detlefsen等人。[4]他们通过用称为连续分段仿射变换的更丰富的一类参数化微分变换来代替仿射变换和薄板样条来提高空间变换器的性能，但是以复杂的实现和相当长的训练时间为代价。这两个作品的目的是建立不变性的空间几何变换的图像。Capsule networks作者：Sabour et al.[25]通过允许CNN学习明确的空间关系来扩展CNN的表达能力。Tallec和Ollivier [32]最近的一项有趣的工作表明，LSTM网络具有学习扭曲输入序列的能力。我们的实验表明，通过将LSTM与本文设计的模块集成，性能可以进一步提高，因为所提出的框架还可以导致更多的区分表示。在本文中，我们设计了一个模块来预测翘曲函数的时间域，当应用到输入序列导致更高的分类性能。这要求预测的翘曲函数满足保序性质。此外，在我们的情况下，预测的翘曲函数是非参数化的，可以跨越整个空间的速率修改变换，比早期的相关作品更有表现力。翘曲也是弹性的，与STN的情况下的刚性变形相反。我们注意到，在时间变化信号的情况下，这些是重要的设计要求，这与2D空间域中的变换不同。时间序列数据的调整：调整时间序列数据最常用的方法是动态时间规整（DTW）[2，26]。DTW试图最小化两个时间序列之间的L2距离，12428其中一个是不可知论的阶级信息。为了解决DTW的一些还有几项关于多模态数据的典型时间规整（CTW）的工作，其中来自不同流的时间序列在对齐它们之前被投影到公共空间（类似于典型相关分析）[43]。最近也提出了CTW的深度学习版本[36，35，12]。我们提出的方法和上述基于优化的时间规整方法之间的主要区别之一是，我们的方法基于类信息执行这将在第4节中进一步讨论。在本文件的准备过程中，我们偶然发现了Oh等人的论文。[24]他们提出了一种用于临床时间序列数据分类的类似体系结构，但限于线性时间缩放和偏移的空间。使用深度学习的3D 动作识别：随着像 MicrosoftKinect、Intel RealSense和基于摄像头的mocap系统这样的传感系统在获取深度和以厘米到毫米级的精度进行人体姿态估计方面变得越来越有效，可以理解的是，对使用3D姿态数据进行动作识别的研究和商业兴趣已经增加。最近的实验表明，对于小数据集，与视频帧相比，3D姿态信息的识别精度更好[7]。心理学著作中的证据支持简单的基于地标或基于标记的动作识别是有效的，这些著作表明，人类只擅长从人体上的几个点识别动作[13]。通过使用图形卷积对基线架构提出修改，以更好地考虑人体关节的空间结构[39]。然而，它具有更高的计算负荷。其他表示包括基于图像的表示[15，20]，以及融合速度信息和电子束信息[19]等。我们在本文中的贡献与这些工作正交，本文的主要重点是设计一个专门的学习率鲁棒判别表示模块。因此，对于我们的实验，我们选择了两个有效的广泛使用的简单实现的架构作为我们的基线-3. 速率变化的双态模型连续时间序列可以表示为单参数曲线，我们用α（. ），其中t∈[0，1]是参数。在我们的例子中，t是时间，我们假设α（t）∈RN。另一条曲线β是α的重新定义，如果β=α<$γ，其中<$是一个函数复合，γ是重分布/扭曲函数。我们专注于这些扭曲函数的特定集合Γ（定义如下），以及两条曲线α1，α2的差别仅在于执行速率的变化，它们服从方程α1=α2<$γ，对某些γ∈Γ。图2示出43210-1-2-3-4-5-60 40 80 120 160帧索引递归神经架构，特别是长短期记忆（LSTM）网络已经被用于执行3D动作识别，例如，[5、27]。Song等人提出了包括空间和时间注意力1601208040扭曲函数（STA-LSTM）[28]，这大大提高了识别性能。对于本文中的大多数实验，我们将使用具有剩余连接的时间卷积网络（TCN）[18]，因为与基于LSTM的网络相比，它们是有效的，易于构建并且训练速度更快。此外，Kim和Reiter在使用TCN进行3D动作识别方面取得了出色的结果[17]。该网络在3D动作识别方面优于STA+LSTM [28]。他们进一步表明，TCN可以学习空间和时间注意力，而不需要特殊的注意力层。此外，由于剩余连接，网络过滤器激活通过设计是不可解释的。我们还注意到，[17]中提出的TCN架构在网络内部引入了池化机制。我们注意到，最近，较新的架构00 40 80 120160帧索引43210-1-2-3-4-5-60 40 80 120 160帧索引图2.左上、左下：在时间扭曲（中心）之前和之后的相同动作（“穿夹克”）的轨迹和采样点。参数化轨迹在R3中通过使用所有关节的x，y，z请注意，作为神经网络输入的x，y，z的时间序列（右上角和右下角）尽管动作相同，但却截然不同。在这里，动作被分段并着色以突出速率变化。xyzxyz帧索引值值12429一个这样的时间扭曲的例子，如图3所示。给定一个定义在域[0，T]上的1-可微函数γ，要使γ成为Γ的元素，γ需要满足以下条件：γ（0）=0，γ（1）=1，且γ（t1）<γ（t2），如果t1t2（1）上述条件固定边界条件，且<这意味着任何γ∈Γ都是单调递增函数。这个属性也被称为保序，这对于当前关于动作识别的讨论是重要的，因为动作严重依赖于姿势/帧的排序/排序。很容易证明• <$γ1，γ2∈Γ，γ1 <$γ2∈Γ，• γId∈Γ，• <$γ ∈ Γ，<$γ−1∈ Γ s. t. γ γ−1= γ Id，其中γ Id（t）=t，恒等式扭曲函数。这些性质意味着，Γ允许一个群结构，群作用是函数复合。我们表示为γstec，在γ∈Γ的ive处的第一阶导数iv，或4. 用于学习区分翘曲函数的本文提出的主要思想是使用一个特殊的模块，我们称之为时间Transformer网络（TTN），用于基于神经网络的分类，给定输入测试序列X，生成一个翘曲函数，用于通过计算X<$γ来扭曲输入序列的操作γ并将其输入分类网络。重要的是要注意，使用线性内插来执行扭曲。这使得可以端到端地联合训练TTN和分类器，因为整个流水线是（子）可区分的。该框架的另一个值得注意的方面是，在没有“类模板”的情况下预测翘曲函数。尽管这听起来很矛盾，但我们很快就会证明，这允许我们的框架联合学习特征并实现区分性扭曲。这种能力使我们的框架比基于模板的匹配技术（如动态时间弯曲）γ（t）=∫t∫1γstec（t）dt，0 0γstec（t）dt=γ（1）−γ（0）=1（2）（DTW）和变体[2，26]。关键见解：给定两个输入序列X1和X2使得它们仅通过扭曲变换而不同，此外，由于单调递增的性质，γ，我们有一个γstec>0。这与（2）相结合，意味着γe具有概率分布函数的性质（正的，并且积分为1），因此相应的γ等价于累积分布函数。当我们处理来自Kinect和mocap等传感器的数字化信号时，我们用X={x1，x2，.. . .，xT}。在这在本文中，我们将使用RN中的时间序列。每个xt∈RN称为序列X的一个帧。更清楚地，我们有α（t）=xt，t∈ {1，2，. . .，T}。在离散时间信号的情况下，翘曲函数是γ ∈ Γ的离散化版本，我们使用γ表示，并稍微滥用符号。可以用一阶数值差分法来近似计算微分方程的阶数。因此，（2）现在变成经过训练的TTN将理想地预测γ1和γ2，分别对应于X1和X2，使得X1<$γ1=X2<$γ2。然而，我们注意到γ1和γ2不是唯一的，因为X1<$γ1<$γ =X2<$γ2<$γ，<$γ∈ Γ。我们认为这是一个重要的，往往被忽视的事实，并正式重新-称为群体作用不变性翘曲函数的非唯一性在时间对齐文献中没有得到充分利用在过去的对齐工作中，目标是使用迭代优化方法来学习特定于类的模板，由于对组动作的不变性，该方法并不唯一这里的非唯一性提供了一个机会，可以利用它来开发分类问题的歧视性扭曲。翘曲函数的非唯一性可以是有利的，因为它扩展了经典函数的表达能力。γ（t）=Σti=1γstec（i）和1ΣTTi=1γstec（t）=1。（三）fication. 最小化类内变化（在我们的例子中是速率变化）只是问题的一部分对于分类，我们还希望最大化类间变化。两个序列α和β称为等价的，如果存在一个γ∈Γ使得α=β<$γ，且集合{α <$γ|γ∈Γ}称为α在速率变化下的等价类，记为[α]。在经典的弹性比对中，给定两个信号，序列之间的度量被定义为它们的等价类之间的最小距离。这种方法可用于开发类特定的模板，和相位-幅度分离[23]，其减少类内方差，但不促进类间分离。一旦定义了等价类，则设计度量来计算等价类之间的距离，并开发方法来计算统计测量值，例如均值和方差，其可用于计算最佳对齐[31]。例如，如果我们有四个序列X1，X2，X3和X4，使得X1、X2属于类别A，并且X3、X4属于类别B，TTN具有预测γ1、γ2、γ3和γ4的能力，使得• d（X1<$γ1，X2<$γ2） d（Xi，Xj），i∈{1，2}j∈{3，4}，其中d（？）是序列之间的欧几里德距离。然而，我们没有明确地训练网络来实现上述目标。TTN和分类器都经过训练，以便通过最小化给定输入序列的类标签上的预测分布12430和真实分布之间的交叉熵损失来TTN可分为三个子模块：12431ττ我我我图3.合成数据集1的结果。图1和图2分别示出了对应于类别1和类别2的波形。第1列和第2列分别显示测试输入和TTN输出。通过比较这些列可以清楚地看出，在扭曲之后，TTN输出被更好地区分。TTN预测的翘曲函数也表明TTN执行类相关的翘曲。第3列是第2列经过一些后处理后的更好的可视化，使生成的扭曲函数γµ=γId的平均值（见正文）。可训练层：如图1所示，TTN可训练层的输入是一个输入序列。然后输入通过几层卷积和全连接层。网络输出长度为T的向量，使得第一个元素被设置为零。T是输入序列中帧的长度/数量。让我们把这个向量记为v∈RT.约束满足层：输出v是未约束的，因此，我们需要将其转换为满足等式（1）的有效翘曲函数。为此，我们首先将v除以其范数以获得单位向量，然后将其每个条目平方。这具有将向量转换为概率单形上的点的效果因此，我们使用以下映射：T t分别是源和目标规则网格索引。Y的帧将以规则的间隔t t=1，2，. . .、T. 由于tt所对应的t s可能不是整数，我们用线性插值法求X（γ（tt））的值.这种运算是次可微的，就像在n的情况下一样因此，我们可以将所需梯度的表达式写成如下（这些表达式改编自Jaderberg et al. [11]）。如果X j是第j个联合的输入序列，则X j是信道j的时间索引τ处的值，Y j是由TTN模块输出的扭曲序列，并且i ∈ {1，2，. . . ，T}是时间索引，我们有∂Yji= max（0，1 − |t s− τ|）及（5）Xjivvt∂YjΣT1000，如果|ts−τ|≥1γstec= ǁvǁ⊙日沃得双曲正弦值.γ（t）=T·i=1γstec（i），（4）I=斯考特sτ=1Xj·1，如果τ≥ts-1，如果τts（六）其中，n是Hadamard乘积（逐元素乘法）。这被视为网络对warping函数导数的估计，用γstec表示。我们计算累积和，并将其乘以输入se的长度序列T，以便形成如等式（4）中所示的扭曲函数γ可区分的时间恢复：然后使用线性插值将扭曲函数γ应用于输入序列。我们假设信号的采样率相对于活动的速度足够高，帧的简单线性插值足以使中间骨架看起来逼真（实际上，20帧/秒对于大多数常见的动作识别应用来说已经足够使用等式Y（tt）=X（ts）=X（γ（tt））执行翘曲，其中X和Y分别是输入和输出序列，并且ts和我5. 实验结果本文中的所有网络都是使用Tensorflow [1]进行训练和测试的。由于篇幅所限，补充资料中提供了一些培训5.1. 合成数据集(1) 证明TTN的区分特性：我们考虑两类分类问题，其中两类是长度为100的一维时间序列信号。让我们用X∈R100来表示数据集中的每个序列。所有的信号都是具有变化幅度的高斯函数。类1中的信号以t=0为中心。55，而类2中的信号以t=0为中心。四十五此外，我们用加性高斯函数12432µ图4.合成数据集上的结果2.图1和图2分别示出了对应于类别1和类别2的波形。第1、2和3列分别显示了干净波形、测试输入（随机扭曲后）和TTN输出通过比较这些列可以清楚地看出第4列是第3列经过一些后处理后的更好的可视化，使生成的扭曲函数的平均值γµ=γId。噪声（N（0，0. 2））。这些函数的示例如图3所示。我们生成8000个训练序列和2000个测试序列，这些序列在1类和2类之间均衡分布。我们使用具有单层全连接层的简单分类器。TTN是一个2层网络，其中1个卷积层产生1个具有大小为8的过滤器的特征图，以及1个全连接层。我们使用Adam优化器对网络进行了103次迭代训练，分类器的初始学习率为10−4。TTN的权重以分类器学习速率的十分之一更新。图3显示了测试信号，TTN的相应输出，以及TTN生成的每个测试输入的翘曲函数。从图中可以清楚地看出，TTN预测类别特定的扭曲函数，以便分离信号中的峰值，这使得它们更具区分性。请注意，这种行为是通过最小化交叉熵损失自动产生的。为了使TTN输出可视化更好的是，我们通过封装TTN来执行后处理在图4中显示了随机翘曲之前（第1列）和之后（第2列）。TTN、分类器、训练和测试协议与上述数据集（1）中的相同从图4中的第3列可以清楚地看出，TTN导致类内比率变化的减少。5.2. ICL第一人称手部动作数据集在本节中，我们对最近重新进行的实验进行了研究真实世界的手部动作数据集[7]。该数据集包含3D手部姿势序列，每帧21个关节位置这些序列由6名受试者执行，并使用精确的mocap系统采集。对于我们的实验，我们使用数据集作者建议的训练/测试分割[7]，受试者1，3，4用于训练，其余用于测试。训练集包含600个序列，测试集包含575个序列。由于序列的长度不同，我们对输出为γ−1，其中γµ=Ni=1 γi，其中N是尺寸序列，使得所有序列包含50个样本。如果的测试集。这个实验清楚地表明，TTN是如所期望的，有效地增加类间变化（2）证明TTN的速率不变性：在这里，我们构建了一个数据集，使得信号中的速率变化是主要的滋扰参数。在这种情况下，直观地说，最小化分类误差应该导致以下结果：属于同一类但仅相差γ的不同信号在经过训练的TTN模块后应该彼此更接近。在类1中，我们有信号，这是N波与随机扭曲应用和加性高斯噪声添加到他们。类2中的信号类似，除了它们是高斯函数。因此，我们生成了8000个训练序列和2000个测试序列，在类1和类2之间均匀平衡。这些序列短于50个样本，我们使用零填充。由于每帧有21个关节，因此每个输入序列的尺寸为50×63（21×3=63）。我们对序列进行归一化，使得第一个人的手腕位置帧位于原点。我们使用两种不同类型的分类器进行实验，这些分类器广泛用于动作识别：（1）时间卷积网络（TCN）和（2）2层LSTM，表明所提出的TTN框架可以为两种分类器架构产生更好的结果。TTN模块由3个全连接层组成，具有双曲正切非线性和16维和16维的隐藏状态。最后的FC层产生一个长度为50（等于输入序列长度）的向量，第一个元素设置为零（见第4节）。12433TCN架构包含1个具有16、32或64个特征图的时间我们将这些网络分别称为TCN-16、TCN-32和TCN-64。我们使用TTN的不同初始化运行该算法5次，并在表1中报告平均值和标准差。LSTM架构类似于[7]中提出的架构，包含两层LSTM，状态维数为1024，丢失概率为0.2。我们使用动量为0.9的动量优化器进行训练。所得结果示于表1中。除了我们的实验之外，我们还报告了[7]中用于3D基于姿势的动作识别的其他重要算法的结果，包括JOULE姿势[10]，移动姿势[40]，分层递归神经网络（HBRNN）[5]，过渡森林（TF）[6]和李群[37]以及Gram矩阵方法[42]，最后两个也使用DTW进行序列比对，以及非欧几里德特征来帮助提高性能。在基线神经网络中，TCN-32导致该数据集的最佳结果，并且添加更多层并没有产生更好的性能。我们观察到，TTN的添加始终将基线网络的性能提高了3.8个百分点（TCN-16），1.0个百分点（TCN-32）和2.2个百分点（TCN-64）。在LSTM分类器的情况下，我们观察到使用TTN + LSTM比仅使用LSTM提高了2.25分对于TCN-32模型，我们对卷积输出的特征进行了K均值聚类（#clusters=#classes测试集的分类器层，使用和不使用TTN学习。然后，我们计算了聚类纯度（CP），均匀性（H）和完整性（C）。如果没有TTN，CP=0。519，H=0。656，C=0。705添加TTN模块，我们得到CP = 0的改进分数。530，H=0。664，C= 0。709引入数据失真：由于数据集通常在实验室环境中收集，因此相对“干净”，不包含许多速率变化。现在，我们在数据中引入人工速率变化，以便更好地说明TTN模块的有用性。这里，我们将序列长度设置为100，使得长度为50的原始序列的范围从t=25到75，并且其余值设置为零。现在，我们将随机的通过仿射扭曲，我们指的是形式为γ（t）=at+b，t=25至75的扭曲函数，其是具有偏移的线性时间缩放。我们使用a∈ [0. 75，1。25]且b ∈ 0，1，. . . ，49。我们观察到，诱导失真导致TCN-32的性能从81.74%大幅下降至70.43%。使用TTN时，性能下降幅度要小得多-从82.75%降至78.26%，TTN+TCN-32的性能比TCN-32高出约8%此外，从图6中，它显示了输入，生成的扭曲函数，方法准确度（%）移动式[40]56.34Joule姿势[10]74.60HBRNN [5]77.40TF [6]80.69李群[37]82.69[42]第四十二话85.392层LSTM76.172-层LSTM + TTN78.43TCN-1676.28 ±0.29TCN-16 + TTN80.14 ±0.33TCN-6479.10 ±0.76TCN-64 + TTN81.32 ±0.36TCN-3281.74 ±0.27TCN-32 + TTN82.75 ±0.31TCN-32（仿射经纱）70.43TCN-32 + TTN（仿射翘曲）78.26表 1.ICL 手部动作数据集上的动作识别结果显示，LSTM+TTN和TCN+TTN框架的性能始终优于LSTM和TCN基线。图5.具有和不具有TTN的仿射扭曲ICL数据集的测试集特征的t-SNE图当使用TTN时，我们看到聚类的分离更好。这也反映在准确性分数中。通过比较序列和TTN输出，可以容易地观察到TTN执行序列的比对，这使得分类问题变得容易得多。实验表明，TTN的加入增强了网络的可解释性，并且在数据中存在较大速率变化时也提供了优异的性能。和以前一样，我们执行K-means聚类。没有TTN，CP =0。327，H=0。487，C=0。545 添加TTN模块，我们得到CP = 0的改进分数。476，H=0的情况。611，C=0。677我们还运行了t-SNE [22]来可视化2D中的特征。如图5所示，在添加TTN的情况下可以看到更纯和分离的簇。5.3. NTU RGB D数据集在本节中，我们进行了一个大的实验-被称为NTU RGB-D数据集[27]的人类动作的尺度数据集，其包含由Microsoft Kinect获取的约56000个3D骨架位置序列。为每个骨架提供25个关节位置。该数据集包含由45个主体执行的属于60个人类活动的动作的12434300200100仿射扭曲输入1000-1001000-100仿射扭曲输入0 20 40 60 80 100方法CS（%）CV（%）李群[37]50.08 52.76FTP动态链接[10] 60.23 65.220-1000 20 40 60 80 100500香港马会开奖结果[5]-500 20 40 60 80 1002-layer part-LSTM [27] 62.93 70.27-200-3001000-1000 204060 80 100STA-LSTM [28] 73.40 81.20[41] LSTM的最新动态TTN生成的翘曲函数10080604020TTN生成的翘曲函数1009080706050403020STA-GCN [39]81.50 88.30TCN [17] 76.54 83.98TCN + TTN表2.NTU RGB-D数据集上的动作识别结果这表明TCN+TTN框架优于TCN。30020010000 50 100TTN输出1000-1001000-100100020406080100TTN输出0 20 40 60 80100与跨受试者相比，在交叉视图协议的情况下可能具有更小的速率变化。TTN和TCN的消融研究见补充资料。与ICL数据集的情况一样，我们对数据集进行了K均值聚类（#clusters=#classes，平均运行100次）。0-1000 20 40 60 80 100500-500 20 40 60 80 100在TCN的倒数第二层获得的特征，以及计算相同的聚类度量。如果没有TTN，-200-300帧索引1000-1000 20 40 60 80100帧索引CP=0。466，H=0。575，C=0。597. 添加TTN模块，我们得到改善的得分CP =0。493，H=图6.TCN-32 + TTN在ICL ac上的结果可视化具有诱导速率变化的数据集。在左列中是对应于所有测试序列的接头1的波形。在右列中，为了清楚起见，显示了这些序列中的4个。我们清楚地看到，生成的扭曲函数消除了测试数据中的仿射扭曲失真，TTN输出几乎完美对齐，从而获得更好的分类结果。使用Microsoft Kinect获取数据。我们对每个序列均匀采样50帧。根据作者在[ 27 ]中建议的方案，使用相同的训练和测试分割，我们对该数据集进行了两组我们构建了一个TTN模块，具有2个时间卷积层和3个具有ReLU非线性的FC层。我们在每个conv层中使用8和16个输出特征图的过滤器大小。FC层分别产生大小为16、16和50的隐藏表示。我们使用[17]中描述的时间卷积网络（TCN）。该网络由10个卷积层组成，具有批量归一化和ReLU非线性。在训练时，TTN参数以TCN的学习速率的十分之一更新。该数据集获得的结果见表2。对于跨学科实验，我们观察到，TTN模块的添加导致性能提高约1个百分点，超过基线TCN。我们还发现，使用2个并行TTN并连接TTN输出，最后一场比赛77分。百分之八十TTN模块的加入导致在交叉视图实验的情况下改善较少这可以解释为，0的情况。596，C = 0。621 相应的t-SNE图是亲，在增刊中看到，增加TTN模块。6. 讨论和今后的工作在这项工作中，我们提出了时间转换器网络（TTN），它可以很容易地集成到分类管道。TTN具有生成速率不变以及判别性翘曲函数的能力，用于一般时间序列分类。我们已经使用不同类型的分类器（我们已经证明了率不变和歧视的TTN属性。在未来，我们希望将本文提出的想法应用于视频动作识别。然而，由于当前广泛使用的视频帧的特征可能不太适合于内插，因此如何对视频执行时间扭曲并不立即清楚。一种可能的解决方案是联合训练图像级特征和动作分类管道以及TTN模块。时间变换器还可以应用于一般的时间序列分类，包括从可穿戴设备、语音、EEG数据等进行识别。无监督模式发现与内置的翘曲不变的度量将是一个有趣的方向，进一步的研究。鸣谢：这项工作得到了NSF资助1617999和ARO资助号W 911 NF-17- 1-0293的部分支持振幅振幅帧索引振幅振幅帧索引12435引用[1] M. Abadi等人Tensorflow：一种用于大型机器学习的系统。在第 12 届 USENIX 操作系统设计和实现会议（OSDI）的会议记录中，第265-283页，2016年。5[2] R. Bellman和R.卡拉巴关于自适应控制过程。IRE自动控制学报，4（2）：1-9，1958年11月。二、四[3] M. Cuturi和M.金发Soft-DTW：时间序列的在机器学习国际会议上，第894-903页3[4] N. S. 德特勒夫森岛 Freifeld 和 S. 豪伯格深层同构Transformer网络。在IEEE计算机视觉和模式识别会议论文集，第4403-4412页，2018年。2[5] Y. 杜，W.Wang和L.王. 基于骨架的动作识别的层次递归在 Proceedings of the IEEE conference on computervision and pattern recognition中，第1110-1118页，2015年。三、七、八[6] G.加西亚-赫尔南多和T.- K. Kim.过渡林：学习用于动作识别和检测的有区别的时间转换。2017年IEEE计算机视觉与模式识别会议（ CVPR ），第 407-415 页。IEEE，2017年。7[7] G. Garcia-Hernando，S.Yuan，S.Baek和T.-K. Kim. 第一人称手部动作基准与RGB-D视频和3D手部姿势注释。在计算机视觉和模式识别（CVPR），2018年的会议记录。三六七[8] I. Goodfellow，H.李角，澳-地诉Le，A.Saxe和A.Y. Ng.测量深层网络中的不变性。神经信息处理系统的进展，第646-654页，2009年。1[9] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。1[10] J. - F.胡伟S. Zheng，J. Lai，and J.张某联合学习用于RGB-D活动识别的异构特征。在IEEE计算机视觉和模式识别会议论文集，第5344-5352页，2015年。七、八[11] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统的进展，2017-2025页，2015年。二、五[12] C. 贾，M.Shao和Y.Fu. 稀疏规范时间对齐与深度张量分解的动作识别。 IEEE Transactions on ImageProcessing，26（2）：738- 750，2017。3[13] G. 约翰森生物运动的视觉感知及其分析模型。Perception psychophysics，14（2）：201-211，1973. 3[14] A. Kanazawa、A. Sharma和D.雅各布斯局部尺度不变卷积神经网络。arXiv预印本arXiv：1412.5104，2014年。1[15] Q.克，M. Bennamoun，S. An，F. Sohel和F. 布斯-塞德。一种新的用于三维动作识别的骨架序列表示方法。在计算机视觉和模式识别（CVPR），2017年IEEE会议上，第4570-4579页IEEE，2017年。3[16] R. Khasanova和P.弗罗萨德基于图的等距不变表示学习。第34届国际机器学习会议论文集-第70，第1847-1856页JMLR。org，2017. 1[17] T. S. Kim和A.瑞特使用时间卷积网络进行可解释的3D人体动作分析。在IEEE计算机视觉和模式识别研讨会会议上，2017年。一、三、八[18] C. 莱亚河Vidal、A.Reiter和G.D. 海格时间卷积网络：动作分割的统一方法。欧洲计算机视觉会议，第47-54页。施普林格，2016年。3[19] C.李角Zhong，L.等，中国山杨D. Xie和S. PU. 基于卷积神经网络的动作识别。2017年IEEE多媒体博览会研讨会国际会议（ICMEW），第597-600页。IEEE，2017年。3[20] M. Liu，H. Liu和C.尘增强的骨架可视化视图不变的人类动作识别。Pattern Recognition，68：346-362，2017.第1、3条[21] S. Lohit和P.图拉加使用深度网络学习不变的黎曼几何表示在IEEE计算机视觉工作室国际会议论文，第1329-1338页1[22] L. 诉D. Maaten和G.辛顿使用t-SNE可视化数据Journal ofMachine Learning Research，9（Nov）：2579-2605，2008. 7[23] J. S. Marron，J.O. 拉姆齐湖M. Sangalli和A.斯里瓦斯塔瓦。振幅和相位变化的函数数据分析Statistical Science，30（4）：468-484，11 2015. 4[24] J. Oh，J. Wang和J.维也纳香肠学习利用序列Transformer网络在临床时间序列数据中机器学习为Heathrow，2018年。3[25] S. Sabour，N. Frosst和G. E.辛顿胶囊之间的动态路由。神经信息处理系统的进展，第3856-3866页，2017年。2[26] H. Sakoe和S.千叶口语词识别的动态规划算法优化。IEEE Transactions on Acoustics ， Speech ， and SignalProcessing，26（1）：43二、四[27] A. Shahroudy，J.刘德铭T. Ng和G.王. NTU RGB+D：用于3D人类活动分析的大规模数据集。在IEEE计算机视觉和模式识别会议中，2016年6月。三、七、八[28] S.宋角，澳-地Lan，J. Xing，W. Zeng和J.刘某基于骨架数据的端到端时空注意力模型AAAI人工智能会议，2017年。三、八[29] A.斯利瓦斯塔瓦岛Jermyn和S.乔希概率密度函数的黎曼分析及其在视觉中的应用。《计算机视觉与模式识别》，2007。07年CVPR。IEEE会议，第1-8页。IEEE，2007年。1[30] A. Srivastava、E. Klassen，S. H.乔希和我H.杰米恩欧氏空间中弹性曲线的形状分析。IEEE Transactions onPattern Analysis and Machine Intelligence，33（7 ）：1415-1428，2011。3[31] A. Srivastava和E. P. Klassen。功能和形状数据分析。施普林格，2016年。一、三、四12436[32] C. Tallec和Y.奥利维尔递归神经网络可以扭曲时间吗？2018年学习代表国际会议。2[33] Y.唐河，巴西-地Salakhutdinov和G.辛顿深层朗伯网络。第29届国际机器学习会议论文集，第1419-1426页。Omnipress，2012

下载后可阅读完整内容，剩余1页未读，立即下载