没有合适的资源?快使用搜索试试~ 我知道了~
通过丰富的感官输入进行液体灌注监测
通过丰富的感官输入进行液体灌注监测Tz-Ying Wu1,,Juan-Ting Lin1,,Tsun-Hsuang Wang1,Chan-WeiHu1,Juan Carlos Niebles2,and Min Sun11台湾国立清华大学电机工程系{gina9726,brade31919,johnsonwang0810,huchanwei1204}@ gmail.com,sunmin@ee.nthu.edu.tw2美国斯坦福大学计算机科学系jniebles@cs.stanford.edu抽象。人类具有使用具有不精确机械的闭环控制系统来执行非常精细的操纵任务我们的身体部位),但丰富的感官信息(例如,视觉、触觉等)。在闭环系统中,通过丰富的感官信息监测任务状态的能力是重要的,但往往较少研究。 在这项工作中,我们以液体浇注作为一个具体的例子,旨在学习连续监测液体浇注是否成功(e。例如,在一个实施例中,也不允许视频流输入。 我们使用来自胸部安装的相机和腕部安装的IMU传感器的同步观察来模拟IMU传感器。鉴于液体倾倒的许多成功和失败的演示,我们训练了一个具有后期融合的分层LSTM以进行监控。为了提高系统的鲁棒性,我们在训练过程中提出了两个辅助任务:推断(1)容器的初始状态和(2)预测手的一步未来3D轨迹与对抗训练过程。这些任务鼓励我们的方法来学习表示敏感的容器状态和如何在3D中操纵对象。有了这些新的组件,我们的方法实现了与基线方法相比,在看不见的容器和看不见的用户上,在没有辅助任务的情况下,监测精度分别提高了8%和11%关键词:监控操作,多模态融合,辅助任务。1介绍认知科学界的研究人员已经进行了几项关于心理模拟的研究[1,2],并证明了人类有一些内部机制可以相对容易地推理日常生活物理 一些机器人研究借用了人类的手演示来解决操作问题;例如,最近,埃德蒙兹等人。[3]利用多模态传感器来捕获姿势和接触力,以学习打开药瓶的操作。人类表示同等贡献T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙2可以被视为具有不精确机制的闭环控制系统(即,我们的身体部位),但丰富的感官信息(例如,视觉、触觉等)。感官反馈帮助我们不断地推理环境,并根据它计划我们的下一步行动。在闭环系统中,通过丰富的感官信息监测任务状态的能力很重要,但往往研究较少。监测微妙的操纵任务对于家庭老年护理系统和医疗场景中的虚拟训练(例如,训练外科手术),因为具有这种能力的系统可以进一步帮助人们完成微妙的任务。倒液体是一项微妙的操作任务,人类在童年时期就学会了,并且可以在日常生活中轻松执行。该任务需要连续地监测环境状态,诸如容器中的液位以及容器之间的相对位置和运动,以便调整未来的动作以避免溢出。例如,如果接收容器是空的并且源容器缓慢倾斜,则应当加速倾斜动作。相比之下,如果接收容器几乎是满的并且源容器快速倾斜,则应该减慢倾斜动作以防止溢出。这表明,这两个对象的状态,相对位置和运动是非常重要的线索,微妙的操作任务,如液体倾倒。通过监控液体倾倒的能力,智能系统可以阻止用户溢出,或者在液体溢出时为用户带来除尘器。与诸如动作分类或时间检测的主流活动识别任务相比,监测液体倾倒活动是非常微妙的任务[4,5]。因此,在计算机视觉中,只有少数工作朝着这个方向取得了进展Alayrac等人[6]提出在视频中发现对象状态和操纵动作。然而,他们只考虑空与满(二进制)容器状态和多个离散动作,其中倾倒是其中之一最近,Mottaghi et al.[7]建议对液体容器中的体积和内容进行推理,以预测如果我们将容器倾斜x度,容器中将保留多少液体(称为倾倒预测)。然而,我们认为,这样的预测目标具有有限的应用,因为它不直接回答如何成功地倒液体或是否倾倒行动的结果是成功还是失败。在这项工作中,我们以液体浇注为具体实例,旨在学习连续监测液体浇注是否成功(例如,不溢出)或不经由丰富的感官输入。认知科学家认为,人们有能力在头脑中模拟倾倒行为,这在[1]中提到。然而,模拟结果与实际结果之间仍存在差异。通过持续观察当前环境状态,人们可以调整他们的方式来操纵对象(例如,容器的角度)以便达到它们的目标。该过程可以被视为闭环控制。为了在能力上提高人类的物理能力,我们使用来自胸部安装的相机和手腕安装的IMU传感器的同步观察作为输入来优化人类丰富的传感器(细节在第5节中)。监控的目标输出是一个二元类:成功或失败的浇注试验。为了通过利用人的示范来研究通过丰富的感官输入进行液体灌注监测3视觉序列不IMU数据加速度角速度网络Fig. 1.概况.通过一系列的视觉观察和IMU数据,我们的模型可以通过两个辅助任务来监控这个序列是成功还是失败:初始对象状态分类(具有不同初始液位的不同容器)以确保递归模型编码状态敏感特征;预测3D轨迹需要能够在浇注过程中模拟手部动力学,为我们的监测任务提供强有力的线索。辅助任务的详细信息在第4中描述我们收集包含成功和失败的演示的液体倾倒数据集,其中据我们所知,这是第一个具有多模态传感器信息的数据集,用于研究微妙的液体倾倒任务中的监测。鉴于液体倾倒的许多成功和失败的演示,我们训练了一个具有后期融合的分层LSTM [8],以结合丰富的传感器输入,与早期融合模型相比,没有显著增加模型参数。为了进一步提高我们的方法的通用性,我们在训练过程中引入了两个辅助任务:(1)预测容器的初始状态和(2)利用对抗训练程序预测手的一步未来3D轨迹。这些辅助任务鼓励我们的方法来学习对容器状态敏感的表示以及如何在3D中操纵对象。在我们的实验中,我们的方法实现了8%和11%的监测准确率比基线方法没有辅助任务上看不见的容器和看不见的用户分别。2相关工作活动认可。活动识别已经受到计算机视觉社区的广泛关注,并且已经发布了许多包含不同动作的数据集[9,10,4,5,11]关于活动识别的许多先前的工作集中于通过观察身体姿势[12,13,14]、场景来理解人类活动。我们的任务成功/失败源容器目标容器辅助任务预测3D轨迹初始状态分类T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙4[15,16]或与人交互的物体[17,18,19,20]。也有许多作品[21,22,23]考虑通过以自我为中心的视频识别活动,其中一些使用深度传感器[24,25]以及试图增强对环境变化的感知。还存在利用多模态传感器输入来执行活动识别的方法[26]和数据集[27,28]这些已建立的数据集主要集中在不同的活动识别,不包括失败的情况下。然而,我们更专注于区分针对同一目标(液体倾倒)的行为之间的细微因此,我们收集了我们自己的具有多模态传感器数据的液体倾倒数据集,其中包括成功和失败案例(详见第5节)。细粒度活动识别。许多方法集中在人与物体之间的交互和操纵运动。Lei等人[25]应用RGB-D相机实现了鲁棒的物体和动作识别。还存在利用时空信息的方法[29,30,31,32,33]。 通过结合时空和对象语义特征,Yang et al. [29]找到关键交互而不使用进一步的对象注释。在这项工作中,而不是设计特殊的程序来挖掘独特的时空特征,我们引入辅助任务来学习多个任务的功能。环境状态估计在液体倾倒序列中,可以从RGB输入估计容器和液体状态 Alayrac等人[6]以离散的方式对一些方法进一步证明,可以通过结合语义分割CNN和LSTM来估计液体量[34,7]。相比之下,我们的主要目标不是明确地识别环境状态。 我们的目标是隐式学习环境状态敏感的功能,使我们的性能监测可以得到改善。最近,Sermanet et al. [35]还提出以自监督方式学习状态敏感特征。机器人液体灌装。在机器人领域,有许多工作[36,37,38,39,40,41,42]直接解决液体倾倒的操纵任务,[36]利用光流建立液体动力学模型。[41,42]在合成环境中开发 Tamosiunaite等 [37]应用基于模型的强化学习。 Rozo等人 [38]提出了一种参数隐马尔可夫模型来直接回归控制命令。Brandl等人。 [39]学习通过扭曲看不见的容器的功能部分来模仿可见容器的功能部分,从而将倾倒推广到看不见的容器。Schenck和Fox [40]建议首先估计容器中液体的体积;然后,使用简单的PID控制器来倾倒特定量的液体。然而,上述所有方法都没有在跨用户、容器状态、容器实例的通用化上进行评估3概述在本节中,我们首先阐述了监控液体倾倒的问题。接下来,我们描述了我们的经常性模型融合多模态数据。我们的方法与两个辅助任务将主要描述在第4节。通过丰富的感官输入进行液体灌注监测5不成功/失败成功/失败成功/失败y1 ′ y22′MMd1 3′d2T′MdT−1监测辅助任务轨迹DGG1LSTMGie1S 1轨迹DGG2LSTMGie2S 2轨迹DGGT−1LSTMGieT−1S T−1预 测 3D 轨 迹(操纵)辅助任务Softmax z′ 初始状态分类多模态数据融合不图二.模型架构。我们的模型由一个分层LSTMLST M层(详见第3.2)、一个生成器G、一个鉴别器D和一个监控模块M(详见第4节)组成。在我们的方法中有两个辅助任务,这是三维轨迹预测(绿色阴影)和初始状态分类(蓝色阴影)。在每个时间步长t处,LST_M_hier将对视觉观察It和IMU数据St至ht进行′(red阴影)。G将根据隐藏编码h_t生成轨迹X_t+1。D将区分输入轨迹是生成的还是不对应于h_t,其对操纵期间的动力学进行M将基于鉴别器得分d_t和隐藏编码h_t来预测该倾倒序列是成功还是失败。 在序列的最后,模型将把36个初始状态分类为辅助任务3.1问题公式化符号。对于我们所有的符号,通用字体风格代表地面实况数据,而质数代表预测。例如,yt是序列是否成功的基础真值标签,y'是预测。粗体符号表示数据序列。t表示某个时间步长,T表示序列的总时间步长。观察.为了捕获视觉和运动信息,如液体内容物、图像类型和眼睛的动作以及在过程期间,我们使用多模式感测系统,其包括前胸上的相机和手腕上的IMU传感器。在每个时间步长t处,相机观察视觉观察It,并且6DOF IMU传感器在St={ai,a2,… aN},其中i是在时间步长p中采样的,i ∈ 1 N,N表示该时间步长中的样本数。实际上,N= 38,即,IMU传感器将在两个连续捕获的相机帧内捕获38个样本。a ={a1,a2,a3,a4,a5,a6}是来自IMU的单个实值数据,其中(a1,a2,a3)是加速度,(a4,a5,a6)是对应于x、y和z轴的角速度同时,在每个时间步t,我们通过安装在手腕上的HTC Vive跟踪器获得手部3D轨迹地面实况Xt=(P,R),其中P=(px,py,pz)和R=(rx,ry,rz)分别代表世界坐标中的位置部分和旋转部分。请注意,HTC Vive系统仅用于训练。目标.在本课题中,我们的目标是学习以两个辅助任务为初始目标T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙6不电话+1tSt图 三 . LSTM 编 码 器 。 我 们 的 分 层LSTM编码器LST Mhier由第一级的3个 LSTM 单 元 ( LST Mimg , LSTMpos,LST Mrot)和第二级的LSTM融合层组成,该LSTM融合层用于融合这些隐藏的编码,融合包含图像特征Ft,手部位置特征At和从IMU传感器计算的手部旋转特征Bt的多模态输入状态分类(IOSC)和下一步手部3D轨迹预测(TF)。考虑包含视觉图像I ={I1,I2,… IT}和IMU数据S ={S1,S2,… 对于每个时间步长t,我们的模型的输出是指示序列对于我们的监视器是否成功的 预 测y’ 。执行任务和下一步轨迹预测X′对于3D轨迹预测,其中t∈1T− 1,T表示序列的总时间步长。最后在整个序列中,我们的模型将在36个变化中预测序列的初始对象状态z’(详见第5节)。3.2多模态数据融合为了捕获和组合来自图像和IMU传感器的输入的时间序列,我们采用[8]提出的分层LSTM来处理多模态输入之间的尺度差异。在我们的模块LSTM hier的第一层(见图3)中,有3个LSTM单元(LSTMimg,LSTMpos,LSTMrot),具有不同的隐藏层大小,以编码来自三个不同来源的输入:(1)从ResNet 50 [ 43]的pool 5层提取的图像特征Ft=Res 50(It),维度为1 × 2048,(2)手部位置功能:ac-沿3轴的加速度At={(ai,ai,ai)}NSt,尺寸为1 ×3N123i =1(3)手部旋转功能:3个轴向角速度的集合Bt={(ai,ai,ai)}NSt,尺寸为1×3N。然后编码的特征456i =1作为输入连接到由单个LSTM组成的第二层cell.分层LSTM的输出编码特征ht=LSTMhier(Ft,At,Bt)将被传递到生成器G、鉴别器D和监视器模块(请参考第4节)。4使用辅助任务进行监控浇注顺序的成功是一项具有挑战性的任务,因为环境状态的细微变化很难察觉。直观地,初始对象状态和手的动力学是监控浇注过程的强有力的线索。我们对对象和操纵器(即,Hand)状态,并引入了两个辅助任务:3D轨迹预测(TF)和初始对象状态分类(IOSC)。在本节中,我们将详细介绍这两个辅助任务和监控模块。GtLSTMGierLSTM融合器LSTMimgLSTMposLSTMrottAtBt图像特征位置旋转Res50通过丰富的感官输入进行液体灌注监测7电话+1KG4.1预测3D轨迹预测3D轨迹是我们学习在浇注序列期间对机械手的动力学建模的路径。预测轨迹最简单的方法是在演示序列上训练直接回归;然而,由于训练数据的数量和多样性有限,生成的轨迹将非常局限于训练数据的数据分布为了模拟成功演示的分布并生成更多样化的轨迹,我们引入了Goodfellow等人提出的对抗性训练损失Ladv。 [44]这里具有生成轨迹预测的生成器G和区分是否生成输入轨迹的鉴别器D(参见图2)。生成器.以来自LSTMhier的编码特征ht作为输入,我们的生成生成器预测下一步轨迹X′=GθG (ht)作为输出,其中GθG是一θG参数化的三层全连接前馈网络。我们的发电机有两个目标:(1) 生成接近地面实况演示的轨迹。(由回归损失建模)。(2)利用生成的轨迹(通过对抗性损失建模)愚弄鉴别器因此,我们的发电机损失函数可以推导如下:其中λ是两个不同损失之间的权重(我们根据经验设定λ)Lreg是回归损失,Ladv代表对抗损失。回归损失定义如下,1Lreg=T−1TΣ−1t=1dist(Xt+1,GθG(ht)),(2)其中dist()是距离函数,Xt+1是真实轨迹,GθG(ht)是生成的轨迹,T表示序列的总时间步长回想一下,轨迹Xt+1由两部分组成,位置P=(px,py,pz)和位置P =(p x,py,p z)。旋转R=(rx,ry,rz);同样Gθ(ht)=(P′,R′),其中P′=(p′,p′,p′),GR′=(r′,r′,r′).Xy zXyz距离函数定义为Σdist(Xt+1,Gθ(ht))=MSE(P,P′)+k=x,y,z(1− cos(rk−r′)),(三)其中MSE表示均方误差。在这里,我们使用不同的距离度量的旋转和平移,因为采用余弦距离的角度差是更合理的。特别是,359◦和0◦之间的余弦距离很小,但其均方误差很大。请注意,我们根据经验对位置损失和旋转损失采用相同的权重,因为不同权重对性能的影响对抗性损失定义如下,1Ladv=T−1TΣ−1t=1-logDθD(ht,GθG(ht)),(4)T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙8电话+1电话+1电话+1不不其中DθD 是我们模型的鉴别器,稍后将详细说明。鉴别器。在训练时间,鉴别器同时获取编码后的fea-在该时间步ht处的真实和预测轨迹X=GθG (ht)从生成器或地面实况轨迹Xt+1作为输入,目的是捕捉来自生成器的生成轨迹。采用与发生器类似的设计,我们的鉴别器DθD也用θD参数化的三层全连接前馈网络建模。鉴别器损失定义如下,1LDis=T−1TΣ−1t=1[−log(DθD(ht,Xt+1))−log(1−DθD(ht,GθG(ht)](5)在测试时间内,给定编码特征ht和生成的轨迹X的在一定的时间步长t下,预测值dt=DθD1T− 1是否生成输入序列。(ht,X′),t∈4.2初始对象状态分类正如我们上面提到的,手部运动和初始对象状态是用于监测倾倒序列的两个强有力的线索。学习数据序列的嵌入是至关重要的,因为训练数据的量是有限的。为了学习一个好的表示来进行监控,我们在每个成功的演示序列(见图2)结束时,基于来自分层LSTMLSTMhier的隐藏编码,对初始对象状态进行分类训练,如下所示:q= Softmax(θq,hT−1),(6)z′=arg maxq(c),(7)c∈ZLcls=−logq(z),(8)其中hT−1是序列最后一个时间步的隐藏编码,θq是分类器的参数,q∈R| Z|是Z中初始对象状态的softmax概率。z’是初始对象状态的预测,并且z表示真实初始对象状态。在我们的例子中,|Z|= 36,这意味着存在初始对象状态的36种变化(细节可以参考第5节)。4.3监测模块我们提出了一个监控模块M,它被设计为一个单层网络,以预测浇注序列是否成功,给定来自LSTMhier的隐藏表示ht和鉴别器得分dt作为输入(见图2)。监控模块的输出定义为,y′=Mθ (ht,dt),(9)其中θM是M的参数,y′是成功或失败的预测。我们用交叉熵损失训练我们的监控模块我们的建筑M通过丰富的感官输入进行液体灌注监测9监控模块是紧凑和有效的,因为我们的模型已经学习了强大的功能,可以捕捉外观变化和手动态在浇注过程中,通过辅助任务。4.4实现细节我们使用在ImageNet[45]上训练的ResNet50[43]作为视觉特征提取器。LSTMimg的输入大小是2048,LSTMpos和LSTMrot的输入大小都是3N(在我们的例子中NLSTMimg隐藏大小为512,LSTMpos和LSTMrot隐藏大小均为128。分层LSTM的第二层具有其隐藏大小512。生成器G和鉴别器D是3层全连接网络,每层大小为128。监控模块是一个大小为256的 全 连 接 层 我 们 用 批 量 大 小 24 训 练 我 们 的 模 型 3000 个 epoch 。Learningrateis1e−4. 我们选择将所有业务与相应的业务结合起来。5数据集为了检验我们的方法在监测是否浇注序列是-longs成功/失败的序列,我们收集成功和失败的浇注序列与我们的多模态传感系统。 我们有一个胸部安装的摄像头来捕捉第一人称视角的观察;一个手腕安装的6DOF IMU传感器和一个HTC Vive运动跟踪系统的跟踪器在右手腕上,以同时捕获运动观察和地面真实轨迹。图4. a是演示器上设备的图示。我们在下面举例说明如何收集不同类型的演示。浇注顺序的变化。我们的单个倾倒序列包括将液体从具有初始液体量α的源容器倾倒到具有β量的液体的目标容器。与[7]类似,我们大致将容器状态划分为离散标签。在成功的序列中,演示者尝试用源容器中的液体填充目标容器而不溢出任何液体。如果目标容器填充至约80%满,则即使源容器中仍有液体,演示也将停止。对于单个演示器,我们将记录不同类型容器和不同初始液体量的演示对于源容器,我们在图4中使用4个不同的容器b、c、d、e。b具有三种不同的初始液体量α:{10%,50%,80%}。 我们在图4中使用容器a。b作为具有三个不同初始液体量β的目标容器:{0%,30%,50%}。结合源容器、α和β中的不同设置,我们可以获得总共36个不同的初始对象状态。在实践中,我们将为每个初始对象状态设置记录结果,对于单个演示器,我们可以获得180个演示序列。浇注样式。除了液体量和容器外观的不同变化外,我们还收集了5个不同演示者的演示,以确保每个人的浇注风格的多样性。故障序列。一般来说,可以有许多方法来进行故障10 T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙IMUVive追踪器前置摄像头(a) 我们的多模式传感系统目标容器源容器液体量、、、液体量、、、(b) 初始设置见图4。设置以收集我们的数据集。(a)摄像机安装在胸部上以捕获视觉图像。在手腕上,有一个vive跟踪器和一个IMU传感器。(b)我们使用这些容器来创建初始设置的变体(详见第5)顺序然而,为了对监控任务进行建模,我们选择了人类在倾倒过程中最常见的错误之一:溢出(演示者在倾倒过程中不小心溢出了一些液体)。考虑到变化和浇注样式,我们使用成功序列中的相同设置:(1)36个变异中的每一个的5个重复序列。(2)5种不同的演示器,以确保多样化的浇注行为。因此,演示的总数量是2* 5* 5* 36= 1800。6实验在本节中,我们将介绍实验中使用的评估指标和设置。然后,我们描述我们的监测实验,并讨论我们的实验结果与消融研究。6.1度量在我们的实验中,我们观察到预测在用户之间变化很大,因此,为了消除特定用户引入的偏差,我们使用以下指标以留一交叉验证的方式评估我们的模型成功/失败准确度-监视器任务的度量。它显示了该模型如何区分成功的浇注顺序和失败的浇注顺序。它直接表明了我们主要任务的执行情况。通过丰富的感官输入进行液体灌注监测11分类精度-用于初始对象状态分类的度量。 它显示了模型如何识别倾倒序列中的容器类型和容器中的液体量。轨迹预测的回归误差度量。它是HTC Vive记录的6维3D轨迹与预测的3D轨迹之间的误差。注意,由于位置和旋转误差的不同性质,这两个误差被单独计算。6.2设置变量为了研究我们网络中每个独立组件的有效性,我们在以下实验中评估了下面描述的不同设置。Vanilla RNN:我们的融合RNN没有辅助任务。该模型是一个LSTM编码器(参见第3小节)。2)接着是全连接层。全连接层基于编码特征执行成功/失败分类。RNNw/ IOSC:我们的融合RNN与辅助任务,初始对象状态分类(IOSC)。IOSC的详细信息见第4.2小节。RNNw/ TF:我们的融合RNN与辅助任务,轨迹预测(TF)。TF的详细信息见第4.1节。我们的w/o adv.:我们的融合RNN与两个建议的辅助任务,初始对象状态分类和轨迹预测。在这种情况下,我们将一步轨迹预测视为回归任务(参见等式2)。我们的:我们的融合RNN与两个建议的辅助任务,初始对象状态分类和轨迹预测。在这种情况下,我们引入对抗性训练损失(参见等式4)以生成更多样化的轨迹。6.3监测液体灌注我们将采用3种不同的方式,以确保我们的通用性。 首先,我们假设我们的模型用于监视具有特定容器集合的特定用户组。然后,在一个更具挑战性的场景中,我们假设模型也需要监视看不见的容器。最后,我们认为该模型需要监视未见过的用户。下文描述更多细节交叉试验。这个实验是最简单的例子。模型在具有相同容器组的相同用户组的数据上进行训练和测试,但是训练数据和测试数据是从不同的倾倒试验中收集的。在这个最简单的场景中,成功/失败分类在这里提出了较小的挑战,并且得到了很好的解决。 从表1中,我们可以看出,我们的方法在监测方面比基线方法(即,vanilla RNN),它缺少两个辅助任务。跨容器实验。这是在实际用例中可能发生的常见场景。当使用不同的容器倾倒液体时,整个倾倒顺序可能非常不同。例如,在茶壶的外壳和瓶子之间的外观和倾倒轨迹有巨大的变化我们在4个不同的源容器上运行留一交叉验证,初始状态1 T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙仅与源(10%,50%,80%)和目标容器(0%,30%,50%)中的液体量有关,因此我们总共有9个初始状态(而不是36个状态)。表2中的结果表明,我们的方法在监控方面比基线方法实现了更好的性能,因为它成功地捕捉到了浇注序列期间的状态变化和手部动态。交叉用户实验。这是最具挑战性的情况,因为不同的演示者可能具有非常不同的浇注风格。考虑到一组特定的容器,模型在4个不同用户的数据上进行训练并进行测试在训练集中的4个用户之外的1个用户上。跨用户数据之间的主要差异是浇注风格的差异更准确地说,本实验考察了IMU传感器数据序列的泛化能力通过查看表3中所示的成功/失败准确度,我们可以发现,初始状态分类和轨迹预测这两个辅助任务都在监视对象操作方面带来了相当大的改进。 从图6中,我们可以观察到我们的模型的预处理过程。初始化对象分类帮助模型知道源容器和目标容器是什么,以及两个容器中的液体量。轨迹预测-ING帮助模型学习浇注序列的局部动态值得注意的是,通过比较我们的方法和我们的w/o adv. ,我们可以发现,在我们的方法中引入的对抗性从结果中,我们推断,有两个辅助任务之间的隐含共享的知识和更强大的轨迹预测可能会提高初始状态分类。对抗训练确实有助于更好地理解倾倒行为,并提高我们的模型在监控任务中的性能。6.4讨论在本节中,我们将进一步讨论网络中的每个组件以及未来的首先,我们对跨用户场景下的LSTM架构进行了消融研究,比较了分层LSTM(见第3小节)。2)到2层LSTM。后者是一种早期融合方法,将来自不同模态的数据直接连接在一起并馈送到2层LSTM中。表4中的结果表明,具有后期融合的分层LSTM在所有任务中优于朴素2层LSTM,这可能是由于分层LSTM处理多模态输入之间的尺度差异和不平衡维度其次,我们研究了对抗性损失对整个网络的影响。回想一下,我们引入了对抗损失,因为每个数据样本都有多个可行轨迹。然而,这些误差假设每个测试样本只有一个真值位置和旋转。如上所述,我们的模型学习更一般的概念,并将基于常见的知识更新来预测轨迹,其中“我们没有数据”的预测。” 这可以在图5中观察到。a.此外,对抗性损失将允许模型生成通过丰富的感官输入进行液体灌注监测13表1.交叉试验结果成功/失败acc.分类依据位置误差旋转误差V anilla RNN九十九。百分之六十五N/AN/AN/A我们的没有adv.百分百九十六。百分之五十0的情况。020米◦7 .第一次会议。58我们百分百九十六。百分之七0的情况。020米6.80◦表2.跨容器实验成功/失败acc.分类依据位置误差旋转误差V anilla RNN89岁。百分之十六N/AN/AN/A我们的没有adv.九十六。百分之四十五63岁92%0的情况。040米◦11个国家。11我们97.11%67.69%0.038米◦11个国家。30表3.跨用户实验成功/失败acc.分类依据位置误差旋转误差V anilla RNN81. 百分之九十五N/AN/AN/ARNN w/IOSC89岁。百分之二十五68岁51%N/AN/ARNN w/ T F九十82%N/A0的情况。033米◦十四岁15我们的没有adv.92. 百分之九十七六十四百分之十五0的情况。033米◦十四岁20我们百分之九十三点二五75.69%0的情况。033米14.06◦表4.LSTM架构的消融研究LSTM体系结构成功/失败acc.分类依据位置误差旋转误差2层87岁06%五十八92%0的情况。033米◦十四岁72层次百分之九十三点二五75.69%0的情况。033米14.06◦更多样化的轨迹,这意味着模型将在后续步骤中观察到更多样化的图5中的轨迹预测误差。B和5。c showthat“Our s“and d“Our s w /o a d v. ”实验表明,引入辅助任务有助于理解微妙的倒液体任务。通过隐式建模的环境状态和手的动力学,我们提高了液体倾倒监测显着。我们相信这个概念也适用于其他微妙的操作任务,比如开门、钉钉子和切面包。直观地说,打开门还涉及映射视觉(例如,什么类型的门)和非可视(例如,手运动)观察到环境状态,以便于监控门是否打开。监测不同的任务可能需要不同的辅助任务来利用丰富的感觉,以便学习视觉和非视觉信号。7结论在这项工作中,我们旨在学习监控液体倾倒是否成功(例如,不溢出)或不使用同步的视觉和IMU信号。 我们提出了一种新的方法,在训练过程中包含两个辅助任务:推断(1)1 T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙0.250.200.15Oursw/oadv.0.10我们的0.050.000 2 4 6 8 10时间戳(b) 翻译错误(a) 轨迹可视化1.601.401.201.000.800.600.400.200.000 2 4 6 810时间戳(c) 旋转误差我们的没有adv.我们了图 五、对于我们的客户来说,我们的竞争对手是一个强大的竞争对手,我们的竞争对手是一个强大的竞争对手。“和”我们的“。(a) 我们的世界是一片黑暗。和“我们的”分别以蓝色、橙色和绿色示出。时间被可视化为颜色强度从暗到亮。显然,“我们没有一个D V。“无法记录流动性项目的数据流,而“Our s”仍会跟踪该结果。 (b)(c)“Our s“和“Our s w /o a d v. “在早期步骤中有类似的错误,但前一个在后面的步骤中执行得更好成功视觉序列1成功概率0.50IOSC地面实况:d(80%)-> a(50%)预测:d(80%)-> a(50%)失败视觉序列1成功概率0.50 IOSC地面实况:d(80%)-> a(30%)预测:d(80%)-> a(30%)不图六、监控时间。预测正确地跟随视觉线索容器的初始状态和(2)预测一步未来的3D轨迹的手与对抗训练过程。这些任务鼓励我们的方法来学习表示敏感的容器状态和如何在3D中操纵对象。在我们新收集的液体倾倒数据集上,我们的方法在看不见的容器和看不见的用户上分别比没有辅助任务的基线方法提高了8%和11%的监测精度致谢我们感谢斯坦福大学的合作。我们也感谢MOST 107-2634-F-007-007、松下和联发科的支持。Ground TruthOursw/oadv.我们误差误差通过丰富的感官输入进行液体灌注监测15引用1. Kubricht,J.,江,C.Zhu,Y.,Zhu,S.C.,Terzopoulos,D.,Lu,H.:概率模拟预测粘性液体倾倒问题的人的表现CogSci(2016)2. 贝茨,C.J.,耶尔德勒姆岛Tenenbaum,J.B.,巴塔利亚,P.W.:人类使用概率模拟预测液体CogSci(2015)3. 埃德蒙兹,M.,高氏,Xie,X.,刘洪,Qi,S.,Zhu,Y.,Rothrock,B.Zhu,S.C.:感受力量:通过模仿学习打开药瓶,整合力量和姿势,流畅地发现爱罗斯(2017)4. Abu-El-Haija,S.,Kothari,N.,李,J.,Natsev,P.,Toderici,G.,Varadarajan,B.,Vijayanarasimhan,S.:Youtube-8 m:大规模视频分类基准。1609.08675(2016)5. 海 尔 布 隆 足 球 俱 乐 部 Escorcia , V. 加 尼 姆 湾 尼 布 尔 斯 , J.C. :Activitynet:用于人类活动理解的在:CVPR中。(2015年)6. Alayrac,J.B.,Sivic,J.,拉普捷夫岛Lacoste-Julien,S.:对象状态和操作动作的联合发现。In:ICCV. (2017年)7. Mottaghi河Schenck,C.,Fox,D.Farhadi,A.:看到半满的玻璃杯:推理液体容器,它们的体积和内容。In:ICCV. (2017年)8. Nishida,N.,Nakayama,H.:使用多流递归神经网络的多模态手势识别。在:PSIVT中。(2015年)9. Soomro,K.,Zamir,A.R.,Shah,M.:Ucf101:来自野外视频的101个人类动作类的数据集arXiv:1212.0402(2012)10. Kuehne,H.,Jhuang,H. Garrote,E.,波焦,T.,塞尔,T.:Hmdb:用于人体运动识别的大型视频数据库。In:ICCV. (2011年)11. 古,C.,孙角,澳-地地方检察官罗斯冯德里克角Pantofaru角李,Y.,Vijayanarasimhan,S.,Toderici,G.,Ricco,S.,Sukthankar河施密德角Malik,J.:Ava:时空局部原子视觉动作的视频数据集。在:CVPR中。(2018年)12. Rohrbach,M.,Amin,S.,Andriluka,M.,Schiele,B.:用于烹饪活动的细粒度活动检测的数据库。在:CVPR中。(2012年)13. 乔 · 罗 恩 ,Laptev , I. ,Schmid , C.: P-cnn : Pose-babaseddcnnfeaturesforactionrecognition. In:ICCV. (2015年)14. Jhuang,H. Gall,J.,Zuffi,S.,施密德角布莱克,M.J.:对动作识别的理解。In:ICCV. (二零一三年)15. Vu,T.H.,Olsson,C.,拉普捷夫岛Oliva,A.,Sivic,J.:从静态场景预测动作In:ECCV. (2014年)16. 张玉,屈伟,Wang,D.:基于动作场景模型的视频人体动作识别。(2014年)17. Moore,D.J.,艾萨洛杉矶Hayes,M.H.:利用人类行为和对象上下文进行识别任务。In:ICCV. (1999年)18. Delaitre,V.,Sivic,J.,拉普捷夫岛:学习静止图像中的动作识别的人-对象交互。在:NIPS。(2011年)19. Gupta,A.,Kembhavi,A.,Davis,L.S.:观察人与物体的交互:使用空间和功能兼容性进行识别。TPAMI(2009)20. Gupta,A.,Davis,L.S.:行动中的目标:结合动作理解和对象感知的方法。在:CVPR中。(2007年)21. Fathi,A.,J. M. Bogg通过状态更改对操作进行在:CVPR中。(二零一三年)22. Bambach,S.,Lee,S.,Crandall,D.J.,Yu,C.:伸出一只手:在复杂的以自我为中心的交互中检测手和识别活动。In:ICCV.(2015年)1 T.Y. WuJ. T.作者:LinJiang,T.H. Wang,C.W. Hu,J.C.尼布尔斯湾孙23. 妈妈,M.,Fan,H.,Kitani,K.M.:深入了解第一人称活动识别。在:CVPR中。(2016年)24. 胡J.F. Zheng,W.S.,Lai,J.,Zhang,J.:联合学习rgb-d活动识别的异构特征。在:CVPR中。(2015年)25. Lei,J.,Ren,X.,Fox,D.:使用rgb-d的细粒度厨房活动识别。在:UbiComp. (2012年)26. Song,S.,Cheung,N.M.,Chandrasekhar,V.,Mandal,B.,Liri,J.:基于多模态Fisher向量的自我中心行为识别在:声学,语音和信号处理(ICASSP),IEEE(2016)27. de la Torre,F.,Hodgins J.K.Montano,J.,Valcarcel,S.:厨房活动的详细人 体数据 采集: cmu多模 态活动 数据库 (cmu-mmac)在 :CHIWorkshop. (二零零九年)28. R ogge n,D. ,Calatroni,A.,R〇ssi,M.,Holleczek,T.,前,K.,Tr¨oster,G.,Lukow-icz,P.,Bannach,D. Pirkl,G.,Ferscha,A.,等:在高度丰富的网络传感器环境中收集复杂的活动数据集In:INSS,IEEE(2010)29. Zhou,Y.,(1996年),中国科学院,Ni,B.,洪河王,M.,Tian,Q.:交互部分挖掘:细粒度动作识别的中级方法。在:CVPR中。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功