没有合适的资源?快使用搜索试试~ 我知道了~
无监督过程学习:关键步骤和顺序的发现
1基于联合动态摘要的无监督过程学习埃赫桑·埃尔哈米法尔东北大学Khoury计算机学院eelhami@ccs.neu.edu瑞奈东北大学Khoury计算机学院naing. husky.neu.edu摘要执行CPR我们解决的问题,无监督的过程学习无约束的教学视频。我们的目标是制作一个过程的关键步骤和他们的顺序需要执行一个给定的任务,以及在视频中的关键步骤的本地化摘要。我们开发了一个协作的顺序子集选择框架,其中我们通过学习状态和它们之间的转换来建立视频的动态模型,其中状态对应于不同的子活动,包括背景和过程步骤。为了提取过程关键步骤,我们开发了一个优化框架,该框架找到了一个少量状态的序列考虑到我们提出的优化是非凸的和NP-困难的,我们开发了一个快速的开放气道检查呼吸按压更换iPhone电池给呼吸贪婪算法的复杂度与视频的长度和动态模型的状态数成线性关系在适当的条件下的过渡模型,我们提出的配方是近似次模块化,因此,与性能保证。我们还介绍了ProceL,一个新的多模态数据集,包含47.3小时的视频及其来自不同任务的成绩单,用于程序学习评估。通过大量的实验,我们表明,我们的框架显着提高了最先进的性能。1. 介绍网络上存在着大量不同形式的教学数据。YouTube上有超过5亿条关于“如何”的视频搜索结果这种指导数据为过程1学习提供了丰富的信息,过程1学习是自动学习要执行的关键步骤的顺序一个特定的任务。程序学习可以用来设计根据《韦氏英语百科全书》(Webster打开iPhone屏幕断开iPhone屏幕放入iPhone电池螺丝屏幕图1:无监督过程学习的目标是在数据中学习和定位实现任务的关键步骤序列。示出了在我们的新ProceL数据集中的三个视频的“执行CPR”(顶部)和“替换iPhone电池”(底部)这两个任务的通过我们的方法的地面实况注释和关键步骤的自动发现和定位。我们还显示了一些帧,从我们的方法发现每个本地化的关键步骤自主代理可以执行复杂的任务[1],建立指令的知识库,或者当人类无法花费时间从多个源合成信息时生成复杂的过程[2]。在构建数千个任务的知识库或构建对大量指令做出响应的辅助机器人所需的规模下,了解指导数据,需要不依赖于注释数据的无监督过程学习,这是复杂且昂贵的。无监督过程学习是一个非常具有挑战性的问题,它不仅需要发现和定位任务的关键步骤,而且还需要发现关键步骤的逻辑顺序这需要协调任务的指令之间的变化在过去的几年里,我们看到了这个问题的有趣进展[3,4,5,6,7,8]。6341地面实况视频1视频2视频3时间视频1视频2视频3地面实况视频1视频2视频3时间视频1我们视频2视频36342现有的大多数工作都集中在从叙述中理解程序[3,4,7,9]。然而,使用互联网上的视频从口语自然语言中可靠地获得文本仍然是一个具有挑战性的问题,通常需要手动清理自动语音识别系统的结果此外,为了学习关键步骤的视觉模型,示例方法假设文本和视觉信息是对齐的[4,7,9],这可能在真实视频中被违反人类叙述者首先讲述一个或多个关键步骤,然后执行子动作。因此,为了学习关键步骤的良好视觉模型,有必要直接使用视觉数据。现有的方法可以处理和定位视频中的关键步骤的仅一次出现[5,4,9]。然而,程序可能包含重复的关键步骤,例如,为了执行纸质捐款。我们解决的问题,不监督的程序学习使用的视觉数据从unconstrained视频。我们开发了一个联合动态摘要框架,产生的关键步骤和它们的顺序和本地化的关键步骤的视频摘要。更具体地说,给定相同任务的视频,我们学习隐马尔可夫模型(HMM),其潜在状态对应于不同的子活动,包括背景和关键步骤。我们开发了一种优化,找到一个状态的子集,很好地代表所有输入视频联合,而表示每个视频的状态序列是compat- ible与状态转换模型,因此,捕获的关键步骤和它们的顺序。鉴于我们提出的优化是非凸的和NP-难的,我们开发了一个快速贪婪算法,通过在每次迭代中使用动态编程来递增地增长代表集我们的算法的复杂度与视频的长度和动态模型的状态数成线性关系在状态转移模型的适当条件下,我们的公式是近似子模的,因此它具有性能保证。我们的框架允许在程序中重复关键步骤,并处理视频中的后台子活动。通过实验,我们表明,我们的方法显着提高了国家的艺术,展示了基于聚类的摘要过程学习和本地化的有效性。最后,我们提出了一个新的多模态数据集,用于过程学习评估,包括来自12个不同任务的47.3小时的视频,每个任务大约60个视频,以及关键步骤的注释和所有视频中手动清理的任务代表多个域,其中一些具有 细 粒度 的 详 细 关键 步 骤 , 例如 , ‘replace iPhonebattery’ or ‘assemble clarinet’, and some containing inter-action with virtual environments as in ‘set up2. 相关工作程序学习。与我们最相关的工作是[3,4,5]。与我们的工作不同,[3]的目标是分割单个视频,而不是为任务生成程序摘要。[4]为每个任务恢复一组关键步骤,但它需要视觉和转录的叙述,其中关键步骤使用来自视频转录的信息来发现,然后在视频中本地化。相比之下,我们的方法只使用视觉数据,而它也可以在文本上运行。[5]开发了一种无监督的迭代判别生成方法,用于将视觉数据分割为多个子活动。然而,它在每个视频中仅处理一次关键步骤的出现。我们的方法处理重复的关键步骤,并允许在视频中丢失或额外的关键步骤。最近的几项工作已经解决了与职业教育有关的任务。给定视频中的子动作的有序或无序列表,[10,11,12,13]已经研究了为视频中的每个帧分配动作标签的问题。然而,这需要知道语法或字典的任务.在[14,15]中,结构化食谱文本用于学习表示成分和对其执行的操作之间的交互的动作图然而,步骤和成分被假定为给定和已知的,并且它们产生关系图而不是任务的摘要。[7]专注于将视频中的程序步骤与书面食谱对齐,其中步骤是预先已知的这与我们的设置不同,我们希望发现关键步骤。[16]中的工作侧重于程序步骤的分割,但依赖于监督学习,并且不产生关键步骤序列。子集选择和汇总。当我们在所有视频中联合选择代表性状态时,我们的工作与协作摘要有关[17,18]。这两项工作的目的都是使用来自相同主题的视频集合的信息来总结一个视频。相比之下,我们的框架为任务的所有视频生成一个共同的摘要,更重要的是,结合了数据的顺序结构,这是发现关键步骤顺序所必需的大多数现有的子集选择方法[19,20,21,22,23,24,25,26]解决了单个视频求和,并且许多不能跨相同任务的视频提取关键步骤的公共序列。此外,它们不包含跨视频的关键步骤的动态模型,通常促进导致选择背景子动作的顺序多样性虽然[27,28]结合了动态模型,但它们适用于单个视频摘要,其中[27]依赖于计算复杂的消息传递算法,在视频长度和状态数量方面分别具有二次和三次复杂度。此外,它是半监督的,使用视频子集的地面实况注释来生成最终摘要。6343不图2:我们开发了一个无监督的过程学习框架。给定相同任务的视频,我们对视频进行分段,从每个分段中提取特征,并为视频学习HMM。然后,我们找到一个联合的顺序摘要的输入视频使用HMM,通过一个快速的贪婪的方法。最后,我们将视频中的代表序列对齐,以生成过程关键步骤。3. 无监督过程学习假设我们有L个教学视频的集合,Y1,. ..,YL,同样的任务,从中我们要学习一个简洁的程序,即,关键步骤及其顺序来完成任务。 尽管视频中存在变化,例如视频的视觉外观、视点和长度以及每个视频中不相关的背景子动作,但是可以识别关键片段,其中每个片段中的潜在动作在许多视频中可见,以及关键片段序列中的排序,这在大多数视频中是常见的,参见图1。我们的目标是恢复关键步骤的公共序列作为过程描述,并在所有视频中定位关键步骤为了实现这一点,我们提出了一个由以下组件组成的框架(参见图2)。• 我们对每个视频进行分段,并从每个分段中提取一个特征向量,得到一个时间序列表示图3:从任务“用moka壶煮咖啡”的视频中学习的HMM的片段和恢复的隐藏状态的可视化(为清晰起见,未显示过渡箭头)。虽然有些状态对应于关键步骤,但有些状态对应于不相关的后台子活动。我们重新覆盖的关键状态,使用我们的联合顺序子集选择框架。段到代表的部分可以在视频之间不同。为了创建单个关键步骤序列作为过程描述,我们对视频的代表序列执行多序列对齐[29,4我们的优化的解决方案局部化关键步骤,因为它找到每个视频片段到每个代表性隐藏状态的分配(即,每个关键步骤)。在第5节中,我们讨论了第一部分关于分割和特征提取的细节。接下来,我们描述我们的优化和对齐方法的细节。3.1. 联合序贯子集选择回想一下,给定来自同一任务的L个视频,Y`=(y(`),. ..,y(`))表示的时间序列表示Y=(y(`),. ..,y(`))对于每个视频`。 然后我们学习,1T``1T`视频`具有T`段,其中y(`)是特征向量。从所有输入视频中,HMM (X,x0,x1,p),其中X={x1,. ..,xM}对应于不同隐藏状态的集合,x0是初始概率,x1是隐藏状态之间的转换概率,即, (xi0 |xi),并且p表示来自每个状态的观测发射概率,即,p(y|xi)对于所有i. 隐藏状态X的集合对应于不同的子活动包括背景和关键步骤(参见图3),而Pk捕获子活动在视频中的排序,并且p表示每个片段属于特定子活动的可能性。• 鉴于关键步骤在许多视频中是常见的,并且它们的排序必须遵循转移概率,我们开发了一种联合顺序子集选择优化和一种快速贪婪最大化算法,不视频的段t的tor。如上所述,我们从视频时间序列数据学习HMM以找到不同隐藏状态的集合,X={x1,. ..,xM},状态初始概率,和状态转移概率,找到该过程的关键步骤的序列,并且为了定位视频中的每个关键步骤,我们提出了一种联合顺序子集选择框架,该框架找到大小至多为k的隐藏状态的代表性子集S X,满足下面描述的期望条件,以及每个视频片段到每个代表性状态的分配。令S表示来自X的未知代表集。由于符号的滥用,我们使用S来指代代表性状态的集合和代表性状态的states. 令r(`)2S表示的代表的指数,y(`),换句话说,y(`)被分配给x(`)。我们表示来自X的隐藏状态的子集,其很好地编码了in-ttrt把视频Y,. ......、 Y,其中表示a的序列Y`通过r`,(r(`),r(`),. ......、r(`))21L1 2T`每个视频的有效隐藏状态与初始和转移概率兼容。• 我们的优化恢复了所有视频的代表性状态的相同集合,然而,分配的序列-ST`,其中ST`是对S的卡波乘积。全局势函数理想的摘要必须满足三个属性:i)代表集的大小,|S|,必须很小,ii)每个赋值序列r`必须很好地6344我`=1Dyn`=1不不t-1,t编码Y′,iii)每个序列r′必须与初始概率r ′0和转移概率r ′ 0兼容。为了实现这些目标,我们定义了一个潜在的功能(r1,。..,rL),并提出解决为了简化符号,我们定义q0,log0(i),qi,i0,log(i0|i)。(6)利用编码和动态势的定义,MaxMaxlog n(r1,. ......、rL),(1)在(3)和(5)中,我们可以写上对数,S:|S|k{r`2ST`}L我们想要最大化,在所有大小至多为k的集合S上,以及在所有可能的集合S上,假设外部最大化XLlog=1XT`.sr(`),t+t0r(`)XT`+qr(`),r(`)Σ⌘.(七)(1)限制代表集的大小,实现第一个目标,我们定义了代表集来反映剩下的两个目标,T``=1不t=11t=2t-1t获得了分配序列的高编码和动态兼容性。更具体地说,我们定义注意,当k=0且L=1时,目标函数上述简化为众所周知的设施位置(FL)函数的总结[30]。 接下来,我们开发一个快速的n(r1,. ......、 rL),Φenc(r1,. ......、 rL)Φ(第1条规则) ..,rL),(二)算法,其在视频的长度和状态的数量上线性运行,以最大化(7)。其中,Φenc(r1,. ..,rL)是一个编码势,它有利于从S T ′中选择一个代表性赋值序列r′,该序列很好地编码了Y′的每一个和Φdyn(r1,. ..,rL)是有利于序列r1,. ......、 rL与状态初始和转换概率相容。正则化参数θ≥0设置了两项之间的折衷,其中小θ导致折扣。3.2. 贪婪联合序贯子集选择在本节中,我们开发了一种快速贪婪方法来解决我们在(1)中的优化问题,目标函数在(7)中给出。注意,(1)由两个最大化组成:外部最大化搜索大小最多为k的状态S的最佳子集,内部最大化搜索设置赋值序列的动态兼容性。最佳分配序列{r`}L使用固定的S。因此,在本发明中,编码和动态势函数。以来我们可以将(1)中的问题改写为等价形式Y的每个片段的编码取决于其自身的表示。假设,我们考虑一个因式分解的编码位置,MaxS:|S| Kf(S),(8)潜在功能为YLΦ enc(r1,. ..,rL)=T`.(`)py|x(`)1/T`、 (3)其中集合函数f(S)(集合函数是将实值分配给集合的函数)被定义为:`=1t=1trtf(S),max{r2ST`}Llog n(r1,. .., rL)(`)(`)``=1其中p(yt |xr(`))是yt被发射的可能性从隐藏状态xr(`)。(3)中的指数1/T`也不是-= max{r2ST`}LXL1不 XT`(`)t-1,t(九)不malizes序列的不同长度,使每个视频``=1`=1t=2对摘要的贡献相等,与其长度无关为了简化符号,在本文的其余部分,我们在这里,logn由(7)给出。然而,为了简化符号和随后的推导,我们引入了使用sr(`),t为了表示发射概率的对数,记法w(`)对于第一个求和中的项,.(`)(七)、 更具体地,对于{1,. ......、L},我们有QW.63451(`)t-1S:sr(`),t,logpyt|xr(`).(4)8t t>(`)+(q0+q(`)(`)),如果t=2,另一方面,我们定义了动态势函数w(`)>rt-1,t-1,s(`)(`)t-1+q(`)rt-1,rt(`),如果2rt-1,t-1s(`)rt-1,rt+s(`) +q(`)(`), 如果t=T`。概率,如rt-1,t-1rt,trt-1,rt(十)Φ dyn(r1,. ..,rL)=YL ⇡0. r(`)T`. (`)(`)布雷尔|R1/T`、贪婪算法[31,30]用于最大化集函数f(·),从初始化活动集为空开始`=11t=2tt-1(五)集合,Λ=Λ,并且递增地增长活动集合,k次迭代。 在每一次迭代中,贪婪方法将其中,对于一个视频,θ0(i)表示se的概率选择xi作为y(`)和y(i0) 的i v e的 表 示|i)表示当前活动集合Λ {1,. ......、M}\Λ,其实现f(Λ[{i})的最高值。选择xi0作为yt的代表的概率假设xi是y(`)的代表。计算(9)中的f(Λ)原则上需要在指数大的参数空间上进行组合搜索R6346`=1不21```=11 2T`{r`2 ST`}L. 但是,我们可以使用顺序结构-算法1:贪婪联合顺序子集选择视频的真实性,以克服这一挑战,并有效对F进行评估。首先,注意我们可以写输入:f定义在(9)中;预算k。1:初始化:2:对于j=l,.,kdof(Λ)= max{r<$T`}LXL1T` XT`(`)t-1,t3:对于i∈ {1,…,M}\Ado4:对于`=1,.,我知道5.通过动态规划找到f(`)(Λ{i})和r```=1`=1t=2(十一)6:结束PL1(`)XL1=最大不 XT`⌘(`)t-1,t7:计算f(ΛΣ{i})=8:结束`=1T`f(i);T``=1r`Λ`t=29:计算i∈{1,.,M}\Λf(Λf{i});10:如果f(Λ{i})> f(Λ),则也就是说,对于固定的集合Λ,可以独立地为每个视频找到最优分配序列r“2 ΛT”,因此,我们执行L个单独的最大化。然后我们使用11:更新Λ←Λ {i}; 12:否则13:休息;PT`(`)14:如果结束事实上,maxr`<$ΛT`t=2wt-1,t是15:结束(`)(`)(`)16:对于“=1,., L;变量链r1,r2,. ......、rT`。因此我们将最大化分布在求和上并计算`输出:表示大小为k的集合S,赋值序列{r}L.f(`)(Λ),maxr`ΛT`⇣XT`t=2(`)t-1,t.中国(12)其示出了第-个视频的代表性状态的序列是x3! 十二! 九! x3。这有助于=maxw(`)+···+maxw(`)+max w(`)。更快地进行多序列比对,r(`)2ΛT-1,Tr(`)2Λ二、三r(`)2Λ一、二重要的是,保存有关状态的信息,因此,我们可以通过在(12)中使用动态规划[ 32 ]在贪婪算法的每次迭代中精确计算f(Λ)(以及类似的f(Λ[{i}))。算法1显示了我们的贪婪算法的步骤。计算复杂性。 正如在柔软的讨论-我们的贪婪算法的运行时间使用的状态和它们的顺序,同时删除关于每个状态的持续时间的信息,这是不相关的。然后,我们对序列u1,. ..,通过最大化配对得分之和[29]使用[4]中提出的Frank-Wolfe算法。输出是每个序列u′到具有P个槽的全局公共模板的重映射δ(u′)(在实验中,时间复杂度为O(kL`=1 T`)。 换句话说,我们的算法我们让P是最长序列的两倍长度)。我们在状态的数量和视频的长度上是线性的因此,可以扩展到大型数据集。 这是一个重要的im-provePentover er messagPe passing [27],其复杂性是然后通过对对齐结果中的每个槽进行表决来生成密钥状态的最终序列 更具体地,对于比对序列中的每个槽p,6p(u1),. ..,6p(uL),如果总O(M2L`=1 T2+M3L`=1 T`)。这可以更好地被看到获得多数票的州的出现次数为通过回顾在我们的情况下kMT`,即,数量状态的长度通常比视频的长度小得多。3.3. 汇总对齐一旦我们解决了(1)中提出的优化,我们就获得了大小为k的状态S的最佳子集以及每个视频的片段到代表性状态的分配序列 r`=(r(`),r(`),. ..,r(`))为`= 1,. ......、 L. 注意,在我们的方法中,每个视频都可以使用具有关键步骤分配序列的S的子集是-因此,我们可以处理额外的或丢失的关键步骤以及视频中关键步骤的稍微不同的为了创建单个关键步骤序列作为所有视频的过程描述,我们对分配序列执行对齐。假定每个最优分配序列r'经常包含许多重复,我们首先从每个序列中去除重复,并将结果序列不同的连续的状态由u。例如,对于r`=(3,3,3,12,12,9,9,9,3,3),我们得到u`=(3,12,9,3),WWW、6347大于一个阈值,我们在最后的pro-campaign摘要中保留该状态。否则,结果将为空,并将在最终过程中删除。为了生成不同长度的过程,对应于不同的粒度级别,我们选择投票阈值以达到所需的长度。一旦我们获得了关键状态的最终序列(每个关键状态现在对应于一个关键步骤),我们就使用通过我们的优化找到的分配,通过找到分配给它的片段来定位每个关键步骤。未分配的分段将对应于背景活动。3.4. 理论保证理论上已经证明,当集合函数是次模或近似次模时,贪婪算法可以获得接近最优的解[31,34]。设y,f (·)是 n-近似次模的 , 如果存在一个次模函数g(·),使得对所有S,(1-n)g(S) f(S)(1+n)g(S). 我们表明,在转移概率的某些条件下,我们提出的目标6348数据集域#帧每个任务的视频数#任务#关键步骤每个任务前景比平均视频长度(秒)总持续时间(小时)[3]第一章主要是烹饪138,7805257.70.59221.97.7早餐[33]烹饪1,086,56050105.10.87137.520.0伊利亚[4]各种769,4433057.10.44178.87.4ProceL各种4,899,25960128.30.63251.547.3表1:用于程序学习的视频数据集的比较。函数,这是单调的,是近似子模,因此,算法1具有性能保证。下面的证明类似于我们在[28]中的分析,除了近似次模函数的和是近似次模的。定理1考虑(8)中的最优化问题,f(S)定义在(9)中. 假设存在n = 2 [0,1),使得每个对数变换概率qi,i0可以写为qi,i0=q<$i0<$i,i0,对于某个q<$i0 和ni,i02[1-n i,1 +n i]。那么,对所有的φ≥0,我们所提出的f(S)是可应用的次模的.此外,对于bud g etk的贪婪算法的解,f的值最多距离(8)的全局最优解1-1/e-O(k≠ 0)。4. ProceL数据集本文提出了一种新的多模态过程学习数据集,用于教学视频理解的研究.我们从12个不同任务的720个视频片段中收集并注释了47.3小时的视频,每个任务大约有60个视频。在这12个任务中,有5个与Inria教学视频数据集中呈现的任务相同[4],即,换轮胎,做心肺复苏术,做心肺复苏术,跳车,移植植物。我们扩展了这些数据,每个任务增加了30个视频,并扩展了关键步骤集,以包括完成任务所需的子活动。为了让数据集能够捕捉真实世界任务的变化,我们增加了7个新任务:设置Chromecast,组装单簧管,更换iPhone电池,打领带(温莎结),更换马桶,制作花生酱果冻三明治和烟熏鲑鱼三明治。我们的数据集包括面向细节的任务,例如我们通过YouTube获得了这些视频,更喜欢那些清楚地显示完成任务所需的关键步骤的视频,以及那些包含口头说明的视频。如果每个视频包含与任务无关的内容,比如产品评论,我们会修剪视频的开头和结尾。对于每个任务,我们首先建立一个字典,这是执行任务所需的关键步骤的集合,例如,字典-“安装Chromecast”中没有‘download Chromecast app’, ‘plugin Chromecast. . .,然后,我们通过本地化所有片段来注释每个视频,在此期间,字典中的每个关键步骤都已执行。 图1显示了一个-从“执行心肺复苏术”和“更换iPhone电池”六个视频的符号。表1显示了ProceL与其他数据集的比较2为了将来的 研 究 , 我 们 还 收 集 了 YouTube 上 自 动 语 音 识 别(ASR)生成的口语指令。由于脚本是嘈杂的,例如,包含拼写错误的单词或遗漏的句号,我们已经纠正了ASR错误。除了各种程序学习任务外,ProceL还适用于视频语言研究以及视频中的弱监督动作和对象识别。5. 实验在本节中,我们将评估我们的专业学习框架的性能。我们在Inria教学数据集[4]和我们的新ProceL数据集上进行实验算法和基线。我们比较我们的方法,联合顺序设施定位(JointSeqFL),与Alayrac等人。[4]和Sener et al.[5]作为两种最先进的无监督过程学习方法。为了证明使用数据的动态模型和联合摘要设置进行过程学习的有效性,我们将标准设施位置(FL)与顺序设施位置(SeqFL)[28]进行了比较,FL是单个视频摘要,不使用动态模型,SeqFL是单个视频摘要,使用动态模型。我们在每个视频上单独运行这两种方法,并使用多序列对齐来对齐代表序列[29,4]此外,我们使用统一基线,其中我们将关键步骤分配均匀地分布在每个视频中的所有片段上。在实验中,对于我们的所有任务的方法,我们设置M=50,k=15,k=0。01,M=30,k = 15,λ =0。005为程序。我们使用pmtk3工具箱将HMM拟合到每个任务的视频,其中发射概率每个状态都是高斯分布。在补充材料中,我们报告了每 个 任 务 的 ProceL数 据 集 的 统 计 数 据 , 并 显 示 了ProceL中注释的定性图。特征提取。我们使用[35]将每个视频分割成超帧,这将是摘要的单位有一个公平的比较与国家的艺术,我们提取和使用相同的功能,在Alayrac等。这是由通过VGG16网络获得的1000维词袋外观特征和2000维词袋外观特征的连接组成的30002我们报告了早餐数据集的统计数据[33],而不考虑不同的相机视图。我们不与YouCookII数据集进行比较[16] 因为它不具有用于每个任务的关键步骤的公共字典63496040304020201030 40254030203015 202010105100K=7K=10K=12K=15(a) 执行cpr0K=7K=10K=12K=15(b) 煮咖啡0K=7K=10K=12K=15(c) 起动汽车0K=7K=10K=12K=15(d) 移植植物0K=7K=10K=12K =15(e) 更换轮胎图4:针对不同手术长度K值,Inria教学数据集上不同算法的F1评分。INRIAProceLJointSeqFL(=0)34.727.0JointSeqFL37.328.3表2:不同手术长度K值下Inria和ProceL数据集上不同算法的平均F1评分(%)。使用光流直方图(HOF)获得的词袋运动特征。对于每个节点的HOF特征,我们使用[36],其中我们将最大轨迹长度设置为节点的长度。为了拟合HMM,我们通过PCA将Inria和ProceL上的特征维数分别降低到300和200补充资料包含有关特征提取的更多详细信息。评估指标。我们使用与Alayrac等人相同的评价指标。[4]和Sener et al.[5]的文件。更具体地说,我们首先使用匈牙利算法在同一任务的所有视频中找到所发现的关键步骤和地面实况关键步骤之间的一对一全局匹配然后,我们计算精度,召回率和F1分数,其中精度是正确本地化的关键步骤总数与跨视频发现的关键步骤总数的比率。召回率是正确定位的关键步骤的总数与视频中地面实况关键步骤F1分数是精确度和召回率的调和平均值,介于0和1之间我们还计算了Jaccard指数,它是发现的关键步骤和地面实况关键步骤之间的交集。结果 表2显示了不同算法在Inria和ProceL数据集上的平均F1分数,作为手术长度K 2 {7,10,12,15}的函数。请注意,在两个数据集上,我们的方法对于所有K值都获得了最佳结果,例如,对于K=7,Inria和ProceL的F1评分分别为38.3%和27.2%。-正如Inria上的结果所示,三种摘要方法的性能明显优于两种状态-最先进的无监督过程学习算法,证明了摘要和子集表3:在汇总中使用状态转换对F1分数的影响。选择是程序学习的有效工具。– 请注意,SeqFL和JointSeqFL都使用动态模型,其性能优于FL,后者独立处理数据点,这表明在摘要中使用过渡动态的有效性– 另一方面,联合汇总视频的JointSeqFL优于独立汇总每个视频的SeqFL,这表明在同一任务的指令中使用关键步骤的公共结构的重要性。单独总结视频然后对齐结果的另一个可能的限制是,由于不同视频的代表可能是不同的,对齐导致将所有序列上的所有代表放在公共模板中,只有一个或很少的投票,导致不太有意义的对齐结果。– 请注意,ProceL上所有方法的性能都有所下降,因为新的7个任务(如“设置Chromecast”或“更换iPhone电池”)比Inria的5个常见任务(如“执行CPR”或“更换轮胎”)图4和图5分别显示了Inria和ProceL上每个任务的不同算法的F1得分– 在所有任务中,除了在Inria和ProceL上分别为62.9%和42.1%(通过JointSeqFL)这是由于两个数据集中的“执行CPR”具有最大数量的重复步骤,特别是在“给予按压”和“给予呼吸”关键步骤之间交替多次由于任务的动态性,我们的联合顺序子集选择方法可以更有效地发现关键步骤– 对于“更换轮胎”,Alayrac et al.对于K = 10和K =12,Inria上的性能优于其他算法。在“更换轮胎”中,一些关键步骤通过语音比通过视觉数据更容易区分,例如,“旋松凸耳螺母”和“旋紧凸耳螺母”在视觉上相似,但在语言上不同。因此,Alayrac et al.其首先利用语音数据来形成关键步骤序列F1评分(%)手术时长K= 7K=10K=12K=15INRIA均匀15.317.914.815.4Alayrac等人20.321.021.020.5Sener等人22.325.224.623.5FL26.327.629.529.5SeqFL32.634.334.035.8JointSeqFL38.337.338.238.3ProceL均匀11.013.413.312.8Alayrac等人11.512.412.812.4JointSeqFL27.228.328.929.8635050403020100K=7K=10K=12K =153020100K=7K=10K=12K=152520151050K=7K=10K=12K =15403020100K=7K=10K=12K =15302520151050K=7K=10K=12K =152520151050K=7K=10K=12K =15(a) CPR403020100K=7K=10K=12K =15(g)Chromecast(b)咖啡302520151050K=7K=10K=12K =15(h)iPhone(c) 跳车35302520151050K=7K=10K=12K =15(i) PBJ(d) 移植性403020100K=7K=10K=12K =15(j)鲑鱼(e)轮胎2520151050K=7K=10K=12K =15(k) 厕所(f)领带20151050K=7K=10K=12K =15(l) 簧管图5:ProceL数据集上不同算法在不同手术长度K值下的F1评分。20100-1000.0050.01做 心 肺 复苏 换 轮 胎泡咖啡0.050.11050-5-10-150更换马桶安装chromecast做熏鲑鱼0.0050.013040500.050.11520 25地面实况K=7K=12把装备拿出来松开凸耳螺母找到jackpoint抬高拧下凸耳螺母螺旋凸耳螺母千斤顶放下拧紧凸耳螺母代表人数图6:在Inria(K=7)(左)和ProceL(K=10)(中)的三个任务中,F1分数改善作为时间的函数。状态数M和代表数k对ProceL中任务“执行CPR”的Jaccard指数的影响本地化视频中的关键步骤,预计会有更好的表现。然而,该方法的性能在ProceL上显著降低,ProceL包含更多视频,其中许多视频具有更多噪声语言描述。超参数的影响。表3比较了K = 10时我们的方法在Inria和ProceL上的性能,当K=0时,显示了使用动态模型的有效性。在ProceL上,性能差距较小,因为我们有更多的视频,这允许联合求和来补偿动态模型的不足图6显示了Inria和ProceL的三个任务相对于=0的改进。请注意,当CPR从零开始增加时,每一次CPR都会提高,Inria中的“每一次CPR”和ProceL中的另一方面,当k变得足够大时,“咖啡”,“Chromecast”和“熏鲑鱼”的性能相对于k = 0下降,因为我们过分强调动态势而忽略了编码。图6中的右图显示了我们的算法在ProceL上获得的Jaccard指数的稳定性,它是HMM的隐藏状态数M和代表状态数k的函数。定性结果。图1示出了我们的方法的定性结果,该方法用于从ProceL上的“执行CPR”(顶部)和“更换iPhone电池”(底部)的视频中发现和定位关键步骤。请注意,对于'CPR',我们的方法发现并定位了所有的地面实况关键步骤,除了一个在开始('呼叫911'步骤)。对于图7:地面实况注释和恢复的关键步骤,由我们的该方法用于具有两个不同过程长度的任务“更换轮胎”的视频随着K的增加,我们的方法发现了更多的关键步骤。比“CPR”,有更多的关键步骤,也是视觉上相似的最后,图7示出了对于来自任务“更换轮胎”的一个视频的K= 7和K=12的两个值,通过我们的方法的注释和恢复的关键步骤请注意,增加K,我们有效地恢复了更多的地面实况关键步骤(这里是此外,对于给定的期望过程长度K,我们可以恢复更少数量的关键步骤(如图所示这是因为一旦我们对代表序列进行比对,为了获得最终过程,我们对比对结果应用投票并选择投票计数阈值,使得所获得的过程的长度至多是期望的过程长度,然而,没有阈值可以精确地达到长度K。6. 结论我们提出了一种联合动态摘要方法和一种快速贪婪算法用于无监督过程学习。我们的方法处理重复的关键步骤,背景和丢失或额外的关键步骤的视频。我们提出了ProceL,一种用于过程学习的新的多模态数据集。我们展示了我们的方法显着提高了最先进的性能,并显示了概括工具的有效性,一般来说,对于过程学习。确认这 项 工 作 得 到 了 DARPA 青 年 教 师 奖 ( D18 AP00050 ) , NSF ( IIS-1657197 ) , ONR ( N000141812132)和ARO(W 911 NF 1810300)的部分支持。E. 埃尔-hamifar要感谢刘冠东,袁宇和玛丽亚C。De PaolisKaluza在ProceL数据集的收集和注释方面提供了帮助。F1评分(%)F1改善(%)F1评分(%)#状态23.2823.0623.0621.3424.3524.5725.2225.2225.656351引用[1] YezhouYang , YiLi , CorneliaFer müller 和 YiannisAloi-monos,“通过”观看来自万维网的无约束视频“AAAI,2015年。1[2] Nina Mishra,Ryen W. 白色塞缪尔杨,和EricHorvitz,&1[3] Ozan Sener,Amir R Zamir,Silvio Savarese和AshutoshSaxena,一、二、六[4] Jean-Baptiste阿莱拉克Piotr博亚诺夫斯基Nis-hant A.Agrawal ,Josef Sivic ,Ivan Laptev 和Si- monLacoste-Julien,一、二、三、五、六、七[5] Fadime Sener和Angela Yao,一、二、六、七[6] 黄德安、沙马尔·布赫、卢西奥·德里、阿尼梅什·加格、李飞飞和胡安·卡洛斯·尼布尔斯,“找到它?:教学视频中的弱监督参考感知视觉基础1[7] Jonathan Malmaud , Jonathan Huang , Vivek Rathod ,Nick Johnston , Andrew Rabinovich 和 Kevin Murphy ,“What's cookin '?使用文本、语音和视觉解读烹饪视频,一、二[8] Xavier Puig,Kevin Ra,Marko Boben,Jiaman Li,,Tingwu Wang , Sanja Fidler , and Antonio Torralba ,“Vir- tualhome:通过程序模拟家庭活动,“IEEE计算机视觉和模式识别会议,2018年。1[9] 小伊Yu,Lu Jiang,and Alexander Hauptmann,2[10] De-An Huang,Li Fei-Fei和Juan Carlos Niebles,2[11] Alexander Richard,Hilde Kuehne和Juergen Gall,2[12] Hilde Kuehne,Alexander Richard和Juergen Gall,2[13] AlexanderRichard、Hilde Kuehne和Juergen Gall,“行动集:没有排序约束的弱监督动作分割,“IEEE计算机视觉和模式识别会议,2018年。2[14] Chloe Kiddon,Ganesa T. Ponnuraj,Luke Zettlemoyer,and Yejin Choi,“Mise en place:无监督解释教学食谱,“自然语言处
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功