没有合适的资源?快使用搜索试试~ 我知道了~
15611教学视频通过上下文建模和基于模型的策略学习毕静杰波罗晨亮徐罗切斯特jing.bi rochester.edu @jiel@cs.rochester.edurochester.edu摘要通过观察人类的行为来学习新技能是AI的一项基本能力。在这项工作中,我们利用指导性视频来研究人类的决策过程,重点是学习一个模型来计划现实生活中的视频中的目标导向的行动。与传统的动作识别相反,目标导向的动作基于其结果的期望,需要动作的潜在后果的因果知识因此,将环境结构与目标集成对于解决该任务至关重要。以往的作品学习单一的世界模型将无法区分各种任务,造成潜空间模糊不清;由于未来目标的全局信息随着过程的发展而迅速退化,因此通过它进行规划将逐渐忽略期望的结果。我们解决了这些限制与新的制定程序规划,宁和提出新的算法,通过贝叶斯推理和基于模型的模仿学习模型的人类行为在真实世界的教学视频上进行的实验表明,我们的方法可以达到最先进的性能,达到指定的目标。此外,所学习的上下文信息呈现用于潜在空间中的规划的有趣特征。1. 介绍人类可以通过观看演示视频来学习新技能。虽然这对人类来说似乎很自然,但对AI来说却很有挑战性。我们已经看到了从视频中建模人类行为的丰富作品,其中大多数专注于识别动作[21,18,26]。然而,仅仅感知执行了什么动作而不对底层决策过程建模,不足以让AI学习新技能。下一代人工智能需要考虑行动的潜在后果,找出实现预期目标所必需的行动[5]在本文中,我们专注于从教学视频中学习目标导向动作。最近,Changet al. [6]提出了一个新的问题,称为教学视频中的程序规划图1:我们提出的方法的概述。给定起始观察(左上图像)和期望的视觉目标(左下图像),我们提取生成模型输出动作序列的规划轨迹的上下文信息。该模型负责学习可计划的潜在表示,重点是程序和行动后果。因此,我们可以检索中间步骤的图像(右上角的图像)。它需要一个模型来1)计划一系列动词论元动作,以及2)检索在现实生活任务中实现给定视觉目标的中间步骤,例如制作稻草浆果蛋糕(见图2)。①的人。该任务与典型的图像-语言翻译问题的不同之处在于可以交换某些动作以实现相同的目标(例如,添加盐和糖的顺序通常无关紧要),使得难以使用序列映射来预测与地面实况相同的动作序列。此外,基于序列到序列的结构,适合于对倾向于以高概率顺序发生的事件进行建模,被认为不涉及对可能结果的考虑[9]。因此,我们将此任务形式化为一个规划问题,重点是两个不同的顺序模式,可以很容易地观察到图。4:在制作蛋糕的上下文中,混合配料和洗樱桃是可以互换的,即,短期行动分离,但两者都应该在行动之前将樱桃放在顶部,即,长期行动协会。灵感来自Raabet al。[9],我们认为在执行目标导向任务时,同时考虑任务上下文信息和潜在的动作后果是有益的。上下文信息在这里指的是时间不变的知识(在规划过程中不改变),它是指在规划过程中不改变的信息搅拌混合物涂抹奶油编码器上下文信息编码器生成模型15612混合物开始普t“1倒入锅中t“1涂抹奶油t”$t”$t“3添加草莓t“3目标不可见观察注释的操作检索到的观察结果观察结果打蛋器图2:手术计划示例。 给定一个起始观察值(食物成分的图片)和一个视觉目标(做好的蛋糕的图片),模型需要学习如何完成现实世界的任务,比如通过计划一系列动作a1:T(蓝色圆圈)和检索中间观察值o2:T −1(黄色圆圈)来做蛋糕。从其他任务中区分出特定的任务。例如,如果我们知道目标是做一个如图所示的1,它不太可能计划一个像把它放在烤架行动。因此,我们在贝叶斯框架中将动作与不同目标之间的依赖关系建模为长期动作如我们稍后在实验中所示,这用于几个目的:a)它为随后的策略学习提供了更结构化的表示;b) 我们可以从后验分布中采样更多样化的轨迹,以促进动作探索;以及c) 与噪声像素空间相比,学习的潜在空间中的特征距离为了实现短期动作分离,我们将动作序列建模为马尔可夫决策过程(MDP),如图所示。2,未来的行动只取决于现在的状态。此外,由于目标导向的行动通常是根据对结果的预期[7]来选择的,因此我们建议将过渡模型纳入模仿学习(IL)框架[16,19],以便我们可以明确地与政策学习一起对环境进行建模。该方法带来以下优点:a)它有助于政策通过利用行动潜在后果的因果知识来灵活地追求目标; b)当基于模型的模拟产生具有替代动作的状态时,动作之间的区分和选择允许代理找到当前最期望的结果[24,34];以及c)它绕过了经典规划算法[ 31,30 ]所需的交互式环境的需要,使其适合于对网络视频进行建模。我们通过在真实世界的教学视频数据集[43]上对其进行评估来证明我们方法的有效性(图中示出了一个示例)。2)的情况。过程规划任务的结果表明,我们的学习模型可以揭示潜在的人类决策过程。此外,具有挑战性的步行规划任务[22]的结果证实,我们的模型学习了环境动态的有意义的表示,这对于潜在空间中的有效规划最后,VI-上下文信息的sualization指示我们提出的编码器结构可以学习简洁的表示以捕获不同现实世界任务的不同知识。本文的主要工作包括:(1)提出了一种新的基于贝叶斯推理和基于模型的模仿学习相结合的过程规划方法; b)我们提出了一种基于变分推理的神经网络结构,该结构学习嵌入足够的信息来传达期望的任务,并结合视觉观察的不确定性;以及c)我们提出了两种基于模型的IL算法,其显式地学习环境动态(以随机或确定性方式)并且与过渡模型集成以同时学习可规划的潜在表示以用于精确规划。2. 相关工作基于视觉的人类行为理解。我们的计划任务与一个流行的人工智能研究领域高度相关:构建一台能够准确理解人类行为和意图的机器 意图可以被视为实现目标所需采取的一系列行动[5]。为了理解人类的注意力,Zhanget al. [41]提出了深度未来凝视模型,以预测以当前帧为条件的多个未来帧中的凝视位置。此外,Weietal. [38]利用了一个分层图,该图联合建模了来自RGB-D视频的注视的注意力和执行任务的意图。Rhinehart等人[30]提出了一种在线反向强化学习方法,以发现建模和预测第一人称相机佩戴者的长期目标的奖励Merel等人[27]扩展了生成对抗模仿学习(GAIL)[16]框架,以从仅由部分观察组成的演示中学习类似人类的运动模式。与之前预测未来的研究不同,我们试图通过学习人类的目标导向行为来理解人类的行为。15613|∫∫1:T)}深度强化学习。强化学习(RL)通常用于同时学习和推断MDP模型,这是理解人类如何学习以优化其在环境中的行为的自然方式[35]。最近,结合深度学习,DRL被用来解决几个视觉问题,如视觉跟踪[33],视频摘要[42],基于笔划的渲染[18]和基于视觉的导航[28]。对于语义级视频理解,DRL也可以发挥重要作用。例如,它用于活动本地化[36],自然语言基础[13]和视频描述[37]。但是,这些工作往往需要专家知识来设计一个有用的奖励函数,其目标是学习一个最大化预期奖励的行为。相比之下,我们在没有明确使用手工奖励的情况下处理IL问题我们的工作与逆RL[30,1]和上下文RL[39]关系最密切然而,主要的区别是我们专注于从收集的数据集中学习,这对于不允许在线交互的应用程序至关重要,例如,安全危急情况。在潜在空间中规划。规划是一种自然而有力的决策方法,具有已知的动态,规划期间:生成一个有效的操作序列1:T 实现既定目标;和b)走查计划:检索起始点o 1和目标点之间的中间观测值o2:T −1。我们的关键见解是,通过分解的程序规划问题在方程。1分解为两个子问题,我们可以将表示学习分解为两个部分:a)推断传达要实现的任务的时不变上下文信息;以及b)学习与决策过程和环境动态有关的时变可计划表示。通过这种方式,两种表示可以进一步用于检索o2:T−1以求解穿行规划。如总体架构图所示。3,我们假设上下文信息包含Agent实现预期目标所需的所有细节。因此,我们用数学方法对程序规划问题p(a1:T)进行了求解|〇1,〇 T)为:p(a1:T| 〇 1,〇 T)= p(al:T,si:T| z c)p(z c|o 1,o T)d s 1:Td z c,(一)其中,我们捐赠zc作为传达期望任务的上下文变量,p(zc o1,oT)作为用于对上下文变量上的后验分布进行建模的推理模型,并且给定例如玩游戏和模拟机器人控制。到在未知的环境中进行计划,智能体需要学习观察值和p(a1:T ,s1:T|z c) as the generation model从以前的经验环境动态。最近基于模型的RL方案已经表明,深度网络可以直接从低维观察中学习过渡模型,并使用学习的模型进行规划[40,6,11]。一种密切相关的方法是通用规划网络(UPN)[32],它通过最小化模仿损失来学习具有梯度下降的可规划潜在空间,即,从一个专家规划师那里学到的可规划意味着学习的表示被构造为执行经典规划算法[22]。我们的方法进一步合并的背景知识的分配任务的潜在空间,并删除了可微的行动空间的假设另一种工作是因果InfoGAN [22],它试图捕捉两个连续图像之间的关系,并以无监督学习的方式对模拟环境的因果关系进行建模。同样,我们的Ext-MGAIL模型也专注于随机转移模型。然而,在原始感觉空间中进行预测是不必要的困难[10],我们预测未来状态的低维潜在表示并计划它。3. 方法我们认为一个设置类似于张等人。[6]我们有它计划一系列动作和隐藏状态,将初始状态转换为期望的结果。在以下部分中,我们将首先讨论如何推断上下文信息。然后,我们将通过考虑离线策略评估来模仿人类行为来解决第二子问题[23],并利用后见之明经验重演(HER)[3]来更好地利用专家演示。最后,我们将讨论如何使用学习模型解决走查3.1. 推理模型如图所示。在时间步长t处的动作a t仅由包含当前观察的信息和关于期望目标的信息的当前状态s t来控制。我们希望zc表示用于实现目标的上下文信息,其应该是时不变的,并且隐藏状态st包含用于决策过程的时变信息。为了实现这种分离,隐藏状态只允许以zc为条件;因此,关于目标的所有信息都必须通过zc,以避免从 从观察到行动。以这种方式,st将是用于恢复动作的唯一时间相关的隐藏变量,并且我们保留zc用于压缩其他所有内容。访问K个轨迹{(o,jJ1:TKj=0πE采集者然而,真实后验分布p φ(zc|o1,oT)从试图完成不同任务的专家。给定指示特定任务的开始视觉观察o1和视觉目标oT,我们想要学习可计划的表示,在该表示上计划目标导向的动作以执行两个复杂的计划任务(图12)。2):a)过程-视频帧在分析上是难以处理的;因此,我们使用变分推理来近似来自给定观测的后验分布注意,这里我们使用原始像素观测值〇1和〇 T进行规划,这不同于使用预先计算的视觉特征的比较方法。、a15614Y||||1:T)}编码器普雷特#t“1#编码器上下文信息“普雷特“t“1生成模型图3:整体架构:给定初始和目标观测,两个并行编码器将参数化高斯分布的均值和对数方差。然后将从该分布中采样上下文变量并将其馈送到生成模型中以推出轨迹。我们使用一个鉴别器,试图区分状态动作对的专家或学习的政策,作为当地的奖励功能。该模型涉及一个编码器(如图1所3),其对近似分布q(z_c 〇l,〇t)进行建模,并且解码器(从图3中省略)被配置为:3),其对先验pΦ(〇 1,〇tzc)进行建模。它可以被看作是一个双头变分自动编码器(VAE)[20],其中一个头编码o1,另一个编码oT,我们称之为预测VAE。我们通过最大化证据下限来联合优化φ和:l(φ,)=Eq[logpφ(o1,oT|zc)]−KL(q(zc)|〇1,〇T)||p(zc)), (二)其中,我们假设p(zc)是由上下文变量参数化的高斯先验通过以这种方式进行训练,编码器q(zc 〇1,〇t)被强制从给定的观察〇1和〇T学习紧凑表示,以传达所需的任务,其用作上下文信息。3.2. 生成模型推断上下文变量后,剩下的问题是:如何建模p(a1:T,s1:Tz c)来解决规划问题?我们假设图中的基本 过程。 2 是一 个完全 可观测 的目标 条件Markov De-cision Process(S,A,T,R,C),其中S,A是状态和动作空间。 We表示p(at|st)作为polic yπθ和p(st|zc,st−1,at−1)作为跃迁模型Tµ。 在该方法中,生成模型p(a1 :T,s1:T |z(c)可以被因式分解为:不p(a1:T,s1:T|zc)=πθ(at|st)Tµ(st|zc,st−1,at−1),(3)t=1这里我们使用约定s0,a0=0。解决MDP问题的一种流行方法是使用RL算法。 但是,我们只能通过专家培训-当学习代理与其交互时,不能提供反馈信号或传递的状态;以及c)每个演示轨迹由专家执行以达到特定的目标,因此在不同的情况下可能没有被充分探索。下面我们来解决这些困难。用过渡模型进行有效模仿。与[ 6 ]中的短期环境学习不同,我们用整个轨迹优化模型。受GAIL [16]的启发,我们将IL问题表示为占用度量匹配问题[17],其中目标是最小化分别由学习策略π θ和专家策略π E引起的轨迹分布的Jenson-Shanon散度。为了学习目标导向的行动,并绕过需要一个互动的环境,这是需要原来的GAIL,我们采用了一个过渡模型推出,并与政策学习联合优化联合优化有两个重要的原因:a)在训练期间,动作策略不是静止的,这意味着预先训练的过渡模型不会帮助动作策略探索更好的决策;以及b)过渡模型可以与动作策略交互,使得学习的潜在空间在由专家策略π E诱导的整个状态-动作对上被优 化,这有助于它包含信息在多个时间步长上。该模型可以是确定性的或随机的,因此,我们引入两个版本的过渡模型。Int-MGAIL:在Interior-Model GAIL中,转换模型构建在LSTM单元内,可以被视为完全确定性模型。我们修改LSTM单元并将长期单元状态视为等式中的状态st3并将短期隐藏状态作为我们的动作at,这样我们就可以强制动作a)与隐藏状态交互推出下一个喷射物{(ojJ1:TKj=0πE没有明确的重新定义状态b)仅取决于当前状态。每次-步骤,单元格的输入是前一个单元格ward函数,使得直接应用RL算法是不可行的。因此,我们采用IL方法,并使用专家轨迹作为示范。然而,仍然存在几个关键困难:a)典型的IL算法是无模型算法,其对于学习习惯行为是理想的,(二)静态数据集以及短期状态s t−1和a t−1,如等式2所示。4.第一章ft=σ(Wfat+Ufst+bf),it=σ(Wiat+U ist+bi),at=Tanh(W ast+ba),st+1、a15615= f t*[s t,z c]+ i t* a t.(四)15616不2Σ1:T不不←∪|不|L||--不 不Km=0Ext-MGAIL:Int-MGAIL提供了确定性解决方案-算法1走查规划对未知环境进行建模,但它将...输入:所有观测{oi}N,动作集合{ai}M、低估了环境的不确定性。因此,我们认为,模型Ti=1µ,πθ计划长度Ti=1我们进一步把转换模型作为一个外部模块以随机的方式明确地对环境转变建模,这意味着不同的观察可以遵循相同的状态。为了对不确定性进行建模,我们将行动策略设计为具有t的伯努利概率向量的随机模型,因为行动空间是离散的。当我们有相同的开始和目标状态,但不同的程序时,随机建模是成功规划的关键后见之明重新贴标。静态数据集的问题是,每一集只显示一种可能的到达方式指定的目标,这限制了座席1:初始化观察列表β←2:对于i=l,2,···,N,do3:si=φ(〇i)4:对于i=l,2,...,N,do5:snext=µ(si,πθ(si))6:d查找最近状态7:k=argminsk−snext28:d增加所有动作的转移概率ΣM如果情况不同会发生在-受HER [3]的启发,我们使用了重新标记的方法,10:β←arg max不 Si,ρ(i)试图通过用形式上,我们ρ∈Perm(T)i=1专家访问国。因此,过渡模型通过降低方程中的梯度来优化。第六章:具有一个有效轨迹{(o,jJ1:T )}的专家尝试-为了达到目标 在从开始的第j集。然后,Eaπ[µlog(1− Dω(Tµ(st−1,at−1,zc),aE))]在任意两个不相邻tθ之间的轨迹部分t(6)观察,om和ON ,也可以看作是一个有效的跨+EsEπE[µL(Tµ(st−1,at−1,zc),sE)],当专家试图从〇m开始到达〇n时,排除。因此,对于原始数据集中的每个轨迹,我们选择两个不相邻的观测值,并使用D D(〇 m:n,a m:n)来增强数据集。这个过程背后的直觉是,我们可以用一个与专家最初试图实现的目标不同的目标来重播每一集。3.3. 学习我们有三个主要组件需要优化:a)使用先前的状态-动作对和上下文变量来预测下一状态的转换模型μ(st+1st,at,zc); b)对当前状态下的动作集合上的分布进行建模的策略模型π θ(atst)由ω参数化的鉴别器Dω试图将{(st,at)}与专家或学习的策略πθ区分开。我们将专家轨迹称为τE={(sE,aE)}并且其中测量两个潜在向量之间的距离。最后一个组成部分是行动策略πθ。在优化鉴别器之后,我们可以将其解释为局部奖励函数,并且我们优化策略以最大化reward r(st,a t)=log(D ω(s j,a j)).为了模仿专家而不是模仿,行动策略需要有能力有意探索专家没有的行动表演。 我们在离线-RL中采用离线策略评估,并遵循经典的评估方法[12,8],通过重要性采样率(等式2)重新加权奖励。(7)在培训中选择更好的策略具体来说,我们首先通过行为克隆从演示中学习一个分类网络作为行为策略β(a ts t)。然后用策略梯度来优化πθ,该策略梯度试图最大化沿着整个轨迹的累积奖励轨迹τ={(st,at)},作为由E[πθ(at|st)β值对数π(α|s)Q(s,a)]−λH(π),(7)当前学习政策。我们首先从以下随机采样τE数据集并相应地推出τE,然后我们优化β(at|t)θ角t tttθ鉴别器通过在方程中上升梯度。第五章:其中H(π θ)= Eπθ[−log π θ(a|s)]是策略熵。E π[ωlog(1−Dω(s t,a t))]+ E π[ωlog(Dω(sE,aE))]。3.4. 带过渡模型的穿越式规划θ Et不(五)给定开始和目标观察,我们首先推断我们进一步让鉴别器梯度反向传播到前一个时间步,帮助过渡模型学习与当前动作相关的进一步结果。然而,我们在训练期间观察到高方差问题。因此,我们采用额外的损失来帮助生成的状态快速移动到靠近、a9:Si,k+=π θ(am|si)θ角15617通过从q(z co1,o T)采样的上下文信息。基于采样的z。,生成模型将推出后续动作和隐藏状态作为采样的轨迹。给定视觉观察池〇 i,我们首先构造得分矩阵Si,j以捕获具有采样轨迹的〇 i和〇 j之间的转移概率。15618S一联系我们如Alg中所示。1.一、在构建排名得分表之后,我们可以执行走查规划以检索导致目标的中间观察。如[6]中所建议的,该问题可以被视为找到置换函数b:一二、T1、2、…T,其最大化沿着置换路径的转移概率,服从约束b(1)= 1,b(T)=T。4. 实验我们选择CrossTask [43]来进行我们的实验,其中包括2,750个视频(总共212小时)。每个视频都描述了18个主要长期任务中的一个,例如烧烤牛排或制作法式草莓蛋糕。对于每个任务中的视频,我们随机选择70%用于训练,30%用于测试。 不同的任务有不同的程序步骤:不太复杂的任务包括用千斤顶顶起一辆汽车(3个步骤);更复杂的任务包括腌黄瓜或换轮胎(11个步骤),这些步骤不一定与图1所示的任务描述顺序相同。4.第一章每个视频具有密集注释的边界,其具有描述视频中的人的动作的字幕标签。我们将每个视频视为图像序列I1:N具有ing带时间边界的注释描述v1:M(s1:M,e1:M)。 对于第i个视频剪辑,我们选择字幕I si−δ开始周围的帧:si+δ作为o i,字幕描述v i作为动作的语义含义,并且在结束Iei−δ附近的图像:ei+δ作为i+1的新观察。这里,δ控制每个观察的持续时间,并且我们为所有实验设置δ=1我们进一步使用3.2节中介绍的重新标记技术来增加数据随机选择30%的专家轨迹。为了构建我们的状态空间,我们使用CrossTask中提供的预先计算的特征作为我们的状态估计:视频的一秒被编码为3,200维特征向量,该特征向量是I3 D,Resnet- 152和音频VGG特征的级联[15,14,4]。 注意,这里我们不使用状态估计进行测试;我们只使用它们来训练Generation模型。最后,我们通过枚举标题描述的谓词和对象的所有组合来构造动作空间实施详情。 为了计算上下文变量,我们使用DCGAN架构[29]作为我们模型中的图像编码器和解码器。行为策略是一个分类网络,它以状态估计为输入,并在动作空间上生成概率。Int-MGAIL和Ext-MGAIL的策略网络共享与非策略Actor-Critic网络类似的结构[8],其是双头的:一个用于基于状态计算动作,另一个产生动作的预期返回值在Ext-MGAIL中,我们假设隐藏状态为t图4:Grill Steak任务的专家轨迹。较深的颜色表示访问频率较高的路径ral网络两种模型的鉴别器网络共享相同的架构,这是原始GAIL [16]中的类似网络。进一步的实施细节可以在补充材料中找到。4.1. 评估程序规划我们比较了以下方法:- 统一政策。在每个步骤,算法将从所有动作中均匀地采样一个动作。该方法用作性能的经验下限。- 全球规划网络(UPN)[32]。像我们的方法一样,UPN学习了一个可规划的潜在表示,其中梯度下降可用于计算一个最小化监督模仿损失的计划。我们通过使用softmax层来输出离散动作的概率,将原始- 双动态网络(DDN)[6]。DDN是第一个在教学视频问题中提出过程规划的工作。与UPN类似,它学习状态-动作转换的双重动态,并在学习的潜在表示上执行基于样本的规划。当使用预先收集的数据集进行评估时,常见的方法是重新加权奖励[23]。但这里没有明确的奖励。为了与最先进的方法保持一致,我们使用三种不同的矩阵来评估性能,并将实验长度限制为3-5,即使我们的方法适用于更长的轨迹建模。- 成功率被设计用来评估长期的行动关联,即动作顺序的正确性。只有当每一个动作都匹配时,这个计划才被认为是成功的。结果是测试数据集中成功的百分比。- 准确度用于评估单个时间步长动作的正确性,其用作成功率度量的约束松弛。只有当单个动作在同一时间步骤中与地面实况匹配时,才认为该动作成功,该地面实况以百分比表示。- mIoU用于捕获模型可以输出正确动作但无法保持动作我们采用[6]中计算IoU的度量为高斯分布;因此,过渡模型是高斯模型,其均值和方差由前馈神经网络参数化。|{at}∩{aˆt}||{at}∪{at}| 之间的一组地面真理{at}和.计划的行动{at}15619开始目标∼联系 我们i=1单步观察顺序。T(T−1)ij,iJΣΣ表1:手术计划的结果。我们的模型在成功率方面显著优于基线,提高了10%我们的Ext-MGAIL有一个边际表2:走查计划的结果。我们的模型通过明确建模时间相邻观测之间的过渡动态来优于基线与Int-MGAIL相比有所改进;这表明在策略中引入随机过程可以帮助策略探索,从而提高性能。火腿Pacc.1.36 1.36 0.880.7052.23 68.41 81.21如表1所示,UPN可以学习与统一基线相比表现相当好然而,由于教学视频的动作空间是不连续的,基于梯度的规划器不能很好地工作。建议的Int-MGAIL优于基线DDN在两个不同的时间尺度。原因是我们执行RL训练,最大限度地提高了累积的奖励除了Uniform策略和DDN之外,我们还将CausalInfoGAN(CIGAN)纳入比较。像我们的方法一样,他们在潜在空间中规划轨迹,但使用生成模型将轨迹直接转换为CIGAN的优点是,它可以被训练成在没有动作监督的情况下执行走查规划。根据以下指标进行评价。- 汉明 如前所述,我们正在寻找观察指数的最佳排列。 则距离被定义为d(y ,y()=不一(1|yi/=y(i),这对整个轨迹。通过在行动策略中引入随机过程,我们的Ext-MGAIL具有更好的性能。这是因为,给定相同的开始和目标观察,存在多于一个有效的ac序列选项。通过设计一个同时具有随机性和确定性的模型- 配对精度。 为了比较两个置换序列之间的距离,我们使用成对准确度来计算沿着计划和地面实况观察顺序的距离。这被定义为二个不一(1|yi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功