没有合适的资源?快使用搜索试试~ 我知道了~
2222以代理人为中心的风险评估:事故预测与危险区域定位曾国豪<$Shih-Han Chou周馥香<$JuanCarlos Niebles<$ Min Sun国立清华大学{khzeng,jniebles} @ cs.stanford.edu{happy810705,corgi1205} @gmail.comsunmin@ee.nthu.edu.tw摘要为 了 生 存 , 一 个 活 的 代 理 ( 例 如 , 人 在 Fig.1(a))必须有能力评估风险(1)通过在事故发生前暂时预防事故(图1)。1(b))和(2)通过空间定位风险区域(图1)。1(c))在环境中远离威胁。在本文中,我们采取以代理为中心的方法来研究事故预测和危险区域定位任务。我们提出了一种新的软注意递归神经网络(RNN),它明确地模拟了触发事件的代理与另一个代理或静态区域之间的空间和外观方面的非线性相互作用。为了测试我们提出的方法,我们引入了Epic Fail(EF)数据集,该数据集由3000个捕捉各种事故的病毒视频组成。 在实验中,我们在EF数据集和街道事故(SA)数据集上评估了时间域(事故预测)和空间域(危险区域定位)的风险评估准确性。我们的方法在这两个数据集上的表现始终优于其他基线图1. 风险评估说明。(a)我们展示了一幅覆盖有来自不同帧的人类代理的图像,并在橙色框中标记了事故发生前的危险区域。(b)环境风险图和事故预期概率随时间的t. (c)事故发生瞬间的危险区域(橙色方框)为了实现这一目标,我们从以Agent为中心的角度引入了风险评估问题。也就是说,给定视频中每个代理的观察到的过去和当前行为,我们通过回答围绕每个代理的两个关键问题来解决问题。 首先,代理商是否会-1. 介绍在这个世界上,生物体的一个重要目标就是生存。为了生存,他们自然有评估风险的能力。例如,人类在采取或观察危险行动时会表现出情绪反应[23],这是一个无意识的过程,似乎没有复杂的推理[20]。此外,由于风险在整个环境中的分布并不均匀,人类有能力将注意力更多地转向环境中的风险区域[22]这样的风险定位对于代理移动到安全的地方是非常重要的另一方面,人类也有能力通过想象未来的情况来评估更长期的风险。在这种情况下,可以使用高级推理技术(想象、模拟)来评估较长期的风险这种预测能力对于智能体在事故发生之前做出反应也是至关重要的。我们受到人类智能和感知的这些关键能力的启发,从计算机视觉的角度研究风险评估问题在不久的将来发生事故。这与事故预测的任务相对应,我们希望在事故发生之前预测事故第二,事故可能发生在环境的哪个区域这对应于危险区域定位的任务,其中我们希望在空间上定位场景中可能涉及未来事故的区域。在这个问题上,我们面临着两个关键但困难的挑战首先,请注意,相似的视觉外观往往对应着差异很大的风险水平,因为风险取决于背景以及主体与环境之间的相互作用。因此,我们必须明确地考虑场景中智能体和区域之间的外观和空间关系。第二个挑战是捕捉风险事件背后的长期时间依赖性和因果关系。这可以通过明确预测代理与环境之间的关系来解决。一些早期的尝试侧重于评估与环境相关的风险[28]或将风险的统计发生率与环境相关。(一)(c) 危险区域(b)第(1)款不事故预期概率风险地图2223活动到静态场景[2]。相反,我们的目标是通过预测事故和定位场景中的风险区域来评估由智能体的行为及其与环境的相互作用明确触发的风险。事故预测的任务与早期活动识别[8,25]和事件预测[10,15]有关。然而,这些主要是将动作区分为单独的语义类的分类方法在我们的例子中,我们对动作的语义类别不感兴趣,而是对在不久的将来发生事故的概率进行推理。风险区域定位在视觉文献中的先例较少。最接近的是从动作识别的角度对人-物体交互的研究,但这些方法通常明确地建模物体类别及其与动作类的相关性[33,15]。我们介绍了一种新的模型,以代理为中心的风险评估。 我们的模型将代理的行为编码为 使用递归神经网络(RNN)的分布式表示。鉴于代理表示,我们引入了一种新的动态参数预测的启发Noh等人。[21]以衡量每个区域相对于代理的风险这些参数有效地考虑了代理和区域之间的相对空间关系和耦合外观接下来,我们的模型将危险区域的代理表示和外观作为另一个时间级RNN的输入,用于事故预测。此外,时间级RNN的隐藏表示用于想象和模拟智能体的未来轨迹。未来的轨迹可以作为我们模型的新输入,以便我们可以长期评估风险。我们的主要贡献是:(i)利用动态参数层有效地模拟了Agent和区域之间的相对空间关系和耦合现象。(ii)我们使用RNN的生成属性来自我训练它,以编码代理的行为以及生成(即,想象一下它未来的轨迹。(iii)想象的未来轨迹成为我们模型的新输入,以评估长期风险。(iv)据我们所知,新的Epic Fail(EF)视频数据集是第一个用于计算机视觉研究的以代理为中心的风险评估数据集。2. 相关工作我们给出了一个概述的相关工作的风险评估从视觉观察、早期事件识别和处理,以及深度网络的参数预测。视觉观察的风险评估尚未得到广泛探讨。Valenzuela等人[28]建议根据地形图像评估滑坡风险。由于滑坡是由暴雨引起的,在一些地方,有非计划的占用山坡和山区,检测这些斜坡的地形图像有助于我们预测滑坡的风险。Arietta等人[2]建议使用街道级别的图像来预测每个地理位置的犯罪率(犯罪风险)Koshla等人[11]预测犯罪率在没有实时犯罪活动信息的区域中,通过将现场的外观与诸如到公共场所、企业等的距离之类的属性相关联,然而,这些方法评估的风险所造成的环境或先验的社会活动,而我们专注于评估风险明确引发的观察到的行动的代理及其与环境的相互作用。风险评估涉及预测未来发生灾难性事件的可能性在早期活动识别中,重点是在活动完成之前预测活动,例如在嘴角弯曲时识别微笑。例如,Ryoo [25]介绍了用于早期活动预测的概率模型; Hoai等人[8]提出一个最大边际模型来处理部分观测; Lanet al.[16]提出了用于预测未来活动的分层运动元素表示。在活动预测中,目标是在事件发生之前预测它们。例如,Jainet al. [10]建议融合多个传感器以预测驾驶员的动作; Chan等人[4]引入基于动态软注意力的RNN来预测来自仪表盘视频的道路事故;和Vondrick et al. [29]建议从未标记的视频中学习时间知识以进行预测。然而,这些集中在活动类别,并没有研究视频中的对象和区域的风险评估。预期已应用于事件预期以外的任务。Kitani等人[13]提出通过周围的物理环境来预测人的轨迹(例如,道路、人行道等)并表明预测的轨迹可用于提高目标跟踪精度。 Walker等人[30]建议预测密集像素轨迹,一个静止的图像。Yuen和Torralba [34]提出从静止图像预测运动。Julian等人[31]提出了一种新的基于中间层视觉元素和时间建模方法的视觉外观预测方法事件参与在机器人社区中也很流行Wang等人[32]提出了一种用于推断人类意图的潜在变量模型Koppula和Saxena[15]通过观察RGB-D数据来解决这个问题,并将他们的方法应用于帮助人类完成日常任务。最后,人类活动预测也可以改善人机协作[14,18]。深度网络中的参数预测是一个相对较新的想法。Ba等人[3]通过使用文本信息预测分类器的参数,提出了一种用于未见过类的Noh等人[21]建议根据给定的文本问题动态受[21]的启发,我们引入了一种新的动态参数预测层,用于根据代理行为估计空间风险。3. 以代理人为中心的风险评估我们现在定义以代理为中心的风险评估展示我们的模型给定时间t的视频帧,我们观察关于代理和多个区域的信息2224t=0t=0ti=0tR不t+图2. 说明我们的方法。面板(a)示出了用于获得代理(a,p)和区域(R,L)两者的外观和位置信息的预处理。图(b)显示了我们模型中用于预测所有区域S的风险和预期事故概率y的所有组成部分(第3.2、3.3和3.4节)。 Acc. 表示意外。 图(c)说明了想象的代理位置p_t+K如何触发我们的模型重新评估风险(S,y)。在图(b)中,菱形节点表示开关。它用于控制我们的模型进行想象或观察。在面板(c)中,变换块对应于等式(1)。8. 所有虚线箭头表示跨帧的信息注意,预期事故概率从帧t处的0.5增加到帧t+1处的0.7。我们假设我们可以访问代理的外观向量at和边界框位置pt= [xt,yt,wt,ht]。我们还捕获关于一组N个候选风险的信息,区域,Rt={ri}N且Lt={li}N,其中ri是图2(a)的框架t中的单环剂。直觉上,区域i的风险应该取决于:区域R i的外观,以验证区域中的对象是否是危险的,如覆盖楼梯的区域;代理A的外观,如t i=0t i=0t骑独轮车的人爬楼梯可能比骑脚踏车的人更危险L1表示区域i的外观,L2表示区域i的位置。当我们发现-和空间关系之间的代理人和重新-提供从t= 0到当前帧t的视频序列,我们累积的代理信息是{(at,pt)}t,ˆgionui,因为靠近单轮车的楼梯表明风险更大。这样,我们将风险概率si写为:累积的区域信息是{(R t,L t)}t。目标是预测两个输出对应的任务,事故预期和危险区域定位。第一个是当前时刻的事故预期概率yt<$∈[0,1]帧t 第二个是所有候选人当前帧t的区域,Stt={si}N,其中si∈[0,1]是第i个区域的风险概率。 接下来,我们给出一个我们的模型如何推断y和S的概述。si=g(wT·ri)∈[0,1],(1)其中g是S形,以确保有效的概率估计。注意,这指示区域风险仅取决于区域外观ri。为了对a和ui的依赖性进行编码,我们提出动态预测参数wr:I.Σ。iΣΣTΣt t3.1. 模型概述wr(a,u)=σWf·aσWu·u、(二)我们的模型包括三个主要组成部分。 第一是代理区域交互组件。我们建议动态预测参数,以推断区域的风险取决于代理的行为和相对位置的区域有关代理第二个是整体事故预测模块,它综合了主体和危险区域的信息,以推断事故预测概率。最后,使用两个递归神经网络(RNN)的递归组件。一个RNN聚合代理的行为,而另一个聚合整体事故预测信息。在下文中,我们将详细描述每个组件。3.2. 座席区域交互模块本模块的目标是推断风险概率对于帧中的每个区域例如,考虑其中,σ是整流线性单元(ReLU),Wf、Wu是两个完全连接的层的参数 我们用9维向量编码代理-区域空间关系u i,所述9维向量是我们从代理边界框p和区域边界框l i计算的。图图3示出了连接以下项的ui的分量:区域中心(Uxc,Uyc)、左上角(Uxmin,Uymin)和右下角(Uxmax,Uymax)的归一化相对位置;区域相对宽度Uw和高度Uy;以及代理框和区域框的并集上的交集3.3. 整体事故预测模块本模块的目标是产生一个意外的滑稽-当前帧的ipation scorey。直觉上,事故y的概率取决于:代理a的出现,因为某些代理可能比代理a更容易发生事故。(a)输入(b)第(1)款Rt区域输出风险地图提案Lt剂S探员-区域相互作用(第3.2节)StSptatAgent-RNNαt(Sec第3.4节)整体事故-预测-RNNy(第3.3和3.4节)t^p概率0.5无事故0.5事故t+KO不(c)第(1)款Ct转型想象(Sec3.5)区域建议LRt+1t+1输出风险地图St+11剂pt+1S探员-区域相互作用(第3.2节)Sat+1αt+1^整体事故-预期-RNN(第3.3和3.4节)yt+1概率0.3无事故0.7事故pt+1+Kot+1ct+1想象转换(第3.5节)时间Agent-RNN(Sec第3.4节)代理信息代理信息2225t=0我ˆt+Kt=0其次,我们通过对整体表示序列q建模来聚合环境风险信息。我们通过事故预测RNN(RNNAA)来实现这一点它将{qt}tt作为输入,并在它的隐藏向量。我们通过内部-在Eq.5,而不是直接使用q。因此,我们的模型可以预测事故概率γ和区域风险得分Sγ作为观测值的函数t t图3.所有区域相对于座席的相对配置所有区域的风险评估均针对制剂(绿框)进行了说明在我们以代理为中心的视角中,橙色框表示风险区域,蓝色框表示非风险区域。我们分别对水平轴和垂直轴进行标准化,使智能体的宽度和高度为单位1。 所有9个线索(最大xc,最小yc,最小x,最小y,最大x,最大x,最大x,最小w,最小h,IoU)在 配置是可视化的。以及场景中所有区域的外观R和风险等级S,因为某些特定类型的区域可能比其他区域更频繁地导致事故。我们通过首先构建一个整体表示q来封装这种直觉,我们通过将代理外观a与合并的区域信息r'连接起来获得该整体表示:从t= 0到t= 0。在实践中,我们使用LSTM单元[9]来更好地处理时间依赖性。3.5. 想象未来的风险人类有一种有趣的能力,那就是通过想象未来的情况来评估风险与图2、我们可以想象特工向楼梯移动,这可能在不久的将来导致事故。我们有兴趣将这种想象力编码到我们的模型中,以更好地预测事故和预测区域风险。利用到目前为止的公式,我们有一个模型,可以预测事故发生的概率在附近的功能tf> t从过去的观察t= 0到t。在我们的模型中,我们包括一种模拟或想象未来交通的机制。K帧未来的代理人的信息和位置q= a是的。(三)记为pt+K. 这个想法是,一旦模型我们通过根据推断的风险概率对每个区域进行加权来合并区域信息:r<$=φ(S,R)=φsi·ri.(四)请注意,当每帧的区域数量变化时,r'具有相同的维度even整体表示q用于推断事故预期概率y,y=softmax(Wy·q)∈[0,1]2,(5)预测未来特工的位置,我们可以该方法产生了新的区域风险得分和新的事故预期概率y_(?)在实践中,我们使用t的整体表示来推断四维变换c=[cx,cy,cw,ch],该变换将代理位置pt转换为想象位置pt+K:c=Wc·ot,(8)Σ Σp=cx·w+xcy·h+yecw·wech·h.其中Wy是模型参数,y[0]、y[1]分别表示非事故和事故的概率t+Kt t t t t tt t(九)3.4. 预测的递归时间记忆我们用地面真值变换训练参数Wc映射地面实况位置P1和P2的图c。到目前为止,我们所描述的模型在单个帧上运行并且不聚集过去观测序列的知识。直观地说,结合这个序列应该有助于模型理解代理和重新t t+K一旦模型想象出代理p_t_k+K的位置,我们就可以通过使用想象的位置重新计算这些特征来将代理-区域关系更新为u_t_k+K模拟以及它们之间的关系是如何演变的通常,我们可以生产新的水,,rt+K ,qt+K,ot+K时间为了对 这些序列进行建模 ,我们引入了两个RNN,在我们的框架中作为内存组件运行。首先,我们在Agent-RNN(RNNA)中聚合代理外观和代理信息,{(a t,p t)}t作为输入并在其隐藏向量αt中产生编码。我们通过在方程中引入α来传播这一信息2和Eq。3,而不是外观信息a。因此,Eq。2和Eq。3可以重写如下。I.Σ。iΣΣTΣ1Δxmin剂Δymin1ΔycΔhΔxΔymaxCΔxmax非风险区域风险区域Δw2226最后是一个新的y=k+K。注意,yt+K对应于模型产生的事故预期概率从t = 0时的观察结果来看。 . . 以及一个步骤,即对智能体在时间t+K处的未来位置进行成像。换句话说,通过使用这种想象机制,模型能够在不观察任何新信息的情况下评估风险。更重要的是,同样的过程可以多次应用,以想象更远的未来。也就是说,我们可以通过从下式递归地估计pt+nK来获得yt+nwr(α,u)=σΣWf·ασΣTWu·u、(6)p<$t<$+(n−1)K并重复上述过程。q=αr¯.(七)最终预测。最后,我们通过fus估计风险(y F,S F)-tˆtˆ2227不不λ Sn不不t=0不t=0ttt=0tct将当前风险与想象风险进行如下比较,其中Yn和Sn是第n个想象的预测yF= ΣIn=0λnyt+nK ,则SF= ΣIn=0ˆt+nK、(10)迭代,I是想象步骤的数量,并且λn是等式中相同的超参数10个。因为我们的模型是完全可微的,所以模型可以是端到端的训练。其中,λ n是超参数,并且稍微滥用符号,我们使用yt作为yt,使用S作为S。3.6. 多任务学习学习过程的目标是适应所有的参数-在我们的模型中:W f,W u,W y,W c,以及我们的回归模型RNN A和RNN AA的参数。在训练期间,我们可以访问一组描述事故的正面视频和一组描述正常非事故事件的负面视频。 我们假设每个正视频描述了时间t= T处的事故,并且用地面实况代理位置p0,. . . ,p T.我们还可以访问区域边界框ρ0,. . . ,ρ T,其用代理封装了事故中涉及的环境部分。我们使用这些训练示例通过最小化模型执行的多个任务的损失函数L来拟合模型参数:事故预测,危险区域定位和代理位置想象,如下所示:L(Y,S,C)= LA(Y)+LR(S)+LP(C)。(十一)事故预测。我们遵循[4]对非事故序列使用规则交叉熵,对事故序列使用指数交叉熵损失。指数损失强调时间t的预测更接近T。.使用嘈杂的代理信息进行训练。训练和评估与地面真相代理并不反映的挑战,像在现实世界中一样处理嘈杂的代理信息。因此,我们应用在线检测跟踪(TD)来获得可识别的代理跟踪(详细信息请参见[37])。在训练中,我们利用候选代理和地面实况跟踪。地面实况事故标签在所有轨道之间共享。在测试中,我们使用相同的方法获得候选代理跟踪。对于每个候选代理跟踪,我们应用我们的方法来获得每帧的事故预期概率。在每一帧,我们采取的最大概率作为视频级的预期概率。然后,我们从具有最大事故概率的代理中估计区域的风险作为最终的每帧风险。监督总结。在训练中,事故在视频中的时间定位和在正例中的每帧处的危险区域的边界框。在测试中,这些信息仅用于性能评估。3.7. 实现细节我们设I= 1,K= 5,λ0= 0。λ1= 0。4.第一章这样的经验性地设置而无需大量调整。在每一帧中,我们使用Faster R-CNN [24]提出300个候选风险区域。我们发现这种设置是有效的,因为平均LA(yt)=-log(yt[0])(非事故)−e−(T-t)log(y[1])事故(十二)在0时召回。4IOU是79。5%,74. 9%在Epic Fail数据集上,街道事故数据集,分别。 针对每个候选LA(Y)=ΔTt=0其中Y={yt}TLA(yt),(13).风险区域,我们提取池5特征,并利用全局Av-[17]第17话,一个人的一个世界,第对于智能体,我们提取fc7特征作为表示,t=0风险区域定位。由于s是sigmoid函数的输出,我们使用sigmoid交叉熵损失进行风险区域定位,如下所示,.-log(1 −s)第所有特征提取器都使用VGG16模型[27]。我们使用Adam [12]作为优化器,默认超参数和0.0001学习率,并将批量大小设置为5。模型选择通过提前停止来完成[7]。LR(y)=非风险区域-风险区域的日志(十四)4. 数据集LR( S)=Tt=0ΣNi=0时LR(si),(15)为了评估我们的方法,我们收集了大规模的其中S={S t}T,并且如果区域位置li与ρ t中的任何地面真值框之间的IoU超过0,则第i个区域是风险区域。4.第一章代理位置想象。 受[24]的启发,我们采用平滑的L1损失L P(ct,ct)来进行代理位置想象:LP(C)=TLP(c,n),(16)其中C={ct}T,ct是地面真值变换。期待与想象力丧失的局限性。如第3.5,一旦我们想象了未来的代理位置p,我们就可以更新y和s。我们公司通过重写Eq. 11如:2228Epic Fail(EF)数据集由用户生成的视频组成,其中大部分涉及史诗般的1.一、我们还评估了最新的街道事故(SA)数据集[4],其中人类和/或车辆都可能涉及事故。我们进一步详细描述了每个数据集。4.1. Epic Fail(EF)数据集EF数据集中的原始视频是从YouTube频道和Zeng et al.[36、35]。为了构建新的EF数据集,我们首先手动识别原始视频子集中发生 然后我们萨姆LI(Y,S,C)=LP(C)+ΣIn=0.ΣLA(Y n)+LR(Sn).从子集中提取3-4秒的短视频总的来说我们对3K视频进行采样,并将其放入2K训练中,(17)1K测试视频。在训练集中,有1 k个posi-2229正面例子反面典型图4. EF数据集中的示例。在每一行中,我们显示了来自视频的采样帧。对于阳性视频,我们还显示了标注的风险区域(橙色框)。视频和1K的负面视频。在测试集中,有609个阳性视频和391个阴性视频。对于正面视频,我们确保在每个视频结束时发生事故。对于负面视频,我们确保没有事故迹象出现。请注意,我们数据集中的事故类型非常多样化,包括各种滑板失败,滑雪失败,跑酷失败等。为了训练和评估风险评估性能,我们要求用户使用以下地面事实标签注释数据集。首先,所有视频(正面和负面)都用地面实况代理轨迹进行注释。所有正面视频中的风险区域也被注释,我们要求注释器注释导致失败事件的区域。用户用于注释代理和风险区域的工具是由[26]开发的称为iSeg的交互式注释和分割工具。智能体和风险区域由边界框标注。即使在注释工具的帮助下,注释绑定框仍然很耗时。因此,训练数据仅在每15帧处被注释。然而,测试数据在每一帧都被仔细地注释。在该数据集中,没有太多具有多个风险区域的情况,因为数据集是从用户生成的视频中收集的用户生成的视频通常具有导致事故的主要代理和明显区域。EF数据集的更多详细信息和数据见[37]。4.2. 街道事故(SA)数据集SA数据集[4]是在台湾的六个城市捕获的具有高质量的dashcam(分辨率为720p),并且在由100帧组成的所有视频中发生各种事故。这些事故包括42.6%的摩托车撞上汽车,19.7%的汽车撞上汽车,15.6%的摩托车撞上摩托车,20%的其他类型。SA数据集还提供关于事故发生的时间和事故中涉及的物体的轨迹该数据集由596个包含最后10帧事故时刻的正例在SA数据集中,它包含1266个训练视频(446个阳性和820个阴性示例)和467个测试视频(150个正面例子和317个负面例子)。在这个数据集中,许多情况下有多个危险区域,因为街道事故通常涉及多辆车。5. 实验我们首先描述的基线方法和变体我们的方法然后,我们定义了评估指标。最后,我们证明了我们的方法在EF和SA数据集上的事故预测和危险区域局部化方面都达到了最佳性能。基线。我们将以下最先进的方法与我们的方法进行比较。- DSA:动态软注意[4]。- SP:社会汇集[1]。在以Agent为中心的表示中,我们应用SP [1]来池化邻近区域信息(r,l)。代理信息(a,p)和SP池化特征被级联并馈送到LSTM中,用于预测每帧处的事故概率。- R*CNN[6].我们扩展了用于事故预测的上下文动作分类方法R*CNN [6]。有两个扩展:(1)在SEC中用相同的预期损失代替分类损失(2)去除模型原有的IOU约束,使模型能够观测到所有可能的风险区域。请注意,R*CNN使用硬注意力来选择具有最大置信度的区域,而我们的方法使用如等式中的软注意力。4.第一章- L-R*CNN,一个扩展的R*CNN,将时间建模与LSTM结合起来。我们添加了一个LSTM来跨时间聚合信息,类似于第二节中的RNNAA。三点四分。消融研究。我们还评估了我们的风险评估(RA)模型的以下四个变量,包括是否添加记忆和是否应用想象力。注意,w表示- RA.没有记忆没有想象该模型观察单个帧而不聚合时间信息。- RAI没有记忆和想象。我们添加成像层(Sec. 3.5)到RA模型。- L-RA w/ 记 忆 和 w/o 想 象 。 我 们 添 加 LSTM 单 元(Sec.3.4)到RA模型。- L-RAI。记忆和想象。这是我们的完整模型,可以处理时间信息并想象未来。5.1. 评估指标对于事故预测,我们感兴趣的不仅是精度与召回,而且当预期概率高于阈值γ时的第一时间t。让我们遵循[4],并将事故发生时间(TTA)定义为T−t。回想一下,给定不同的γ,可以计算查准率和查全率。同样地,我们可以计算每个调用的正视频的TTA这意味着可以绘制TTA与记得了我们建议报告不同回忆的如果ATTA值较高,2230数据集EFSA无存储器最大平均接入点(%)ATTA(s)最大平均接入点(%)ATTA(s)R*CNN68.62.4740.72.64RA72.22.1047.82.55Rai72.42.1348.82.62w存储器最大平均接入点(%)ATTA(s)最大平均接入点(%)ATTA(s)DSA45.71.1648.11.34SP40.50.8847.31.66数据集EFSA无存储器最大平均接入点(%)最大平均接入点(%)R*CNN3.4734.7RA12.340.1Rai14.143.1w存储器最大平均接入点(%)最大平均接入点(%)L-R*CNN3.535.6L-RA14.043.8表1.事故预测的定量结果我们通过估计平均精度和平均事故时间(ATTA)指标来评估事故预测。粗体表示我们的最佳表现。斜体字体表示最佳基线性能。该模型可以更早地预测事故。我们还报告了所有视频的平均精度(mAP)。[37]参见《古兰经》的详细解释对于风险区域估计,我们使用IOU ≥ 0的对象检测度量[5]。4作为阳性检测标准[4]。这是因为在视频中注释地面实况框非常耗时。因此,质量EF和SA数据集上的地面真值框比其他对象检测数据集稍差。请注意,每个帧可能包含多个风险区域。此外,由于遮挡或摄像机运动,正剪辑中的风险区域可能出现和消失。因此,风险区域的评估是按帧进行的。5.2. 事故预想使用mAP和ATTA的定量结果如下:如表所示1.一、对于我们的模型,添加内存通常会改善两个数据集上的mAP和ATTA(即,L-RA优于RA,L-RAI优于RAI,除了在EF数据集上的ATTA中L-RA比RA差。对未来风险的想象有效地改善了两个数据集上的两个评估另一方面,RA/L-RA在mAP中显著这表明我们使用动态参数预测的软注意力表现出硬注意力。尽管L-R*CNN在两个数据集上的ATTA中的性能都优于我们的方法,但这种早期的反作用会带来更多的假警报,因为是预期mAP的显著下降0.5%L-RA也优于DSA和SP。这表明我们的迪-动态参数预测层比社会池化和动态软关注更有效。请注意,DSA和SP不支持风险区域定位。5.3. 风险区域定位使用风险区域定位的mAP的定量结果-表中所示。二、请注意,mAP不能是100%,因为我们的结果取决于Faster R-CNN执行的检测,因此,我们在最后一行报告了Oracle性能,这是通过假设所有候选区域都是表2.风险区域估计的定量结果我们使用传统的目标检测度量来评估风险区域,并计算整个测试集上的平均精度。分类正确。这作为上限性能。对于我们的模型,添加内存模块改善了两个数据集上的mAP(即,L-RA优于RA并且L-RAI优于RAI)。想象未来风险有效地改善了两个数据集上的mAP(即,RAI优于RA并且L-RAI优 于 RAI ) 。 另 一 方 面 , L-RA/RA 显 著 优 于 L-R*CNN/R*CNN。这表明我们使用动态参数预测的软注意优于硬注意。5.4. 定性结果我们在图中展示了事故预测和危险区域定位的定性结果。五、从正反例来看,我们的方法显示出很强的区分能力。这些示例还证明了定位不同类别的风险区域(例如,汽车和酒吧)。在失败的例子中,我们的系统将充气池识别为潜在风险,这是相当合理的。更多定性结果见[37]。6. 结论我们引入了新的风险评估任务,包括(1)事故预测和(2)危险区域定位。为了解决这些问题,我们提出了一个具有两个主要创新的新模型:(1)动态参数预测,以捕获代理和风险区域之间的相对空间关系和外观耦合。我们提出的方法在事故预测和风险区域估计方面都明显优于基线方法。在未来,我们计划扩展我们的环境想象层。我们相信,同时刺激未来的代理人和环境谢谢。我们感谢MOST 104-2221-E-007-089,MOST 106-2633-E-002-001,国立台湾大学大学(NTU-106 R104045)、NOVATEK Fellowship、Medi-aTek和Panasonic的支持。我们感谢黄启文和郑宇杰的合作。我们感谢Alexandra Alahi、Zelun Luo和Shyamal Buch提供的有益意见和讨论。22311.00.50.0时间地面真相:意外预测:事故(T=3.33秒)1.00.5TTA=0.47秒0.0时间地面真相:意外预测:事故(T=3.33秒)1.00.5TTA=0.47秒0.0时间地面实况:无事故预测:无事故1.00.50.0时间地面实况:无事故预测:无事故地面实况:无事故预测:事故(T=1.9秒)1.00.5TTA=1.9秒0.0时间图5. 定性结果。我们设置0。9作为触发事故预想的阈值,以定性的结果表示。在每个示例中,我们展示了一个典型的示例,其中包括事故预期概率(底部行),风险区域(中间行)的热图(黄色表示高风险,蓝色表示低风险)和真实风险区域(顶部行的橙色框对于风险热图,我们对每个像素的覆盖框的风险置信度进行平均,并使用Matlab [19] imagesc工具绘制地图。绘制热图的更多细节可以在[37]中找到。第一个和第二个是正面的例子。第三和第四个是反面的例子。最后一种是故障情况,模型首先考虑了风险区域,使其具有较高的事故预期概率。但是,经过长期的观察,模型对预期概率进行了修正。事故概率事故概率事故概率事故概率事故概率2232引用[1] A. Alahi,K.Goel,V.Ramanathan,A.罗比凯湖Fei-Fei和S. Savarese社交LSTM:拥挤空间中的人体轨迹预测。在CVPR,2016年。6[2] S.M.阿 里 埃 塔A.A.埃 夫 罗 斯R.Ramamoorthi,以及M.阿格拉瓦拉市法医:使用视觉元素预测非视觉城市属性。InSciVis,2014. 2[3] J. Ba,K. Swersky,S. Fidler和R.萨拉赫季诺夫使用文本描述预测深度零触发卷积神经网络。在ICCV,2015年。2[4] F.- H. 陈玉-T. Chen,Y.Xiang和M.太阳在行车记录仪视频中预测事故。InACCV,2016. 二五六七[5] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn和A.齐瑟曼。Pascal Visual Object Classes(VOC)InIJCV,2010. 7[6] G.基奥沙里河Girshick和J.马利克使用R*CNN进行上下文动作识别。在CVPR,2016年。6[7] S.海金神经网络,全面的基础。1994. 5[8] M. Hoai和F.德拉·托雷最大裕度早期事件检测器。CVPR,2012。2[9] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,1997年。4[10] A.贾恩A.辛格,H. S. Koppula,S. Soh和A.萨克塞纳通过传 感融 合架 构预 测驾 驶员活 动的 循环 神经 网络InICRA,2016. 2[11] A.科斯拉湾An,J.J.Lim,和A.托拉尔巴在看得见的风景后面。CVPR,2014。2[12] D. P. Kingma和J. BA. Adam:随机最佳化的方法。2015年,国际会议。5[13] K. M.基塔尼湾D. Ziebart,J. A. D. Bagnell和M. Hebert.活动预测。ECCV,2012年。2[14] H. S. Koppula,A. Jain和A.萨克塞纳人类-机器人团队的预期计划。InISER,2014. 2[15] H. S. Koppula和A. 萨克塞纳使用对象启示预测人类InTPAMI,2016. 2[16] T.兰,T C. Chen和S. Savarese用于未来动作预测的分层表示。2014年,在ECCV。2[17] M.林角,澳-地Chen和S.燕.网络中的网络。见ICLR,2014年。5[18] J. Mainprice和D.贝伦森基于人体运动早期预测的人机协同操作规划。InIROS,2013. 2[19] MATLAB 软 件版 本 7.10.0 ( R2010a ) 。TheMathWorks Inc.Natick,Massachusetts,2010. 8[20] M. Nabe r,M. Hilge r和W. 一条河。自然场景中的动物检测和识别:图像统计和情感效价。在视觉杂志,2012年。1[21] H. Noh,P.H. Seo和B.韩使用具有动态参数预测的卷积神经网络的在CVPR,2016年。2[22] O. C. Okonkwo,M. Crowe,V. G. Wadley和K.球老年人驾驶的视觉注意力和自我调节。《国际老年心理学》,2008年。12233[23] L. Pessoa和R.阿道夫情绪处理和杏仁核:从生物学意义评价的“低路”到“多路”。在自然评论神经科学,2010年。1[24] S. Ren , K.赫 利 河 Girshick 和 J. 太 阳 Faster r-cnn :Towards real-time object detection with region proposalnetworks.2015年,在NIPS中。5[25] M. S. 亮人类活动预测:从流媒体视频中早期识别见ICCV,2011年。2[26] J. Scho é ning,P. Faion和G. 海德曼视频中的Pix el-wise地面InICPRAM,2016. 6[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年,国际会议。5[28] 诉诉巴伦苏埃拉河D. Lins和H.M. 德奥利维拉。增强二维连续小波变换在滑坡危险区地形图中的应用。InICIAR,2013. 一、二[29] C. Vondrick,H. Pirsiavash和A.托拉尔巴从未标记的视频中预测视觉表示在CVPR,2016年。2[30] J. Walker,C.多尔施A. Gupta,和M。赫伯特不确定的未来:使用变分自动编码器从静态图像进行预测。在ECCV,2016年。2[31] J. 沃克,A.Gupta,和M。赫伯特补丁到未来:无监督视觉预测。 CVPR,2014。2[32] Z. 小王,M. 戴森罗特H. Ben 亲爱的D. 沃格特B. Schoül k opf和J. 彼得斯用于意图推理的人体动作概率建模RSS,2012. 2[33] B. Yao和L.飞飞人-物交互活动中物体和人姿态的交互上下文建模。CVPR,2010。2[34] J. Yuen和A.托拉尔巴事件预测的数据驱动方法。ECCV,2010年。2[35] K.- H.曾文H.陈春Y.庄,Y. H.廖建中<英>来华传教士。Niebles和M.太阳利用视频描述学习视频问答。InAAAI,2017. 5[36] K.- H.曾文H.陈建春<英>来华传教士。,1939--人Niebles和M.太阳为用户生成的视频生成标题。在ECCV,2016年。5[37] K.- H. Zeng,S.-H. 周F.-H. Chan,J.C. 尼布尔斯,M. 太阳以代理为中心的风险评估技术报告:事故预测和危险区域定位。http://aliensunmin.github.io/project/video-Forecasting/. 五六七八
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功