没有合适的资源?快使用搜索试试~ 我知道了~
163010使用深度贝叶斯变分推断的不确定性感知视听活动识别0Mahesh Subedar *,Ranganath Krishnan *,Paulo Lopez Meyer,Omesh Tickoo,Jonathan Huang0{ mahesh.subedar,ranganath.krishnan,paulo.lopez.meyer,omesh.tickoo,jonathan.huang } @intel.com0英特尔实验室0摘要0深度神经网络(DNN)为多种应用提供了最先进的结果,但是使用DNN进行多模态视听应用的方法没有考虑与各个模态相关的预测不确定性。贝叶斯深度学习方法提供了有原则的置信度和量化预测不确定性。我们在这项工作中的贡献是提出了一种不确定性感知的多模态贝叶斯融合框架用于活动识别。我们展示了一种新颖的方法,将确定性和变分层结合起来,将贝叶斯DNN扩展到更深的架构。我们的实验使用从一部分时刻(MiT)数据集的子集中选择的内部和外部分布样本,与非贝叶斯基线和蒙特卡罗(MCdropout)近似贝叶斯推断相比,显示出更可靠的置信度测量。我们还展示了从所提出的框架获得的不确定性估计可以识别UCF101和MiT数据集上的超出分布的数据。在多模态设置下,与非贝叶斯基线相比,所提出的框架在MiT数据集的子集上将精确度-召回AUC提高了10.2%。01. 引言0视觉和音频是互补的输入,融合这些模态可以极大地改善活动识别应用。使用深度神经网络(DNN)架构的多模态视听活动识别无法成功地建模两个模态之间的相关性的固有模糊性。其中一个模态(例如,音频中的打喷嚏,视觉中的写作)可能对活动类别比另一个模态更确定。对于各个模态建模可靠的不确定性估计对于从多模态融合中获益至关重要。在大型数据集[23, 1,30]上训练的DNN已经成功地解决了许多感知任务,达到了最先进的水平0* 相等贡献。0图1:不确定性感知的视听活动识别0艺术结果。然而,DNN被训练以获得最大似然估计,并忽略模型参数周围的不确定性,这最终可能导致预测的不确定性。深度学习模型在嘈杂或超出分布的数据情况下可能会失败,导致过于自信的决策,这可能是错误的,因为softmax概率无法捕捉整体模型的置信度。相反,它表示输入来自特定类别而不是其他类别的相对概率。概率贝叶斯模型提供了获得有关数据的洞察力和捕捉可靠的预测不确定性估计的原则方法。贝叶斯深度学习[32,12]已经允许将DNN和概率贝叶斯理论相结合,以利用两种方法的优势。在视觉场景理解应用中,使用具有蒙特卡罗(MC)dropout近似推断[13]的贝叶斯深度学习框架用于相机重定位[25],语义分割[24]和深度回归[26]。活动识别是一个研究的活跃领域,具体取决于应用领域和传感器类型[28]。使用可穿戴传感器(如加速度计/陀螺仪和心率监测器)进行人体活动识别,用于识别包括行走,跑步和游泳在内的日常人类活动。基于人体姿势的活动识别[37,40]方法聚合运动和外观信息63020沿着人体部位的轨迹识别人类活动。将光流或深度信息与RGB数据[41,39]结合的多模态方法已经显示出在通用(不仅仅是人类)活动识别任务中提供最先进的结果。已经提出了结合语义级信息[53](如姿势,对象/场景上下文和包括语言描述符在内的其他属性)的方法来检测群体活动。在这项工作中,我们专注于视听活动识别,并使用具有随机变分推断(VI)的贝叶斯DNN来可靠地估计与多模态融合相关的各个模态的不确定性(如图1所示)。我们在这项工作中的主要贡献包括:01.基于预测不确定性估计的多模态融合框架应用于活动识别:据我们所知,这是第一个基于使用变分推断的贝叶斯深度学习的不确定性估计进行多模态融合的工作。02.通过组合确定性和变分层的可扩展变分推断的混合贝叶斯DNN架构。03.使用不确定性估计识别音频视觉活动识别中的超出分布数据:我们演示了从提出的架构获得的不确定性估计可以在Moments-in-Time(MiT)和UCF-101动作识别数据集中识别超出分布数据。0文档的其余部分分为以下几个部分。第2节介绍了贝叶斯DNN和音频视觉活动识别的背景。第3节介绍了提出的贝叶斯多模态DNN架构。第4节介绍了结果,第5节是结论。02. 背景02.1. 贝叶斯深度神经网络0贝叶斯DNN通过在模型参数上放置分布(如图2所示)为深度学习模型提供了概率解释。可以通过在学习的后验参数分布上边缘化的同时在模型似然上传播来应用贝叶斯推断以估计预测分布。贝叶斯DNN还通过引入网络参数的分布来进行正则化,捕捉神经网络参数周围的后验不确定性。这样可以将参数空间中固有的DNN不确定性转移到预测不确定性中。0图2:贝叶斯神经网络0在参数贝叶斯设置中,给定训练数据集D = {x,y},其中输入x = x1, ..., xN和对应的输出y = y1, ...,yN,我们希望推断出表示DNN模型的函数y =fw(x)的参数w的分布。通过贝叶斯神经网络训练期间推断出模型参数的后验分布,我们可以通过在模型似然p(y|x,w)上传播并从学习的参数后验分布p(w|D)中抽取样本来预测新数据点的输出。方程1显示了从模型似然中获得的模型参数的后验分布。0p(w|D) = p(y|x0p(y|x) (1)0计算后验分布p(w|D)通常是困难的,先前提出的一些技术可以实现可解的推断,包括:(i)基于马尔可夫链蒙特卡洛(MCMC)采样的概率推断[32,47],(ii)变分推断技术用于推断模型参数周围的可解近似后验分布[17, 36,7],以及(iii)蒙特卡洛dropout近似推断[13]。变分推断[22,6]是贝叶斯深度学习中的一个活跃研究领域,它使用基于梯度的优化。该技术用简单分布qθ(w)来近似复杂的概率分布p(w|D),其中qθ(w)由变分参数θ参数化,同时最小化Kullback-Leibler(KL)散度[5]。最小化KL散度等价于最大化对数证据下界[5, 13]。0L := ∫ qθ(w) log p(y|x, w) dw0− KL[qθ(w) || p(w)] (2)0在预测阶段,通过对网络进行多次随机前向传播,从网络参数的后验分布中进行蒙特卡洛估计,得到预测分布。方程3显示了预测分布。H(y∗|x∗, D) = −63030给定新输入 x � ,输出 y � :0p ( y � | x � , D ) = � p ( y � | x � , w ) q θ (w ) dw0p ( y � | x � , D ) ≈0T0i =1 p ( y � | x � , w i ) , w i � q θ ( w )(3)0其中,T是蒙特卡洛采样的数量。在[12,26]中,描述了建模aleatoric和epistemic不确定性的方法。我们使用Bayesian active learning by disagreement(BALD)[21]来评估活动识别任务的epistemic不确定性。BALD量化了参数后验分布和预测分布之间的互信息,如方程4所示。0BALD := H ( y � | x � , D ) − E p ( w | D ) [ H ( y � | x � , w )] (4)0其中,H ( y � | x � , D)是预测熵,捕捉了aleatoric和epistemic不确定性的组合,由以下公式给出:0i =0 p iµ log p iµ (5)0piµ是从T个蒙特卡洛样本中预测的第i个类别的概率均值,K是输出类别的总数。02.2. 视听活动识别0视觉和音频是普遍存在的传感器输入,它们在性质上互补且具有不同的表示方式。视听方法应用了音频和视觉输入的联合建模[33,2],以实现更高的复杂任务(如活动识别)的准确性。多模态模型被提出用于视听分析任务,如情感识别[42]、视听语音识别[33]、语音定位[14,34]、跨模态检索[4]。视听语音识别(AVSR)任务已经证明从联合模型的多模态训练中受益。在[33]中,提出了一种用于跨模态特征学习的深度自动编码器模型,如果在训练时存在多个模态,则可以学习到更好的一种模态的特征。提出了一种使用自注意力编码器架构的深度视听语音识别模型[2],该模型使用视觉和音频输入来识别说话人的语音。最近关于声音定位和分离的工作[14,34]已经证明了联合音频视觉表示在仅使用音频-视觉对应作为目标函数的跨模态自监督学习中的好处。这些视听方法在训练阶段应用了音频和视觉输入的联合建模,以提高模型的泛化能力,但在推理阶段仅使用单一模态。None0这里列出的方法中,每种模态的相对重要性都提供了可量化的手段。基于视觉的活动识别技术应用了时空模型的组合[45, 3,51]来捕捉场景的像素级信息和时间动态。近年来,视觉活动识别模型通常使用基于ConvNets的模型进行空间特征提取。基于图像的模型[19,43]在ImageNet数据集上进行预训练,以表示空间特征。活动识别的时间动态[46,52]通常通过使用单独的时间序列建模,如RNN的变体[10,49],或者应用3D ConvNets[9]来扩展2DConvNets到时间维度。贝叶斯神经网络用于视觉活动识别[27]以捕捉不确定性估计。在视觉任务中,ConvNets的成功表明它们也能够提供音频分类的最新结果。最近的音频分类挑战中,许多表现出色的方法[29,35]使用了具有卷积层的DNN架构[38, 11,50]。在[20]中,使用了类似于视觉领域的VGG架构(VGGish模型),该模型使用了AudioSet[15]数据集上的log-Mel频谱特征进行训练。AudioSet包含超过一百万个YouTube视频样本,标记有声学事件的词汇。在这项工作中,我们专注于使用BayesianDNNs对修剪的视频样本进行视听活动识别。3D-ConvNet(C3D)架构[44]被证明可以为多个视觉任务提供通用的时空表示。我们使用3D-ConvNet ResNet-101 C3D[18]架构的变体进行视觉表示。我们使用VGGish架构[20]进行音频表示,该架构被证明对音频分类任务提供了通用特征。03.贝叶斯多模态DNN架构0我们提出了一种基于不确定性估计的音频视觉活动识别的贝叶斯多模态融合框架。所提出的基于贝叶斯变分推断的音频视觉活动识别的模块图如图3所示。我们分别使用ResNet-101C3D和VG-Gish架构来表示视觉和音频模态。我们将视觉和音频DNN模型的最终全连接层替换为三个全连接的变分层,后面跟着分类分布。全连接变分层中的权重通过均值场高斯分布进行建模,并使用基于KL散度[36,7]的贝叶斯变分推断进行训练。为了学习模型参数w的后验分布,我们使用变分推断方法训练贝叶斯DNN。目标是优化对数证据下界(ELBO)(方程2)作为成本函数。完全连接的模型参数acauic + niu(8)63040图3:贝叶斯音频视觉活动识别:使用ResNet-101 C3D和VGGishDNN架构分别表示视觉和音频信息。DNN的最后一层被替换为三个全连接的变分层,后面跟着分类分布。贝叶斯推断通过对模型参数的后验进行蒙特卡洛采样来应用于变分层,从而提供预测分布。0连接变分层的参数由均值µ和方差σ2参数化,即qθ(w) =N(w | µ,σ2)。这些变分层中的参数通过最小化负ELBO损失(Lv)[5]进行优化:0L v = - E qθ(w) [log p(y | x, w)] + KL[qθ(w) || p(w)] (6)0µ i +1 ← µ i − α ∆µ L v i σ i +1 ← σ i − α ∆σ L v i0其中,i是训练步骤,α是学习率,∆µL v0和∆σL v是相对于µ和σ计算的损失函数的梯度。我们使用Flipout[48],这是一种有效的方法,通过隐式地对每个输入采样伪独立的权重扰动来在小批量内去相关梯度。确定性层中的参数使用交叉熵损失(L d)[16]进行优化,给定为:0L d = - �0c y c log ˆ y c (7)0其中,y c和ˆyc分别是真实和预测的标签分布。变分和确定性DNN层的模型参数通过应用随机梯度下降优化器[8]到方程6和7中给出的损失函数来获得。在预测阶段,我们通过从学习到的后验中对最终的变分层进行多次蒙特卡洛前向传递,通过采样参数来测量不确定性估计,使用方程4和5。图4显示了准确率与不确定性混淆矩阵(在[31]中提出的用于语义分割),其中包括准确和确定(n ac),不准确和不确定(niu),准确和不确定(n au),不准确和确定(nic)的预测数量。方程8提供了从混淆矩阵值得到的准确率与不确定性(A v U)度量。0图4:准确率与不确定性混淆矩阵0n ac + n au + n ic + n iu (8)0A v U = n ac + n iu0可靠的模型将提供更高的A v U分数。从各个模态中最大化AvU度量的不确定性阈值是最优阈值,用于多模态融合(如图5所示)。如果不确定性测量低于最优阈值,则对音频-视觉预测分布进行平均池化,否则依赖于具有较低不确定性测量的单一模态。为了与非贝叶斯基线进行比较,我们保持与贝叶斯DNN模型相同的模型深度,并为非贝叶斯DNN模型使用三个确定性全连接的最终层。在之后使用dropout。63050图5:视觉和音频模态的准确率 vs 不确定性图。峰值A vU值表示最佳不确定性阈值。0为了避免模型过拟合,我们对每个全连接层进行了正则化处理。在本文的其余部分,我们将非贝叶斯DNN模型简称为DNN模型。在下一节中,我们将展示实验结果,证明贝叶斯DNN模型相对于传统DNN模型的有效性。04. 结果0我们在Moments-in-Time(MiT)[30]数据集上分析模型的性能。MiT数据集包含339个类别,每个视频剪辑的长度为3秒(约90帧)。在这项工作中,我们将54个类别作为内部分布,另外54个类别作为外部分布样本。两个类别的选择数据集都包含音频信息。为了检查DNN是否能提供可靠的置信度测量,我们在主观评估之后选择了每个类别的54个子类别,以确认活动属于两个不同的类别分布。这将允许在内部和外部分布类别之间比较DNN和贝叶斯DNN模型的置信度测量,并对贝叶斯DNN模型进行不确定性估计(因为DNN模型不提供不确定性估计)。ResNet-101 C3DDNN模型使用Kinetics数据集[23]的预训练权重进行初始化。我们通过训练最后的十四层来优化MiT数据集的模型。VGGish模型使用Audioset[15]数据集的预训练权重进行初始化。我们通过训练最后的五层来优化MiT数据集的模型。我们使用随机梯度下降(SGD)优化器,初始学习率为0.0001,动量因子为0.9,并在损失停滞时进行学习率衰减。我们使用内部分布的MiT数据集来训练ResNet101-C3D视觉和VGGish音频架构。0其中包括约150,000个训练样本和约5,300个验证样本。我们从图3所示的模型中选择单独的视觉和音频路径,以获得单模态结果。对于贝叶斯DNN随机VI模型,我们对最后的三个全连接变分层进行多次随机前向传递,使用蒙特卡洛采样来采样权重后验分布。在我们的实验中,40次前向传递提供可靠的估计,超过这个次数后最终结果不受影响。贝叶斯DNN模型的预测均值通过对蒙特卡洛采样预测分布的置信度估计进行平均得到。使用BALD和预测熵不确定性估计贝叶斯DNN模型,使用方程4和5。图5显示了音频和视觉模态的准确率 vs 不确定性(A v U)指标图。计算了最大化A vU得分的不确定性测量的最佳阈值。对于音频视觉贝叶斯DNN结果,如果不确定性测量低于最佳阈值(U th visual和Uthaudio),我们对音频-视觉预测分布进行平均汇总,否则我们回退到具有较低不确定性测量的单模态。对于音频视觉DNN模型,使用两个模态的softmax置信度值进行平均汇总。我们将提出的随机VI贝叶斯DNN与基线DNN模型进行比较。我们还与著名的蒙特卡洛(MC)dropout[13]近似贝叶斯推断方法进行比较。对于MCdropout,我们进行40次随机前向传递,使用0.5的dropout概率(训练阶段使用相同的dropout概率)。04.1. 不确定性和置信度测量0贝叶斯DNN模型捕捉到与各个模态相关的不确定性估计,可以用于多模态融合。我们比较了使用MiT数据集子集中的内部和外部分布类别的BALD不确定性测量(详细信息请参见第2节)。外部分布样本是远离训练数据分布的数据点。DNN模型提供softmax概率作为结果的置信度度量,但不提供模型不确定性的明确度量。图6显示了DNN置信度度量和贝叶斯DNN不确定性度量的密度直方图。密度直方图是一个面积归一化为1的直方图。DNN模型的置信度度量密度直方图(图6(a))表明内部和外部分布类别的置信度较高。在外部分布样本中,高置信度值附近观察到一个峰值,表明错误的置信度预测。从贝叶斯DNN模型中获得的不确定性估计(图6(b)和(c))表明外部分布样本的不确定性较高,而内部分布样本的不确定性较低。63060(a)DNN置信度测量0(b)贝叶斯DNN(MCDropout)不确定性测量0(c)贝叶斯DNN(随机VI)不确定性测量0图6:MiT数据集子集的密度直方图,包括分布内和分布外样本。(a)DNN置信度测量,(b)贝叶斯DNN(MCDropout)不确定性测量,(c)贝叶斯DNN(随机VI)不确定性测量。DNN模型对两个类别都表现出高置信度(峰值在右侧或较高值)。贝叶斯DNN模型的不确定性估计表明,与分布内样本相比,分布外样本的不确定性更高。[密度直方图是一个面积归一化为1的直方图。为了更好的可读性,绘制了核密度曲线。]0(a)DNN模型0(b)贝叶斯DNN(MC Dropout)模型0(c)贝叶斯DNN(随机VI)模型0图7:MiT数据集子集的置信度测量密度直方图,包括分布内真实(正确)和错误(不正确)预测:向右偏斜的分布(在x轴附近1.0)表示模型对预测具有更高的置信度,而向左偏斜的分布表示模型对错误预测具有较低的置信度。DNN模型对真实和错误预测都表现出高置信度。贝叶斯DNN模型对错误预测显示较低的置信度,同时对真实预测保持较高的置信度。[密度直方图是一个面积归一化为1的直方图。为了更好的可读性,绘制了核密度曲线。]0在分布样本的不确定性值较高的地方观察到峰值,表明对于分布外样本的预测是可靠的。0我们比较了从DNN和贝叶斯DNN模型获得的置信度测量。从蒙特卡洛采样中获得的分类预测分布的均值为贝叶斯DNN的置信度测量。0传统DNN的置信度测量是用于预测的softmax概率。0置信度测量的密度直方图绘制在图7中。密度直方图的高度(y轴)表示置信度测量的分布。向右偏斜的分布(在x轴附近1.0)表示模型对预测具有更高的置信度。63070分布偏向左侧表示置信度较低。对于真实(正确)预测,三个模型都显示置信度测量密度直方图在1.0附近峰值,表示可靠的预测。对于错误(不正确)预测,DNN模型仍然显示置信度测量密度直方图在1.0附近峰值。相反,贝叶斯DNN模型显示置信度测量密度直方图偏向较低的值,表示更可靠的预测。所提出的随机VI模型在错误预测的情况下显示出更明显的峰值,表明比MCdropout模型具有更好的预测置信度测量。04.2. 模型性能比较0MiT内部样本的分类准确率见表1。贝叶斯DNN随机VI模型在个体和联合音频-视觉模态上始终提供更高的准确性。贝叶斯DNN随机VI音频视觉模型在贝叶斯DNN视觉模型上提供了9.2%的top1准确性和3.2%的top5准确性的提升。贝叶斯DNN随机VI模型(音频视觉)在top1上提供了2.8%的提升和0图8:对所有MiT分布内类别进行微平均的精确率-召回率(顶部)和ROC(底部)曲线。0模型 Top1 (%) Top5 (%)0视觉0DNN 52.65 79.790贝叶斯DNN(MC Dropout)52.88 80.100贝叶斯DNN(随机VI)53.3 81.200音频0DNN 34.13 61.680贝叶斯DNN(MC Dropout)32.46 60.970贝叶斯DNN(随机VI)35.80 63.400音频视觉0DNN 56.61 79.390贝叶斯DNN(MC-Dropout)55.04 80.340贝叶斯DNN(随机VI)58.2 83.80表1:DNN、贝叶斯DNN MCDropout和随机变分推断(随机VI)模型应用于MiT数据集子集(分布内类别)的准确性比较。0相对于基线DNN模型(音频视觉),贝叶斯DNN MCdropout模型的准确率较低。使用置信度测量进行DNN和贝叶斯DNN随机VI模型的精确率-召回率和ROC曲线的比较如图8所示。所提出的模型始终为单独和组合的音频-视觉模态提供更高的精确率-召回率和ROCAUC。图9显示,相对于DNN和MCDropout音频视觉模型,贝叶斯随机VI音频视觉模型提供了10.2%的精确率-召回率AUC改进和3.8%的MCDropout音频视觉模型。我们还比较了使用两个单独数据集获得的所提出的贝叶斯DNN随机VI模型的不确定性估计。我们将UCF101视觉活动识别数据集(包含101个活动类别)作为分布内样本,将MiT数据集(视觉输入)作为分布外样本。UCF101数据集的训练与第3节中提供的细节类似。DNN(Top1: 87.5%和Top5: 97.35%)和贝叶斯DNN(Top1:88.6%和Top5: 98.25%)模型提供了与使用ResNet-101C3D模型[18]获得的UCF101结果相当的准确性。从贝叶斯DNN获得的分布内和分布外样本的不确定性估计的比较如图10所示。BALD和预测熵(详细信息见第2节)的不确定性估计表明分布内和分布外样本的不确定性分数有明显的分离。这些结果证实了所提出的贝叶斯DNN随机VI模型提供了可靠的置信度测量。References63080图9:对所有MiT分布内类别进行微平均的音频视觉模型的精确率-召回率(上)和ROC(下)AUC曲线。0对于音频视觉活动识别,贝叶斯DNN比传统的DNN更能识别超出分布的样本。05. 结论0有效的多模态活动识别需要底层系统智能地决定每个模态的相对重要性。贝叶斯推理提供了一种系统化的方法来量化深度学习模型预测的不确定性。从贝叶斯DNN中获得的不确定性估计可以识别个体模态中的固有模糊性,从而有助于多模态融合。在这项工作中,我们提出了一种使用贝叶斯DNN架构的新颖的不确定性感知多模态融合方法,该方法结合了确定性和变分层。我们使用Moments-in-Time数据集对提出的方法进行了音频视觉活动识别的评估。结果表明,与传统的DNN相比,贝叶斯DNN可以提供更可靠的置信度测量。从所提出的方法获得的不确定性估计具有识别超出分布数据的潜力。所提出的方法可扩展到更深的架构,并可扩展到其他实际的多模态应用。0图10:从贝叶斯DNN随机VI模型获得的不确定性测量(BALD和预测熵)的密度直方图。分布内样本来自UCF101活动识别数据集,分布外样本来自MiT数据集。不确定性测量显示了分布内和分布外不确定性分布的明显分离。[密度直方图的面积归一化为1。为了更好的可读性,图中叠加了核密度曲线。]0[1] Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, PaulNatsev, George Toderici, Balakrishnan Varadarajan, andSudheendra Vijayanarasimhan. Youtube-8m: A large-scalevideo classification benchmark. arXiv preprintarXiv:1609.08675, 2016. 10[2] Triantafyllos Afouras, Joon Son Chung, Andrew Senior,Oriol Vinyals, and Andrew Zisserman. Deep audio-visualspeech recognition. arXiv preprint arXiv:1809.02108, 2018. 30[3] Relja Arandjelovic, Petr Gronat, Akihiko Torii, TomasPajdla, and Josef Sivic. Netvlad: Cnn architecture for weaklysupervised place recognition. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,63090pages 5297–5307, 2016. 30[4] Yusuf Aytar, Carl Vondrick, and Antonio Torralba. See,hear, and read: Deep aligned representations. arXiv preprintarXiv:1706.00932, 2017. 30[5] Christopher M Bishop. Pattern recognition and machinelearning (information science and statistics) springer-verlagnew york. Inc. Secaucus, NJ, USA, 2006. 2, 40[6] David M Blei, Alp Kucukelbir, and Jon D McAuliffe.Variational inference: A review for statisticians. Journal ofthe American Statistical Association, 112(518):859–877,2017. 20[7] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu,and Daan Wierstra. Weight uncertainty in neural networks.arXiv preprint arXiv:1505.05424, 2015. 2, 30[8] Léon Bottou. Large-scale machine learning withstochastic gradient descent. In Proceedings ofCOMPSTAT’2010, pages 177–186. Springer, 2010. 40[9] Joao Carreira and Andrew Zisserman. Quo vadis, actionrecognition? a new model and the kinetics dataset. InComputer Vision and Pattern Recognition (CVPR), 2017 IEEEConference on, pages 4724–4733. IEEE, 2017. 30[10] Jeffrey Donahue, Lisa Anne Hendricks, SergioGuadarrama, Marcus Rohrbach, Subhashini Venugopalan,Kate Saenko, and Trevor Darrell. Long-term recurrentconvolutional networks for visual recognition and description.In Proceedings of the IEEE conference on computer visionand pattern recognition, pages 2625–2634, 2015. 30[11] Matthias Dorfer, Bernhard Lehner, Hamid Eghbal-zadeh,Heindl Christop, Paischer Fabian, and Widmer Gerhard.Acoustic scene classification with fully convolutional neuralnetworks and I-vectors. Technical report, DCASE2018Challenge, September 2018. 30[12] Yarin Gal. Uncertainty in deep learning. University ofCambridge, 2016. 1, 30[13] Yarin Gal and Zoubin Ghahramani. Dropout as a bayesianapproximation: Representing model uncertainty in deeplearning. In international conference on machine learning,pages 1050–1059, 2016. 1, 2, 50[14] Ruohan Gao, Rogerio Feris, and Kristen Grauman.Learning to separate object sounds by watching unlabeledvideo. arXiv preprint arXiv:1804.01665, 2018. 30[15] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, ArenJansen, Wade Lawrence, R Channing Moore, Manoj Plakal,and Marvin Ritter. Audio set: An ontology and human-labeleddataset for audio events. In Acoustics, Speech and SignalProcessing (ICASSP), 2017 IEEE International Conference on,pages 776–780. IEEE, 2017. 3, 50[16] Ian Goodfellow, Yoshua Bengio, and Aaron Courville.Deep learning. MIT press, 2016. 40[17] Alex Graves. Practical variational inference for neuralnetworks. In Advances in neural information processingsystems, pages 2348–2356, 2011. 20[18] Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Canspatiotemporal 3d cnns retrace the history of 2d cnns andimagenet? In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition (CVPR), pages6546–6555, 2018. 3, 70[19] Kaiming He,Xiangyu Zhang,Shaoqing Ren和Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉和模式识别会议论文集上,第770-778页,2016年。 30[20] Shawn Hershey,Sourish Chaudhuri,Daniel PWEllis,Jort F Gemmeke,Aren Jansen,R ChanningMoore,Manoj Plakal,Devin Platt,Rif A Saurous,BryanSeybold等。用于大规模音频分类的CNN架构.在声学、语音和信号处理(ICASSP)上,2017年IEEE国际会议,第131-135页。 IEEE,2017年。 30[21] Neil Houlsby,Ferenc Husz´ar,Zoubin Ghahramani和M´at´eLengyel. 用于分类和偏好学习的贝叶斯主动学习.arXiv预印本arXiv:1112.5745,2011年。 30[22] Michael I Jordan,Zoubin Ghahramani,Tommi SJaakkola和Lawrence K Saul. 图形模型的变分方法介绍.机器学习,37(2):183-233,1999年。 20[23] Will Kay,Joao Carreira,Karen Simonyan,BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan,FabioViola,Tim Green,Trevor Back,PaulNatsev等。动作人类视频数据集动力学。arXiv预印本arXiv:1705.06950,2017年。 1,50[24] Alex Kendall,Vijay Badrinarayanan和Roberto Cipolla.贝叶斯SegNet:深度卷积编码器-解码器架构中的模型不确定性用于场景理解. arXiv预印本arXiv:1511.02680,2015年。 10[25] Alex Kendall和Roberto Cipolla.深度学习中的不确定性建模用于相机重定位.在2016年IEEE国际机器人与自动化会议(ICRA)上,第4762-4769页。 IEEE,2016年。 10[26] Alex Kendall,Yarin Gal和Roberto Cipolla.使用不确定性进行多任务学习,以权衡场景几何和语义的损失.arXiv预印本arXiv:1705.07115,2017年。 1,30[27] Ranganath Krishnan,Mahesh Subedar和Omesh Tickoo.BAR: 使用变分推理的贝叶斯活动识别. Bayesian DeepLearning研讨会,NeurIPS,2018年。 30[28] Oscar D Lara,Miguel A Labrador等.使用可穿戴传感器进行人体活动识别的调查.IEEE通信调查与教程,15(3):1192-1209,2013年。 10[29] Annamaria Mesaros,Toni Heittola和Tuomas Virtanen.用于城市声音场景分类的多设备数据集.arXiv预印本arXiv:1807.09840,2018年。 30[30] Mathew Monfort,Bolei Zhou,Sarah Adel Bargal,AlexAndonian,Tom Yan,Kandan Ramakrishnan,LisaBrown,Quanfu Fan,Dan Gutfruend,CarlVondrick等.时刻数据集:一百万个视频用于事件理解.arXiv预印本arXiv:1801.03150,2018年。 1,50[31] Jishnu Mukhoti和Yarin Gal.评估用于语义分割的贝叶斯深度学习方法.arXiv预印本arXiv:1811.12709,2018年。 40[32] Radford M Neal. 用于神经网络的贝叶斯学习,第118卷.Springer Science & Business Media,2012年。 1,20[33] Jiquan Ngiam,Aditya Khosla,Mingyu Kim,JuhanNam,Honglak Lee和Andrew Y Ng. 多模态深度学习-63100ing.在第28届国际机器学习会议(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功