没有合适的资源?快使用搜索试试~ 我知道了~
1基于立体声的自监督运动车辆跟踪Chuang Gan2,3,Hang Zhao1,Peihao Chen3,David Cox2,3,AntonioTorralba11 MIT CSAIL,2MIT-IBM Watson AI Lab,3IBM Research AI摘要人类能够使用视觉和听觉线索定位环境中的物体,将来自多种模态的信息整合到一个共同的参考系中。我们介绍了一个系统,可以利用未标记的audiovi- sual数据学习本地化的对象(移动车辆)在视觉参考系,纯粹使用立体声在推断时间。由于手动注释音频和对象边界框之间的对应关系是劳动密集型的,因此我们通过使用未标记视频中的视觉和音频流的共现作为自我监督的形式来实现该目标特别是,我们提出了一个框架,由一个视觉“教师”网络和立体声“学生”网络。在训练过程中,知识体现在一个完善的视觉车辆检测模型被转移到音频域使用未标记的视频作为桥梁。在测试时,立体声学生网络可以独立工作,仅使用立体声音频和摄像机元数据来执行对象定位,而无需任何视觉输入。在一个新收集的Auditory车辆跟踪数据集上的实验结果验证了我们提出的方法优于几种基线方法。我们还证明了我们的跨模态听觉定位方法可以帮助在视觉定位的移动车辆在恶劣的照明条件下。1. 介绍声音传达了我们周围物理世界的丰富信息,人类非常善于解释附近物体产生的声音我们多半可以根据一个物体发出的声音来辨别它是什么.狗吠),并且我们可以估计材料的性质(例如,如果它们是硬的或软的),基于它们与其他物体交互时发出的声音此外,我们对声音的感知使我们能够定位不在我们视线范围内的物体(例如:在我们后面的或被遮挡的物体),并且声音在允许我们在较差的照明条件下定位物体方面起着重要的作用。重要的是,我们的视觉和听觉图1.以立体声作为输入,我们提出的跨模态听觉定位系统可以恢复运动车辆在参考系中的坐标,纯粹从立体声和相机元数据,没有任何视觉输入。从根本上整合和共同注册-例如,我们可以定位一个对象,并准确地指向它,无论我们看到它,还是闭着眼睛听到它。听觉和视觉信息在一个共同的参照系中的这种记录使我们能够在听觉和视觉信息都存在时将它们整合在一起,或者在另一个不存在时只依赖一个。在这里,我们试图建立一个系统,可以学习听觉视觉对应的自我监督的方式,让我们执行一个经典的视觉对象检测任务-绘制目标车辆周围的边界框-使用音频和摄像头元数据信息。立体声音频提供关于对象位置的丰富信息,这是由于到达时间和两个空间上分离的麦克风之间的声级差图1给出了一个示例来说明问题的设置。 当我们看到一辆车在行驶时,我们可以同时听到发动机和道路的声音。我们工作的目标是学习纯粹从立体声中重新覆盖移动车辆的坐标,而不需要任何视觉输入。这种系统具有多种实际应用。例如,交通监控系统可以只使用麦克风来部署,70530.5。一0.50.5 0.00.51.01.52.0。一0.50.00.51.0时间(秒)1.52.07054比照相机便宜、功耗低、保护隐私并且同样,共同注册的视听定位可以用于增强机器人中的视觉跟踪,使其即使在较差的照明条件下也能表现良好。在监督设置中直接训练仅音频定位系统是麻烦的,因为手动地将对象的边界框与其对应的音频相关联将需要大量的劳动密集型手动注释。相反,我们利用未标记视频中包含的音频和视频流的自然对应性,使用自我监督的训练方法。实际上,我们的系统可以通过同时看到和听到物体移动来我们提出的框架,我们称之为跨模态听力本地化,是建立在学生-教师培训计划[5,29,1,15,19]。它包括一个视觉教师网络和立体声学生网络,使物体检测知识在训练时间内跨模态传输具体来说,我们首先使用视觉教师网络来检测视频中的对象(在这种情况下,移动车辆),然后训练一个立体声网络,将音频信号映射到视觉网络预测的边界框坐标。然后在测试时,学生声音网络可以直接从声音预测对象坐标。我们评估我们的跨模态听觉定位方法上新收集的听觉车辆跟踪数据集。我们的研究结果表明,所提出的系统显着优于几个基线的方法,衡量一组现有的度量在计算机视觉。总之,我们的工作做出了以下贡献:• 据我们所知,我们是第一个-在视觉参照系中,纯粹从音频信号来处理定位对象的问题。• 我们建议利用将未标记视频中的视觉和声音作为监督来训练网络,该网络可以将对象位置的知识从视觉模态传递到声音模态。• 我们收集并注释了一个新的听觉载体-cle跟踪数据集为这个新的任务。我们希望这个数据集可以帮助推进跨模态(视觉+音频)感知领域的研究。• 我们证明,建议的跨模态奥迪-TORY定位系统在仅通过声音定位车辆方面工作良好,甚至在较差的照明条件下优于直接视觉跟踪。2. 相关工作我们的工作可以独特地定位在背景下,最近的两个研究方向:声音定位和跨模态学习。2.1. 声音定位使用声音进行定位是一个成熟的研究领域。一些生物和人造系统使用主动技术进行声音定位和听觉场景感知。回声定位涉及发射声波并分析返回的反射声波以估计障碍物的距离。回声定位通常在黑暗或浑浊环境中活动的动物中观察到,例如蝙蝠和海豚依靠回声定位来定位自己和定位猎物。基于相同的原理,工程师们设计了声纳(声音导航和测距)系统[38]。声纳在水下和机器人应用中尤其常见[23,37]。被动音频定位技术通常涉及使用麦克风阵列和波束形成技术[11]。由不同麦克风接收的声音中的定时差可以用于估计声音的位置。即使是较小的设备,如智能家居扬声器,也经常使用多个麦克风来提高音质。例如,[33]开发了使用多通道音频输入来提高自动语音识别准确性的技术。使用多声道音频也被证明在其他场景中是有利的,例如声源分离[27]。我们在这里的工作使用立体声麦克风系统,这是可以利用声音的空间测量进行定位的最简单的系统。目前的工作也涉及到以前的工作,在本地化的声音在视觉输入[20,14,22,9,8,24,4,35],其目的是确定哪些像素在视频中与一个对象相关联,使一个特定的声音。最近的方法[4,35,40,18]已经训练了一个深度神经网络来测量视觉和声音之间的相关性过去的工作试图在视觉和音频输入都存在时在图像中定位声源,而这里我们试图仅在测试时使用音频输入在视觉参考系内定位对象。2.2. 跨模态自监督学习我们的工作是在自我监督学习领域,它利用了数据结构中免费提供的隐式标签视听数据为不同模式之间的知识转移提供了丰富的资源[5,12,34,36]。 我们的工作也与学生-教师学习范式[7,21,5,2,16],其中学生网络试图模仿教师网络输出。例如,[29]使用声音信号作为监督来训练视觉网络,[5]使用视觉特征来监督音频网络的学习,[3,28]使用声音和视觉来共同监督对方。[18,26]还探讨了如何为视频生成空间声音最近7055[40,39,13,17,32]使用视觉-音频对应来分离声源。在以前的工作,只传输类之间的模态- ities级的信息,这项工作转移更丰富的,区域级的位置信息的对象。3. 方法我们方法的核心是观察到未标记视频中视觉和声音之间的自然同步可以作为学习的自我监督形式因此,机器可以通过看到和听到许多产生声音的移动车辆的例子来我们使用一个学生-教师的框架模型的学习问题。我们的系统同时使用视频帧和声音进行训练,这使得听觉学生网络能够学习如何从视觉教师网络定位车辆边界框。我们首先介绍了我们的跨模态听觉定位系统的构建模块,然后我们提出了如何通过使用对象检测损失和特征对齐约束来训练音频子网络,将视觉车辆检测模型中的知识传递到给定相机元数据的声音信号最后,我们提出了一个时间平滑的方法来跟踪车辆的时间。我们在图2中概述了我们提出的方法的框架。3.1. 网络架构我们的听觉对象定位系统由两个关键组件组成:教师视觉子网络和学生音频子网络。视觉子网。我们采用YOLOv2 [31]用于基于视觉的教师网络,因为它在对象检测的速度和准确性之间提供了良好的权衡。YOLOv2 [31]是YOLO [30]的修改,具有批量归一化,高图像分辨率,锚框卷积和多尺度训练,因此能够在单个阶段直接从完整图像中同时预测多个边界框及其类别概率YOLOv2的主干是一个Darknet,由19个卷积层和5个最大池化层组成。为了使其更适合对象检测,最后一个卷积层被三个具有1024个滤波器的3×3卷积层取代,然后是一个具有待检测输出数量的1×1卷积层。与ResNet中使用的身份映射类似,从最后的3×3×512层到倒数第二个卷积层也有一个直通层,以聚合细粒度级别的特征。为了使模型更稳定和更容易学习,网络被训练来预测相对于锚盒位置的位置坐标为了准备数据,我们首先分解每个视频片段分成几个T= 1s的视频片段1,然后挑选每个片段的中间帧作为教师网络的输入。在训练过程中,每个中间视频帧都被输入到在Pascal VOC 2007和VOC 2012数据集上预先训练的YOLOv2模型中,以获得车辆检测结果。为了使检测结果更加平滑,我们还采用了非最大值抑制(NMS)作为后处理。音频子网。我们将对象检测从立体声作为一个回归问题。我们把物体-将教师视觉子网络产生的检测结果作为伪标签,然后训练学生音频子网络(StereoSoundNet)以直接从音频信号回归伪边界框坐标。考虑到不同的摄像机角度可能会给视觉内容带来比音频更大的变化,我们通过在训练StereoSoundNet时显式地将摄像机的元数据作为输入来解决这个问题这里的元数据包括摄像机高度、俯仰角以及摄像机与街道之间的方向我们首先通过短时傅立叶变换(STFT)将每个1秒的音频片段转换为由于立体声中有两个声道,我们分别 计 算 它 们 的 声 谱 图 , 然 后 将 它 们 堆 叠 作 为StereoSoundNet的输入。为了将输入音频频谱图的F-T(频率-时间)表示转换为摄像机的视图,我们首先使用10个跨越卷积层,其中每个层后面都有一个批归一化层和一个ReLU激活函数,作为编码器将立体声信号压缩为1×1×1024特征图,去除空间分辨率。然后利用多层感知器将元数据编码成1×1×128的特征图。在将压缩的声音信息和编码的元数据逐通道级联之后,由2个完全连接的层和3个去卷积层组成的解码器用于重建空间分辨率并将音频信息映射到相机视图。最终输出与YOLOv2相似,我们采用YOLOv2中使用的对象检测损失来训练StereoSoundNet。3.2. 从视觉到声音为了将知识从视觉对象检测模型转移到声音模态中,我们使用对象检测损失和特征对齐损失来训练Stere-oSoundNet。转移对象检测分类器。在训练过程中,我们采用一个成熟的基于视觉的YOLOv2对象检测模型的输出,然后训练音频子网络来识别和定位对象。具体地说,我们使用三个损失约束来训练音频子网络,如:1随着视频片段长度的增加,定位结果会有所改善,但对于长度大于1秒的视频片段,定位结果基本保持稳定7056教师网:YOLOv220个conv层5个池化层边界框+IoU分数+分类分数输入:中间视频帧13x13x307213x13x102413x13x125汽车:0.891convconv特征校准损耗( L)对象检测损失( L)MLPconv汽车:0.8221x1x102413x13x1253个deconv层输入:左右频谱图10个conv层MLP边界框+IoU分数+分类分数元数据1x1x128学生网络:StereoSoundNetL=L+L图2.跨通道听觉定位框架。我们通过联合使用来自视频的声音和帧来说明学习阶段。我们首先将视频分解为几个视频片段,每个片段的长度为1秒。在训练过程中,预先训练的YOLOv2网络预测中间视频帧的边界框作为伪标签,而听觉学生网络将预先计算的声音和相机元数据的频谱图作为输入,以回归伪标签,并对齐视觉网络的内部特征表示在测试过程中,听觉网络可以独立工作来检测车辆。在[31]中给出,包括边界框IoU预测,边界框坐标回归和类概率预测。在我们的例子中,我们为输出特征图上的每个位置预测了5个盒子,每个盒子有4个坐标,1因此,音频子网的输出大小为H×W×125。特征表达的对齐。我们另外将要素表达对齐约束添加到训练损失[6]中的观察结果表明,新兴对象的内部高级表示可以跨模态共享,即使每个输入在网络的早期阶段都有自己的独特特征。我们期望两种模态的特征表示在一定的距离度量下足够接近。在[6]之后,我们使用排名损失来约束特征。具体地,特征对齐损失是来自学生音频子网络的第i个声音片段的表示和来自教师视觉子网络的对应特征表示该损失函数鼓励配对输入的对齐特征和未配对输入的区分特征。对于相似度函数,我们选择L-2距离。即A(a,b)= ||a − b||二、(二)训练与推理当训练音频子网时,目标是强制执行音频学生子网的内部特征表示和最终边界框预测,与视觉教师子网一样接近我们在训练阶段不更新视觉子网络。在测试过程中,音频子网络可以独立工作,直接从声音到边界框位置和类概率。我们将置信度得分高于0.5的盒子作为预测边界ΣNΣ我JImax{0,−(fsi,fvi)+(fsi,fvj)},(1)箱.如果所有置信分数都低于0.5,我们选择一个具有最高分数的框。类似于视觉子网工作,NMS被应用作为后处理,以消除重复检测到的盒子。其中N是一个小批量中的训练样本的数量,k是边缘超参数,k是相似性函数,并且j在小批量中的否定示例上迭代这里,fsi和fvi表示预测的特征表示。跟踪. 为了在视频中创建车辆的轨迹,我们提出了一种通过IoU跟踪的方法来聚合对象边界框。 具体来说,我们保持基于置信度分数的前5个对象建议7057立体声音响网在每一帧上。然后,如果任何建议框的置信度得分高于阈值τ 1(我们设置τ 1 = 0),则初始化一个管道。(七).对于每个帧,可以具有多于一个管。我们通过计算该框与下一帧中的5个提案框之间的IoU得分来决定每个管道中的下一个边界框,然后如果其IoU得分高于阈值,则选择下一帧中具有最高置信度得分的框 τ2(我们设置τ2= 0。4).然后,我们使用选定的边界框来更新该管。如果没有选中任何框,则结束该管。如果前两个框的置信度得分都高于阈值τ3(我们设置τ3= 0),则我们仅保存试管。4).此策略可以删除一些错误初始化的试管。最后,我们对视频中的所有帧应用指数平滑,以获得视频中的轨迹。4. 实验在本节中,我们首先介绍一个新收集的听觉车辆跟踪数据集,然后评估我们提出的跨模态听觉定位的性能。我们将我们的算法与几个竞争基线进行对比。我们还证明了我们的跨模态听觉定位是更强大的视觉跟踪系统在恶劣的照明条件下。最后,我们对算法的跨场景泛化能力进行了检验,并对部分跨通道听觉定位结果进行了可视化。4.1. 数据集我们使用便携式装置收集了一个新的听觉车辆跟踪数据集,该装置由智能手机和舒尔MV88数字立体声电容麦克风组成我们在智能手机上安装了一个广角镜头来增加视野。在15条不同的街道上录制了视频我们还调整了摄像头摄像机的高度从0米变化到2米,俯仰角和旋转角在[-30° C,+30° C]和[-35° C,+35]2。对于每条街道,我们随机选择图3.我们数据集中的场景示例。分两种情况:单车和两车情况。音频以立体声格式以48kHz的采样率记录。4.2. 实验装置数据拆分。我们将视频片段分为三个部分:3,329人用于培训,415人用于验证,423人用于测试。我们进一步将视频片段分解为多个1秒视频片段作为训练和测试样本,得到227,810个用于训练的样本,27,779个用于验证的样本和28,672个用于测试的样本。为了收集用于评估的无偏测试集,我们使用AmazonMechanical Turk(AMT)在每个测试样本的中间框架需要注意的是,手动标记的测试数据仅用于评估,而不用于任何模型训练。评估指标。为了评估我们的方法,我们使用了传统的目标检测评估指标,平均精度(AP)。我们报告了IoU为0.5和0.75时的AP,以及IoU阈值为0.5至0.95时的平均AP,0.05的间隔。我们使用预测框的中心点来测量x和y坐标上的定位精度。具体地说,假设(Px,PY)是最接近地面实况盒(GX,Gy)的预测盒的中心点,我们定义x的中心距离(CDy坐标为CD=1ΣK|Px−Gx|/w和xKi ii iCDy= 1K|P y− Gy|/h,其中K是总数在上述范围内的6个摄像机角度。 在在图3的前三行中,我们在数据集中展示了15个不同的场景。至于最后两行,它们中的每一行都显示了相同场景的5个随机选择的角度。在视频拍摄过程中,我们避开了在场景中不发出任何声音的停放车辆。我们还排除了包含两辆以上车辆的视频片段,因为多辆车检测仍然具有挑战性。因此,在数据集后处理之后,原始视频被裁剪成3,243个短视频剪辑(总共约3小时),其中包括2负号表示俯仰角向下,旋转角向左。基伊伊地面实况框的,w和h是宽度和高度的视频。实施详情。我们训练StereoSoundNet 60个epoch,初始学习率为0.0001,每20个epoch除以10。 批量大小设置为80,我们使用具有0.0005的权重衰减和0.9的动量的随机梯度下降优化。在教师和学生网络的最后一个特征图上实现特征对齐损失,并且将边缘超参数设置为0.2。总损失是特征对齐损失和对象检测损失的总和,它们在训练期间具有相同的权重。7058方法AP@平均值AP@0.5AP@0.75CDxCDyYOLOv242.3979.5441.626.46%2.55%随机0.000.000.0033.44%百分之二十六点零九波形5.8723.140.9115.63%5.18%单11.8038.573.31百分之十四点四九4.68%无特征对齐21.5557.4710.01百分之十点八二4.06%无元数据9.4527.763.43百分之十三点七九12.26%我们21.5557.4710.1310.53%3.98%我们的(w跟踪)25.0560.7015.967.76%3.75%表1.从平均精度(AP)和中心距离(CD)两个方面比较了两种方法的跨通道听觉定位结果。AP数越高,结果越好。较低的中心距离(CD)数字表示更好的结果。数 据 集 中 的 所 有 视 频 均 为 24 fps , 分 辨 率 为1280×720。每个训练或测试样本是包含24帧和1秒立体声的1秒视频片段。 为了生成频谱图,我们首先用其最大值对原始波形进行归一化,然后在归一化波形上计算窗口大小为1024、跳长为256的STFT。我们进一步在具有80个频率仓的Mel频率标度上对其进行重新采样,从而产生声音的187×80时频(T-F)表示。我们将频 谱 图 和 RGB 帧 的 大 小 分 别 调 整 为 256×256 和416×416。元数据被归一化为[0,1]以进行稳定的训练。4.3. 基线为了评估我们的框架,我们将替代方法作为基线进行比较的车辆单个多AP@平均值26.5311.58AP@0.570.1232.06AP@0.7512.615.21表2.单车辆和多车辆的听觉车辆定位结果的平均精度(AP)和中心距离(CD)。较高的AP数表示较好的结果。较低的中心距离(CD)数字表示较好的结果。由教师视觉子网络生成的边界框。4.4. 实验结果• 随机:我们在帧内随机抽取1或2个大小随机的盒子作为听觉车辆检测结果。• 单声道声音:对于每个音频片段,我们简单地将两个声道添加到一个声道中,将它们转换为一个频谱图,然后将它们馈送到音频子网络。我们维护的其他部分与Stere-oSoundNet相同。• 原始波形:我们应用SoundNet [5]架构,将原始立体声波形作为输入,而不是从音频中提取频谱图。我们训练SoundNet使用对象检测损失和特征对准损失。• W/O元数据:我们使用相同的基于编码器-解码器的框架。我们首先使用10层CNN将频谱图编码为向量,然后使用去卷积网络将向量映射到对象边界框。与StereoSoundNet类似,我们也使用对象检测损失和特征对齐损失来训练音频子网络。• W/O特征对齐:我们排除了音频子网训练过程中的特征对齐损失。因此音频流直接学习回归4.4.1结果分析结果与基线方法的比较见表1。除非另有说明,否则报告的结果不考虑跟踪后处理。从表中可以清楚地看出,当我们的跨模态听觉局部化用对象检测损失和特征对准约束两者来训练时,它优于所有仅音频基线。使用跟踪后处理进一步提高了AP的性能,并且还导致更一致和平滑的跟踪。基于Oracle Vision的YOLOv2在AP@0.5方面取 得 了 79.54% 的 成 绩 。 我 们 的 Stere-oSoundNet仍然有大约20%的性能差距。我们认为更多的训练数据和更好的麦克风可能会进一步缩小差距。我们把这些留给未来的工作。文中还分别给出了单车和多车情况下的计算结果.结果示于表2中。虽然在多车辆情况下性能下降,但仍然能够产生令人信服的定位预测。这些结果表明,跨模7059态听觉局部化可以隐式地执行声音分离,然后同时定位不同的运动车辆。7060下降,而在左通道上观察到相反的趋势。方法MOTA↑ID开关↓碎片↓FP↓FN↓我们13.9%11001318997413462我们的(w跟踪) 百分之十八点七954502901612868表3.根据跟踪指标比较结果。“↑”表示越高越好,“↓”表示越低越好。图4.一个视频片段的跨模态听觉定位结果及其对应的输入频谱图的可视化4.4.2频谱图与原始波形我们还比较了两种声音表征(即,频谱图和原始波形),其通常用于交叉模态学习的上下文中。我们使用在大规模音频数据集上预训练的SoundNet [5]作为音频子网络的基础模型,然后在我们的汽车跟踪数据上对其进行微调。表1中的结果表明,声谱图声音表示明显优于原始波形格式。我们推测,频谱图倾向于更直接地捕获音频中包含的频率差,这对于仅使用声音的车辆定位至关重要。4.4.3Mono Sound v.s. 立体声我们进一步研究了立体声是否是必要的跨模态听觉定位学习如何本地化目标。具体来说,我们在表1中比较了用单声道声音训练音频子网络的基线.我们简单地将两个立体声声道相加,然后将其转换为声谱图。我们观察到,在AP得分方面,单声道声音的结果明显比立体声声音差。我们还观察到,仅仅基于音量随时间的变化来预测来自左侧或右侧的车辆是不可能的这表明立体声为定位提供了更强的监督。在图4中,我们还可视化了输入频谱图和相应的立体声定位结果。在视频的开头,画面的右侧有一辆汽车,可以清楚地观察到右声道的声谱图的幅度当汽车向左侧移动时,右声道的振幅4.4.4跟踪性能为了衡量跟踪性能,我们杠杆年龄多目标跟踪精度(MOTA),身份开关(ID Sw.),片段(Frag.),假阳性(FP)和假阴性(FN)作为评估指标[10,25]。对于没有跟踪后处理的基线,我们随机为每个框签名一个ID,因为这样的基线不能预测ID。结果如表3所示。使用定位后处理实现更好的MOTA和ID SW。这显示了它在检测物体和保持它们的轨迹方面的优越性。值得注意的是,随机ID分配是一个强大的基线,因为它不会导致ID开关下的单车条件。更好的碎片,FP和FN,这是独立于ID分配,表明跟踪后处理,我们的模型引起更少的切换从跟踪到不跟踪,更少的误报检测和更少的丢失对象。4.5. 灯光下的表演我们进行额外的实验,以评估我们的听觉对象跟踪是否仍然是强大的,在恶劣的光照条件下,传统的基于视觉的对象跟踪通常失败。我们首先在晚上收集5个视频,然后使用Amazon Mechanical Turk(AMT)在关键帧上标记对象定位进行评估。我们直接将白天数据训练的StereoSoundNet应用于夜间场景,无需任何微调。结果报告于表4。视觉跟踪系统在这些场景中失败并不奇怪,因为基于视觉的算法对光线不好非常敏感。然而,我们观察到,我们的跨模态auditory定位保持强大的跟踪性能,与基于视觉的系统相比。我们也想象方法AP@0.5随机0.00Yolov 2(视觉)6.78我们的(音频)30.88表4.听觉车辆定位结果在平均精度(AP)方面在较差的照明条件下AP数越高,结果越好汽车:0.901汽车:0.8947061汽车:0.794汽车:0.765汽车:0.832汽车:0.741汽车:0.861汽车:0.858汽车:0.894汽车:0.887汽车:0.758汽车:0.748汽车:0.875汽车:0.911汽车:0.754汽车:0.675汽车:0.781汽车:0.574汽车:0.901汽车:0.772汽车:0.542视觉跟踪声音跟踪汽车:0.753视觉跟踪声音跟踪汽车:0.764汽车:0.524汽车:0.892视觉跟踪声音跟踪汽车:0.864视觉跟踪声音跟踪(a)不同场景下的跨模态听觉定位结果。(b)视觉目标定位系统的故障案例。图5.视觉目标定位系统在不同场景下的跨模态听觉定位结果和常见故障实例的可视化w元数据无元数据AP@平均值12.240.00AP@0.542.790.00CDx百分之十点一七43.53%CDy5.02%35.23%表5.车辆听觉检测系统的推广。较高的AP数表示较好的结果。较低的中心距离(CD)数表示较好的结果。图5中有一些有趣的例子。更多追踪结果可在演示视频中查看。4.6. 小说场景使用摄像机元数据进行听觉车辆定位的一个好处是,它允许更好地推广到新场景,因为元数据可以明确地提供摄像机在捕获视觉参考系时的位置。在表5中,我们通过比较新场景的性能来探索我们的听觉对象检测系统的泛化具体来说,我们将15个场景中收集的视频分成两个不相交的部分:10个场景用于训练,另外5个场景用于测试。注意,测试数据的相机镜头可以与训练数据不同我们观察到,在有关摄像机高度和角度的先验知识的帮助下,泛化能力可以得到显著提高。4.7. 可视化我们在图5(a)中可视化了在不同场景下使用不同相机位置的一些跨模态听觉定位该图表明,我们的Stere-oSoundNet在不同场景中具有不同的摄像机角度,仅使用立体声和摄像机元数据作为输入。图5(b)显示了我们在数据集中发现的一些有趣的案例,由于遮挡,背光,反射和恶劣的照明条件,视觉对象我们提出的跨模态听觉定位系统具有很好的潜力,以协助在这些情况下的图像质量不太理想的对象的视觉定位5. 结论在这项工作中,我们利用立体声进行跨模态听觉定位。我们创建了一个新的听觉Ve- hicle跟踪数据集,该数据集由超过3000个视频剪辑组成我们还提供了一个自动定量的方法来评估模型和结果。为了解决这个具有挑战性的问题,提出了一种新的基于学生-教师的网络,它可以成功地将知识从基于视觉的对象检测网络转移到声音模态。新的听觉车辆跟踪算法也证明了它在弱光条件下增强视觉跟踪系统的潜力。未来的工作领域包括将我们的方法扩展到更多的同时场景和更多不同种类的对象。7062引用[1] S. Albanie,A.Nagrani、A.Vedaldi和A.齐瑟曼。在野外使用跨模态转移的语音中的情感识别。ACM多媒体,2018年。2[2] S. Albanie,A.Nagrani、A.Vedaldi和A.齐瑟曼。在野外使用跨模态转移的语音中的情感识别。在2018年ACM多媒体会议上,MM 2018,韩国首尔,2018年10月22日至26日,2018年第292-301页。2[3] R. Arandjelovic和A.齐瑟曼。看,听,学。2017年IEEE国际计算机视觉会议(ICCV),第609-617页2[4] R. Arandjelovic和A. 齐瑟曼。会发出声音的物体。ECCV,2018年。2[5] Y. 艾塔尔角Vondrick和A.托拉尔巴Soundnet:从未标记的视频中学习声音表示。神经信息处理系统的进展,第892-900页,2016年。二六七[6] Y. 艾塔尔角 Vondrick和A. 托拉尔巴 你看听,读:深 度 对 齐 表 示 。 arXiv 预 印 本 arXiv : 1706.00932 ,2017。4[7] J. Ba和R.卡鲁阿纳 深网真的需要深吗?NIPS,第2654-2662页,2014年。2[8] Y. 班,X。阿拉米达-皮内达湖Girin,R.霍罗德多说话人视听跟踪的变分贝叶斯推理。arXiv预印本arXiv:1809.10961,2018。2[9] Z. Barzelay和Y. Y.谢克纳 和谐的运动 在CVPR,2007年。2[10] K. Bernardin和R. Stiefelhagen评估多目标跟踪性能:明确 的 MOT 指 标 。 Journal on Image and VideoProcessing,2008:1,2008. 7[11] M. Brandstein和D.病房传声器阵列:信号处理技术与应用。Springer Science Business Media,2013. 2[12] L. Castrejon,Y. 艾塔尔角 Vondrick,H. Pirsiavash,以及A.托拉尔巴从弱对齐数据中学习对齐的跨模态表示。arXiv预印本arXiv:1607.07295,2016年。2[13] A. 埃弗拉特岛莫塞里岛朗,T.Dekel,K.Wilson,A.哈-西迪姆,W。T. Freeman和M.鲁宾斯坦在鸡尾酒会上看名单:一种用于语音分离的与说话者无关的视听模型。ACM Transactions on Graphics(TOG),37(4):112,2018。3[14] J. W. Fisher III,T. Darrell,W. T. Freeman,和P. A.紫.大学习联合统计模型的视听融合和分离。NIPS,2001年。2[15] C.甘湾龚,K. Liu,H. Su和L.吉巴斯Geome- try引导卷积神经网络用于自监督视频表示学习。在CVPR中,第5589-5597页,2018年。2[16] C. Gan,T. Yao,K. Yang,Y. Yang和T.美.您引领,我们超越:通过共同开发网络视频和图像来进行免费视频概念学习。在CVPR中,第923-932页,2016年。2[17] R.加奥河,巴西-地Feris和K.格劳曼通过观看未标记的视频学习分离物体声音。ECCV,2018年。3[18] R. Gao和K.格劳曼2.5 d视觉声音。CVPR,2019年。2[19] S. Gupta,J. Hoffman,and J.马利克监督转移的交叉模态提取。在CVPR,第2827-2836页,2016年。2[20] J. R. Hershey和J.R. 莫维兰视听:利用视听同步来定位声音.NIPS,2000年。2[21] G. Hinton,O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv:1503.02531,2015。2[22] H.伊扎迪尼亚岛Saleemi和M. Shah.多模态分析用于运动发 声 目 标 的 识 别 和 分 割 。 IEEE Transactions onMultimedia,15(2):378-390,2013。2[23] J. J. Leonard和H.F. 杜兰特-怀特移动机器人导航的定向声 纳 , 第 175 卷 。 Springer Sci-ence Business Media ,2012. 2[24] X. Li,Y.班湖Girin,X. Alameda-Pineda和R.何罗。 混响环境中多个移动扬声器的在线定位和跟踪。arXiv预印本arXiv:1809.10936,2018。2[25] Y. Li,C. Huang和R.奈瓦提亚学会联想:用于拥挤场景的多目标跟踪器。在2009年IEEE计算机视觉和模式识别会议上,第2953-2960页,2009年6月。7[26] P. Morgado,N. Nvasconcelos,T. Langlois和O.王. 360度视频空间音频的自我监督生成。在NIPS,第360-370页,2018年。2[27] A. A. Nugraha、A.Liutkus和E.文森特使用深度神经网络的多通道音频源分离IEEE/ACM Transactions on Audio,Speech , and Language Processing , 24 ( 9 ) : 1652-1664,2016. 2[28] A. Owens和A.A. 埃夫罗斯具有自我监督多感官特征的视听场景分析ECCV,2018年。2[29] A. Owens,J. Wu,J. H.麦克德莫特W. T. 弗里曼和A.托拉尔巴环境声音为视觉学习提供监督。ECCV,第801-816页,2016年。2[30] J.雷德蒙,S.迪夫拉河,巴西-地Girshick和A.法哈迪。你只看一次:统一的实时物体检测。在CVPR,第779-788页,2016年。3[31] J. Redmon和A.法哈迪。YOLO9000:更好、更快、更强。在CVPR中,第6517-6525页,2017年。三、四[32] A. Rouditchenko,H. Zhao,C. 甘,J.麦克德莫特,和A.托拉尔巴 自监督视听共分割。在ICASSP,第2357-2361页,2019年。3[33] T.N.塞纳特R.J.外斯K.W.威尔逊B. 李鹏说,A. Narayanan,E. Variani,M.巴基亚尼岛Shafran,A.先生,K。Chin,et al.使用深度神经网络进行多通道信号处理,用于自动语音识别。IEEE/ACM Transactions onAudio,Speech,and Language Processing,25(5):965-979,2017. 2[34] A.萨尔瓦多Hynes,Y. Aytar,J. Marin,F.奥夫利岛We-ber和A.托拉尔巴学习烹饪食谱和食物图像的跨模态嵌入。培训,720:619-508,2017。2[35] A. Senocak,T.H. 哦,杰。金,M.-H. 杨和我S. 奎恩学习在视觉场景中定位声源在CVPR,2018年。27063[36] R. Socher,M.甘朱角D. Manning和A.Ng. 通过跨模式迁移实现零镜头学习神经信息处理系统的进展,第935-943页,2013年2[37] S. Teng,V.R. Sommer,D. Pantazis和A.奥利瓦听证会现场:听觉源和混响空间分离的神经磁特征。eNeuro,4(1):ENEURO2[38] A. A. 发 条 人 二 . 声 纳 系 统 技 术 IEEE Transactions onSonics and Ultrasonics,22(5):291-332,1975。2[39] H. Zhao,C. Gan,W.- C. Ma和A.托拉尔巴运动的声音。ICCV,2019。3[40] H. Zhao,C. Gan、A.鲁迪琴科角Vondrick,J. McDer-mott和A.托拉尔巴像素的声音。ECCV,2018年。二、三
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功