以自我为中心的深度多通道视听主动说话人定位

118 浏览量更新于2023-10-25 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10544×以自我为中心的深度多通道视听主动说话人定位姜浩，卡尔文·默多克，瓦姆西·克里希纳·伊塔普现实实验室研究在Meta{haojiang，cmurdock，ithapu} @ fb.com摘要增强现实设备有可能增强人类感知，并在复杂的对话环境中实现其他辅助有效地捕捉理解这些社交互动所需的视听背景这些任务由于其以自我为中心的性质而具有挑战性：佩戴者的头部运动可能导致运动模糊，周围的人可能出现在困难的在这些条件下，现有的有源说话人检测方法不能给出令人满意的结果。相反，我们从一个新的设置使用视频和多通道麦克风阵列音频来解决问题。我们提出了一种新的端到端深度学习方法，能够提供鲁棒的语音活动检测和定位结果。与先前的方法相比，我们的方法从球体上的所有可能的方向定位有源扬声器，甚至在摄像机实验结果表明，该方法具有较好的实时性，对噪声和杂波具有较强的鲁棒性。1. 介绍从自我中心的角度理解会话上下文和动态对于创建真实和有用的增强现实（AR）体验至关重要。这些属性表征给定场景中的多个说话者与AR设备佩戴者的交互（即，ego）。这样的设备的示例可以包括具有向外看的相机和麦克风的眼镜，使得从佩戴者的视角捕获视听数据对这些属性进行建模不仅涉及检测和跟踪场景中的人，还涉及定位对话中的语音活动。在这项工作中，我们专注于主动扬声器定位（ASL）的任务，其目标是检测所有主动扬声器的时空位置内和外的摄像机密切关注-图1.我们新颖的多通道视听深度网络可以从球体上的任何方向定位有源扬声器，甚至可以在摄像机的视野之外。这里，预测的活跃说话者概率热图在图像（行1、3）和语音图（行2、4）的红色通道中示出。这些语音地图是球体的360 × 180圆柱形2D投影，其中每个像素对应于设备佩戴者的局部3D坐标系中的方向地面实况活动扬声器在头部边界框下方显示为紫色条，在语音地图中显示为蓝色点，而我们的方法覆盖的文本指示地面实况（紫色）和预测的（黄色）佩戴者语音活动检测。与主动说话人检测（ASD）问题相关，主动说话人检测涉及从自我中心的角度估计语音的相对到达方向在本文中，主动说话者通常对应于说话和“驱动”对话的人我们提出的自我中心ASL问题的要素如图所示。1.一、一个好的ASL系统需要从自我中心的角度考虑说话者的方向变化，并且对说话者移入和移出视野是鲁棒的。特别是，自然对话需要不同说话者的语音活动之间的显著重叠10545服用这样的系统还应当理想地与麦克风通道的数量无关，从而允许推广到具有不同数量的音频和/或视觉通道的不同AR设备。注意，设备佩戴者也可以是在对话期间的主动发言者，其语音由于其靠近设备麦克风而被自然放大。ASL系统必须考虑这种可能使场景中的竞争活动说话者无效的错误放大在这项工作中，我们提出了一种实时视听ASL系统，该系统解决了这些方面，以通过利用从安装在设备上的麦克风阵列记录的音频来有效地定位可能在视觉FOV之外的活动扬声器我们提出了一种新的端到端深度神经网络，经过训练可以解决这个问题。我们的网络分为两个分支：音频网络和视听网络。音频网络通过利用跨不同通道的时空相关性来构建用于构建具有全360°然后，视听网络将提取的音频特征与相应的视频帧相结合，从而为相机的FOV产生更高分辨率的活动图视觉线索，如人最终的360度活动扬声器图是低分辨率仅音频图和高分辨率视听图的组合。此外，设备佩戴者语音活动检测器共享来自音频网络的特征，并且我们的模型从自我中心的角度估计场景中扬声器的相对3D取向所提出的网络还针对沉浸式驱动的AR领域中的实时应用最后，缺乏可靠的多通道常规数据集是构建野外ASL系统的另一个限制因素。为此，我们使用一个名为EasyCom[18]的最近的以自我为中心的对话数据集来构建和评估我们的方法。我们的贡献是：1. 我们提出了主动说话人局部化（ASL）的新问题，使用自我中心的多通道音频和视频来预测听觉场景中所有主动说话人的相对位置。2. 为了解决这个问题，我们提出了一个实时自我中心的视听系统，具有完整的360度视野。我们新颖的多通道视听深度网络可以有效地从不同的音频特征和麦克风阵列中学习，而无需结构变化。3. 我们在EasyCom数据集上评估了我们的方法，并证明与以前的视听ASD方法相比，结果有了显着改善。1.1.相关工作单通道和多通道声源检测和本地化问题已经由语音和音频信号处理团体进行了经典研究[11，20，21]。这些工作中的大多数是基于源分离和语音活动检测，并且它们主要假设在音频流中存在支配其他人的一个说话者（即，高信噪比）。这些方法的主要特点是在不同通道之间建立自相关和互相关函数，以计算麦克风放置引起的定时和电平差异。然而，这些方法对室内声学和噪声背景敏感，并且当存在多个源时可能不可靠。最近，机器学习已被用于方向估计，并取得了一些成功[12，13，19，29]。虽然这些方法改进了传统的方法，但缺乏视觉信息限制了这些系统在真实世界环境中的功效。此外，大多数多通道方法假设固定的、静止的麦克风阵列，这可能导致在以自我为中心的设置中移动阵列的性能差。计算机视觉社区已经看到了视听学习研究的激增，特别是由于AVA语音和活动语料库[22]，Voxconverse[23]和Voxceleb [24]等数据集。这些方法是通过在音频和视觉模态之间建立对应关系来驱动的，从而产生鲁棒的联合表示，其改进了它们的仅音频或仅图像对应物。对于动作和活动识别，一些研究表明，音频消除了某些视觉模糊的线索[27，28]。视听模型已被探索用于语音识别[25]、声源检测[8-大量的视听学习模型遵循一个简单的配方：音频输入转换为频谱图图像，然后与视频帧联合处理。除了传统的网络架构之外，还提出了Transformer网络用于单通道有源扬声器检测[14]。最近，话轮转换也被研究为提高检测性能的一种手段[16]。一个相关的问题是语音分离，它通过使用音频和裁剪的面部图像来挑选出说话者增强语音的话音能量然后可以用于检测活动说话者。尽管已经被广泛研究，但是由于大量的设备运动、遮挡、说话人面部的可见性降低大多数当前方法还在检测中引起显著的延迟，这对于实时AR体验将是无效的。10546克雷蒂安k=0我∈ −∈ − ∈ −AVA一k=0k=0ep（n），其中ep（n）是α，β在偏心设置单通道视听定位最近受到了广泛关注[3，8由于缺乏多个通道，定位以类似于传统视觉对象定位的方式被限制到图像帧。这些方法要么使用类似于主动说话人检测的音视频联合嵌入，要么训练音视频联合分类模块作为模态融合的骨干。为了训练多通道AV特征，提出了一种自监督方法，用于使用目标帧周围的音频进行面部定位，其中来自同一视频的另一部分的参考帧作为输入[31]。然而，这的360度版本需要全景图像和对准的音频球形谐波。这两个都是限制性的，在我们的AR问题设置中不可用在[2]中，作者提出了一种可以处理双耳（双通道）音频以进行声源定位的视听模型。然而，该系统不能扩展到多通道设置，并且仅限于定位视野内的目标。2. 以自我为中心的主动说话人定位考虑到使用带有麦克风阵列和RGB相机的AR眼镜捕获的多通道视听数据，2.1. 音频表示在本文中，我们考虑了三种音频表示，并设计了我们的深度网络，以便它可以以相同的方式将这些不同的表示与视频一起作为输入我们的实验表明，这些音频表示比原始音频更强。这些不同的音频表示具有适合于不同用例的不同属性。我们的第一个音频表示是从复杂的频谱图表示[2]改编的。对于采样率为48kHz的音频和20Hz的视频帧速率，我们计算短时傅立叶变换（STFT）并提取100个长度为200的离散傅立叶变换（DFT）以与每个视频帧对齐来自所有通道的DFT的实部和虚部沿着深度轴堆叠在一起以形成多通道2D张量。此外，我们还提出了一种2D音频表示，它捕获了所有音频通道对之间的互相关。与声谱图不同，这种表示主要是说话人不变的。假设音频样本n与时间t处的视频帧的时间戳匹配，则通道p和q之间的互相关被定义为：K[Ap（n-k）Aq（n-k+m）]、将自我中心的ASL问题定义为检测，- 包括设备佩戴者的语音活动的场景中的所有活动说话者的时空定位让Cp，q（n，m）=k=0Ap（n−k）2）克雷蒂安Aq（n-k+ m）2）Ai，其中（i = 1.. N）表示经由N通道麦克风阵列捕获的音频信号，并且I表示来自RGB相机的视频。基于音频样本的最大比特长度，将音频信号归一化到范围[-1，1]。在每个时刻t，给定一段音频At和相应的视频帧It，我们估计两个输出：场景和设备中活动的热图Vt配戴者活动试验其中m[L，L]，K和L是超参数。在实验中，音频信号采样率为48kHz ， K=1200 ，L=50。在离散格式中，Cp，q（n，m）是在每个时间n的长度为2L +1的向量，其表征了由于不同的音频通道而导致的不同音频通道的时移。进入声音传输的路径以及其他细粒度的通道耦合。由此，我们在每个时间n处构造2D音频表示，其是所有音频的堆栈。W. Vα，β是一个二维矩阵，其中每个元素估计给出了声源存在的概率，向量Cp，q（n，m），对于每个（p，q）对。在时刻t的特定相对角度（α，β），其中α[ 180，180]和β[ 90，90]分别对应于方位角（水平）仰角（垂直）。虽然我们音频的短时能量是一个不变的特征易于声源识别和计算。因此，我们还包括一个单独的措施，从每个能量音频通道，Ep（n）=（K Ap（n-k）2）0。五、用这个图2示出了所提出的以自我为中心的ASL框架。我们的方法是一种端到端的深度学习模型，它将原始音频和视频作为输入，并直接估计活跃的说话者活动热图（V）和佩戴者该框架有两个网络：音频网络级联（）和视听网络级联（）。转换原始多声道音频并压缩与每个视频帧对齐的2D表示，然后使用该表示来提取相关特征，卷积神经网络来估计场景中的源的到达估计的方向。AV然后利用来自A的输出，并使用另一个网络合并视觉信息。然后将A和AV的结果输出组合以计算V和W。将Ep（n）复制2L+1次，形成二维能量图。这些特征也可以组合以形成更丰富的表示。图3示出了组合的互相关和能量特征如何对应于视频中的音频事件。进一步调整互相关、能量和组合的2D特征的大小。在本文中，宽度和高度调整为128。2.2. 音频活动网络音频活动网络预测设备佩戴者的粗略360kHz其结构如图4所示。特征提取网络改编自ResNet18网络的前几层，其系数在ImageNet上进行了预训练在这项工作中，所提出的框架适用于任何感兴趣的声音。我们堆叠10547××图2.自我中心多通道视听定位。我们的端到端深度网络可以同时检测360kHz的语音活动地图和佩戴者音频表示图3.奇数列：视频帧覆盖语音活动标签。偶数列：音频互相关和能量特征图的垂直堆栈。第一卷积层被修改以匹配不同音频表示的通道数量。特征提取网络将音频2D表示映射到量化场景中音频信号的空间和语音特性的紧凑特征。提取的特征被展平并传递到两个完全连接的层，这是进一步重塑两个9045地图。这两个映射被堆叠并调整大小为180 90one-hot表示，其大小为完整360MHz音频活动映射的一半。因此，该网络以2μ m的角分辨率预测来自每个方向的语音活动概率。这里的一个重要设计是生成热图的one-hot这给出了比使用L1或L2损失直接回归音频活动的单个热图更稳定的像素级回归网络将具有更大的搜索空间，因为自由度增加导致训练不稳定。音频活动图还用于同时估计佩戴者由于佩戴者的嘴相对于麦克风的空间位置和佩戴者的声音的响度，由音频定位网络学习的2D特征表示还提供用于检测设备佩戴者是否正在说话的为了实现这一点，音频特征提取与360MHz音频映射预测共享，并且佩戴者语音活动检测由单独的头部执行，该头部由两个完全连接的层组成，该层被训练用于预测具有交叉熵损失的概率。一热音频活动360度地图图4.音频活动网络。2.3. 视听网络由于只有多声道音频可用于扬声器本地化，空间分辨率较低。这是由于声音传播的固有物理特性和紧凑型麦克风阵列的限制。因此，我们还利用视频帧来进一步改进估计结果。图像不仅增加了空间分辨率，而且还提供了与语音活动相关的额外信息线索，例如嘴巴运动，面部表情和手势。在本文中，我们提出了一种不同的方法来融合音频和视频信息，从以前的视听方法：我们直接堆叠视频帧与估计的语音活动地图从音频网络。由于来自音频网络的粗略360度语音映射是在单位球面上定义的，并且网格是水平和垂直角度，因此我们需要一个过程来将音频映射与相应的视频帧对齐。即使我们可以将语音地图中的每个网格映射到图像，我们发现一个更简单的裁剪-佩戴者语音活动检测N-channel Audio音频表示音频特征CNN足球俱乐部重塑和调整大小360度语音图谱作物调整大小360-语音活动度图堆栈A/V FCN图像语音图谱在FOVResNet18ConvBnReluMaxPool层1、2、3、4平均池变平FCFCFC输入：512，输出：4050输入：512，输出：4050输入：512，输出：512重塑重塑FC(45（45，90）输入：512，输出：2Concatenate佩戴者语音活动调整大小10548××HB（p）Conv2D、Bn、ReLu（p，p），3x3，1 1Conv2D、Bn、ReLu（p，p），3x3，1 1+，ReLuConv2D、Bn、ReLu（p，p），3x3，1 1Conv2D、Bn、ReLu（p，p），3x3，1 1+，ReLu视频帧AudioNet输出猫SoftmaxConv2d第一（4，64），7x7，2 3作物BN调整大小MaxPool2D（3，Conv2dUpS(64，5），3x3，11乙类（64）Conv2dUpS(64，5），3x3，11C（64，128）Conv2dUpS猫(128，5），3x3，11C（128，256）Conv2dUpS(256，5），3x3，11C（256，512）Conv2dUpS(512，5），3x3，11独热语音活动地图在FOVConv2d(25，2），3x3，11图5.视听网络。块B（p）和C（p，q）在图1中定义六、对于2D卷积层，参数为输入通道号、输出通道号、卷积核大小、步幅和填充。对于maxpool层，参数是池化内核大小，步幅和填充。图6.视听网络中的剩余块。由于音频映射的低分辨率，所以ping和缩放方法是足够的更具体地说，我们在对应于图像四个角的水平和垂直角度内从音频映射中裁剪区域缩放过程然后对该区域进行上采样，使得FOV中的音频映射与输入视频对齐。这些歌剧都被纳入视听网络。如图5所示，融合的音频图和对应的颜色视频帧形成深度为4的张量，该张量被发送到全卷积网络以估计摄像机视野中的细化语音活动图在本文中，视频分辨率为640 360。有了这样的设计，如果面孔是可见的，音频-视觉网络能够利用诸如嘴部外观和面部表情的图像特征来定位音频活动。由于其广泛的有效感受野，所提出的网络还可以学习提取其他视觉特征，如身体姿势。与以前的方法不同，如果人脸不可见，我们提出的方法仍然可以起作用，因为音频活动图给出了场景中潜在说话者的位置。我们结合了粗略的360度全景热图和FOV中更详细的热图在本文中，我们简单地将FOV外部的粗略360° C热图加倍，并将精细热图和粗略360° C热图添加到FOV内部以生成最终估计。2.4. 模型训练我们分两个阶段训练网络。在第一阶段中，我们在没有佩戴者声音活动分类网络的情况下，将仅音频和视听网络一起训练。在第二阶段，我们固定音频特征层360°全景声图和FOV中的声图在地面实况中的表示方式不同。360度语音地图是一个180度90度的2D地图。如果存在位于（α，β）处的说话者，则地面实况语音地图具有以该点为中心的半径为5这种标签是统一的，视野内外的区域。相比之下，FOV中的语音图具有与视频帧相同的大小，并且视场中的活动说话者被标记为覆盖说话者头部的实心矩形因此，在FOV内，检测还具有与目标的深度相关的尺寸属性。训练损失定义如下。第一和第二级损失函数定义为：La=H（ya，y≠360）+H（yav，y≠fov），L b=H（yw，yw）其中，是平均交叉熵，y a和y av是仅音频网络和视听网络的独热输出表示，yb360和yv 360 v是它们对应的地面实况音频图，y w是佩戴者语音活动预测，并且yw是其地面实况标签。训练过程通常在5个时期内快速收敛。3. 实验结果在本节中，我们在真实视频上评估了所提出的方法，并将其与不同的视听方法进行了比较，用于主动说话人检测和佩戴者语音活动检测。由于我们考虑的是一个新的以自我为中心的问题设置，因此没有以前的视听方法，C（p，q）Conv2D、Bn、Conv2D、Bn、（p，q），3x3，2 1（p，q），3x3，2 1Conv2D、Bn、ReLu（q，q），3x3，1 1+，ReLuConv2D、Bn、ReLu（q，q），3x3，1 1Conv2D、Bn、ReLu（q，q），3x3，1 1+，ReLu10549·直接适用。为了比较，我们调整我们的多通道音频和视频输入，以其他方法来解决类似的问题。我们还比较了所提出的方法的变化，以证明我们的设计选择。3.1. 评估数据集我们使用EasyCom [18]数据集来评估我们的方法，EasyCom [18 ]数据集是一个多通道视听数据集，包括模拟嘈杂环境中约6小时的以自我为中心的使用麦克风阵列和安装在一副眼镜上的RGB相机记录数据集。EasyCom是一个具有挑战性的数据集，具有显著的背景噪声，快速的头部运动和运动模糊。参与者可能在场景中坐着或走来走去，并且由于遮挡，他们有六个麦克风用于录音：四个固定在眼镜上，两个放在参与者的耳朵里。在本文中，我们使用RGB自我中心的视频与多声道音频从四个固定的麦克风在我们的实验。该数据集有12个视频会话，每个会话约30分钟，包括相机佩戴者在内的4-6个参与者。我们使用会话1-3进行测试，其余9个会话用于培训。为了公平比较，我们报告了所有经过训练的计算模型的最佳数字，直到在足够多的时期后收敛。3.2. 评价方法我们比较了所提出的方法在不同的变量对其他主动说话人检测和定位方法。评价的方法包括：我们的AV（）：我们方法的变体，包括特征表示的不同组合（cor：交叉相关，eng：能量，spec：频谱图，box：头部边界框）。在使用头部边界框的变体中，我们将检测到的头部区域之外的背景颜色我们还评估了我们的方法的仅音频和仅视频版本，其中视频或音频分支从我们的完整模型中删除。DOA+头盒：一种最先进的信号处理方法[20]，用于从眼镜上的4个麦克风中提取球面到达方向（DOA）能量图这种DOA估计方法的设计，以实现更强大的结果，在高度混响的设置相比，以前的信号处理音频本地化方法。为了检测视野中的活动扬声器，我们将DOA图的与检测到的头部边界框内的方向相对应的区域合并。如果DOA图准确地估计声音到达方向，则对应于活动说话者的头部边界框将包括更高的能量值。DOA+image：一种经过训练的深度神经网络，使用传统信号处理DOA图[20]和视频帧作为输入。该网络是完全卷积的，与我们方法中的视听网络具有相同的结构AV-radio：使用多通道原始音频和视频作为输入进行训练的深度神经网络。除了使用1D卷积层提取音频特征外，整个网络架构与我们的方法相同。嘴部区域分类器（MRC）：一种仅用于对来自68点面部关键点检测器提取的嘴部区域的裁剪图像的活动语音进行分类的视觉方法这样的方案已被普遍用于主动说话人检测。训练ResNet18网络来对裁剪的嘴部图像进行分类。我们测试了两种情况：使用AVA主动说话人检测数据集训练的MRC（AVA）[22]，以及仅在EasyCom上训练的MRC（EasyCom）TalkNet [14]：基于变压器的单通道视听主动说话人检测方法，在AVA主动说话人检测挑战中获得了最先进的结果。我们在两种模式下使用该方法：在AVA数据集上训练的TalkNet（AVA）和在EasyCom上训练的TalkNet（EasyCom）。BinauralAVLocation[2]：一种用于声源定位的双通道视听方法。由于这种方法无法轻松扩展到具有两个以上非对称麦克风的设置，因此我们在比较中仅使用来自两个正面麦克风的音频通道。3.3. 视图内活动扬声器检测（ASD）我们首先评估平均精度（mAP）在摄像机的视野内的活动扬声器定位检测。我们比较了多通道以及单通道和双通道视听方法和视觉方法。基于每个视频帧中的地面实况头部边界框内的分数来计算mAP。对于我们的方法和竞争方法DOA+头盒，DOA+图像，AV无线电，和BinauralAVLocation，我们提取每个地面真实头边界框中的语音热图的最大值，并将其用作检测分数。MRC和TalkNet方法使用相应流浆箱的分类概率作为检测分数。MRC和TalkNet都使用地面实况头部边界框进行测试。如表1所示，我们的方法比所有竞争方法给出更高的mAP。图7示出了定性比较结果。由于难以从原始音频中学习有用的特征，与频谱图和互相关音频特征相比，AV-radio给出了较差的结果。背景噪声也导致传统的仅音频信号处理方法给出模糊的DOA图和不准确的目标定位结果。将此DOA映射与视频帧相结合的DOA+图像深度学习方法提高了性能，但仍然比我们提出的10550图7.定性比较结果。黄色条表示预测一个人何时会说话，而紫色条则是相应的地面实况。图2、4：预测的360MHz语音图与蓝色通道中的地面实况进行比较第1，2节：我们的AV（corr）的结果。行3、4：DOA+头盒，行5：DOA+图像，行6：MRC（EasyCom），行7：TalkNet（EasyCom）。在第7行中，绿色框表示活动语音，而红色框表示不活动。法这强调了学习空间视听表示端到端的好处。我们的方法还提供了比以前的仅视频MRC和单通道视听主动说话人检测方法TalkNet更高的mAP，该方法在AVA数据集[22]和EasyCom数据集上训练。我们的方法在4通道和 2 通道音频设置中都大大优于BinauralAVLocation对于所提出的方法的不同变型，如表1所示，能量特征明显比其他两个特征差，而谱图特征给出稍好的mAP。互相关和能量特征仍然是有吸引力的，由于他们的说话人不变的属性，从而有潜力推广到更好的实际应用。互相关特性对麦克风增益设置也是不变的;这使得它在增益需要动态改变以获得最佳信噪比时非常有用。我们还将我们的仅音频和仅视频变体与完整的视听模型进行了比较。与我们的全视听方法相比，我们的AV（cor+mag+box）在mAP为86.32%的情况下，仅视频变体给出了低得多的mAP 58.44%，并且仅音频版本也给出了低得多的mAP 78.08%。Ours AV（corr+box）和Ours AV（corr+eng+box）的结果也表明，我们提出的方法可以通过去除头部检测之外的背景视觉信息来推广到不同的环境，这可能会改善结果。即使只有两个音频通道，我们的网络仍然给出了强有力的结果，优于设计用于平衡双耳音频对称性的BinauralAVLoc3.4. 球面主动说话人定位我们提出的方法的一个独特的属性是，它给出了一个完整的360度球面扬声器定位结果。由于在视场外没有头部包围盒，我们使用角度误差来衡量定位质量。该度量定义如下：我们首先使用非最大抑制在预测语音热图中提取检测到的目标位置。热图中值大于阈值的每个峰值都在10551佩戴者音频活动mAP我们的（cor）90.20我们的（cor+eng）90.13Ours（eng）88.89我们的（规范）91.69Ours（cor）-2ch87.66我们的（规格）-2ch90.14工程师（单通道）76.71AV无线电87.29表3.摄像头佩戴者语音活动检测。Eng（单通道）是使用短时能量进行佩戴者语音分类的朴素方法。数字显示百分比。表1.视野中mAP的比较。这些测试中的大多数使用4声道音频，除了我们的AV（cor）-2ch，我们的AV（spec）-2ch，BinauralAVLoc使用2声道音频，TalkNet使用单声道音频和仅视频MRC。数字显示百分比。在实验中，我们将阈值设置为0。热图中的位置指示方向的角度。我们计算从检测到的点到语音热图中的地面实况点的最小距离，其均值表示为E1。我们计算平均E1和它的标准de-sign冻结网络特征提取参数，同时只训练最后两个完全连接的层。相机佩戴者音频活动检测是一项新任务。我们在比较中构造了不同的自然解。表3总结了比较结果。如表3所示，我们提出的方法比竞争方法给出了更好的结果。共享特征设计实际上也给出了比训练单独的佩戴者语音分类模型更好的结果例如，我们使用交叉相关输入特征的方法给出了90.2%的mAP，但是如果我们重新训练单独的佩戴者分类器，则mAP为88.01%。这可能是标准品1。从地面实况点集到检测点集的对应度量是平均值E2和Std2。我们在两个方向上计算距离度量，以同时考虑遗漏检测和误报。由于不是所有的竞争方法都可以提供完整的360度球面定位结果，我们将我们的方法与使用传统DOA映射和原始音频输入的视听变化的如表2所示，我们的方法给出了最低的角度误差。平均E1 STD1平均E2 STD2我们的AV（cor）16.7712.636.568.77我们的AV（规格）8.819.636.216.89DOA129.82 18.2646.4521.50DOA+图像66.817.8936.488.97AV无线电40.1410.55 140.75 19.58表2.全360度球面语音活动定位误差的比较（以度为单位）。3.5. 佩戴者语音活动检测（VAD）所提出的方法的另一个独特的性质是，它可以同时检测佩戴录音眼镜的人的语音活动。我们的方法共享这两个任务的学习音频功能。在摄像机佩戴者语音网络的训练期间，共享特征去-与传统的信号处理方法相比，我们的方法需要更多的计算昂贵的GPU操作。然而，该方法仍然是有效的。它使用单个GTX2080Ti GPU以每秒超过180帧的速度实时运行，利用率约为50%。更多的优化也可以进一步提高网络的效率与传统的信号处理方法相比，所提出的方法也具有更小的延迟，传统的信号处理方法需要在更长的时间窗口上估计信号统计。虽然我们在实验中只使用4个麦克风，但所提出的方法可以很容易地扩展到具有任何阵列配置中的任何数量的麦克风的对于较大的麦克风阵列，所提出的方法有可能实现更好的结果。4. 结论我们提出了一种新的多通道视听方法来解决360度球面主动说话人检测问题，用于定位自我中心相机视野内和视野外的主动说话人实验结果表明，该方法具有较好的实时性和较短的延迟。它有可能实现许多有用的AR应用。ASL mAP我们的AV（cor）84.14我们的AV（cor+eng）83.32我们的AV（cor+box）86.25我们的AV（cor+eng+box）86.32我们的AV（规格）85.49Ours AV（eng）62.68我们的AV（cor）-2ch80.00我们的AV（规格）-2ch83.30AV无线电72.32DOA+流浆箱52.62DOA+图像54.27MRC（AVA）46.60MRC（EasyCom）64.24TalkNet（AVA）69.13TalkNet（EasyCom）44.2410552引用[1] P. Morgado，N. Vasconcelos，T.朗卢瓦岛王. 360度视频空间音频的自监督生成NIPS 2018。2[2] X. Wu，Z.吴湖，加-地Ju，S.王. 双耳视听局部化，AAAI-21。三、六[3] A. 欧文斯 A. A. Efros Audio-Visual Scene Analysis withSelf-Supervised Multisensory Features，ECCV 2018。3[4] A. Senocak，T. H.哦，J. Kim，M.- H.扬岛，智-地S.奎恩学习在视觉场景中定位声源，CVPR 2018。2[5] A.埃弗拉特岛莫塞里岛朗，T. Dekel，K. Wilson，A.哈-西迪姆，W。T. 弗里曼M.鲁宾斯坦在鸡尾酒会上聆听：A Speaker-Independent Audio-Visual Model for SpeechSeparation，ACM Transactions on Graphics，Vol. 37，No.4，pp 1-11，August 2018. 2[6] R.加奥河，巴西-地Feris，K.格劳曼通过观看未标记的视频学习分离物体声音，CVPR 2018。2[7] T. Afouras，J.S. Chung，A.齐瑟曼。对话：深度视听语音增强，arXiv：1804.04121。2[8] I. D. 盖布鲁角阿拉米达-皮内达河霍罗德角福布斯通过加权聚类的视听扬声器定位，IEEE信号处理机器学习国际研讨会（MLSP），2014年。二、三[9] R. Qian，中国粘蝇D. Hu，H. Dinkel，M. Wu，N. Xu和W.是林书从粗到精的多声源定位，ECCV 2020。二、三[10]H.陈威Xie，T. Afouras，A. Nagrani、A. Vedaldi、A.齐瑟曼。本地化视觉听起来很难，CVPR 2021。二、三[11]C.拉斯孔岛梅扎机器人声源定位研究综述。机器人和自主系统，第96卷，2017年10月，第184-210页。2[12]S. Adavanne，A.Politis，T.维尔塔宁使用卷积回流神经网络对多个声源的到达方向估计，欧洲信号处理会议（EUSIPCO），2018年。2[13]T.N.T. Nguyen，W-S.甘河，巴西-地Ranjan，D.L.琼斯利用空间伪谱和卷积神经网络的鲁棒源计数和DOA估计，IEEE/ACM音频、语音和语言处理汇刊（卷：28）2[14]R.陶，Z. Pan，R.K. Das，X. Qian，M.Z. Shou和H.李有人在说话吗？探索视听活动说话人检测的长期时间2021年第29届ACM多媒体国际会议二、六[15]O. Kopuklu，M.塔塞斯卡湾瑞格如何设计一个三阶段架构，用于野外视听有源扬声器检测，ICCV 2021。3[16]T.- D. 张荣角N. Duong，T.D. 武，H.A. 范湾，澳-地Raj，N.Le K.卢对话的权利：视听Transformer方法。ICCV 2021。2[17]R. Gao和K.格劳曼VisualVoice：具有跨模态一致性的视听语音分离。CVPR 2021。2[18]J. Donley，V. Tourbabin，J. Lee，M. Broyles，H. Jiang，J. Shen，M.潘蒂奇伊塔普河梅赫拉EasyCom：An Aug-mented Reality Dataset to Support Algorithms for EasyCommunicationinNoisyEnvironments ， arXiv ：2107.041742，6[19]P. - A. Grumiaux，S.基蒂奇湖Girin，A.盖琳A Survey ofSound Source Localization with Deep Learning Methods，arXiv：2109.03465. 2[20]V. Tourbabin，J. Donley，B.拉斐利河梅赫拉使用软时频掩模在高分辨率环境中进行到达方向估计二、六[21]D. P. Jarrett，E.A.P. Habets，P.A. 内勒球面麦克风阵列处理的理论与2[22] J. 罗斯，S。乔杜里岛克莱赫河Marvin，A.加拉格L. Kaver，S. Ramaswamy，A.斯托普钦斯基角施密德，Z. 夕C.潘托法鲁AVA-ActiveSpeaker：An Audio-Visual Datasetfor Active Speaker Detection，arXiv：1901.01342.二六七[23]J. S. Chung，J. Huh，A. Nagrani，T. Afouras，A.齐瑟曼。现场对话：扬声器日记在野外，ArXiv，2020年。2[24]J. S. Chung，A. Nagrani、A.齐瑟曼。VoxCeleb2：DeepSpeaker Recognition，INTERSPEECH，2018. 2[25]T. Afouras，J.S. Chung，A.Senior、O.Vinyals，A.齐瑟曼。深度视听语音识别，TPAMI，2018年12月。2[26]C. Chen、美国U.杰恩角Alumsler，S. V. Amengual Gari，Z. Al-Halah ， V.K. 伊塔普山口 Robinson ， K. 格劳曼SoundSpaces：3D环境中的视听导航，ECCV 2020。2[27]E. Kazakos，A. Nagrani、A. Zisserman ，D. 该死EPIC-Fusion ： Audio-Visual Temporal Binding for EgocentricAction Recognition。ICCV 2019. 2[28]F.肖氏Y. J.李，K. Grauman，J. Malik，C.费希滕-霍弗。Audiovisual SlowFast Networks for Video Recognition ，arXiv，2020。2[29]C.甘，H. Zhao，P. Chen，D. Cox、A.托拉尔巴具有立体声的自监督运动车辆跟踪，ICCV 2019. 2[30] J. Ramaswamy，S.达斯看声音，听像素，WACV 2020。2[31]K.扬湾，澳-地拉塞尔，J·萨拉蒙。从右到左：学习视觉和声音的空间对应，CVPR 2020。3

下载后可阅读完整内容，剩余1页未读，立即下载