主动视听源分离方法：利用强化学习训练控制代理的移动策略，以在有限时间内从环境中分离出目标对象的声音

160 浏览量更新于2023-10-14 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

275MiMi xedBBinanuraluralL公司TargetargetMo单Move2Hear：主动视听源分离Sagnik Majumder1Ziad Al-Halah1Kristen Grauman1，21德克萨斯大学奥斯汀分校2Facebook AI Research{sagnik，ziad，grauman}@cs.utexas.edu摘要我们引入了主动视听源分离问题，其中代理必须智能地移动，以便更好地隔离来自其环境中感兴趣的对象的声音。代理同时听到多个音频源（例如，一个人在嘈杂的家庭中的大厅里说话），并且它必须使用它的眼睛和耳朵在有限的时间预算内自动分离出源自目标对象的声音。为了实现这一目标，我们引入了一种强化学习方法，该方法通过预测音频分离质量的改善来训练控制代理的摄像头和麦克风位置的运动策略我们展示了我们的方法，在增强现实的场景（系统已经与目标对象位于同一地点）和移动机器人（代理开始任意远离目标对象）。使用国家的最先进的逼真的视听模拟，在3D环境中，我们证明了我们的模型项目：http：//vision.cs.utexas.edu/projects/move2hear的网站。1. 介绍视听活动在我们的日常生活中扮演着重要的角色。然而，在现实世界中，物理因素可以限制或促进我们感知它们的能力。例如，一位在楼上工作的父亲可能会移到楼梯的顶部，以便更好地听到他的孩子在下面对他的呼唤;在繁忙的机场中的旅行者可以移动到更靠近登机口代理以在嘈杂声中捕捉航班延迟通知，而不移动太远以保持她的行李箱在视线内;在嘈杂的餐馆里，坐在桌子对面的朋友可能会歪着头，以便更清楚地听到晚餐时的谈话，或者挪一下椅子，以便更好地听到舞台上乐队的音乐。这样的例子显示了受控的传感器移动对于视听理解是如何至关重要的。在音频感测方面，人21混合双耳3L目标单声道声源目标音频代理导航点RGB图1：主动视听源分离。给定3D环境中的多个混合音频源S1，代理的任务是通过使用来自其以自我为中心的视听输入的线索智能地四处移动来分离目标源（以绿色示出），以提高预测的目标音频信号的质量。请参阅文本。环境在视觉感测方面，必须看到障碍物以绕过它们，发现期望的和分散注意力的声源，使用视觉上下文来假设视野外声源在这项工作中，我们将探讨如何自主的多模态系统可能会学习表现出这样的智能行为。特别是，我们引入了主动视听源分离的任务：给定一个以自我为中心的视听观察流，代理必须决定如何移动，以恢复一些目标对象发出的声音，它必须在有限的时间内这样做。见图1与传统的视听源分离不同，其目标是在被动的、预先录制的视频中分离声音[23，27，1，20，43，28，17，29]，所提出的任务要求随着时间的推移主动控制摄像机和麦克风与最近的视听导航方面的具体人工智能工作不同，其目标是前往发声对象的位置[15，25，14，16]，所提出的任务要求在有限的时间内返回感兴趣对象的单独音轨，而不一定要一直走到它。我们考虑新任务的两个变体第一种，系统精确地从所需发声物体的位置开始，并且必须微调其定位以更好地听到声音;该变型是由其中感兴趣的对象是已知的和可见的增强现实（AR）应用激发的（例如，坐在戴辅助器具的人对面的人276音频-视觉AR设备），但是设备传感器的局部移动仍然有益于改善音频分离。在第二变型中，系统在远离感兴趣对象的任意位置处开始;该变型由移动机器人应用激发，其中代理检测来自远处的孩子从楼下呼叫），但是它与干扰物纠缠在一起，并且需要在环境内进行更大的运动以正确地听到。我们将这些场景分别称为近目标和远目标为了解决主动视听源分离问题，我们提出了Move2Hear，一个强化学习（RL）框架，其中代理学习如何移动以更好地听到的政策代理接收自我中心的视听观察序列（RGB和双耳音频）以及感兴趣的目标类别1，并在每个时间步决定其下一个运动（相机和麦克风的旋转或平移在训练期间，由于它随着时间的推移用显式记忆模块和递归网络来聚集这些观察结果，因此代理因改善其对目标对象的潜在（monau- ral）声音的估计而得到奖励。特别地，奖励促进更好地将目标声音从环境中的其他干扰物声音中分辨出来的我们的方法同时处理近目标和远目标场景。重要的是，音频源分离的最佳定位与导航到源不同，这是因为智能体面临时间限制-在该时间内可能不可能到达目标-并且还因为3D环境的几何形状和干扰物声音的相对位置使得相对于目标的某些位置更易于分离。例如图在图1中，代理的任务是将音频与对象S3分离。这里，直接去S3并不理想，因为那个位置会有很高的干扰从场景中的其他音频源S1和S2中提取。通过在厨房吧台周围移动，由于中间障碍物（墙壁），代理设法显著地抑制来自Sl的信号，并且同时，与S2相比，强调来自S3的信号，从而导致更好的分离。我们用逼真的视听效果来测试我们的方法SoundSpaces [15]在Habitat平台[54]上的模拟，包括47个真实世界的Matterport3D环境扫描[10]，以及来自不同人类扬声器、音乐和其他背景干扰物的一系列声音。我们的模型成功地学会了如何在看不见的场景中更清楚地听到目标，超越了系统地调查其周围环境，智能或随机探索或直接导航到源的基线。我们探索视觉和音频的协同作用来解决这个任务。我们的主要贡献是1）我们定义了主动视听分离任务，这是具身人工智能研究的一个新方向; 2）我们提出了第一种方法来开始处理这个任务，即一个新的基于RL的框架，它集成了1例如，说话人、乐器或其他声音类型声音分离和视觉导航运动策略;以及3）我们对各种声音、视觉环境和用例进行了彻底的实验虽然这只是这一领域的第一步，但我们相信我们的工作为探索多模态智能体的新问题奠定了基础，这些智能体可以更好地听到声音。2. 相关工作被动音频（-视频）源分离。在信号处理中已经广泛地研究了仅使用音频输入的音频源的无源（非实施）分离。虽然有时仅假设单声道单声道音频[59，61，69，34]，但使用多个麦克风捕获的多声道音频[39，80，19]-包括双耳音频[18，70，76]-通过使空间线索明确来促进分离将视觉和声音结合使用可以改善分离效果。视听（AV）分离方法利用互信息[33，21]，子空间分析[60，46]，ma-trix factorization [44 ， 56 ， 27] ， correlated onsets [6 ，35]，and深度学习分离语音[1，23，20，43，2，17，29]，音乐[28，24，74，77]，和其他对象[27]。虽然一些方法提取混合物中存在的所有类别的音轨[57，66]，但其他方法隔离一个特定目标[42，67，30，31，81]。而以前的工作假设一个预先录制的视频作为输入，我们的工作解决了一个新的体现感知版本的音频分离任务，其中代理可以看到，听到，并在3D环境中移动，积极听到一个源更好。据我们所知，我们的工作是第一个考虑如何智能运动影响多模态移动代理的能力，此外，尽管现有的视频方法使用动态对象运动来梳理视听关联（特别是对于语音[23，1，20，43，17，29]），但我们的设置要求使用周围3D环境中的视觉线索来移动到“最后，我们的任务需要恢复目标对象根据定义，该任务的这一方面对于被动视频中的AV分离是不存在的。视觉和视听导航。虽然移动机器人传统上通过显式映射和规划的混合来导航[65，22]，但最近的工作探索了从以自我为中心的图像观察中学习导航策略（例如，[32、53、36]）。通过快速渲染平台[54]和逼真的3D视觉资产[10，73，62]，研究人员开发了强化学习架构来解决各种视觉导航任务[32，36，71，78，75]。7、72、37、13、11、79、53、12]。超越纯粹的视觉代理，最近的工作探索了具体AI的联合视听感知[25，15，26，47，14，16]。在视听导航任务中，一个智能体进入一个未映射的环境277S1K不一∈ A我联系我们我我我并且必须行进到探测目标物体（例如，电话铃声）[25，15，14，16]。相关的努力探索视听空间感测以推断环境地理位置[26]或平面图[47]，或者尝试仅音频导航到网格世界中的多个固定位置源，同时考虑干扰物声音[49]。我们的分离目标与导航不同：如果我们的智能体准确地分离出真正的目标声音，而不是简单地移动到声音或目标物体所在的位置，那么它就成功了正如我们将展示的，这两个任务产生具有不同行为的代理事实上，我们的模型仍然是相关的，即使在近目标的情况下，其中（与AV导航）的目标的位置是已知的。与上述任何一种相比，我们的关键新见解是，视听线索可以告诉代理如何移动到分离的多个活动音频源。机器人系统中的声源定位机器人系统使用麦克风阵列来执行声源定位，其中仅通过对音频流的信号处理技术来执行声源定位[41，50]。为了集中在声音上，如人类说话者，麦克风可以被主动地转向到局部源（例如，[4，40，9]）。使用视觉和听觉线索来定位人并检测他们何时说话[3，68，5]是人机对话系统的重要先驱。所提出的任务还需要积极参与音频事件，但在我们的情况下，存在多个竞争声源，并且它们最初可能远离代理。我们的技术贡献是对现有方法的补充：我们的方法学习将视听自我中心的观察直接映射到长期的顺序动作。从数据中学习行为，而不是固定的启发式，为泛化提供了潜在的优势。代理听到作为源类型的函数的混合双耳音频信号（例如，人声、音乐等），它们从代理的位移，以及它们从3D场景中的主要几何表面和材料产生的声音反射。音频源之一是目标，即，代理想要听到的源，与其总体应用程序设置相关代理的任务是尽可能清楚地预测目标智能体必须智能地移动和采样来自其环境的视觉-声学线索，以在固定时间预算结束时最好地预测请注意，重要的是，我们将正确的输出定义为单声道目标声音。如果目标改为在智能体的当前位置处输出目标的双耳声音，则将存在琐碎但无用的移动到目标听不见的位置，因此其双耳波形近似为0）。如上所述，我们根据代理相对于目标音频源的起始位置来考虑该任务的两个变体在近目标变体中，智能体从目标开始，需要进行一系列细粒度的运动来提取最佳目标音频;在远目标变体中，代理从随机的远位置开始，并且在开始移动之前必须首先导航到目标附近，以便更好地分离。发作规范。形式上，剧集由元组（E ， p0 ， S1 ，S2，. . . 其中，E是3D场景，p0=（10，r0）是由其位置l和旋转r定义的初始代理姿态，Si=（Sw，Sl，Sy）是由其周期性单声道波形Sw、其位置Sl和其旋转r定义的音频源。3. 主动式视听源分离类型我我Sy。场景中有k个音频源，每个来自2y一个不同的类型（S y/=. . .S y），并且G y是2我们提出了一个新的任务：主动视听源分离（AAViSS）。在该任务中，自主代理同时收听不同类型的多个音频源（例如，语音、音乐、背景噪声）。代理指定的人类说话者或乐器）从所听到的音频混合物中提取音频。这种主动倾听任务要求代理商利用听觉和视觉线索。虽然声学信号携带关于音频源的类型以及它们与代理的相对距离和取向的丰富信息，但是视觉信号对于看到影响导航的障碍物和识别从其采样可见3D场景中的声学信息的有用位置两者都是至关重要的任务定义。在代理体验的每个情节中，多个音频源在3D环境中随机初始化。目标音频目标类型，使得G Si.在每一步，智能体听到所有音频源的混合，并且目标是在给定目标目标标签Gy的情况下预测到剧集结束时的Gw。情节长度是步，这意味着智能体有有限的时间来提供其输出。行动空间。智能体在每个步骤中，代理对要在环境的可导航性图上移动的动作a t进行采样;该图对于代理是未知的。虽然转向动作始终有效，但只有当存在连接当前节点和下一个节点的边并且代理面向目标节点时，才允许MoveForward由于墙壁和障碍物而存在不可导航的连接，例如，挡住去路3D环境和视听模拟器。与计算机ronment。环境的地图对于代理，如音频源的位置在每一步，[2]请注意，不同的人声被视为不同的类型。278我��ሷG��我K不不不不不不不不不不不◦◦K不正+ +∈∈视觉社区（例如，[15，48，32，53]），并且为了提供可再现的结果，我们使用最先进的视觉和声学逼真的3D模拟器来开发我们的方法我们使用SoundSpaces [15]音频模拟，建立在AI-Habitat模拟器[54]和Matterport 3D场景[10]之上Matterport3D场景是具有3D网格和图像扫描两者的真实世界家庭和其他室内环境SoundSpaces为Matterport3D场景提供空间分辨率为1米的这些最先进的RIR捕捉来自每个声源的声音如何传播并与周围的几何和材料相互作用，模拟RIR的所有主要现实特征：直接声音、早期镜面反射/漫反射、混响、双耳空间化、以及来自材料和空气吸收的频率相关效应。我们的实验通过考虑噪声传感器进一步推动了现实主义（Sec.（五）。看supp。视频来衡量现实主义。我们将k个单声道音频源放置在3D环境中。由于当前的模拟器不支持动态对象渲染（例如，人们说话，乐器演奏），这些源被表示为点对象[15]。在每个时间步，我们模拟的双耳混合 k个声音来自场景中它们各自的位置，如由代理在其当前位置处接收的具体地，源的波形Sw与对应于场景E和主体姿态和源位置对（p，Sl）的随后，卷积的RIR的输出被混合在一起以生成动态RIR。当代理四处移动时的双耳混合：Bw，mix=1ΣBw，i，（1）i=1目标音频分离器网络��ሷ G��−1��预测目标音频单耳频谱图循环训练��ሷ G��ℎ��−1ℎ��主动视听控制器RGB意见混合音频双耳频谱图CNNCNNCNN权左演员环境GRU评论家奖励函数目标图2：我们的主动视听源分离模型有两个主要组成部分：1）音频分离器网络（顶部）和2）有源视听控制器（底部）。在每一步中，我们的模型从3D环境中的多个源接收混合音频该模型在环境中主动移动以改善其对目标音频源的分离智能体建立对给定当前周围3D结构（家具、墙壁、房间等）的分离质量如何变化的隐含理解各种音频源以及它们相对于代理和目标的（未观察到的）位置。因此，它们使智能体能够学习有用的主动移动策略以提高音频分离质量。4.1. 目标音频分离器网络在每个步骤t处，音频网络fA接收来自场景中的所有音频源的混合双耳声音B_mix和目标音频类型G_y，并且其预测单声道。ral tar get audioM¨G，即fA（Bmix，Gy）=M¨G（图2顶部）。其中Bw，i是声源i在时间t的双耳波形，并且Bw，mix是混合音频的双耳波形。注意，每个源的地面真实波形仅由模拟器知道;在推理期间，智能体仅观察到混合的双耳声音，该混合的双耳声音作为智能体的运动的函数而随t改变。4. Move2Hear方法我们提出的AAViSS任务作为一个强化学习的问题，代理学习的政策，顺序决定如何移动给定其流的以自我为中心的视听观察。我们的模型有两个主要组成部分（见图1）。2）：1）目标音频分离器网络和2）有源视听（AV）控制器。分离器网络具有两个功能：它在每一步从听到的混合中分离目标音频信号，并且它通知控制器它的当前估计以改进分离。AV控制器学习由分离质量引导的策略这两个组件在培训期间相互学习，以帮助我们使用短时傅里叶变换（STFT）来表示单声道M和双耳B音频频谱图两者M和B是矩阵，其中BR2×F×N和MRF×N，其中F是频率仓的数量，N是时间窗口，并且B具有两个通道（左和右）。音频网络fA分三步使用三个模块预测M ¨ G，满足：f A= f Bf Mf R。首先，给定目标类别G，双耳目标音频分离器f_B从输入混合B_mix中分离目标的双耳信号B ~ G。第二，单声道音频预测器fM获取先前的双耳输出B~G，并且预测单声道音频M~G（即，独立于房间声学和空间效果）。最后，给定来自所有先前步骤的单声道估计和当前的单声道估计，声学记忆细化器fR连续地增强目标单声道音频预测MüG。然后详细描述了这三个模块的体系结构。双耳音频分离器。对于双耳提取器fB，我们在类似U-Net的架构中使用多层卷积网络[51]，在最后一层中具有ReLU激活。具体来说，我们将目标标签Gy与279⊕不不不不不不不不|V不不不不不不不t−1⊕混合双耳音频B沿着声道维度混合，并且将该输入传递到U-Net以预测用于目标双耳频谱图的实值比率掩模R~T[28，74，77]R~G=fB（BmixGy），（2）4.2. 主动视听控制器我们的方法的第二个组成部分是一个AV控制器，它在3D环境中引导代理以改进其音频预测（图12）。2底部）。控制器t t利用视觉和听觉线索来预测序列其中表示逐信道级联。然后，通过对具有R~G的混合双耳频谱图进行软掩蔽来获得针对目标双耳B~G的预测频谱图：B~G=R~GBmi x，（3）其中表示两个张量的元素乘积。单声道音频预测器。类似地，我们使用另一个用于fM的U-Net来预测给定来自fB的预测的当前步骤处的目标单声道音频，即：M<$G=fM（B<$G）。（四）的行动，这将提高输出的fA，分离器，或网络以上定义的。它有两个主要模块：1）观察编码器和2）策略网络。观察空间和编码。在每个时间步长t处，AV控制器接收自我中心RGB图像Vt、来自fB的当前双耳分离B〜G、以及来自fB的目标单声道预测的声道级连。fM和fR，即M¯G=M~GM¨G.音频和视觉输入携带有效导航所需的互补线索以改善分离 ~Gt t质量。Bt传达了关于目标的空间线索（其一般M~G用作我们的模型仅基于混合双耳音频预测的单声道的初始估计相对于代理的方向和距离），这有助于代理相对于目标位置锚定其动作。重要的是，B超G的分离质量越好，在当前步骤T中听到。单声道的分解不该方向信号更明显（与混合预测分为两个步骤fB和fM允许我们的模型首先通过提取音频源分离来关注音频源分离。由代理直接观察到的混合音频BtG是使用fB在与输入（双耳）相同的域中的目标音频，然后学习如何从双耳中去除空间效应以使用fM获得单声道信号。此外，fB提供了关于目标的空间线索的策略，以帮助代理锚定其与目标位置相关的动作（见第二节）。4.2）。我们使用声学记忆来改进这个预测，我们将在下面描述声音记忆精炼器。声学记忆细化器fR是CNN，其从fM和其自身的先前预测MüG接收当前单声道分离M~G作为在让策略学习关联时特别有用模型的当前位置和该位置的预测质量（由M 〜 G捕获）之间的关系，总体质量（由M ¨ G捕获），以及该位置是否导致估计的变化（由M ¨ G捕获）。视觉信号Vt为策略提供关于3D场景的几何布局的线索，使得代理可以避免与障碍物碰撞。此外，与音频耦合的视觉输入允许代理捕获3D场景与不同位置处的预期分离质量不输入，并预测改进的单声道音频M？G：t−1我们使用单独的CNN en对三种类型的输入进行编码编码器：vt=EV（Vt），bt=EB（B~T）和mt=EM（M¯G）。t tM¨G=fR（M~GM¨G）。（五）参见图2右上角。声记忆在稳定单耳预测和帮助智能体学习有用的策略方面起着重要的作用通过考虑视听编码〇t=[vt，bt，mt]。政策网络。策略网络由一个门控递归网络（GRU）组成，它接收当前的视听编码和状态的累积历史先前估计值M¨Gt−1 以及它与M~G的关系，模型ht−1将其历史更新为ht并输出当前状态可以学习何时更新目标的单声道估计以及更新多少。这鼓励非近视行为：它允许智能体以较小的压力探索其附近以降低预测的质量，以防需要遍历环境中的中间低质量点因此，当导航策略用作为fR的预测质量的改进的函数的奖励来训练时（下面详细描述），代理学习访问场景中的空间，这将随着时间的推移所有三个模块fB、fM和fR都使用目标双耳的地面实况以监督方式进行训练。和单声道信号，如在Sec. 四点三。表示法接下来是一个行动者-批评者模块，它将s t和ht−1作为输入来预测策略分布π θ（a t s t，ht−1）和状态值θ（s t，ht−1），其中θ是策略参数。智能体根据πθ对一个动作at∈ A进行采样，与环境进行交互近目标和远目标策略。对于近目标任务，我们学习由目标音频预测的改进（下面定义的奖励）驱动的质量策略π Q。对于远目标变体，我们学习由πQ和视听导航策略πN组成的复合策略，该策略经过训练以更接近目标音频。我们将三个特征输出连接起来以获得当前280不不不LL不不.R不不不不不不电话+1L− L复合策略使用基于时间的策略在两个策略之间切换控制首先，导航策略以N步的预算使代理更接近目标音频，然后代理将控制切换到质量策略以专注于改善目标音频分离。我们发现了替代的混合策略，例如，基于到目标的预测距离进行切换，在实践中较差音频网络f A是活跃的整个插曲在两个近目标和远目标任务。4.3. 培训训练目标音频分离器网络。分离器网络具有两个输出：双耳B~和单声道音频预测M~和M？。我们使用由模拟器提供的目标音频的相应地面实况频谱图来训练它LB=||B~G−BG||第一条第（六）项代理人采取的轨迹最终导致整体高质量的分离。对于导航策略πN，我们采用典型的导航奖励[54，15，16]，并奖励智能体+1.0以减少到目标源的测地线距离，以及增加它的等效惩罚。我们使用最近策略优化（PPO）[55]训练πQ和πNPPO损失由价值网络损失、策略网络损失和熵损失组成，以鼓励探索（参见补充）。这两种策略具有相同的架构，但不同的奖励功能和分配他们的初始代理位置p0。循环训练我们联合训练音频存储器细化器fR和策略πQ和πN。我们采用循环训练方案，即，在每个周期中，我们在训练音频存储器优化器和用于U=6参数更新的策略之间交替。循环训练通过确保奖励的部分平稳性来帮助稳定RL训练t t特别是在训练πQ时，其中奖励是函数其中，BG是在步骤t处的目标的地面实况双耳频谱图。类似地，对于单声道预测：LM=||M~G−M G||1、LR为||M¨G−M G||第 1 条，第（7）项其中MG是用于目标的地面实况单声道声谱图。注意，来自fB和fM的预测（即， B~G和M~G分别是逐步预测，不像R考虑了片段中的单声道预测的历史以改进其估计。因此，我们使用B和M以及从训练场景中收集的数据集来预训练f B和f M。对于该数据集中的每个数据点，我们将智能体和k个音频源随机放置在场景中，然后在智能体位置处，我们记录随机采样的目标类型的地面实况频谱图（BG，MG）。我们发现，与在策略上训练这些模块相比，这个预训练阶段可以提高性能，并为音频分离器网络的预测带来更大的稳定性。一旦f B和f M被训练，我们就冻结它们的参数，并与视听控制器一起训练f Ron-policy，因为智能体采取的动作序列会影响f R观察到的单耳预测的历史。训练主动视听控制器。策略引导代理通过四处移动为了实现这个目标，我们制定了一个新的密集RL奖励来训练质量策略πQ：的目标单声道预测的质量。5. 实验实验设置。对于每一集，我们将k=2（我们也用k=3测试）音频源随机地放置在场景中，至少相隔8米，并指定一个作为目标。对于近目标任务，代理在目标音频位置处开始，对于远目标任务，代理在距离其他源4到12m的随机位置处开始。12m的上限确保智能体可以在其轨迹开始时听到目标音频。对于近靶和远靶，我们分别将最大发作长度设置为=20和100步。使用验证分割设置N=80我们使用所有47个Matterport3D场景，这些场景足够大，可以生成至少500个不同的场景。我们形成24/8/15场景和112 K/100/1 K剧集的训练/验证/测试因为测试和train/val环境是不相交的，所以agent总是在未映射的空间中进行测试。我们使用12种声音，主要来自三大类：语音、音乐和背景声音。对于语音，我们从VoxCeleb1数据集[38]中抽取了10个不同的说话者，他们具有不同的性别，口音和语言。对于音乐，我们使用MUSIC数据集中的各种乐器[77]。对于背景声音，我们对非语音和非音乐声音（例如，时钟报警，狗叫，洗衣机）从ESC-50[45]。每集的目标可以是一个Rt=S不−10× LR+rs1≤t≤ T −2t=T −1，（八）的G∈ {扬声器，音乐}，并且（一个或多个）干扰项可以是D∈ {扬声器，音乐，背景}中的一个，使得TtGD在事件中请注意，扬声器表示10其中r s=RR是捕获单声道音频的分离质量的改进的逐步奖励，并且rT-1是在情节结束时的一次性稀疏奖励。虽然r s鼓励智能体在每一步提高分离质量，但最终奖励rT−1鼓励单独的扬声器类，导致总共11个目标类和12个干扰类。这使我们能够评估各种音频分离方案：细粒度分离（在不同说话者之间）、粗粒度分离（语音与音乐），和分离对背景和ambi-281听到闻所未闻型号SI-SDR↑ STFT↓ SI-SDR↑ STFT↓•一不•不≤耳鼻喉科常见的声音在日常生活中遇到。总共，我们对所有类型的23，677个1秒音频片段进行了采样，以用作单声道声音在测试听不到的声音时，我们分开支架就位3.490.2872.40 0.325单声道声音在train：val：test中的比例为16：1：2。的原地旋转3.450.2852.50 0.321用于产生1秒未听音频剪辑的较长音频剪辑在训练、验证和测试之间没有重叠。DoA随机邻近先验3.633.683.740.2800.2800.2762.59 0.3160.3192.63 0.315参见补充所有其他细节，如频谱图、网络新的[8]3.820.2762.86 0.318架构、训练超参数和基线细节。Move2Hear（我们的）4.310.2603.20 0.298基线。由于没有先前的工作解决所提出的任务，我们设计了强基线，表示来自相关任务的策略和被动/非智能运动策略：• 支架就位：仅音频基线，其中智能体对于所有步骤保持其起始姿势，表示默认被动源分离方法。• 原地旋转：仅音频基线，其中代理停留在起始位置并保持原地旋转，即，从不同方向采样声音线索。• DoA：受[40]的启发，该代理面向音频到达方向（DoA），即，它将其麦克风从一步之遥指向目标声音（仅与近目标相关）。• 随机：从动作空间中随机选择动作的智能体。Proximity Prior：选择随机动作但停留在目标的2m半径内（通过验证选择）的代理，因此它不能远离可能更好分离的位置请注意，这个基线假设到目标的距离是一个预言，而不是给我们的方法。• 新奇[8]：标准的视觉探索代理，经过培训，可以访问尽可能多的新位置。视听（AV）导航器[15]：最先进的深度RL AudioGoal导航代理[15]，适用于我们的任务，以额外地将目标音频类别作为输入。其音频输入空间与fB的音频输入空间完全匹配，并且使用典型的导航奖励[54，15，16]进行训练。为了公平比较，所有基线使用我们的音频分离器网络fA作为音频分离主干，将由它们在场景中选择的移动产生的音频/视觉观察作为输入。具体地，所有代理共享相同的fB和fM，并且仅音频存储器优化器fR利用其相应的策略被在线训练。这意味着性能上的任何差异都归因于每个方法的动作选择的质量。评价我们在步骤结束时评估目标单声道分离质量，对于具有3个随机种子的1000个测试集。对于所有方法，我们使用地面真实单声道相位[58]和逆短时傅立叶变换来从MüG重建时间离散单声道波形。我们使用标准的度量：短时傅里叶变换距离，频谱图-表1：近目标AAViSS 3.支架就位0.740.3900.09 0.416原地旋转1.010.3820.26 0.412随机1.150.3780.46 0.402新的[8]1.740.3561.31 0.367[15]第十五话1.460.3680.72 0.396Move2Hear（我们的）3.500.2912.33 0.333表2：远靶AAViSS。5.1. 主动式视听源分离接近目标表1报告了所有模型在近靶任务中的分离质量。3停留在目标处的被动模型（站立、旋转）的表现不如那些移动的模型（例如，接近先验）。DoA比In-Place基线更好，因为它可以将麦克风指向目标以采样更清晰的信号。新颖性优于其他基线，显示出增加视觉和采样不同声学线索的好处。我们的Move 2 Hear模型在统计学上显著优于所有基线（根据Kolmogorov-Smirnov检验，p <0. 05）的情况。Move2Hear通过推理3D环境和推断的源位置来学习采取深思熟虑的动作序列图图3a示出了片段中每个步骤的性能非平稳模型最初在对接近目标的线索进行采样时取得进展，但随后迅速变平相比之下，Move2Hear几乎在它采取的每一个动作中都不断改进，更好地预测分离的位置，并学习不同于其他运动策略的行为远目标表2显示了远目标任务的结果。在这里，我们再次看到了移动模型的明显优势有趣的是，AV Navigator[15]的表现比Novelty [8]差，即使它已经被训练为向目标导航。这突出了在存在干扰物声音的情况下音频目标导航的困难以及对于成功导航的高质量分离的需要我们的模型显著优于先前的基线（p≤ 0）。05）的情况。5.2. 模型分析[2019 - 05 - 15][2019 - 05 - 15][2019 - 05][2019 - 05 - 15][2019 - 05][2019 - 05 - 05][2019 - 05][2019 - 05 - 05]重构信号中的失真的不变度量。3AV Navigator [15]在这里不适用;代理从目标开始。听到闻所未闻型号SI-SDR↑ STFT↓ SI-SDR↑ STFT↓282声源起始位置目标剂已占用/不可见/可见区域最佳分离姿势分离质量事件进展11212Move2Hear3.500.2912.33 0.333Move2Hear不带R2.640.3201.57 0.361Move2Hear，无Vt3.320.3002.12 0.3432Move2Hear w/oπN2.640.3180.347Move2Hear w/oπQ3.080.3041.99 0.343表3：在Far-TargetAAViSS上消融Move 2 Hear模型。4.24.03.83.63.41 5 10 1520时间步长(a) 分离进度65432听说没听说(b) 分离3个来源图5：Move2Hear模型的示例动作。我们的模型利用可见的3D结构来积极地改进其目标音频的分离质量（参见文本以获得细节）。图3：（a）作为时间的函数的分离质量（b）最后具有3个源的分离性能（即，2个干扰器）。432160 45 30 15信噪比（dB）图4：模型消融术。在表3中，我们消融了模型的组件。我们看到，我们的声学记忆细化器（fR）在整体性能中起着重要作用。fR通过通知分离质量变化的策略来促进稳定的、改进的预测。视觉分量Vt也是至关重要的，因为Vt帮助智能体避开障碍物、到达目标以及推理可见的3D场景。请看Supp。进一步的分析表明：1）远目标的复合策略对最佳性能至关重要，2）源类型影响任务难度，3）Move2Hear即使使用SOTA被动分离骨干也能保持其优势，4）Move2Hear的分离质量不会随着不同的源内距离而降低，5）我们的模型有助于在干扰声音存在的情况下进行视听导航.噪音音频。我们使用标准噪声模型[64，63]在听到和近目标设置中分析了我们的模型4）. 我们的模型该图还示出了我们的存储器优化器fR（虚线）的积极影响;没有它所有的模型都会衰退。44请注意，SoundSpaces不支持评估噪声里程计和激励，因为RIR仅在离散网格上可用。音频源的数量。接下来，我们测试我们的模型如何推广到一个以上的干扰声音。图图3b示出了使用每集k=3个音频源的近目标任务的结果我们的模型比其他基线更好地推广，并保持其优势。定性结果。图5，我们的Move2Hear代理被放置在具有两个音频源作为可能目标的场景中。我们的模型表现出一个有趣的行为，需要优势的可见的三维结构。当S1是目标时，它采取最小的步骤绕着柱走，以使其自身相对于S2处于柱的声影中，从而抑制其信号。但是，当S2是目标时，它决定移动到更靠近S2的走廊中，将墙置于它自己和S1之间。失败案例。近目标的常见故障情况涉及由于复杂的周围几何形状而具有有限的移动自由度的代理，并且当任何平移运动将其带向（一个或多个）干扰器时，因此导致质量的高损失。对于远目标，智能体有时由于杂乱的环境而缺乏到目标的直接路径。6. 结论我们引入了AAViSS任务，其中代理必须使用视觉和声音来最好地倾听所需的目标对象。我们的Move 2Hear模型提供了令人鼓舞的结果，始终优于文献中的其他探索/导航运动策略，以及强大的基线。在未来的工作中，我们的目标是扩展我们的模型，以考虑非周期性的声音，例如，与新形式的顺序记忆，并调查SIM2real转让的学习政策。鸣谢：UT Austin部分由DARPA L2M和IFML NSF AI研究所支持。K.G.他是Facebook AI的研究科学家。听到闻所未闻型号SI-SDR↑ STFT↓ SI-SDR↑ STFT↓（我们的）Move2Hear新奇之前接近ceAce支架平面内旋转In-Pl随机支架就位旋转就位DoAMove2Hear（我们的）R随机接近优先新奇不含Rrs）随机邻近优先新奇Move2Hear（Ou支架就位旋转就位DoASI-SDRSI-SDRSI-SDR4.654.655.044.765.103.255.263.143.353.553.193.493.892.13283引用[1] Triantafyllos Afouras ， Joon Son Chung ，和 AndrewZisser-man.对话内容：深度视听语音增强。arXiv预印本arXiv：1804.04121，2018。一、二[2] Triantafyllos Afouras、Joon Son Chung和Andrew Zisser-男人。我的嘴唇是隐藏的：通过障碍物的视听语音增强。arXiv预印本arXiv：1907.04975，2019。2[3] Xavier Alameda-Pineda和Radu Horaud。视觉导引机器人听力国际机器人研究杂志，2015年。3[4] 浅野二史、后藤正孝、伊藤克信、秀树Asoh.实时声源定位与分离系统及其在自动语音识别中的应用《欧洲演讲》，2001年。3[5] Yutong Ban ， Xiaofei Li ， Xavier Alameda-Pineda ，Laurent Girin，and Radu Horaud. 视听多说话人追踪中的室内声学考虑。 IEEEInternational Conference onAcoustics，Speech and Signal Processing（ICASSP），2018年。3[6] Z. Barzelay和Y.Y. 谢克纳和谐的运动2007年IEEE计算机视觉和模式识别会议，第1-8页，2007年。2[7] Dhruv Batra，Aaron Gokaslan，Aniruddha Kembhavi，Olek-sandr Maksymets，Roozbeh Mottaghi，Manolis Savva，Alexander Toshev，and Erik Wijmans. Objectnav重新访问：对实体化的代理人导航到对象的评价。arXiv预印本arXiv：2006.13171，2020。2[8] Marc G Bellemare，Sriram Srinivasan，Georg Ostrovski，TomSchaul，David Saxton，and Remi Munos.将基于计数的探索和内在动机统一起来。 arXiv 预印本 arXiv ：1606.01868，2016。7[9] 加布里埃尔·布斯塔曼特帕特里克·丹斯托马斯·福格阿里尔Podlubne和Jérôme Manhès基于信息的听觉-运动双耳定位的反馈控制。2018年，《金机器人》。3[10] Angel Chang，Angela Dai，Thoma

下载后可阅读完整内容，剩余1页未读，立即下载