视听Transformer方法用于多扬声器会话中的主要发言者检测

17 浏览量更新于2023-10-13 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1105说话的权利视听Transformer方法Thanh-Dat Truong1，*，Chi Nhan Duong2，*，The De Vu3，Hoang AnhPham3 Bhiksha Raj4，Ngan Le1，Khoa Luu11阿肯色大学CVIU实验室2康考迪亚大学3卡内基梅隆大学{tt032，thile，khoaluu}@ uark.edu，dcnhan@ieee.org，{v.devt，v.anhph18}@ vinai.io，bhiksha@cs.cmu.edu摘要话轮转换在构建会话规则中起着至关重要的作用。识别主要发言者（谁正在适当地轮到他/她发言）和打断者（谁正在打断主要发言者的话语或对主要发言者的话语作出反应）的任务仍然是一项具有挑战性的尽管一些现有方法已经部分地解决了该任务，但是仍然存在一些限制。首先，由于不同的模态，音频和视觉特征的直接关联可能限制要提取的相关性。其次，跨时间段的关系有助于保持本地化，分离和会话上下文的一致性没有得到有效利用。最后，说话者之间的交互通常包含关于过渡到新说话者的跟踪和预期决定，通常被忽略。因此，这项工作介绍了一个新的视听Transformer的方法，本地化的问题，并突出显示在音频和视频通道的多扬声器conversation视频在野外的主要发言人。所提出的方法exploits不同类型的相关性提出了视觉和音频信号。通过Transformer结构中的自注意机制，预测和优化了时空上的时间视听关系此外，一个新收集的数据集被引入的主要发言人检测。据我们所知，这是能够在多说话者对话视频中的视觉和音频通道中自动定位和突出显示主说话者的第一个研究之一。1. 介绍尽管人类具有从嘈杂环境中定位和分离声音的能力，但我们仍然难以跟随有噪声、背景声音或来自其他说话者的打断的谈话。要么*表示等额缴款图1.鉴于多扬声器视频，我们的视听转换器可以在视觉和音频通道中定位和突出显示主扬声器。（彩色效果最佳）与盲音频分离[42，53，62，60，70]或视觉-尽管在所述音频分离[4、6、13、31、33、35、39、48、43、57、61、65、66]方法中，该异常值分离任务在超出实验室设置的广泛条件下仍然当处理音频中未知数量的扬声器时，该问题变得尤其困难。Nachmani等人[54]对各种方法进行比较，并说明当声源数量增加时，分离声音有多难。现有方法利用来自多个麦克风的输入一些方法假设一组干净的单源音频示例可用于监督[2，28，71，72]。在实践中，我们倾向于更多地关注主要发言者，即轮到谁发言并且他/她的讲话是主要的通信信道，而不是仅仅试图分离对话中所有发言者的声音并确定“谁发言-何时”，而忽略其余发言者的声音，即谁发言中断器或收听器或背景噪声。1106表1.我们提出的方法和其他建模方法的比较声源定位（SSL）[28]第28届中国国际汽车工业展览会突出（视觉-视觉注意力）因此，在视觉和音频通道中突出显示主发言者的方法将为流行应用（诸如，远程会议中的自动静音或主发言者可重聚焦视频生成）提供新的机会。给定一个多说话人对话的视频，我们的目标是学习一个视听模型，该模型能够实现以下两种功能：（1）定位主要说话人;（2）真正消除中断器或背景噪声的音频源;以及（3）当说话者改变其角色时自动切换到新的主题。来自其他对象和背景的干扰被认为是噪声并被去除。在本文的研究范围内，我们将重点放在话轮转换会话上，因为话轮转换机制已经被广泛地用于构建社会互动中的会话。当一个主体正确地进行了单独发言，并且即使在同时发言发生后也会继续发言时，他/她被认为是主要发言者[16]。先前的方法已经部分地解决了这个问题，并且可以分为两类，即：视听同步[7，14，15，56，44]和混合和分离[2、18、28、32、34、40、46、71、72、73]。前者利用特定时间窗口内音频和视频帧之间的同步同时，后者学习基于音频和视觉特征从混合话语中分离说话者在这两种情况下，仍然存在一些限制。首先，通过级联算子或余弦距离度量来提取然而，由于音频和视觉特征由于其性质而在两个不同的潜在空间中分布，因此这些方法可能无法最大化两个特征域之间的相关性。其次，仅在视频片段内考虑视听关系，即，短时间窗，忽略跨时间段的时间窗，这有助于保持定位和分离的一致性，以及上下文主主语转换。最后，在时间维度上的主体之间的相互作用，以提供准确的跟踪和预期的决定过渡到一个新的目标仍然被忽略。捐款. 这项工作介绍了一种新的视听Transformer方法，一种跨模态的基于时间的计算机视觉算法，以突出音频和视觉通道中的主扬声器（图2）。①的人。这项工作的贡献有四个方面。(1)所提出的方法利用在视觉和音频信号中呈现的各种相关性，(2)而不是提取音频-视频段内的相关性，跨段的关系这有助于利用较长的上下文来参与上下文信息并增强注意力，从而可以鲁棒地识别主要说话者。(3)引入周期同步丢失算法，以自监督的方式学习主说话人定位.（4）收集新的数据集*用于主要说话者检测。据我们所知，这是第一个作品，能够自动定位和突出显示的主要发言人在多扬声器对话视频的视觉和音频通道（表1）。2. 相关工作主动扬声器定位。这个问题旨在本地化给定视频中的声音源一些早期的方法[9，37，41，45，65]使用统计模型和视听相关性来定位视频中的人声源。Fisher等人[30]介绍了一种复杂域中的多媒体融合方法，以捕获潜在的视听关系。后来，深度学习方法[14，56]到位，并利用视觉和音频信号之间的同步来找到图像中对音频特征敏感的区域。 Afouras 等人 [5] 提出了LWTNet，利用光流技术扩展同步线索，提取和跟踪视听对象，用于定位过程。与以前的方法不同，我们的工作更进一步，考虑到跨视频片段呈现的视听功能的上下文。我们的方法不会天真地定位所有包含语音的区域，但它能够注意到声音并突出对话中主要说话者的位置扬声器音频分离。现有方法[42，53，62]使用仅音频特征，即语音的特性，来重新解决这个问题。Hershey等人[38]将该任务公式化为聚类问题，其中目标是学习频谱图中的每个时间-频率元素的嵌入，使得每个嵌入聚类与一个*数据集和实施将在以下网址公开提供：https://github.com/uark-cviu/Right2Talk目标主要发言人活动说话者突出SSL音频分离音频分离跨段时间模型段内段内段内段内人民独立党✓✗✗✓Visual Context建模✓✗✗✗✗视听相关余弦视听特征特征Transformer距离同步级联级联1107∈ X1--{}∈V∈Ah启动M我MMMM我我vKVvM≡∈≡M图2. 我们提出的视听Transformer框架。给定视频片段集合，利用三种类型的相关性来捕获对话中的上下文，即：视觉-视觉、听觉-听觉和听觉-视觉注意力。然后，视听注意特征被用于主说话人定位和音频分离。（最佳彩色视图，放大2倍）主题的声音。Zhao等人。[71，72]在一个或多个帧中检测对象，并使用它们的外观和运动来区分对象的声音。Gao等人。[34]提出了一种协同分离训练目标，用于从包含多个声音源的未标记视频中学习音频源分离Ephrat 等人 [28] 贡献了一个大规模的数据集，即AVspeech，并提出了一个端到端的视听架构。Afouras等人[2]建议使用唇部区域并且考虑音频幅度和相位。上述方法忽略了视频的上下文，这是网络提高分离语音质量的非常重要的线索我们的新架构被提出来获取上下文信息。3. 该方法这项工作的重点是话轮转换会话组成的话轮。每个回合的长度是灵活的，根据对话设x可以是由视觉分量V（RGB帧的序列）和音频分量A（一个或多个扬声器的混合音频）组成的多扬声器对话视频3.1. 话轮转换会话有了话轮转换规则，对话x可以被取消。图3.话轮转换对话。对话被分解成回合，其中每个发言者充当回合的主要发言者（绿色框），并且其他发言者在该回合期间被认为是中断者或收听者（橙色框）。演讲者的演讲这些反应通常发生在Turnh期间的短时间窗口内，并以主要发言者的讲话的继续而结束当中断者在同时讲话之后继续单独讲话时，发生主讲话者的回合改变。图3示出了话轮转换会话中说话者的角色的示例3.2. 问题定义不是将X分解成匝hH，而是我们提议将X呈现为K个片段的组合Segk=vk，ak，k=l，…K，vk和k.第h个发言轮轮h由一个或多个段组成组成说话轮，即转动h，h = 1，…，H，即转弯h={Segk}h结束其中h开始和h结束标记其中H是x的圈数。虽然很多人说-第h回合的开始和结束时间的指数，重新-在一个说话的回合分别为。令Sk成为主要发言人，而Sk则是in-在合作或竞争的方式下，每个发言者的角色可以分为两类。主扬声器S h.主语S是在对话中的Segk我们有Sk Sh和Sk Sh ，当SegkTurnh时。然后，目标是为每个Segk提取Sk的位置和干净的声音。当他/她进行谈话并推动谈话时，转向h。形式上，目标是学习”[16]他继续说即使是中断（即同时Sk的视觉位置图Mk和音频掩码Mk如.v a m如果发生，受试者将继续单独讲话，直到转弯的尽头。一个长时间的对话，在SMk*=argminΣ−logP。Mk[Loc（Sk，vk）]|Se g1：k（一）转弯h可以提供主扬声器角色的指示+logP。Mk[Loc（Sk，vk）]|Se g1：kΣΣvI中断器或监听器中断器或侦听器Mk*= arg minMk⊙Spec（ak）−Spec（ak）1（2）是一个谁有反应或意见的主要akaSm一M我1108MMv一vv×v1--MvM一一我我vvvvvvvvvv每一个vk都转化为一个用于注意力计算的特征，我们v.Σvvvv其中Loc（Sk，vk）是Sk在vk中的位置;是声谱图转换算子;阿达玛产品;和Sk 是S k的干净声音。段1：k表示从视频x的开始到第k个片段提供的时间信息。条件项指示所考虑的时间约束。为了有效地估计Mk和Mk，我们提出了一个视听Transformer方法（见图2）由三个学习阶段组成：（1）通过视觉和听觉的自我注意来学习情境;（2）视听相关学习;（3）基于会话语法的主说话人定位和音频分离。建议音频-Visual Transformer通过{D，，Ev，Ea}公式化为：G=[D◦]（zv，za）图4. 视觉-视觉注意力。注意掩模跨对应于绿色框中的发言者的视频片段。这种类型的注意力可以帮助在空间-时间维度上跟踪每个说话者的行为和交互。建议将fk投影到感兴趣的区域中，其中每个区域表示说话者zk= Ev（vk|第一段k）zk=E（ak|第一段k）（三）并了解它们之间的相互关系特别地，令b ={bk}，i = 1.. N，k = 1.. 其中bk∈ B R4表示K其中E和E将vk和ak映射到它们的潜在表示a，分段中第i个扬声器的位置，N是v a扬声器。投影函数R：Fv× B ›→ Fv为是功能组合。是项目-定义为fk，i= R（bk，fk）。我们采用ROI Align [36]在这些模态是可比较的情况下，共享表示空间的特征函数D将这些深层表示映射到主要发言者的视听遮罩。3.3. 视听情境学习除了以前的工作时间学习[19，20，22，25，26，27，69]，在这项工作中，给定对话，可以从视觉和音频信号中提取上下文信息，即，跨视频段的视觉-视觉和音频-音频相关性。虽然前者有助于在空间-时间维度上跟踪每个说话者的行为和交互，但后者提供了关于会话流的更多线索，即主发言人何时以及如何转换其角色。例如，两个或更多个分段之间的音频-音频相关性越高，主扬声器被切换的可能性越低。因此，这些跨段相关性可以隐式地嵌入主说话者的话轮改变信号，并且有助于避免将X预分解为说话话轮Turnh的阶段。viv函数R.有两种方法可以获得b和N，即人脸检测和块分解。前者采用人脸检测的方法提取所有分割区域中的人脸后者均匀地分解成N=n n块的视觉段为b。虽然人脸检测方法往往会更直接地关注人脸区域，但我们的实验表明，块分解可以关注跨段的同一说话人的人脸轨迹区域。虚拟互动注意。给定特征集fk，i，跨空间-时间维度的视觉-视觉上下文可以被表达为构建具有三个基本的基于注意力的元素的每个特征集的动态字典[55，59]。即键、查询、值。当关键字和查询被训练以支持字典查找过程时，其中查询特征与其匹配的关键字高度相关并且与其他特征不相似，值表示每个关键字和查询的区分特征扬声器. 特别地，通过三个可学习的投影{ Ω Q，ΩK，Ω V }来提取自我注意力集合{kk ，i，qk ，i，vk ，i}。即使当打断者主宰了主发言人如qk，i= ΩQ（fk，i）;kk，i= ΩK（fk，i）;vk，i= ΩV（fk，i）。在某个片段中，这种我们通过两个编码器结构的自注意机制嵌入其跨域相关性之前，模型的上下文相关性3.3.1视觉-视觉自我关注。给定一系列分段v，K，K，视觉编码器E，v由三个主要函数组成，即特征嵌入、自关注和具有关注的特征细化。特别地，每个vk首先经由Fv：V> →Fv被嵌入到深度特征嵌入中，因为fk=Fv（vk）。说话者之间的视觉相关性可以被定义为。αki，k′j=σqk，i（kk′，j）<$/<$d（4）其中d是特征尺寸，k’是分段索引变量。我们认为注意是一种概率分布，说明了响应注意之间的发言者。因此，softmax函数可以用于σ（·）。注意力集中的功能优化。通过这些相关性，说话者之间的视觉自我注意允许每个说话者通过空间-时间维度与所有其他说话者相关。然后，扬声器上的虚拟交互被显式地嵌入到它们的表示中。KN扬声器感兴趣区域（SROI）。而不是嵌入zk，i=ηv<$fk，i+η vαki，k′jvk，i<$（5）k′=1j=1vvvvvvv1109····--LL∼∼v一vvv一一一一一一一一vzk=（zk，zk）=ηzk+vaαk，k′ ivk′，iaa一K一vv，Σ Σ，图5.音频和视觉特征域的拓扑其中ηv是残差型MLP。在整个过程中，一个视觉片段中的每个说话者的特征可以交互地嵌入其潜在表示中，该潜在表示与其他片段中的相同说话者以及相同片段的其他说话者的相关性。图4示出了跨对应于绿框中的说话者的视频片段的注意力掩模3.3.2视听自我注意类似于虚拟交互，音频自我注意被建模为音频片段之间的相关性。Partic-图6. 视听注意主要发言人。跨片段的视听注意掩模示出了音频对视觉的响应。（彩色效果最佳）在视觉样本zi和音频样本zi’之间。另外，令c_p_v（，）和c_p_a（，）分别是定义为视觉空间和音频空间中的两个样本之间的距离的成本函数。对准过程用Gromov-Wasserstein 距离公式化，如等式 11 所示。（七）、2令Fa：A →Fa为音频嵌入函数L对齐=GW（cpv，cpa，pv，pa）=minπ∈Π（pv，pa）J（cpv，cpa，π）（七）其提取音频段K KKKJ（cp，cp，π）= Σ|cp（zi，zj）−cp（zi′，zj′）|2πi，i′πj，j′一1和fa=Fa（a）。音频自我注意相关段之间的距离可以如等式11中那样计算。（六）、qk= ΩQ（fk）;kk= ΩK（fk）;vk= ΩV（fk）i，j，i′，j′直观地说，最小化J（cpv，cpa，π）旨在找到一个ap-i。aaaa一aaa一适当的关联（即，通过π）αk，k′=σ。qk（kk′）/dzk=ηa（fk+Σαk，k′vk′）k′=1（六）以及最小化它们之间的拓扑差异（即，经由CPV、CPA）。注意，直接求解Eqn.（7）由于非凸二次问题而代价高昂时间复杂度为O（n3）。因此，我们采用提取的每个片段的音频特征能够嵌入与其他音频片段随时间的相关性3.4. 视听相关学习从两个不同域的特征计算视听相关性。由于这些模态的拓扑结构（即特征如何分布在潜在空间中以及其特征之间的相关性一种解决方案是设置两个编码器Ev和Ea，从相同维度的潜在空间提取特征以利用域dif。[67]第67话一个人的幸福图5示出了从10个不同说话者（例如，说话者）的500个剪辑片段提取的视觉（蓝色点）和听觉特征（红色点）。由不同标记表示）并使用t-SNE方法投影到2D空间中。由于在对齐阶段对齐，视觉和听觉特征被带入相似的分布（图11）。5（B）（左））更多对齐的特征分布（图5（B）（右））。视听相关。利用对齐的视觉和音频特征，我们进一步采用类似的注意力机制来学习每个SROIzk，i的视觉特征与每个片段中的音频特征zk之间的关联。推论然而，这些模态之间的拓扑差异可能仍然存在。为了缓解这一问题，我们vqk= ΩQ（zk）;kk我一= ΩK（zk，i）;vk，i=V（zk，i）在学习相关性之前的两个域在他们的特征之间。通过这种方式，zk和zk被很好地对准，并且它们的相关性可以被充分利用。跨域对齐作为最优传输（OT）αk，k′i=σ。qk（kk′，i）/√dΣKN一vak′=1i=1（八）问题. 我们用两个分布pv和pa表示视觉和听觉特征的分布，其中zvpv（zv）和zapa（aa），并提出了一个两阶段的对齐过程：（1）通过传输函数π在视觉和听觉样本之间进行样本关联和（2）拓扑同步。形式上，设π为传输函数，其中注意力矩阵评估音频在空间-时间维度中对SROI的响应程度。高响应指示音频和与该SROI相关联的扬声器之间的高相关性。该关联嵌入说话者是音频段的活动说话者的概率。图6说明视听i i′πi，i′=π（zv，za）表示关联概率注意力在单个和多个扬声器会话。1110v，α 如果（x，y）∈b，i=1. N一一公司简介LMLMax--α=i*;i=argmaxLMaxL一SM3.5. 基于会话语法的主说话人定位和音频给定来自前一步骤的视听注意力特征zk，视听掩模计算如下：Mk（x，y）=k，ki k我0否则（九）Mk=D（zk）其中D是将zk映射到目标音频掩码的可学习解码器;并且α k，ki表示音频与第k个分段中的第i个说话者的SROI之间的相关性得分。方程的目标函数。(1)以及（2）为了学习Mk和Mv，可以如下重新公式化，图7. 周期同步丢失。在谈话期间发言，并且当发言者结束他/她的发言时发生角色转换在第二种类型中，混合声音发生在其他声音被打断的时候。L目视=Eeαk，ki-logαk，kij=ieαk，kjΣ（十）扬声器.从这些文法，我们合成一个视频训练集包含多个发言人（1）随机在所述单个主题训练集中选择不同的视频;L音频=EΣ||Mk⊙Spec（ak）−Spec（ak）||1Σ直观地，一方面，音频优化模型以适应目标（主）说话者的语音。另一方面，在一项研究中，L视觉旨在增加au-模式）;（3）在短时间窗口中混合他们的语音并且垂直地连接视频帧（即，竞争模式）。在所有情况下，Sk被设置为占据在一些实施例中，SROI可以包括目标说话者的dio和SROI，同时减少与空间-时间维度中的其他SROI的相关性。自我监督学习。虽然我们的目标是发展学习定位主要说话者的自监督模型，在训练阶段期间不存在主要说话者的地面实况位置。因此，我们进一步提出视觉的自监督版本，即周期同步丢失，定义如下：LCycSync=EΣ||αk，ki−αk，ki||1Σ音频段或整个视频的所有段。音频-视频Transformer优化为：L=αalignLalign+αvisualLCyc Sync+αaudioLaudio（12）其中αalign、αvisual、αaudio是控制其相对重要性的参数。4. 主扬声器数据集虽然大多数先前的说话人数据集[1，3，10，64]主要是针对主动说话人检测任务而设计的，但是在本文中，使用了一种基于语音的主动说话人检测方法。k，kiMax，αk，ki如果（x，y）∈bk*k，ki（十一）这项工作，我们进一步介绍了一个大规模的数据集主扬声器检测任务。建议的数据集是col-0否则i其中α（k，k，i）是目标说话者的预测干净语音之间的相关性。CycSync的直观性如图所示其中目标是惩罚两个项之间的一致性：（1）输入（混合）语音ak和视觉分量的相关性;以及（2）目标的预测（干净）语音和视觉分量的最大相关性干净语音是一个说话人的语音，它反映的语言内容与目标说话人的视觉特征相似，因此，干净语音与目标说话人视觉成分的相关性可以有效地指导定位过程。此外，通过仅考虑α（k，ki中的最大α（k，ki ），其他说话者的视觉（即，中断器）并且音频也被最小化。学习会话语法。我们采用混合和分离策略[28，72]来获得音频的音频分离任务的基础事实，并使用两种类型的会话语法对其进行进一步扩展，即合作竞争模式。在第一种类型中，每个发言者轮流发言Σ(2)顺序地连接这些视频（即，合作1111选择三种会话类型，即讨论小组、电话会议和辩论，来自多个Youtube频道。特别地，在讨论小组视频中，发言者在对话期间轮流合作地发言。对于第二种类型，视频由多个主题（即3-5人）通过Skype或Zoom在电话会议中交谈。第三种类型更具有挑战性，辩论式视频中，两个发言者以合作和竞争的方式进行更多的打断。对于每个收集的视频，我们选择不同长度的片段（即，从6秒到20秒），其可以表示相应会话风格的属性。总的来说，数据集由300分钟的视频组成所有剪辑都转换为25fps和16kHz。主扬声器的边界框也被注释。5. 实验结果数据设置。我们的训练数据包括来自唇读句子2（LRS 2）[1]的29小时的训练视频，以及syn-11123××v-{}vv一一一--表2. LRS2上的主扬声器音频分离，有和没有域对齐。值越高越好。我们的无L对齐我们的WL对齐SDR（dB）1S+N14.415.82S9.810.32S+N7.07.2PESQ1S+N3.13.32S2.72.92S+N2.52.5获得如在Sect.三点五合成片段的长度从4s到8s不等，分解成2s短片段。混合语音的重叠比率被设置为1。为了验证，我们采用LRS2，唇读句子3（LRS3）[3]，哥伦比亚[10]和我们收集的数据集的测试集LRS2和LRS3包括0.5小时到1小时的测试视频，而Columbia包括86分钟的小组讨论。我们采用地面真理，图8. 主要发言人本地化。视觉化的注意面具定位的主要发言人。（彩色效果最佳）采用多源扬声器音频分离协议，并估计信号失真比（SDR）[29]和语音质量感知评估（PESQ）[63]。消融研究。为了研究我们提出的跨域对齐方法的有效性，我们使用两个LRS2上的音频分离任务进行了消融研究每个活跃的发言人在哥伦比亚，而注释绑定-对于LRS2和LRS3，使用面部检测[17]来检查框。配置：不带和带L对齐 . 我们创造了合成-音频数据预处理。我们采用短时傅立叶变换（STFT）来表示音频信号。我们的短时傅里叶变换使用Han窗函数来产生频谱图的我们将跳长设置为10 ms，窗口长度为40 ms，采样率为16000 Hz。可视化数据预处理。所有训练视频被重新采样到25FPS的160 × 160像素的分辨率。该选择的分辨率导致组成N=6 × 6个块的特征图。在测试阶段，我们只将输入视频重新采样到25 FPS并保留原始分辨率。网络架构。我们采用3D VGG型网络用于视觉深度特征嵌入Fv，并且采用2D VGG型网络用于音频嵌入Fa。线性投影ΩQ、 ΩK、 ΩV、 ΩQ、 ΩK、 ΩV、 ΩQ、 ΩK、 ΩV均为实现为将特征投影到512D空间的全连接层映射函数ηv、ηa、η被实现为残差式MLP，其由2个完全连接的层组成，然后是归一化层[8]（隐藏层的维度被设置为1024）。视听掩模生成器D由2个完全连接的层的堆叠来实现，其预测频谱图的幅度掩模和相位掩模两者。我们使用用于人脸检测的RetinaFace [17]广泛用于人脸识别[12，21，23，24，47，50，51，52，68]。型号配置。我们的框架是在PyTorch [58]中实现的，所有模型都是在具有四个NVIDIA P6000 GPU的机器上训练的。每个 GPU 的批处理大小设置为我们使用RMSProp优化器，开始学习率为0.0001。我们将控制参数设置为1。0，即α align= α visual= α audio= 1。0.评估指标。为了与先前的方法进行比较，我们采用四个常见的度量用于定位和音频分离任务。对于单个扬声器视频，如果定位位于主扬声器的地面实况边界框中，则定位对于多说话人视频，采用F1分数进行验证。为了评估主要扬声器分离，我们通过组合来自多个视频的音频，对来自LRS2的视频样本进行综合测试。评估了三个用例，包括具有背景噪声的主要语音（1 S +N）;混合了另一个说话者的语音的主要语音我们在表2中报告了这些情况下的SDR（dB）和PESQ指标。通过对齐两个域的特征，可以有效地提取视听相关性，并且有助于在所有情况下一致地改善SDR。5.1. 主讲人定位合作式话轮转换会话。在这种类型中，当每个发言者轮流加入谈话时，主要发言者也是在谈话期间积极发言的人。在表3中报告了与先前的主动说话者检测方法相比的单说话者和多说话者对话的定位精度对于我们模型的每种训练模式，我们还包括考虑到段内和段间相关性的配置可以看出，利用注意力机制以及域对准过程，视觉和音频特征更好地相关并且提供主说话者的更准确的位置。此外，当在配置（B）和（D）中采用空间-时间维度时，性能进一步提升。由于跨段的相关性（如图所4），每个说话者的位置与其他分段中的相同对象的面部高度相关，并且因此使得能够在对话期间跟踪该说话者的一致性。我们的方法在所有数据集中的性能都优于LWT-Net [5]，其边际为0。1%至4。百分之一。图8显示了我们与LWTNet相比的本地化结果竞争性话轮转换会话。这种类型更具挑战性，因为两个扬声器可能同时发言。因此，尽管两个扬声器可以都是有源扬声器，但是其中只有一个被认为是主扬声器，而另一个是中断器。对于这项任务，1113L表3.合作式话轮转换会话中的主说话人定位准确率（%）。对于LRS2和LRS3，如果定位位于真实边界框内，则认为定位正确。哥伦比亚采用F1成绩。单个扬声器多个扬声器LRS2LRS3哥伦比亚（平均值）贝尔哥伦比亚（每波尔利布主题）长生病基线（随机像素）二点八厘二点九厘百分之八点五百分之七点八百分之八点六九点九百分之七点九百分之八点七基线（中心像素）百分之二十三点九百分之二十五点九14.9%13.0%百分之十一点五百分之二十一点四百分之十九点二百分之十七点九多传感器[56]百分之九十九点三百分之二十四点八百分之五十二点七52.0%百分之四十三点八百分之六十二点三百分之六十四点八百分之六十点九Chakravarty等人[第十一届]SyncNet [14]−−−−80.2%89.5%百分之八十二点九百分之九十三点七百分之六十五点八百分之八十三点四百分之七十三点六百分之八十六点八86.9%百分之九十七点七百分之八十一点八86.1%LWTNet [5]99.6%百分之九十九点七百分之九十点八百分之九十二点六百分之八十二点四88.7%94.4%95.9%(A)我们的-阻止注意力百分之九十九点七百分之九十九点八92.7%百分之九十三点七百分之八十五87.5%92.8%百分之九十七点二（B）+跨细分市场百分之九十九点八百分之九十九点九百分之九十三点四百分之九十五点八百分之八十五87.5%92.8%百分之九十七点二(C)Ours - Speaker Attention†百分百百分百百分之九十三点八百分之九十五点八百分之八十五百分之九十一点六92.8%百分之九十七点二（D）+跨细分市场百分百百分百百分之九十四点九百分之九十五点八百分之八十八点五百分之九十一点六百分之九十六点四百分之九十七点二表4.竞争性话轮转换会话中主说话人定位的准确性。表5.LRS2上的主扬声器音频分离。除了随机像素和中心像素基线之外，我们考虑两个附加的定位策略。我们首先使用LWTNet [5]来定位每个视频片段的所有活动扬声器，然后选择主扬声器作为具有（1）较大音频幅度（即，大mag），和（2）最大视听相关性（即，高校正）。表4报告了我们收集的数据集上的定位准确度，以F1得分与四种基线方法进行比较。这些结果再次强调了我们提出的方法在自动和鲁棒地定位对话中的主要说话者的能力方面的优势。所实现的改进来自所提出的模型的三个属性：（1）从视觉和听觉两个领域呈现语境注意;（2）域特征对齐，以及（3）循环同步丢失循环同步，其最小化从混合语音和干净语音获得的局部化掩码之间的差异。5.2. 主扬声器音频分离为了定量评估所提出的方法的音频分离能力与上一节类似，我们从LRS2中创建了三种情况下的合成测试视频，即1S + N、2S和2S + N，并与先前的方法相比评估我们的方法的不同配置，如表5所示。随着时空的关注，所有的配置-†我们报告了单说话人情况下人脸检测的准确性SDR（dB）↑PESQ↑讨论面板TeleConf辩论1S+N2S2S+N1S+N2S2S+N混合物输入1.31.310.61.11.11.0基线（随机）a基线（中心）百分之四点八百分之一点三3.0%百分之一点一九点五厘百分之五点九[72]第七十二话深度聚类[38]Conv-TasNet [49]LWTNet [5]9.49.0−−1.56.010.710.80.53.2−−1.22.3−−1.12.33-.01.01.9−−LWTNet[5]+大型磁盒LWTNet[5]+高校正62.8%88.0%55.07%百分之八十58.7%百分之六十三点三我们百分之九十点二百分之八十三点三69.4%我们的（仅限音频）+ 事业部在区域内11.111.29.19.47.07.12.82.82.82.92.52.61114考虑到跨段相关性的方案从0得到改进。三比一。2dB的SDR时，分离两个扬声器的声音。此外，视听注意力也提供了更多的线索，以改善分离过程。我们通过采用两种策略验证 SROI 的作用（见第二节）。3.3.1），即块分解和人脸检测。虽然使用人脸检测可以更多地关注人脸区域并产生进一步的改进，但块分解方法仍然可以关注跨段的同一说话者的轨迹并提供竞争性能。此外，我们使用这两种配置的方法在SDR和PESQ中优于LWTNet [5]6. 结论本文提出了一种新的用于主说话人定位和音频分离的音视频转换方法。由于在时空维度上引入了注意力机制以及用于更好同步的主对齐，我们的方法可以有效地定位和突出多说话人对话视频中的视觉和音频通道中的主说话人。在视觉定位和音频分离任务中的实验表明了我们的建议的优点。谢谢。这项工作得到了NSF Data Science，Data Analytics that are Robust andTrusted（DART）和Chancellor's Innovation Fund，UAF的支持。它也得到了阿肯色州生物科学研究所的部分资助，这是2000年阿肯色州烟草结算收益法案的农业和生物医学研究计划。1115引用[1] Triantafyllos Afouras 、 Joon Son Chung 、 AndrewSenior、Oriol Vinyals和Andrew Zisserman。深度视听语音识别。TPAMI，第1-1页[2] T. Afouras，J.S. Chung和A.齐瑟曼。对话内容：深度视听语音增强。在INTERSPEECH，2018年。[3] T. Afouras，J. S. Chung和A. 齐瑟曼。 lrs 3-ted：用于视觉语音识别的大规模数据集。在arXiv：1809.00496，2018。[4] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man.我的嘴唇被遮住了：通过障碍物的视听语音增强。在INTERSPEECH，2019。[5] Triantafyllos Afouras ， Andrew Owens ， Joon SonChung，and Andrew Zisserman.视频中视听对象的自监督学习在ECCV，2020年。[6] Relja Arandjelovic和Andrew Zisserman。看，听，学。InICCV，2017.[7] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在ECCV，2018。[8] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv：1607.06450，2016。[9] Zohar Barzelay 和 Yoav Y Schechner 。和谐的运动CVPR，2007。[10] Punarjay Chakravarty和Tinne Tuytelaars。用于学习视频中的主动说话者检测的跨模态监督在ECCV，2016年。[11] Punarjay Chakravarty和Tinne Tuytelaars。用于学习视频中的主动说话者检测的跨模态监督在ECCV，2016年。[12] C. 陈威Yang，Y.Wang，K.Ricanek和K.卢用于年龄估计的人脸特征融合与模型选择InFG，2011.[13] Joon Son Chung，Bong-Jin Lee，and Icksang Han.谁说的？：真实世界会议的视听扬声器日记。在GernotKubin和Zdravko Kacic，编辑，国际语音，2019年。[14] Joon Son Chung和Andrew Zisserman。超时：在野外自动对口型。InACCV，2016.[15] 罗斯·卡特勒和拉里·戴维斯看看谁在说话：使用视频和音频相关的说话人检测。载于ICME，2000年。[16] 皮诺·卡特隆L2听众群的性能分析：在日语英语教学中考察个体差异的影响。TESOL，2019年。[17] 邓建康，郭佳，周宇翔，俞金科，艾琳Kot-sia，和Stefanos Zafeiriou.Retinaface：野生环境中的单阶段密集面部定位。arXiv：1905.00641，2019。[18] Y.丁氏Y. Xu，S. X. Zhang， Y. Cong和L.王.用于视听说话者日记化的自监督学习。在ICASSP，2020年。[19] Chi Nhan Duong、Khoa Luu、Kha Gia Quach和Tien D.Bui. 基于时间深度限制玻尔兹曼机的纵向人脸建模在CVPR，2016年。[20] Chi Nhan Duong、Khoa Luu、Kha Gia Quach和Tien D.Bui.深款外观：人脸建模的深度玻尔兹曼机方法。IJCV，2019年。[21] Chi Nhan Duong 、 Khoa Luu 、 Kha Gia Quach 和 NganLe。Shrinkteanet：通过缩小师生网络实现百万级轻量级人脸识别。arXiv：1905.10620，2019.[22] Chi Nhan Duong，Khoa Luu ，Kha Gia Quach，NghiaNguyen，Eric Patterson，Tien D. Bui和Ngan Le。通过深度强化学习在视频中自动进行面部老化。在CVPR，2019年。[23] Chi Nhan Duong、Kha Gia Quach、Ibsa Jalata、Ngan Le和Khoa Luu。Mobiface：移动设备上的轻量级深度学习人脸识别。在BTAS，2019年。[24] Chi Nhan Duong，Kha Gia Quach，Khoa Luu，Hoai BacLe，and Karl Ricanek Jr.使用全局和局部面部特征微调年龄估计。载于ICASSP，2011年。[25] Chi Nhan Duong，Kha Gia Quach，Khoa Luu，T. HoangLe ， Marios Savvides ， and Tien D. Bui. 从纵向人脸IJCV，201

下载后可阅读完整内容，剩余1页未读，立即下载