立体声混合录音中多个语音源的SRC-TDOA估计方法-源计数和到达时间延迟估计

182 浏览量更新于2024-01-27 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝⃝可在www.sciencedirect.com上在线获取ScienceDirectSoftwareX 5（2016）234原始软件出版物www.elsevier.com/locate/softxSRC-TDOA：从立体声混合录音中估计多个语音源Mariem Bouafif，Zied LachiriLSTS-SIFI Laboratory，National Engineering School of Tunis，BP 53，Campus Universitaire，1002，le Belvedere，Tunis，Tunisia国家应用科学与技术研究所物理与仪器系，BP 676，Centre Urbain，1080，Cedex，Tunis，Tunisia接收日期：2015年11月14日;接收日期：2016年8月11日;接受日期：2016年10月10摘要本文研究了欠定条件下双通道混叠混响信号的源计数和到达时间延迟估计问题大多数现有的估计TDOA的实现是基于先验知识的混合物中所涉及的源的数量。然而，我们开发了一个新的函数，只需要观察到的混合物作为输入。在本文中，我们描述了基本的建议功能，它的发展和它的评价实际记录的混合物参考广泛使用的方法。通过仿真和真实环境实验，我们表明，我们的方法优于其他国家的最先进的TDOA方法的准确性方面，同时显着更有效的计算复杂度。c2016作者。由Elsevier B.V.发布。这是CC BY许可下的开放获取文章（http：//creativecommons. org/licenses/by/4. 0/）。关键词：到达时间延迟;信源计数;定位; MATLAB代码元数据当前代码版本V1.0此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-15-00080法律代码许可证BSD-3条款使用的代码版本控制系统无使用MATLAB的软件代码语言、工具和服务编译要求、操作环境依赖性（如有）开发人员文档/手册问题支持电子邮件mariem. gmail.com1. 动机和意义定位包括估计源的空间位置。当使用麦克风阵列记录源的信号时TDOA估计已经被广泛解决，因为它被用于许多应用，如视频会议和机器人试镜。估计TDOA的方法可以大致分为三类。第一类[1-第二类[4]交替地将时间频率仓聚类成源，并根据观测到的相位差更新源TDOA第三类[5-开发了角谱和聚类方法，并将其集成到工具箱BSS-Locate [8]中。它涉及十二种不同的源定位方法：*通讯作者：LSTS-SIFI实验室，突尼斯国立工程学院，BP 53，Campus Universitaire，1002，le Belvedere，突尼斯，突尼斯。电子邮件地址：mariem. gmail.com（M. Bouafif），zied. enit.rnu.tn（Z. Lachiri）。http://dx.doi.org/10.1016/j.softx.2016.10.0032352-7110/c2016作者。由Elsevier B.V.发布。这是CC BY许可下的开放获取文章（http：//creativecommons. org/licenses/by/4. 0/）。M. Bouafif，Z.Lachiri/SoftwareX 5（2016）234235基于角谱峰值检测的八种方法：具有相位变换的广义互相关（GCC-PHAT），具有非线性函数的GCC-PHAT版本（GCC-NONLIN），多信号分类（MUSIC），几种基于信噪比的局部角谱，如最小方差无失真响应（MVDR），延迟求和（DS）波束形成和四种基于时频点聚类的方法。所有这些方法都需要对源的数量及其TDOA进行初始猜测。建议SRC的TDOA是一个简单的MATLAB代码。它实现了一种新的方法，允许源计数和本地化，使用只有两个麦克风捕获的两个观察到的混合物，没有任何先验知识。该编码算法是基于语音激励分量的强调。首先从两个传感器捕获的两个混合信号中导出线性预测残差的Hilbert包络（HE），然后进行预处理任务以强调显著激励的时刻。最后，通过两个混合信号的线性预测残差的修正和预处理后的Hilbert包络之间的互相关函数来该规范的理论基础和检验见[9]。它的实际应用是由[10-12 ]执行的事实上，它最初是为了空间定位而开发的事实上，知道源的TDOA允许其到达方向（Az- imuth角）估计[10]。此外，它被用于一种新的盲源分离技术[11]，该技术使用估计的TDOA来分离混合中每个相关扬声器的声门闭合瞬间此外，使用结合分离技术的SRCTDOA允许参考所使用的麦克风阵列的中心在每个源的距离中定位[12]。本文的要点如下：第2节简要介绍代码;第3节介绍一些示例;第4节讨论代码的影响;最后，第5节结束。代码元数据在第1节之前给出。2. 软件描述SRC TDOA是一个单一的MATLAB函数，它计算立体声混合中所涉及的源的数量，并估计它们的到达时间延迟（TDOA）。该代码背后的方法基于稀疏性假设，其中我们假设在每个时频点中只有一个源是活动的[9]。TDOA估计和源计数由两个观测混合的线性预测（LP）残差的希尔伯特包络（HE）之间的互相关函数互相关函数中伪峰的数量和位置分别决定了源的数量和它们的到达时间然而，每个声道的LP残差的HE中的大量小值可能导致互相关中的伪峰值，这使得难以区分限定扬声器的波瓣和仅是混响效果的其他波瓣。因此，通过强调HE中的显著激励的时刻，在互相关时间延迟之前应用每个通道的LP残差的HE的预处理步骤。预处理任务增强了高SNR区域周围的源的声门闭合瞬间（GCI）。峰值相对于预处理的观测信号之间的互相关函数中的中心点（零滞后）的位置对应于处理帧中的主导说话者的到达的时间延迟该延迟是在所有混合语音上移位20 ms的500 ms的连续帧上计算的。沿混合语音计算每个延迟的发生次数。SRC TDOA方法的详尽描述超出了本文的范围，有关该方法的扩展讨论，请参阅[13]。2.1. 软件构架代码是一个在MATLAB编程语言下运行的单个m文件[14]，所有子程序都包含在主文件SRC TDOA中。2.2. 主要文件软件功能该代码可以检测语音源的数量，并通过提供以（毫秒）表示的TDOA来定位它们。表1详细说明了运行建议代码所需的输入，并指定了其输出。SRC TDOA只需通过一个命令运行，如以下MATLAB命令提示符所示：3. 说明性实例在本节中，我们将在三个混合语音源的情况下，在真实记录的数据上测试我们的代码我们还对从BSS-Locate中提取的多源混合物进行了实验[15]。然后，我们提出了一个有用的应用所提出的代码。236M. Bouafif，Z.Lachiri/SoftwareX 5（2016）234×=CCC表1输出和所需的MATLAB函数SRC的输入。参数尺寸描述单元输入x（ n2）矩阵立体声录制混音样本f sdOutputsnum spk esttue（1× num spk est）估计TDOA ms的向量3.1. 真实数据使用包含从TIMIT [16]数据库收集的三个扬声器的多扬声器信号进行实验，并在杜比工作室5.1中同时播放扬声器，混响时间RT60 150 ms，信噪比（SNR）设置为6 dB。混合语音数据具有10（s）的持续时间。它们以44.1 kHz进行采样，并使用两个心形麦克风以1 m的距离进行收集。如图1所示，扬声器位于不同的距离处，我们注意到每个麦克风与三个扬声器之间的距离。测量这些距离以确定真实源的TDOA。每个扬声器的实际TDOA必须在范围[-d，d]内，其中d是c是声音在空气中的速度（c=340， 29 ms−1）。每个源的实际TDOA表示为：τi=di1−di2其中di1和di2是将第i个源与麦克风1和麦克风2连续分开的距离。（一）为了生成用于评估的信号，我们只需将目录WAV文件添加到Matlab路径，并在MATLAB命令提示符下输入：通过键入以下内容来估计源该代码计算沿混合语音的每个延迟的发生次数（根据样本的数量）。峰值的数量是扬声器的数量，并且它们的位置参考零时间滞后是它们的TDOA，以（ms）表示，如图11所示。图二、我们注意到，小旁瓣基本上是由于混响时间。表2报告了根据以下公式计算的实时延迟τ我测量的距离和从所提出的码获得的估计的时间延迟τ1这些结果与那些通过从BSS定位提取的现有角谱方法执行：具有相位变换的广义互相关（GCC-PHAT）、多信号分类（MUSIC）、最小方差无失真响应（MVDR）和延迟求和（DS）波束成形。GCC-PHAT执行的准确结果是由于预定义的最佳数量的选定峰，这是等于源的数量然而，我们提出的代码执行的结果接近GCC-PHAT所实现的，没有任何关于扬声器数量的先验信息。为了评估SRC的TDOA性能，常用的客观度量被称为F-测量标准，其取决于最高峰的数量和扬声器的数量，如[13]中所定义的。为了使用角谱方法，我们需要固定等于已知扬声器数量的最佳峰值数量，以获得最佳F测度。然而，考虑到峰值的实际数量，并将结果与建议的代码进行比较，图。 3显示最后一个显示最好的结果。M. Bouafif，Z.Lachiri/SoftwareX 5（2016）234237⟨ ⟩ ⟨ ⟩ ⟨ ⟩⟨ ⟩ ⟨ ⟩ ⟨ ⟩ ⟨ ⟩ ⟨ ⟩ ⟨ ⟩ ⟨⟩Fig. 1.杜比5.1录音室中扬声器和麦克风的配置。图二、在实际条件下登记的三个发言者的情况下，每个发言者的帧数的百分比作为延迟的函数箭头显示上级表2由所提出的码（SRC_TDOA）、GCC-PHAT、MVDR、MUSIC和DS计算的估计时间延迟τ（estτ），实时延迟τi（对于三个扬声器（Spk）的情况，以（ms）表示的实际延迟）实际记录混合。d，d 以（m）我i1i 2是第i个源与麦克风1和麦克风2连续分离的距离0.091.50 0.93 1.043.2. BSS-Locate混合信号所提出的代码在从BSS定位工具箱[15]中提取的多个混合物上进行测试。每个混合物包含两到六个源，在不同的配置下：六个混响时间（从50到750 ms），四个麦克风间距（从5 cm到1 m），四个源和麦克风对中心之间的距离（从20到2ms），以及三个源类型（男性，女性和音乐）以16 kHz采样工具箱的完整版本包含源信号和用于评估代码的混合滤波器过滤器被命名为J src RT d r con f ig k。其中J是源的数量，RT 混响时间，d是麦克风间距，r是源和麦克风对的中心之间的距离，以及k是满足上述特征的一个配置的索引。τ）Spk数量DI1Di2实数τSRC天线时差GCC-phatMVDR音乐DS1233.003.275.423.803.374.90-2.35负0.29-2.13−0.36-2.14−0.35−0.35-0.09毫米2.111.420.35−0.350.091.04238M. Bouafif，Z.Lachiri/SoftwareX 5（2016）234=0个 0. 1个0.20.30.40.50.60.70.8个单位0.9 1图三.针对三个扬声器的情况，在F-测量方面，将所提出的码（SRC_TDOA）与角谱方法（GCC-PHAT、MUSIC、DS和MVDR）进行比较为了生成用于评估的信号，我们将目录sources/和filters/添加到Matlab路径，并输入：x=mix（ fname， stype）其中fname是filters/目录中的混合过滤器文件名之一，stype是对于在混响时间RT60m 100 ms下混合的五个男性声源的情况，麦克风之间1 m，声源和麦克风之间1 m，我们在命令窗口提示符中键入：在加载混合物之后，我们通过键入以下内容来估计五个源的源TDOA建议的代码生成图。四、它显示了扬声器的估计数量及其TDOA。BSS-Locate工具箱通过不同类别的源定位方法（如基于角谱的方法，包括GCC-Phat、MUSIC、MVDR和DS）来估计由一对全向麦克风记录的立体声音频信号中的多个源的到达时间差（TDOA）为了应用GCC-Phat方法，我们只需输入：tau=位置规格（x， fs， d， xrc）其中，x是包含立体声信号的n个样本x2矩阵，f是采样频率（Hz），d是麦克风间距（m），dfc是声源数量。输出tau则是以秒为单位的估计TDOA的1× Δτ cM. Bouafif，Z.Lachiri/SoftwareX 5（2016）234239==-图四、对于从BSS定位工具箱提取的五个扬声器的混合的情况，每个扬声器的帧的数量的百分比作为延迟的函数对于在混响时间RT60 50 ms下注册的三个男性源混合物的情况，麦克风之间为1 m，源和麦克风之间为1 m，我们在命令窗口提示符中键入：对SRC算法进行了仿真，测试了其在不同条件下的鲁棒性.所进行的测试集中在实际环境下的TDOA估计的行为。它显示了使用不同数量的扬声器改变声源数量、麦克风间距、混响时间和所选峰值数量的影响。为了评估SRC的TDOA性能，常用的客观度量是F-测度准则.如[13]中所定义的，F-测量取决于最高峰和扬声器数量。然后，我们调查的F-措施的平均得分整体混合物的行为作为不同参数的函数。使用包括不相关的女性和男性语音的语音信号进行评估在不同的混响时间下，代码的性能进行了我们刚刚采取了麦克风间距等于1米，麦克风与声源之间的距离等于1米的混合。在每个混响时间内，用F -测量对10个混合物进行平均的结果如图所示。五、它可以清楚地表明，SRC TDOA表现良好的混响小于300毫秒。然而，对于更高的混响时间，F测量减小，因为混响通过添加其他旁瓣来影响峰值的数量我们选择了包括无关的男性和女性的语音源来研究平均F-测量分数在麦克风间距方面的行为。我们将混响时间设置为50 ms，麦克风与声源之间的距离为1 m。结果如图6所示。可以看出，对于麦克风之间的中等和大的距离（d> 0. 6m）。然而，性能的下降对于小的麦克风间距最为显著，这导致空间分离的源之间的TDOA差较小通过研究选择峰数对F测度值的影响，研究了SRC接收机的TDOA性能。为此，我们使用的混合物，其中语音源，包括无关的男性和女性的语音混合在低混响时间RT60 - 50毫秒，与最佳的麦克风间距（d1米），和距离分离麦克风从源等于1米。在图7中描绘了根据F测量的每个扬声器数量的10个混合物的平均结果，其中我们可以注意到，对于低混响时间，最高峰数量完全匹配扬声器的数量。从这些结果可以得出结论，SRC的TDOA性能良好，在最小混响时间和麦克风的距离大于0.3米。前一个设置在实践中是有用的，因为它匹配机器人头部的大小。我们的研究结果表明，SRC的TDOA估计已经成功的消声TDOA。为了解决这一问题，需要对混响时差估计方法进行改进。240M. Bouafif，Z.Lachiri/SoftwareX 5（2016）234图五、平均F-作为混响RT60的函数的测量，以（ms）表示：具有Im麦克风间距的两个、三个、四个、五个和六个源（spk）的情况图六、平均F-对于50 ms混响，对于不同数量的扬声器，作为以（m）表示的麦克风之间的距离（d）的函数的测量图7.第一次会议。平均F-作为50 ms混响时间内峰值数量的函数进行测量M. Bouafif，Z.Lachiri/SoftwareX 5（2016）234241表3计算复杂性。方法运行时间SRC天线时差1.02GCC-phat1.39音乐11.76MVDR6.34DS6.643.3. 计算复杂度为了研究我们提出的代码和其他传统的方法（GCC-Phat，MUSIC，MVDR和DS）的计算复杂度，我们估计了每个代码执行估计TDOA所花费的时间。我们在表3中给出了具有三个源的场景的结果。请注意，对于方法的运行，我们使用同一台计算机来公平地比较它们我们使用Matlab 2010b在1.47 GHzCPU 2.00 GBRAM上实现。显然，我们的SRC TDOA具有最低的计算复杂度。GCC-Phat几乎需要1.5倍的时间，而MUSIC，MVDR和DS几乎需要6倍以上的时间。SRC方法的复杂度远高于其他方法。3.4. 应用知道每个源相对于麦克风阵列中心点的时间延迟，可以通过确定其到达方向（方位角）来进行空间定位，如我们在[10]中详细介绍的。空间定位基本上用于相机转向或源跟踪应用。4. 影响SRC的使用具有多个优点。首先，现有的源定位代码需要所涉及的扬声器的数量的知识然而，建议SRC的TDOA允许定位没有任何事先猜测。而单频域接收机的时延差估计使得研究人员能够模拟双耳系统，因为它只使用两个传感器，这在新技术中是一个具有挑战性的任务与现有方法相比，SRC TDOA是更可靠的代码，具有最准确的结果，如[13]所述此外，所有现有的方法都依赖于关于说话人数目的先验信息，而SRC TDOA是盲计算源这将为机器人设计者带来直接收益。SRC的TDOA已被广泛用于开发新的方法分离和定位的作者。此外，它可以用于更复杂的应用，如源跟踪和识别。它可以在受限条件下被机器人应用所采用。改进该编码的一种方法是在估计TDOA之前对混合语音应用去混响功能5. 结论通过SRC的双TDOA盲源定位，使得未来的机器人技术基于双耳系统，只有两个传感器。这使得新的机器人定位和确定源的数量没有任何先验信息。它允许研究人员从麦克风阵列机器人技术转向更合适的技术，只有两个麦克风。即使SRC TDOA仅在受限条件下表现良好，也可以通过引入去混响功能。引用[1] YilmazO，Rickard ST. 基于时频掩蔽的混合语音盲分离IEEE TransSignal Process 2004;52（7）：1830[2] Saw ada H，Araki S，Mukai R，Makino S.在频域盲源分离中，通过估计传播模型参数，对频率分量进行预分离。IEEE TransAudio Speech LangProcess2007;15（5）：1592-604.[3] ArberetS，Gribonval R，Bimbot F. 一种在多声道欠定混合中对音频源进行计数和定位的鲁棒方法IEEE Trans.信号处理。2010;58（1）：121-33.[4] Izumi OY，Ono N，Sagayama S.混响环境下使用EM算法的基于稀疏的2通道BSS。在：Proc. IEEE研讨会上的信号处理应用到音频和声学。2007.p. 147比50[5] 杨伟杰，李晓梅，李晓梅.稳健双通道多源定位的累积状态相干变换。第八届国际独立分量分析和信号分离会议。2009. p. 290-7[6] 施密特河多辐射源定位与信号参数估计。IEEE Transmunnas Propagation 1986;34（3）：276[7] 作者声明：John C. 时延估计的广义互相关法IEEE Trans.声音。语音信号处理。1976;24（4）：320-7.[8] 放大图片作者：A. 利用角谱和聚类的混响音频多源时差估计信号处理。2012;92：1950-60.[9] 波菲尔·保罗，齐布列夫斯基·迈克尔. 利用稀疏表示的欠定盲源分离信号处理。2001;81：2353-62.242M. Bouafif，Z.Lachiri/SoftwareX 5（2016）234[10] 布阿菲夫·马里亚姆，拉奇里·齐德. 基于到达时延估计的远场方位定位第37届电信与信号处理国际会议。柏林，德国：TSP;2014年。[11] 布阿菲夫·马里亚姆，拉奇里·齐德. 基于特征提取的距离定位分离混合参数估计第37届电信与信号处理国际会议。柏林，德国：TSP;2014年。[12] 布阿菲夫·马里亚姆，拉奇里·齐德.第15届国际语音通信年会上的多源分离声源定位协会，新加坡，2014年9月14日[13] 布阿菲夫·马里亚姆，拉奇里·齐德.欠定情况下多说话人时差估计第13届国际语音通信协会年会，俄勒冈州波特兰，2012年9月9日[14] The MathWorks，Inc.MATLAB-技术计算语言，Natick，马萨诸塞州（2015）。网址http://www.mathworks.com/products/matlab。[15] http://bass-db.gforge.inria.fr/bsslocate/.[16] JohnGarofolo等人TIMIT声学语音连续语音语料库LDC93S1。Philadelphia：Linguistic Data Consortium; 1993.网页下载。

下载后可阅读完整内容，剩余1页未读，立即下载