双耳声源定位在混响环境中的研究及评估

158 浏览量更新于2023-12-09 收藏 994KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

埃及信息学杂志18（2017）87全文混响环境中双耳声源位置估计作者：LamaGhamdan，Mahmoud A.Ismail Shoman，Reda Abd Elwahab，Nivin Abo El-Hadid Ghamry埃及开罗大学计算机和信息学院信息技术系阿提奇莱因福奥文章历史记录：2016年3月17日收到2016年4月27日修订2016年5月27日接受在线提供2017年保留字：位置估计双耳提示距离和方位混响室A B S T R A C T大多数双耳声源系统在方向或距离感知中执行定位。然而，在真实场景中，这两种感知对于在各种环境条件下估计源位置是重要的，特别是随着智能机器的快速技术发展及其参与人类日常生活。本文介绍了一种在不同混响环境下仅用两个传声器进行双耳声源方位和距离定位的方法该算法基于双耳线索的统计特征和双耳信号的双耳幅度谱的差异高斯混合模型（GARCH）用于联合学习不同混响室中的距离和方位角。所提出的系统不需要任何先验知识的头部相关的传递函数（HRTF），声学环境或房间参数。在不同的方面和条件下对性能进行了评估，并报告了有效和鲁棒的结果，特别是在训练集不匹配的情况©2017制作和主办由Elsevier B.V.代表开罗大学计算机和信息学院这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍机器人和智能机器在过去几年中有效而广泛地参与了人类生活，这提高了对受生物人类视觉和听觉启发的更自然的通信在视觉感知领域已经取得了明显的发展，但是仅使用放置在人造头部中的两个麦克风进行听觉感知仍然是一个重大的挑战，并且在其早期阶段被考虑[1]。在过去的几十年中，大多数研究使用麦克风阵列技术，如波束形成，这导致随着麦克风数量的增加而提高性能双耳声源定位在其不同的领域得到了越来越多的关注* 通讯作者：开罗大学计算机和信息学院信息技术系，埃及吉萨省， AhmedZewail，Ad Doqi。电子邮件地址： l. grad.fci-cu.edu.eg （ L.Ghamdan ）， m.essmael@fci-cu.edu.egwww.example.com Ismail Shoman ）， r. fci-cu.edu.eg （ R.A.Elwahab ），nivin@fci-cu.edu.eg（N.A. El-Hadid Ghamry）。开罗大学计算机和信息系负责同行审查。在一些方面（例如2D和3D定位、移动源和头部移动），为定位任务增加更多的实现技术的发展在其他不同的和广泛的应用中采用双耳定位，例如视频会议、智能房间、虚拟现实应用、听觉场景分析器、免提通信、监控和智能助听设备;然而，在人类听觉系统可以鲁棒地避免的真实环境条件下，定位的性能下降。进行了更多的研究来处理混响室，干扰噪声和干扰源等条件[2，3]，而不是理想条件。人类听觉系统能够在球坐标中提取物体在方向（方位角、仰角）和距离方面的空间位置研究的重点是方向感知，主要是各种场景下的方位估计。近年来，海拔得到了更多的关注[4]，但在距离感知方面的研究主要是通过麦克风阵列来解决的，而双耳听觉则较少考虑。由于方位角和距离是位置估计中与人类听众最有效的相关性[5]，因此进行了几项研究，以阐明方向和距离线索彼此之间的关系和影响他们报告说，方位角和距离估计的组合使定位精度最大化[6，5，7]。然而，大多数研究提供了它们中的任何一个作为给定信息，以提高测试用例的准确性，或者http://dx.doi.org/10.1016/j.eij.2016.05.0021110-8665/©2017制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com88L. Ghamdan等人/Egyptian Informatics Journal 18（2017）87NJX研究他们的影响。尽管距离代表了移动机器人的深度很少有研究将方位角和距离关联起来，用于基于麦克风阵列的位置估计，以跟踪移动对象[8，9]。因此，本工作提出了在方位角和距离的联合估计的方向的位置估计的基础上的组合的双耳信号的统计特征。在某种程度上，封闭空间代表了大多数人类活动和交互的环境;然而，它们遭受由房间表面的波反射引起的混响，这降低了定位性能。位置判断应该在不考虑真实场景的声学环境条件下执行，而在训练阶段很难覆盖所有可能的房间条件对于距离感知，建议用于估计的主要线索包括强度、频谱线索、双耳线索和直达混响比（DRR），DRR是与绝对距离估计相关的直达和混响信号的能量的比率。研究[6-因此，几项研究提出了从混响信号中盲提取DRR的算法[5，10，9，11]。Cooke在[5]中提出了一种均衡抵消技术，该方法估计方位角，利用方位角提取混响信号到达的能量，然后更新距离信息，但需要室内混响时间（T60），适用于2m以上的距离。在[10]中，推导出DRR和双耳幅度平方相干性之间的解析关系最新的方法[11]使用两个元件麦克风阵列的调零波束形成器估计DRR在[6]中，介绍了声源方法的位置学习。基于互谱的幅度和相位差引入的互谱估计方法，但指出该方法在估计同方位异距源时存在困难。Vesa在[12]中使用幅度改进了这个缺点平方相干作为距离估计的特征，但他的双耳线索的统计特性和双耳信号的频谱幅度差的标准偏差，并且论文的其余部分组织如下：下一部分描述模型方法、特征提取和选择过程的细节。在第3节中，解释了估计源位置的分类方法，第4节演示了模拟和所使用的数据库细节。实验结果和评价见第5节。最后在第6节中给出结论。2. 模型方法2.1. 特征提取为了实现双耳声源在方向和距离方面的位置估计，提取了反映方位角和距离信息的特征组合。在这一部分中，对特征的提取进行了说明，对特征的选择方法也进行了详细的说明。所提出的系统的完整过程在图中描述。1.一、2.1.1. 双耳频谱幅度差标准差（BSMD-STD）：左信号和右信号的频谱幅度差的标准偏差HRTF和光谱幅度标准偏差之间的依赖关系如图所示。二、进行了各种测试，发现200-3000 Hz的范围反映了高的距离和方位信息，并且对于1.2 s的块，使用汉宁窗提取BSMD STD。在[13]中，BSMD-STD用于混响封闭房间中的距离检测。我们的方法倾向于利用方位角信息，以联合估计距离和方位角在封闭的混响室。图3示出了作为方位角的函数的BSMD-STD。特定频带的BSMD-STD由下式给出：算法局限于方向角网格，并依赖于21XnjIJDBij23接收器头旋转并不具有完全相同的效果因为源方位角改变。最近，Georganti[13]开发了一种新的距离估计功能，它取决于标准rx¼4nj-ni1哪里kni½Dxk -lx]51双耳的幅度谱的差的偏差信号（BSMD STD），不需要任何先验知识，1XdBX n1房间声学特性，例如房间脉冲响应、混响，时间和房间容量。这一新的特点显示出高度的依赖性-勒伊杰 j- niDxkniðkÞ ð2Þ在水平面上的方向性，特别是在高混响室。Georganti还将双耳线索的统计特性纳入其中，以获得更强的鲁棒性。在受人类听觉系统启发并且仅基于两个麦克风的方位估计中，主要线索是作为左右耳之间的声音信号的到达时间差的耳间时间差（ITD）和被定义为两耳之间的强度差的水平的耳间水平这些线索已被广泛研究，以提供定位系统;近年来，Raspaud在[14]中研究了基于联合ITD和ILD特征的估计方位角。May[2]根据ITD和ILD的概率模型发展了高斯混合模型，Youssef等人使用神经网络方法来估计人形机器人背景下的方位角[15]。在本文中，我们提出了一个系统，该系统结合了两个模型来预测语音源的位置，在水平面上的方向和混响室中的距离，基于其中，ni和nj是频率范围的边界，k是频率仓，而lij是频谱幅度的平均值。2.1.2. 双耳线索人耳听觉系统双耳感知声源定位的主要线索是两耳时间差（ITD）和两耳电平差（ILD）。大多数系统利用这些线索来识别声源的方向，但是对于距离估计，它们并没有被广泛使用，尽管它们具有显著的性能和距离依赖性，特别是ILD[3]。提取不同频率通道的ITD和ILD，然后计算每个频率通道的统计测量值。以下段落。将解释估计技术。听觉模型：输入双耳信号使用相位补偿滤波器被分解为用于每个左耳和右耳的S = 32个频率信道。●L. Ghamdan等人/Egyptian Informatics Journal 18（2017）87892BB--Cb bb6b10ðb-1 0b/2 0 0 0 -201年k;s12 2 3 4 5 6 7 8 9 1011 12 13 14 15 16 17 18 19 19PN-1。长岛kN-n-li。里岛kN-n-riN-1li kN-n-我N-1ri kN-n-rin¼0iÞ2Fig. 1. 系统框图半波整流，然后平方根压缩。每个频率通道信号被划分为20 ms帧，每个连续帧具有10 ms的重叠，这些双耳线索是针对1.2 s的块计算的。耳间时差（ITD）：ITD被定义为到达耳朵的左信号和右信号之间的到达时间的差，其使用每个频率信道i的左信号和右信号之间的归一化互相关来计算为：我不知道你是谁。别这样但是，如果你想知道，你可以在这里找到一个新的工作，你可以在这里找到一个新的工作。别这样ﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃΣﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃΣﬃﬃﬃ ﬃ第1页第2页第1页第2页ð3Þ图二.方位角和频谱幅度之间的相互依赖性，其中左和右消声头相关传递函数估计为方位角和频谱幅度标准偏差的函数，取自[13]。其中k;N分别是帧编号和帧长度。L1和R1是左和右信号的平均值。计算互相关函数的时间滞后在[1，1] ms的范围内，（44，44）在样本中。然后是ITD(in示例）由下式给出：sikargmaxcik;s4其中si是信道i中帧k的最大时滞。为了提高ITD的精度，在估计值附近用指数插值法估计了附加小数部分，如[18]所示。这一步是由于概率实际互相关函数最大值可能位于由于采样间隔限制了ITD分辨率，因此两个连续样本之间的间隔很小。一个时间范围内以秒为单位的最终ITD估计为1国际贸易发展署哪里bsi图3.第三章。作为混响室中方位角和距离的函数的BSMD-STD = 0.2 s。四阶伽玛通滤波器组，用于模拟人类耳蜗的频率选择性，并在共同的时间实例[16]同步频率通道上的双耳提示，中心频率从80 Hz到5000 Hz间隔开接着是内毛神经传导，日志c ik; sik1logc ik; sik1Þ ¼4log10ciðk;siðkÞÞ-2log10ciðk;siðkÞ-1Þ-2log10ciðk;siðkÞþ1Þ耳间水平差（ILD）：取到达左右耳的信号各频带能量比估计的耳间电平差：. PN-1 rikN-n2！在等效矩形带宽（ERB）尺度上[17]，这是icldik¼20log02ð7Þ10 PN-1lkN-n2●B●CS90L. Ghamdan等人/Egyptian Informatics Journal 18（2017）87¼我1我ði;kÞði;kÞMk¼1ði;kÞði;kÞÞÞqPm22.1.3. 双耳线索的统计特性ITD和ILD在不同频带上具有不同且复杂的模式根据Rayleigh勋爵的双工理论[19]，ITD在低频处呈现更准确的信息，而ILD在高频处具有更好的定位信息这意味着ITD和ILD分布包含关于源位置的互补信息;然而，混响等因素导致其分布的偏差和变化，而混响导致ITD的时间波动并降低ILD的幅度在[20]测量双耳线索直方图之后，方位角和距离的相互依赖性在不同频率的双耳线索分布中是明显的，因此，可以测量双耳线索的统计特性并量化频率上的变化，以捕获距离和方位角对ITD和ILD分布的总体并发影响。图图4和图5示出了在RT 60 0：2 s和中心频率通道2071 Hz下作为方位角和距离的函数的标准偏差和百分位偏斜度。联合特征空间改善了位置区分图五、在混响室中对称性百分位数为0.2 s，中心频率通道为2071 Hz时，正、负方位角差值明显，距离混淆度随其它特征的变化而减小。P90-P10而不是将特征限制为ITD或ILD。在这方面我们采用双耳线索分布的统计特性，P偏斜i¼P50-i ið10Þ捕获在不同干扰条件下以及在水平平面中的不同角度和距离处的跨频带的变化。标准偏差特定频率通道的双耳线索的标准偏差定义为：● 百分位对称Psym为了描述分布的对齐，计算两侧的百分位数差异，其中，正值表示左侧分布，负值表示右侧分布。Psym计算为PsymiP90-P50-P50-P1011rITD;ILDr1XmBITD;ILD-ITD;ILD2ð8Þ我我我其中i、k、m分别是信道索引、帧号和帧的总数。Bi;k是m帧内伽马通道中的Bi;k偏度偏度由下式给出：2.2. 特征选择特征向量的组合是根据几个实验确定的，这些实验研究了它们所包含的位置信息。BSMD-STD已被用作距离指示器，它还可以显示-犯罪方位我们的想法是找出1个Pm 中国B间质性甲状腺炎间质性甲状腺炎它可能包含信息，帧大小被发现是最重要的影响方位辨别，使用1.2秒的帧大小，其描述mk<$1Bi;kITD;ILD-Bi;kITD;ILD由Ludvigsen[21]提出的百分位数统计特性被引入并计算用于每个伽马通道的估计双耳线索的直方图。我们的方法不是比较ITD和ILD直方图，而是捕获描述其行为的统计特性。● 偏度P偏度差异在中位数和第50百分位数之间在对称分布的情况下，P偏斜为零，并且对于非对称分布，差异将是高的。图四、在中心频率信道= 2071 Hz处，混响室中作为方位角和距离的函数的语音信号的标准偏差然而，距离和方位角都很强，1.8s发现最佳，但它将考虑长帧尺寸。双耳线索一直被用于估计水平面中的方位角，并且它们显著地改善距离估计，特别是ILD[3，7]，因此，双耳线索的统计特性已经被使用和研究。研究了平均离差、峰度、百分位峰度、百分位宽度、下半百分位数等多个属性，以定义它们的相关性，以及这些属性在多大程度上特征选择算法，最小冗余最大相关性（mRMR），被用来找到最依赖和相关的功能。结果与标准差、偏度、百分位数偏度和百分位数对称性对区分距离和方向的组合类较强的发现一致。由于ITD和ILD的性质及其在频率信道上的分布，我们发现ITD的标准偏差和偏度更有效，而ILD的百分位偏度和百分位对称性更具描述性，因此，呈现给GMM的最终特征空间向量将是：tih;dBSMD-STD;riITD;ciITD;Pskewi ILD;PskewiILDð12Þ我们专注于利用这些特征的性质，并选择最强大的属性，然后将它们组合在一个能够定义距离和方位角的特征空间中。这些特征●●Mk¼1cITD;ILDð9Þ我3L. Ghamdan等人/Egyptian Informatics Journal 18（2017）8791-××¼¼在一个分类上下文中使用，以提高分类性能和时间，而不降低定位精度和距离和方向感知的鲁棒性。3. 分类方法高斯混合模型用于估计声源的方位角和距离;它是依赖于概率密度建模的统计方法，其适合上一节中提取的双耳特征空间的性质。地空导弹用于训练方位角和距离相关的模式，预计在未经训练的房间、源和接收器条件下灵敏度较低K-means算法用于初始化伽马通道i内特定声源方向和距离的GMM参数：k¼xi;l ！i;Ri=1，其中i=1。..;S：1000xi表示高斯分量权重，l！i是均值向量，Ri是协方差矩阵。对角矩阵用于描述特征之间的关系和依赖性，而不是计算上更复杂和昂贵的全协方差矩阵。使用期望最大化算法，最大迭代次数为300次迭代，以估计参数。由于特征在尺度上变化，因此在分类过程之前应用方差由于高斯分量的真实个数难以确定，当选择少量高斯分量时，高斯分量个数过大会降低GMM对未训练数据见图6。模拟房间，所有的源和接收器的位置。5. 实验和结果在本节中，我们讨论了双耳线索的统计特性和信号的BSMD-STD特征的性能，并且我们评估了在不同的混响条件、位置、方位角和距离下使用前一节中描述的数据库来估计位置的系统能力和性能。性能度量是通过取混淆矩阵的对角线的平均值来计算的平均分类性能。这些元素会导致特征特性的不适当学习;因此，不同的算法似乎允许自动选择最佳数量的组件，而不是手动或5.1. 实验1：混响时间（RT5.1.1. 相同条件（第60段）视觉选择，这两种方法都进行了检查。5个分量的高斯模型被认为是足够的本地化性能。4.模拟和数据库通过使用Roomsim软件包[22]生成双耳房间脉冲响应（BRIR）来模拟双耳混响信号，Roomsim软件包[22]使用图像方法[23]来模拟房间声学，并在消声条件下集成KEMAR人体模型假人头部的头部相关传递函数（HRTF）[24]从TIMIT语料库数据库[25]中选择单声道源语音信号，信号从16 kHz上采样到44.1 kHz，并与生成的混响BRIR卷积。模拟房间尺寸为6 m 4 m 3m，辐射源放置在水平面上的方位角上，范围为[90，90]，步长为10°，径向距离为1 m，1.5 m和2 m。如图6所示，接收器放置在1.5m× 2 m和离地1.5 m处。混响时间（RT60）定义为声音信号停止发射后，声音信号在特定频率下需要衰减60 dB的时间;它与频率有关，直接影响封闭空间中的语音清晰度、定位和质量混响时间越长，室内声学条件越困难，定位性能越差。在不同的训练和测试条件下，模拟不同的混响时间平均值RT60其他声学参数的模拟房间，如表面吸收系数，湿度，温度和距离衰减的考虑和调整，以模拟真实的房间。在实验中，不同的房间，位置，距离和方位角被选择来评估所提出的系统的性能和精度。在该实验中，在如图6所示的训练阶段中提供的房间大小、混响时间、接收器位置和源位置的已知参数和条件下评估测试数据集的系统性能。该系统经过培训，RT600分别为 2 s、0.5 s、0.8 s，以及分别进行测试时的所有混响时间。性能速率如图7所示。可以看出，当训练集和测试集之间的RT60不同时，特别是对于低混响时间（RT60= 0. 2 s），正确估计的位置性能降低;然而，当我们在训练中应用具有多RT60的与[13]中的结果相比，性能率有所提高，其中具有相同数量的特征和类似的房间条件，GMM分类器在已知方位角（在特定方位角上单独进行训练和测试），其中性能小于90%，以及它随着分类中采用的特征数量的增加而增加。此外，当训练和测试应用于方位角的混合时，GMM性能下降到小于85%，但它总是高于75%。5.1.2. 不同条件这里，系统的泛化能力在不同的RT60中得到了验证，这些RT 60训练是用在RT600.9秒。结果见图八、可以看出，在已知训练的RT60不匹配的情况下，较小的RT60= 0.3难以如前所述一般化，并且较高的RT60 1/40： 6s具有较高的性能速率，而它在RT600： 9 s处降低。这个结果是可以接受的，因为它是未知的声学条件下，分类器没有训练，特别是与GMM分类器，这是监督学习算法。92L. Ghamdan等人/Egyptian Informatics Journal 18（2017）87××见图7。不同方位角和距离的性能率，训练是在一个RT 60和所有RT 60上进行的，在每个单独的RT 60上进行测试。见图8。不同方位和距离的表现率，训练是对所有RT 60的，测试不同的RT 60的，这是不提供的培训.5.2. 实验2：接收器位置接收器位置在房间内的变化是需要考虑的重要问题，并且测试系统在这种情况下将如何执行因此，在该实验中，接收器放置在两个不同的位置，位置1（原始接收器位置）和位置2，其中接收器放置在4 m 1m 1.5 m处。位置2被选择为更靠近墙壁，以检查近壁反射效果。由于房间尺寸的原因，对于某些源方位角，分别对每个位置进行训练，然后对所有位置进行训练，混响时间为0.2 s。结果可以在图中看到。 9，在训练集和测试集中位置不匹配的情况下，性能几乎下降到一半，这可能是由于位置中反射壁接近的声学约束2.值得注意的是，在情况下，正确估计率增加的泛化训练集（混合源位置训练），这导致高和稳定的估计。5.3. 实验3：源位置在本节中，在尚未训练的未知方位角和距离的情况下对系统进行测试和评估。这是重要的检查，因为它概括了系统的能力，特别是如果声源是移动的。图6中的三角形展示了混响时间为0.2 s时使用的方位角和距离。估计方位角与距离的平均误差1 m几乎为3.5°，而[15]中的结果报告在消声室中约为2°，RT60= 0.7 s时为5°，但见图9。不同方位角和不同接收机位置距离的性能率，训练分别在所有位置和每个位置进行，在每个不同位置进行测试。由于方位角的步长为10°，因此结果是可接受的，并且在减小训练方位角中的步长的情况下，预期结果也会减小。距离平均误差约为0.2m。6. 结论本文提出了一种在混响环境中基于BSMD-STD和双耳线索的统计特性集的距离和方向感知中稳健地估计声源位置的系统。该方法将一个组合特征向量作为高斯混合模型的输入进行分类，然后估计出声源的位置。对各种混响条件和位置进行了测试和评估。该系统在不同场景下提供了稳健和高精度的性能结果，并能够调整未经训练的位置。引用[1] 凯鲁兹湾仿人机器人双耳立体声定位。IEEE跨仪器测量2014;63（9）：2098-107。doi：http://dx.doi.org/10.1109/TIM.2014.2308051。[2] 放大图片作者：May T，van de Par S.基于双耳听觉前端的鲁棒定位概率模型。IEEETransAudioSpeechLangProcess2011;19 （ 1 ）： 1-13.doi ：http://dx.doi.org/10.1109/TASL.2010.2042128网站。[3] 作者：J.混响和噪声环境中多声源的双耳定位。IEEE TransAudio Speech Lang Process2012;20（5）：1503-12. doi：http://dx.doi.org/10.1109/TASL.2012.2183869网站。[4] 刘华，张杰，傅志.一种新的基于双耳匹配滤波器的分级双耳声源定位方法。2014IEEE International Conference on Robotics and Automation（ICRA）第1598-605页。doi：http：//dx.相同培训和测试设置条件我们的结果是doi.org/10.1109/ICRA.2014.6907065。L. Ghamdan等人/Egyptian Informatics Journal 18（2017）8793[5] 作者：Lu Y-C，Cooke M.通过静态和移动声源的直达混响能量比进行声源距离的双耳估计 IEEE 跨音频语音 Lang 过程 2010;18 （ 7 ）： 1793-805 。 doi ：http://dx.doi.org/10.1109/TASL.2010.2050687。[6] Smaragdis P，Boufounos P.麦克风阵列的位置和轨迹学习。IEEE TransAudioSpeechLangProcess2007;15（1）：358-68.doi：dx.doi.org/10.1109/TASL.2006.876758。[7] 罗德曼双耳声定位中距离估计之研究IEEE/RSJ 智能机器人与系统国际会议（IROS）第425- 430页。doi：http://dx.doi.org/10.1109/IROS.2010.5651455网站。[8] [10]杨文，王晓刚. 用于控制移动设备的基于DSP的音频处理机器人使用一球形麦克风阵列2012年IEEE第27届以色列电气电子工程师大会（IEEEI）。第1-5页。doi：http://dx.doi.org/10.1109/EEEI.2012.6377070网站。[9] [10] OlivierC，Fouillade J，Felon A，Cole J，Clinton N，Sanchez R，et al. 移动机器人跟随目标的声音对运动目标进行跟踪。J Intell RobotSyst 2013;71（1）：31-42.[10] 库斯特·M根据一致压力和质点速度之间的相干性估计直达波与混响波能量比。JAcoust SocAm 2011;130（6）：3781-7.[11] Eaton J，Moore A，Naylor P，Skoglund J.使用零导向波束形成器的直接混响比估计。IEEE International Conference on Acoustics ， Speech and Signal Processing（ICASSP）第46-50页。doi：http：//dx. doi.org/10.1109/ICASSP.2015.7177929。[12] 维沙室内双耳声源远程教学TransAudio Speech Lang Proc 2009;17 （8）：1498doi：http://dx.doi.org/10.1109/TASL.2009网站。 2022001年。[13] Georganti E，May T，van de Par S，J.从双耳信号中提取声源距离信息。In：Blauert J，editor.双耳听音技术、现代声学和信号处理。Berlin，Heidelberg：Springer; 2013. p.171比99[14] Raspaud M，Viste H，Evangelista G.基于ILD和ITD联合估计的双耳声源定位。 IEEE TransAudio Speech Lang Process 2010;18 （ 1 ）： 68-77. doi ：http://dx.doi.org/10.1109/TASL.2009.2023644网站。[15] Youssef K，Zertieri S，Zarader J-L.一种基于学习的鲁棒双耳声音定位方法。2013年 IEEE/RSJ 智能机器人与系统国际会议（ IROS ）第 2927- 2932 页。 doi ：http://dx.doi.org/10.1109/IROS.2013.6696771。[16] 作者：Brown G.计算听觉场景分析。计算机语言Lang 1994;8（4）：297-336.doi：http://dx.doi.org/10.1006/csla.1994.1016网站。[17] Roman N，Wang D，Brown GJ.基于声音定位的语音分离。2001年国际神经网络联合会议。诉讼IJCNN '01.，第4卷。p.2861- 6[18] 张东，吴晓.基于互相关的离散时间延迟估计。IEEE声学、语音和信号处理国际会议，2005年。诉讼（ICASSP四、Springer; 2005.p. iv/981-4。[19] 雷利湖我们对声音方向的感知。Phil Mag 1907;13（74）：214-32.[20] 曲T，肖Z，龚M，黄Y，李X，吴X.使用火花隙以高空间分辨率测量与距离相关的头部相关传递函数。IEEE TransAudio Speech Lang Process 2009;17（6）：1124-32.doi：http://dx.doi网站。org/10.1109/TASL.2009.2020532。[21] 卢德维森角 Schaltungsanordnungfürdieautomatischeregelungvonhörhilfsgeräten [一种自动程序选择模式的算法[22] D坎贝尔KP，布朗G.鞋盒式房间声学的matlab仿真，用于研究和教学。 ComputInform Syst 2005;9（3）：48-51.[23] Allen JB，Berkley DA.高效模拟小房间声学的图像方法。J Acoust Soc Am 1979;65（4）：943-50.[24] 加德纳WG，马丁KD。kemar的Hrtf测量。J Acoust Soc Am1995;97（6）：3907-8.[25] Garofolo JS，Lamel LF，Fisher WM，Fiscus JG，Pallett DS，Dahlgren NL，et al.DARPA TIMIT acoustic phonetic continuous speech corpus; 1993.

下载后可阅读完整内容，剩余1页未读，立即下载