纯音频增强现实下的静态源听觉距离感知研究

7 浏览量更新于2024-02-03 收藏 3.53MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

纯音频增强现实背景下静态源的听觉距离感知：声学和非声学线索的研究引用此版本：文森特·马丁在纯音频增强现实的背景下对静态源的听觉距离感知：声学和非声学线索的研究。认知科学。索邦大学，2022年。英语。NNT：2022SORUS080。电话：03701917HAL ID：电话：03701917https://theses.hal.science/tel-03701917提交日期：2022年HAL是一个多学科的开放存取档案馆，用于存放和传播科学研究论文，无论它们是否被公开。论文可以来自法国或国外的教学和研究机构，也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaireT T认知科学专业ED158-音乐与声音科学与技术博士学院大脑认知行为（UMR9912）音乐声学声学和认知空间团队。A U I T O Y D I S T N C E P E R C E P T I O N O F S T投资的动机由或抽搐和不，不，不。文森特马丁DIRIGÉ PAR ：我是阿贝，我是 VIAUD-d E l MON &OLIVIERWARU SFEL二月 2022年Vincent Martin：仅音频增强现实中静态源的听觉距离感知的调查© February2022A B S T R A CT本文旨在研究将虚拟声源的听觉距离感知与纯音频增强现实（AAR）应用的背景联系起来的各种效应。它关注的是其特定的感知上下文和主要目标如何对用于为AAR应用生成虚拟声源的距离渲染方法的设计施加约束。AAR是一个术语，指的是一组旨在将计算机生成的听觉内容融合到用户实际声学环境中的技术。AAR系统-时间具有将其与传统人机界面区分开的基本要求：用户必须通过所有感官模态感知他的环境，并且音频回放系统必须允许虚拟声音事件在用户环境内的无缝集成由于这些关键要求，出现了不同的挑战。在不同的技术挑战中，一个是使用人工空间化技术来处理声音，以便监视虚拟声源的视在位置并再现房间的声学特性。很好地确定了所选择的过程对房间效果属性的再现具有直接影响声学线索再现所需的精度与人类听觉系统从声音论文的第一部分涉及声学的关键作用在仅音频增强现实的背景下，虚拟声源的听觉距离感知中的提示再现。与其他维度相比，听觉距离知觉研究不足。它基于一系列线索，分为客观/声学和认知/主观。我们研究了听觉系统使用哪些不同的加权听觉线索策略来创建声音距离的感知。通过考虑不同的空间和时间分割，我们试图描述早期能量是如何被感知的。论文的第二部分侧重于在AAR应用中，环境相关线索如何影响对虚拟声源的在AAR应用中，并不总是完全考虑环境的几何形状。特别地，由视觉环境的感知引起的校准对听觉感知的影响通常被忽视我们还对用户未知位置的共现真实声源可能通过模态内校准效应影响虚拟声源的听觉距离感知的具体实例感兴趣。对这些效应的研究是通过开发不同的感知实验来完成的，这些实验主要是通过在线招募的远程参与者来完成的。iii.总的来说，我们揭示了早到晚的能量感知优于直接到混响的声音能量比作为听觉距离再现尖叫的优势。此外，我们还研究了时间标准，以定义听觉系统如何感知这种早期能量，从而有效地推断感知距离。此外，我们还表明，听觉对类似声源的距离感知可能会根据在房间中的聆听位置、房间的形状和环境声音的存在而显著变化。这组结果旨在证明，与真实声源相比，由距离渲染方法生成的声音信号需要满足哪些客观要求，以及如何根据提供给用户的关于环境的先验知识进行调整。四R S MRAA是一个术语，指的是一组技术，旨在将计算机生成的听觉内容融合到用户的真实声学环境中RAA系统具有区别于传统人机界面的基本要求：用户必须通过所有感官模态感知其环境，并且音频再现系统必须允许虚拟声音事件与用户环境的这些关键要求带来了不同的问题。在不同的技术挑战中，其中之一是对声音应用不同的空间化处理，以便控制虚拟声源的表观位置并再现房间的声学特性。再现声学线索所需的精度与人类听觉系统从声音信号推断距离感知的能力密切相关论文目标的第一部分集中在听觉增强现实背景下再现声学线索在虚拟声源听觉距离感知中的关键作用。与其他维度相比，听觉距离知觉很少有人研究。它基于一系列被分类为客观/声学和认知/主观的指标。我们研究了可加性系统使用哪些不同的声学指数加权策略来创建声音距离感知。更具体地说，我们试图通过考虑不同的空间和时间分段来表征早期能量是如何被感知的与混响的关系。论文目标的第二部分集中在RAA应用中，环境相关线索如何影响对虚拟声源的感知。在RAA应用中，环境的几何形状并不总是被完全考虑。更具体地，由视觉环境的感知引起的校准对听觉感知的影响通常被忽略。我们还研究了一种特殊情况，在这种情况下，用户不知道其位置的同时出现的真实声源可能会对模态内校准效应L’étude de ces effets s’est faite par le développement de différentes expériencesperceptives qui ont été réalisées principalement avec des participants à distance,recrutés en在本论文中，我们揭示了早期能量与晚期能量之比相对于早期能量与晚期能量之比的显著优势。V直接声音和混响声音作为听觉距离感知的标准。此外，我们还研究了听觉系统有效感知这种早期能量以推断距离感知的时间标准。最后，我们证明了对类似声源的听觉距离的感知可以显著变化，这取决于听音者在房间中相对于墙壁的位置、房间的形状和环境声音的存在。这组结果旨在证明由距离渲染方法生成的声音信号相对于真实声源必须满足哪些客观要求，以及如何满足这些要求。它必须根据从环境提供给用户的先验信息进行调整。六A C K N O W L E D G M E NT S我非常感谢诺伯特·科普和尼古拉斯·格里莫同意担任这篇论文的报告员，更不用说艾蒂安·亨德里克斯和昆汀·格里马尔了，感谢他们作为我要感谢Olivier Warusfel和Isabelle Viaud-delmon，他们监督了这篇论文的工作。他们互补的科学专业知识，他们的建议，他们的许多更正，以及他们的仁慈是一个帮助，没有这份手稿不可能存在。我感谢他们在这三年（半）的良好条件下度过的时光也非常感谢整个声学和认知空间团队感谢IRCAM，从Pierre Massé和ThibaultCarpentier开始，感谢他们以极大的耐心帮助我理解声音空间化工具。我还要感谢Lise Hobeika和Marine Taffout，他们我也要感谢我的朋友们，他们一次又一次地毫无疑问地接受了预测试。J’ai unepensée toute particulière pour Hadrien, Mathieu, Charles, Virgile, Lou, Andrea etTristan avec qui j’ai passé toutes ces années 非常感谢Yacine、Merwan、Mehdi、Antoine和Lila这些年来在顺境和逆境中给予的不懈帮助。最后，当然，我要感谢我父母的支持和持续的信任。七C O N T E N T S1引言11.1一般背景和动机11.2论文目标21.3框架的关键方面1.4贡献41.5论文结构5I THEORETICALCONTE XT72音频-O N L Y 增加的 REALITY92.1导言92.1.1增强现实定义92.1.2仅音频增强现实定义102.2一些AAR应用程序102.2.1人与人之间的互动102.2.2基于位置的应用程序122.3AAR12的技术挑战2.3.1真实声音2.3.2生成空间化虚拟声源162.3.3运动跟踪202.4摘要和技术选择203礼堂迪斯坦斯第二十三章第二十三章3.1听觉距离估计233.1.1听觉距离感知准确性：固有的压缩效应............................................3.1.2听觉距离感知变异性253.2听觉距离感知提示253.2.1声学提示263.2.2非声学提示303.3与外包的关系3.4论文框架概述观点4我的灵魂共同贡献至第35章第一次见面4.1视觉的高空间分辨率4.1.1视觉距离知觉的一般机制354.1.2视觉距离估计值374.2视听一体化384.2.1心室造影剂效应384.2.2与环境相关的视觉提示404.3论文框架概述观点九X公司Sii方法435比瑙拉L渲染A.P.罗奇由虚拟L 所以和来源：S475.1空间室冲动反应485.1.1测量程序485.1.2使用的工具495.2将定向房间脉冲响应转换为双耳房间脉冲响应5.2.1编码为高阶立体声（HOA）495.2.2将HOA解码为双耳格式505.3特殊治疗515.3.1空间降噪房间脉冲响应515.3.2扩散场均衡555.4实验中使用的测量值6EXPERIMENTALPROCEDDRE596.1距离报告方法596.1.1口头报告596.1.2直接位置606.1.3所选方法：视觉模拟量表（VAS）616.2在线实验方法616.2.1在线实验的技术方面626.2.2PsychoPy63的实验6.2.3托管平台：Pavlovia636.2.4招募参与者：多产646.2.5数据质量问题64iii这是一个很大的问题，也是一个很大的问题。保守党第67号决议7伊娃·卢翁由 THE我是RTANCE由INTENsITY和混响-717.1导言717.2实验一：距离渲染模型7.2.1参考措施737.2.2基于包络的模型737.2.3基于强度的模型757.2.4客观比较757.3实验I：模型在一致情况下的感知性能7.3.1材料方法767.3.2程序787.4实验I：结果787.4.1总体结果797.4.2个人成绩80分7.5实验一：讨论827.5.1基于包络的模型性能82康泰纳仕XI7.5.2基于强度的模型性能847.5.3声学提示加权策略847.5.4实验环境的影响及与过去的研究857.6实验II：评估早期到晚期能量的相关性比率877.6.1BRIRS合成方法897.6.2材料方法917.6.3程序947.7实验II：结果957.7.195号教室7.7.2画廊987.8讨论1007.8.1反向刺激1007.8.2前向刺激1027.8.3光谱方面1037.8.4空间方面1057.8.5混响相关线索加权策略1087.9结论1088伊娃·卢翁由THE在使用中环境-重新评估提示1118.1引言1118.2实验三：评估不协调视觉线索的影响。1128.2.1实验的目的8.2.2材料方法1128.2.3程序1138.3实验III：结果1148.3.1一般结果1148.3.2房间的效果卷1158.3.3跨渲染方法的压缩效果量化1178.3.4视觉空间边界对压缩系数119的影响8.3.5房间容积对压缩系数的影响1208.4讨论1208.4.1视觉空间边界的影响1218.4.2音量对声学线索加权策略的影响。4. 3............................................实验局限性1228.5与实验I123的8.5.1基于包络的性能1238.5.2声学提示加权策略1238.6结论1249环p弯曲之间颈部抽搐差异的IM p行为房间效应1259.1引言1259.2实验IV：声学发散场景126第十二章肯特9.2.1实验的目的9.2.2材料方法1269.2.3程序1299.3实验IV：结果1299.3.1锚定条件的影响9.3.2压缩效应量化1319.4讨论1329.4.1不正确的房间发散效应对听力损失感知的影响1329.4.2使用亮度匹配校正差异1339.5与实验III的比较1349.5.1听觉和视觉发散1349.5.2锚定刺激对控制条件的影响1359.6结论13510 属L我的爱& 第137章第一次见面10.1 实验程序13710.2 早期能量相对于距离10.3 声学线索加权策略和房间的影响第140卷10.4 视觉不一致和听觉发散142IV A第1页x145aAppENDIx，pRElIMNARYxpERIMNT147a.1方法147a.1.1听觉刺激147a.1.2参与者147a.1.3程序，倾听环境报告方法148a.2结果148a.3结论148b第十页，CHA PTER7（EXP ERIMENT （二）151cPUBLICATIONS155BBBlIOGRApHY156L I S T O F I G U R E S图1.1图2.1耳机显示器的仅音频增强现实（AAR）概念的示意性分解。 . . . . . . ...现实-虚拟连续体的一般原理3由米尔格拉姆和岸野完成[122]。 . . . . . . . . . . . . . ...9图2.2音频会议情况示例。 . . . . . . . . . . . . ...11图2.3基于智能手机的AAR系统示意图通过均衡。在恩格尔·皮奇纳利之后[54] . . . . . ...14图2.4Macdonald等人使用的骨传导耳机。[105]15图2.5为AAR应用程序设计的Bose框架，基于语音集成到用户附近的眼镜框架中耳朵。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...15图2.6标准室脉冲响应分解。. . . . . ...18图3.1作为声源函数的感知距离根据压缩功率函数的距离由Zahorik [183]在对数标度上绘制。 . . . . ...24图4.1作为对数函数的公正可分辨深度与观察者的算术距离。切割和[46]第四十六话 . . . . . . . . . . . . . . . . . . . . . . . . . . . ...36图5.1参与的不同过程的示意流程空间房间冲动反应（SRIR）的测量转换为双耳房间冲动反应（燃烧）。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...47图5.2执行的EDR分析示意图，用于脉冲响应的给定频率箱，去噪过程。. . . . . . . . . . . . . . . . . . . . . . . . ...53图5.3全向复合物的能量衰变救济（EDR）在IRCAM画廊房间测量的SRIR指数在去噪过程之前和之后. . . . . . . . . . . ... 54图5.4用于扩散场等的滤波器的功率谱固化过程，应用于SRIR，使用MH声学Eigenmike©EM32进行测量，并基于BRIR，使用诺依曼KU100假人头。 . . . . . . . . . . . . . . . . ...56图5.5SRIR测量使用的示意性分解实验一到实验三。 . . . . . . . . . . . . . . . . ...57图6.1一年中涉及的不同过程的示意流程Sauter等人[148]定义的线实验。 . . . . . . ...62图7.1早期能量Es、混响Erev和总能量Etot随源距离的为两种型号和测量型号生成BRIR76十三xiv图列表图7.2实验期间教室的配置。......................................................................77图7.3实验I：几何平均感知距离ing到用于生成声源的模型。............................................................ 80图7.4单个压缩系数a的比较和k，在参考和模型之间。................................................................81图7.实验I：房间产生的和测量的BRIR之间的早期和晚期能量差异。........83图7.6基于包络的模型设计的示意性分解。88图7.7合成方法的示意性分解BRIR在实验II中。................................................................................90图7.Experi中使用的两种不同的声学环境MentII91图7.993号教室合成和测量BRIR的直接反射能量比（D/RefTtrans图7.10画廊93中合成和测量BRIR的直接反射能量比（D/RefT反式图7.实验II（教室）：根据用于生成刺激的方法，几何平均感知差异。96图7.12实验II（教室）：比较基于测量的渲染方法与反向渲染方法之间的单个压缩系数a和k。T反式向合成= 80ms。.....................................................................97图7.13实验II（图库）：根据用于生成声源的模型，几何平均感知距离.............................................................................................................. 98图7.14实验II（图库）：比较基于测量的渲染方法与Ttrans= 80ms的后向和前向同步命题之间的单个压缩系数a和k ............... 99图7.15种反向脉冲响应波形两个房间，T跨= 80ms。............................................................... 101图7.实验 II 中使用的刺激的频谱平衡 - 计算高频声级（ >2000Hz）和低频声级（> 2000 Hz）之间的差异。<400 Hz）包含在每个刺激中。....................................................... 104图7.17实验I中使用的刺激的光谱平衡（基于包络的模型和测量）高频声级（> 2000Hz）和低频声级（<400Hz）之间的声音包含在每种刺激。........................................................................................105图7.18实验中使用的BRIR的耳间交叉相关II，根据每个响应的早期部分[0; 80 ms]计算................................106图7.19向后和向前的早期横向能量分数LFE合成的SRIR和测量的SRIR，根据每个响应的早期部分[0; 80 ms]。..................................................107图十五列表图8.1实验III：报告距离的几何平均值连接到用于生成刺激的渲染方法-ULI和视觉空间边界条件。 . . . . . . . ...116图8.2实验III：参与者的估计房间体积每组（CW组：M = 37。5m3; FW组：M =81. 7米3）。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...117图8.3实验III：个体拟合参数基于Mea的渲染方法之间的Etersa和k当然还有模特。. . . . . . . . . . . . . . . . . . ...118图8.4实验III：个体的按组和渲染排序的拟合系数a和kING方法。 . . . . . . . . . . . . . . . . . . . . . . . . . . . ...119图8.5实验III：拟合系数a的值（绿点）根据基于强度的模型获得，适用于CW组作为自我报告卷的函数房间。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...120图9.1Experi每种情况下声音序列的时间线第四章。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... 127图9.2实验IV：几何平均感知距离组和每个锚点条件。 . . . . . . . . . . . . . . . ...130图9.3实验IV：个体的将系数a和k拟合到每个组的每个条件中。 . . ...132图9.4个体拟合系数的平均值和标准差水泥A和K按实验分类：实验III-基于测量的方法;实验IV-第1组trol和发散条件。 . . . . . . . . . . . . . . . . . ...134图a.1初步实验：几何平均值（超过20个单位）根据所用方法感知的距离生成声源：实际BRIRs，BRIRs转换根据测量的SRIR和由包络生成的BRIR基于模型。 . . . . . . . . . . . . . . . . . . . . . . . . . . . ...149图b.1实验III：早期能量差异作为其考虑合成和测量之间的图b.2BRIR的课堂，对于T跨等于40毫秒和80毫秒。...实验III：早期能量差异作为其152考虑合成和测量之间的BRIR的画廊，为T跨等于40毫秒和80毫秒。 . ...153L I T O F TA B L E S表1压缩系数a和k的平均值（带stan-）不同研究中报告的飞镖偏差和R2。...................................................85表2实验IV：用于产生锚点刺激的测量每个组和每个条件。........................................................................ 128表3实验IV：运行4个方差分析的统计输出在每个组中的两个条件。................................................................ 131表4实验I和实验III中每种渲染方法对参与者选择的压缩系数a和k的标准偏差................................................................................................ 139十六A C R O N Y M SAR增强现实AAR纯音频增强现实VR虚拟现实HRTF头部相关转移功能HRIR头部相关冲动反应RIR房间冲动反应BRIR双耳室脉冲响应SRIR空间室脉冲响应ITD双耳间时间差ILD耳间水平差异DRR直接与混响能量比FDN反馈延迟网络HOA高阶立体声SHD球形谐波域SMA球形麦克风阵列EDR能量衰减救济ASW视源宽度PWD平面波分解视觉模拟量表JSJavascriptGDPR 一般数据保护条例十七1I N T R O D U C T I O N1.1属L共xT和动机仅限音频的增强现实（AAR）是增强现实（AR）的更广泛概念的一部分。增强现实是指实现现实和计算机生成元素的完美叠加的过程。AR的一般背景适用于视觉感知（虚拟图像在真实图像上的叠加）、听觉感知和/或本体感受感知（如触摸）。AAR将其虚拟对象的模态限制为听觉感觉模态。它的主要目标是实现虚拟声源在用户环境中的无缝集成。虚拟声源的生成和显示需要各种技术挑战，包括生成3D音频、允许真实声源不受用于声音渲染的设备的影响，以及开发启用运动跟踪的技术。图1更详细地概述了在AAR应用程序中将虚拟声音场景集成到用户环境中所涉及的各种过程。1.在过去的几年里，空间音频渲染技术的发展，特别是双耳音频和耳机的技术发展，促进了AAR应用的交付。该技术已被用于各种应用，包括电话会议、基于位置的游戏和教育。本论文的研究工作是由一个内在的问题驱动的，这个问题导致了AAR应用的空间渲染方法的选择和发展：空间渲染过程应该有多精确，以满足虚拟声音事件的无缝集成？更具体地说，在所涉及的不同维度中，我们只关注声源距离的渲染。本文的主要动机是在两个不同主题之间的界面上：1. 听觉距离再现：在空间音频再现中，在再现声学环境中，在获取先验信息、使用有限的计算能力和在呈现虚拟音景时仍达到令人满意的精度水平之间存在固有的折衷。在AAR的情况下，主要目标是在预期位置感知生成的虚拟声源。2. 听觉距离知觉：关于听觉距离知觉已经进行了大量的研究，证明了它对各种声音的可靠性。1

下载后可阅读完整内容，剩余1页未读，立即下载