实时分析电声门图的系统FonaDyn

61 浏览量更新于2024-01-27 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

SoftwareX 7（2018）74原始软件出版物FonaDyn-一种在语音范围内实时分析电声门图的系统Sten Ternström*，Dennis Johansson，Andreas Selamtzis瑞典斯德哥尔摩，SE-100 44，KTH皇家理工学院，电子工程与计算机科学学院，语音、音乐与听觉系ar t i cl e i nf o文章历史记录：2017年10月24日收到收到修订版，2018年1月19日接受，2018年关键词：电声门图嗓音分析聚类样本熵语音范围配置文件SuperCollider代码元数据a b st ra ct从柔和到响亮，从低到高，人类声音的机制有许多自由度，因此很难单独从声学信号评估发声。FonaDyn是一种结合声学和电声门图（EGG）的研究工具。它使用周期同步EGG傅立叶分量及其样本熵的统计聚类来实时表征和可视化EGG波形的动态。不同EGG波形的普遍性和稳定性作为彩色区域被映射到所谓的语音范围简档中，而不需要预定义的阈值或类别。通过适当的这具有潜在的科学、临床和教学意义。版权所有©2018作者.由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。当前代码版本1.5.0指向此代码版本所用代码/存储库的永久链接FonaDyn：已删除ZIP archivehttps://github.com/ElsevierSoftwareX/SOFTX-D-17-00078FonaDyn：EUPL 1.2，http://eupl.eu使用Git的代码版本控制系统使用的软件代码语言、工具和服务FonaDyn源代码是跨平台的。需要SuperCollider 3.8.0解释器，运行它。C++是需要的（只有例外）修改预编译的FonaDyn插件。后者的源代码可在stern@kth.se上向第一作者索取。编译要求，操作环境依赖性在Linux上，SuperCollider本身需要编译。在Windows和MacOS上，可执行安装程序可用（软件元数据表）。在Windows上：Microsoft Visual C++ 2015 Redistributable（x86）如果有开发人员文档/手册的链接与发行版捆绑在一起ZIP存档支持问题电子stern@kth.se软件元数据当前软件版本1.5.0指向此版本可执行文件的永久链接上传的ZIP存档包括FonaDyn的可执行平台特定插件DLLFonaDyn：EUPL 1.2（欧盟公共许可证v1.2）计算平台/操作系统Microsoft Windows 7或更高版本、OS X、Linux（Linux用户还必须构建超级对撞机本身）。FonaDyn的当前Windows版本是32位;它也可以在64位Windows上运行。自定义FonaDyn DSP插件是用可移植的C++编写的，并预编译为特定于平台的DLLFonaDyn安装脚本为平台选择正确的DLL安装要求依赖SuperCollider 3.6.6到3.8.1，带有SC3插件，请访问http://supercollider.github.io/download。在Windows上，选择这两个版本的32位版本。在Windows上：Microsoft Visual C++ 2015 Redistributable（x86）。请注意：SuperCollider 3.9.0于2018年1月发布。它改变了插件的可执行格式，因此FonaDyn 1.5.x与SC 3.9.x不兼容。FonaDyn的未来版本1.6.x及更高版本将仅与SC 3.9.x及更高版本的64位兼容。如果可用，链接到用户用户手册包含在发行版ZIP存档中。问题支持电子邮件stern@kth.se通讯作者。电子邮件地址：stern@kth.se（S. Ternström），denjoh@kth.se（D. Johansson），selamt@kth.se（A. Selamtzis）。https://doi.org/10.1016/j.softx.2018.03.0022352-7110/©2018作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx*S. Ternström等人/SoftwareX 7（2018）74751. 动机和意义1.1. 背景人类的声音具有非常多的自由度，使得很难单独从声学信号量化和评估声音状态和行为。例如，声带振动和碰撞在几个不同的方式在软大声和低高范围的声音。虽然电声门图（EGG）信号[1]为许多语音学家所熟悉，但其特征的动态变化一个可以对EGG脉冲形状进行分类并将其映射到整个语音范围的系统可以预期在语音和唱歌中对正常和病理语音提供重要的见解在临床和教学环境中，实时进行评估是快速直观评估或生物反馈的关键本文介绍了一种新的实时心电分析系统，它完全基于开源的免费软件和现成的中等成本的硬件。该系统被称为FonaDyn（1.2. 重要性和范围理想情况下，我们希望能够直接看到声带振动，在3D。然而，EGG信号是一个随时间变化的标量;它仅表示两个声带（VF）之间的瞬时、未校准的接触面积。仅使用EGG来理解VF就像试图通过仅观察其轮廓区域来尽管如此，合理的VF位置和形状的范围是众所周知的，限制了可能的解释[2，3]。与通过内窥镜的光学成像相比，从受试者获取EGG信号是非侵入性的并且相对便宜，并且EGG提供了比声学麦克风信号更直接的声带（VF）振动的表示。例如，当归一化到周期时间时，窄的EGG脉冲指示发声周期期间的短暂VF接触;而较宽的脉冲指示牢固或按压的VF接触。这种观察可能具有很大的临床和/或教学价值。1.3. 贡献FonaDyn系统在相对较短的时间内为语音研究人员提供了各种发声模式的地图（反映了如何使用语音），涵盖了所有级别的声音响度和音高它通过将自动实时聚类应用于EGG脉冲形状，在所谓的语音范围配置文件（VRP）上绘制所产生的聚类来实现[4]。该显示器可选地与样本熵互补，作为发声不稳定性的度量FonaDyn已经过预研究[5为了在诊所或歌唱工作室中进行强大的部署，该系统在大多数情况下需要进一步定制。1.4. 实验设置和使用建议希望尝试FonaDyn的读者首先阅读随附手册的第一章，其中描述了设置的各个需要安装两个软件包：SuperCollider和FonaDyn。图1显示了一个典型的设置。通常情况下，首先进行信号采集：FonaDyn将麦克风和EGG信号记录到双通道WAV文件（44.1kHz，16位）中。录音可以使用任何WAV编辑器进行修剪，以便删除不相关的语音或长时间的沉默。修剪后的文件可以通过FonaDyn传回进行分析。然而，实时输入和磁盘文件输入是等效的：FonaDyn在任何一种情况下都可以运行其完整的显示，提供视觉反馈，并且显示可以在没有做一个录音。分析师选择了一些波形集群，这是适当的范围内的发音模式是明显的或预期的EGG信号。这个数字必须通过人工实验找到，并通过研究问题得到信息。1.5. 相关工作Marasek [6，10]提出了一种声音变化的一个主要来源是声音的最常讨论的两种机制是模态/胸部/M1声音，与假声/头部/M2声音形成对比，这在歌唱中特别感兴趣，但在临床设置中也是如此。Selamtzis和Ternström [6]探索了EGG在M1和M2发声模式之间自动区分的方法如果使用三个而不是两个簇他们用了一个离线的matlabR中的过程”[12]这句话，是对《易经》的一种解读。现有制度。可以使用FonaDyn研究的发声维度的其他示例包括声音响度[7]和声带内收程度[9]。虽然FonaDyn的设计考虑到了EGG信号，但它也可以与来自发声的任何其他周期性信号一起使用，例如光声门图（用于声门区）或来自颈部安装的加速度计的信号表征EGG信号的其他努力主要集中在导出脉搏形状的各种标量度量这通常需要定义时域阈值，这可能是有问题的[13]。解释整个EGG脉冲形状的少数研究之一使用主成分分析[14]。Herbst等人提出了波形图，这是EGG波形随时间变化的丰富而紧凑的可视化[15]，然而，这将分类任务推迟到人类观察者。相反，FonaDyn自动分类EGG，并将聚类映射到fo/SPL平面上。2. 软件描述2.1. 软件构架FonaDyn在SuperCollider（SC）[16]中实现，这是一种用于执行实时声音分析和合成的编程环境。最初由詹姆斯·麦卡特尼开发，现在由一个活跃的计算机音乐社区维护它的用户也包括科学家，他们贡献了大量的类库和插件，使得SuperCollider在音频/音乐/声学研究环境中也非常有用SuperCollider 是一个开源的免费软件，支持Windows、MacOSX和Linux。它有三个主要组成部分：(1) 信号处理服务器SCSYNTH，（2）解释的、面向对象的编程语言SCLANG，充当服务器的客户端服务器、用户交互和显示的代码都是用SCLANG编写的，它有点类似于Smalltalk，但也混合了其他语言的习惯用法。SCLANG是深刻的面向对象，并有许多优雅的，紧凑的结构，创造性地操纵数组和集合，应用于音乐创作。客户端和服务器通过网络协议使用开放声音控制（OSC）消息为了提高性能，FonaDyn要求服务器和客户端在同一台计算机上运行，但SuperCollider本身不需要。FonaDyn不是一个独立的程序，而是扩展SCLANG的类和插件的集合类以源代码的形式提供，插件以可执行DLL的形式提供。因此，FonaDyn是76S. Ternström等人/SoftwareX 7（2018）74图1.一、FonaDyn的典型外围硬件设置。图二. FonaDyn中信号路径的功能框图。为了清楚起见，省略了一些细节。从SCIDE内部调用FonaDyn的代码结构紧密遵循模型-视图-控制器范式，并且主要体现在其主窗口的布局中（图1）。3），它具有用于常规、输入、输出、移动EGG、SampEn、聚类和VRP显示的面板。这些面板中的每一个都有一组与其模型、数据、视图、控制器和信号处理方面相关的代码类层次结构。FonaDyn中的信号处理相当复杂，这里没有空间详细描述。感兴趣的读者可以参考FonaDyn手册和扩展的本文的白皮书版本，其中讨论了所有算法及其背后的原理。这些项目在发行版ZIP文件中提供。简而言之，每个EGG脉冲的形状通过其频谱在内部逐周期地表征;即，通过其前几个傅立叶分量的幅度和相位。选择这种表示法是因为它有可能间接地表示声带的不同振动模式。这不是生理性的，但这并不重要;不同的EGG波形仍然被解决。S. Ternström等人/SoftwareX 7（2018）7477→↑联系我们图三. FonaDyn用户界面，显示所有子面板。所有的图表都是实时变化的;它们顺时针显示：EGG傅立叶分量的时变样本熵（红色曲线）;运动的EGG脉冲波形，归一化为周期和幅度（黑色曲线）;语音基频和SPL上的VRP;集群中的EGG脉冲形状（这里：五个集群/颜色），也归一化;以及EGG傅立叶分量或谐波，作为相对于基本分音的电平和相位（这里：十个分音）。(For对于图中颜色的解释，请读者参考本文的网络版本。）信号处理的框图在图2中给出。重要的是：（1）从音频信号计算的周期性或“清晰度”阈值拒绝不规则发声，（2）EGG频谱是使用离散傅立叶变换（DFT）针对N2以一个周期的矩形分析窗口逐个周期地获取的。. . （3）仅使用相对谐波电平和相位进行聚类，其中基波作为参考，（4）基频和EGG总振幅不包括在聚类维度中。2.2. 软件功能FonaDyn的单一GUI窗口（图3）很像仪器控制面板，因为它没有下拉菜单，并且大多数控件始终可见。因此，可从该面板访问软件的所有功能。最上面一行包含常规设置：显示模式、输出目录和设置。.按钮来调用具有较少使用的设置的对话框。第二行包含输入控件：live、single文件或多个文件;运行/停止和暂停按钮，以及时钟（分：秒）。第三行保存输出的选择，所有这些都是可选的：实时监控，记录到文件，以及可以保存图2中所示的所有信号的各种日志文件，用于随后的自定义处理，例如在matlab中。GUI窗口的下半部分包含分析控件和五个输出图形。这些图形可以一起显示，如上所述，也可以一次显示一个显示模式可以在程序运行时更改中央的图四、 FonaDyn的输出文件和格式;都是可选的（颜色在线）。详情请参阅FonaDyn手册。Herbst [17]，尽管我们的脉冲分割工作方式不同，而且是实时的。FonaDyn可以选择生成多种输出文件，如图4所示。所有这些都可以在matlab中直接读取。78S. Ternström等人/SoftwareX 7（2018）74≥图五、部分屏幕转储，用于说明VRP显示的模式。水平轴为fo，10分贝/格;垂直轴为0.3米处的声级，10分贝/格。这段录音花了大约6分钟的时间，它与图1所示的是同一段录音。3.第三章。f0、SPL和度量（a）、（b）和（c）从音频信号导出，其余从EGG信号导出。一位男性业余歌手用几个恒定的音高唱出软-响-软/a/元音，重复超过一个八度。（a）（b）（c）音频信号的波峰因数（峰值与RMS比），其中红色表示>12 dB。（d）最大的SampEn;更多的棕色意味着更不稳定的发声。（e）按颜色显示的主导EGG波形簇;饱和度越低表示波形之间的重叠越多（f）图 3）。在细胞中，颜色在>50个EGG周期时饱和。（f）“红色”集群波形的实际范围（g）“紫色”簇波形的实际范围（h），（i）“黄色”和“蓝色”簇波形的实际（j）发声最柔和（绿色），无声带接触，EGG接近正弦（有关本图例中颜色的解释，请参阅本文的网络版本3. 说明性实例用户必须事先决定需要多少个集群;这将取决于研究问题。对于执行二进制分类，如正常/压或模态/假声发声，两个集群可能就足够了，但这取决于许多情况，必须通过试验和错误来找到。FonaDyn的主要新颖之处在于，当呈现不同的EGG波形时，它会自动创建类别图图5显示了可以映射到VRP中的各种语音和EGG指标，其中选择了五个聚类，以探索变化范围。从图5可以推断，例如，即使当语音SPL高达70-80 dB时，声带也可以振动而不会实际碰撞在治疗前阶段中获得的聚类可以被保留，并且用于在治疗后对相同受试者的产生进行分类。图6给出了一个这样的例子，来自Lã[18]。一位男歌手通过在恒定的音高上发出柔和-响亮-柔和的声音来产生基线VRP，然后做一个特定的练习，然后重复VRP。VRP后处理显示蓝色边界较高，绿色边界较低。根据EGG波形的经验，这可以被认为是指，在练习之后，受试者在没有“按压”的情况下唱得更大声当然，这些变化是否真的是由于锻炼造成的是另一个问题;确定差异的统计学意义也是另这里的彩色图是根据数万个EGG周期的数据创建的，在3分钟的VRP记录期间发声，因此在这个特定试验中表现出的前后变化是相当可靠的。S. Ternström等人/SoftwareX 7（2018）7479见图6。可视化治疗效果的示例。这些图表是在matlab中使用FonaDyn的CSV数据文件定制的。左：治疗前EGG波形，周期标准化，解释为不同程度的声带内收。中间：处理前，fo（水平，单位为分贝）和SPL（垂直，单位为dB@0.3 m）的累积分布右：相同波形的处理后分布。在这里，关闭学习后，FonaDyn会对输入信号进行分类。结果在正文中讨论。(For对于图中颜色的解释，请读者参考本文的网络版本。）来源：数据来自[18]，经许可在此呈现4. 影响4.1. FonaDyn的新研究FonaDyn设计用于自动识别声带的不同振动状态，并将其映射到整个语音范围，而不是仅分析孤立的持续元音，这是临床分析的当前惯例。只要声带振动是合理的周期性，FonaDyn因此提供了一个新的发声行为的概述，可以指导研究人员在寻求占在声音的大的变化。我们相信它可以应用于绘制患者的发声状态，例如，或帮助声乐教师引导学生以更优化的方式发声。正在为此目的进行研究。4.2. 方法改进FonaDyn通过三种主要方式促进EGG分析：（1）通过构建EGG在语音范围内如何变化的视觉地图(2) 通过自动分类和/或分层EGG脉冲形状的变化，以及（3）通过实时显示，以便允许研究者/受试者/学生将他/她的声音的听觉印象与关于声带如何振动的独立信息相用于EGG分析的早期方法尚未与语音范围轮廓集成在我们看来，这样做对于揭示声音的习惯性中音和走向其极端的趋势和状态转换（如语域变化）至关重要实时聚类的引入是语音分析中的一种新范式它的目的是帮助语音研究人员系统化，并在一个具有多个自由度的系统的行为中找到结构。FonaDyn还通过以方便的数据格式可选地导出大量中间信号和分析结果，更普遍地促进了语音研究通过额外的多通道硬件，FonaDyn支持并行和同步采集额外的信号，如压力、呼吸、喉部高度跟踪等，用于随后与EGG数据的共同分析，使用matlab或类似工具。这样的硬件，频率响应下降到直流，可从音乐模拟合成器行业它通过ADAT输入连接，可以在一些高端音频接口上找到4.3. 对用户的FonaDyn尚未部署到其他用户，等待本文作为主要参考出版。然而，它已经成为一些学生论文和试点研究的工具，并且这些作者在几篇期刊论文中报告了EGG波形聚类的原理在研讨会和会议演示中，潜在用户表示了极大的兴趣。4.4. 商业化FonaDyn 1.5，虽然完全可用，但仍然是一个研究原型. 根据我们之前将其他软件商业化的经验，我们意识到需要做更多的工作来实现其功能，以便在临床或语音工作室中保持稳健。在将FonaDyn及其源代码置于公共领域的过程中，我们邀请那些有兴趣开发这样一个系统的人，并对目前的工作给予应有的认可。4.5. 相互竞争的利益两位作者没有利益冲突需要声明。5. 结论一旦已经针对用户的研究问题专门定制了集群配置，FonaDyn系统就能够利用视觉反馈实时地对感兴趣的各种发声机制进行其新颖的贡献是：发声制度和语音不稳定性映射到语音的声音水平和发声频率;统计聚类消除了预先定义阈值或类别的需要;和，样本熵显示承诺作为感知相关的语音不稳定性的度量该程序还可以作为一般语音相关数据采集和分析的工作台FonaDyn特此提供给语音研究社区，作为公共许可证下的免费软件80S. Ternström等人/SoftwareX 7（2018）74致谢这项工作部分由瑞典研究委员会资助，项目2010-4565和2013-5194，以及KTH教师资助DTTM6661。理论与原则：AndreasSelamtzis。实时实现，第一版：Dennis Johansson。Johansson和Selamtzis的创意和特别感谢Peter Pabon、Christian Herbst和Matthias Echternach提供的宝贵灵感和讨论。我们感谢参与各种试点研究的志愿者和语音专业人员引用[1] ChildersD ， Larar JN. 电声门图用于喉功能评估和言语分析。 IEEE TransBiomed Eng1984;BME-31（12）：807-17.[2] Titze IR.声门和声带接触面积的四参数模型。Speech Commun1989;8（3）：191-201.[3] Titze IR.电声门图信号的解释。J Voice1990;4（1）：1 - 9.[4] Ternström S，Pabon P，Södersten M.话音范围剖面：其功能、应用、缺陷和潜力。Acta Acust United Acust2016;102（2）：268 - 83.[5] Selamtzis A，Ternström S. 利用电声门图信号的频谱特征分析发声的振动状态。J Acoust Soc Am 2014;136（5）：2773-83.[6] 马拉塞克湾对LX信号进行分类的尝试。欧洲语-1995年; 1995年。1729-32.摘自http://www.isca-speech.org/archive/archive_papers/eurospeech_1995/e95_1729.pdf。[7] Selamtzis A，Ternström S.用聚类法研究声门图波形、基频和声压级之间的关系JVoice2016，可在线访问http://dx.doi.org/10.1016/j.jvoice.2016.11.003。[8] 约翰森·D实时分析，在超级对撞机，电声门信号的频谱特征[M.Sc.学位论文计算机科学，KTH皇家理工学院]斯德哥尔摩，瑞典。可在此链接在线（2016年10月）; 2015年。[9] 尼尔森岛电声门图实时反馈健康歌唱[M.Sc. 计算机科学和通信学位论文]，斯德哥尔摩，瑞典：KTH皇家理工学院; 2016年。可在此链接在线（2016年12月）。[10] 马拉塞克湾 EGG 和语音质量（网站） ; 1997 年。 http://www.ims.uni-stuttgart.de/phonetik/EGG/frmst1.htm天啊[11] 放大图片作者：J.喉振动机制：重新审视发声区的概念。J Voice2009;23（4）：425-38.[12] ©The MathWorks，Inc. www.mathworks.com网站。[13] Herbst C，Ternström S.胃电图不同测量方法的比较接触商 Log Phoniatr Vocol 2006; （ 31 ）： 126-38. 10http://dx.doi.org/10.1080/14015430500376580。[14] 穆沙默角德语语言发音和发声努力的喉反射的声学和喉造影测量。J Acoust SocAm2010;127：1047-58.[15] Herbst CT，Fitch WTS，Švec JG.电声门图波图：一种无创性声带动力学可视化技术。J Acoust Soc Am2010;128（5）：3070-8.[16] SuperCollider网站：http://supercollider.github.io/。[17] 赫布斯特角MovingEGG;2004.可上网查阅：http://homepage.univie.ac.at/christian.herbst/movingEgg/about.html 。 [2017年8月14日访问]。[18] Lã FBM.通过EGG波形评估空气动力学训练对歌唱发声的短期影响私人交流。工作进展中2016.

下载后可阅读完整内容，剩余1页未读，立即下载