声带振动的生物力学模型拟合高速视频数据

14 浏览量更新于2024-01-06 收藏 2.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁20（2020）100373通过baidu估计将褶皱的生物力学模型拟合到高速视频数据Carlo Drioli*，Gian Luca Foresti乌迪内大学数学、计算机科学和物理系，乌迪内，33100，意大利A R T I C L EI N FO保留字：声带振动分析生物力学建模图像分割语音质量A B S T R A C T在持续发声期间对声带进行高速视频记录已经成为广泛的诊断工具，并且能够执行自动跟踪和分析相关声门线索（诸如声带边缘位置或声门面积）的成像技术的发展是活跃的研究领域。本文提出了一种通过声带动力学的生物力学模型处理视觉数据的声带振动分析方法。该过程依赖于生物力学模型参数和状态的贝叶斯非平稳估计，以拟合从高速视频内窥镜数据中提取的褶皱边缘位置。这种微调的动态模型，然后被用作贝叶斯设置中的状态转换模型，它允许获得上声带边缘位置和下声带边缘位置的生理动机估计。基于模型预测，即使在声门周期的关闭阶段结束和打开阶段开始期间发生的完全褶皱闭塞条件下，也可以做出关于下褶皱位置的假设。为了证明该程序的适用性，该方法进行了评估的一组视听记录具有高速视频内窥镜数据从健康受试者产生持续的发声发声与不同的喉部设置。1. 介绍在过去的几十年里，视觉数据记录和分析技术在理解发声和医学应用（如喉部检查和病理诊断）中发挥了核心作用。之间这些，喉视频频闪检查，高速视频喉镜检查，和视频描记术（即，声带振动的高速线扫描）目前广泛用于临床研究。喉视频频闪镜检查通常用于临床检查，作为可视化健康和病理声带动力学的工具，尽管已知其仅在周期性振动声带的情况下有效[1]，而高速视频喉镜检查是可视化不对称和非周期性声带振动[2]。1996年，Sévec和Schutteintro-介绍了视频振动描记法[3]，这是一种用于检查声带的低成本、高速成像方法，它提供了一种可视化规则和不规则振动模式的有效方法，其在发声研究和嗓音病理诊断中的有用性[4、5]。对于所有上述数据采集方法，数字图像处理算法为基本的初步分割步骤提供了工具，包括声带边界检测和运动跟踪[6参考文献[2、13、14]中讨论了校准、照明条件、图像亮度影响等特定视频处理问题，参考文献[15、16]中报告了基于高速视频数据中声带边缘跟踪的语音障碍调查。基于图像的方法的重要性及其作为手术指导和决策工具的作用，喉手术是讨论在参考文献[17除了基于唯一视觉记录的评估方法之外，最近还研究了从声学和视觉数据（可能同步）收集信息的可能性在参考文献[20]中，通过高速vid- eokymography分析了声带振动，允许估计声门边缘位移和声门面积变化，并将其与语音发射上计算的声学线索联系起来此外，一些注意力已经致力于生物力学模型的使用，该模型最初被开发用于表示发声期间的声发射，与与以下相关的视频分析配对：* 通讯作者。电子邮件地址：carlo. uniud.it（C. Drioli），gianluca. uniud.it（G.L.Foresti）。https://doi.org/10.1016/j.imu.2020.100373接收日期：2020年1月3日;接收日期：2020年6月10日;接受日期：2020年6月10日2020年6月26日在线提供2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuC. Drioli和G.L. Foresti医学信息学解锁20（2020）1003732ðÞ高速内窥镜数据。在参考文献[21-[29]、特定声音病理学的分类单侧声带麻痹）是解决了一个反演程序，调整参数的生物力学模型的声带，以重现不规则的声带振荡，并在参考。[30]使用通过声带边缘跟踪拟合到视频数据的冲击模型来预测在声带碰撞期间的接触力。一些相关的调查也是专门针对使用概率框架估计模型参数。参考文献[31，32]在参数平稳性的假设下研究了根据实际和声学观测值对集中质量模型参数的贝叶斯估计。在文献[33，34]中，将相同的贝叶斯估计方法扩展到基于粒子滤波和扩展卡尔曼滤波的非平稳参数估计，其中观察数据是从动态声门模型模拟的声门面积波形。最后，在参考文献[35]中，还研究了模拟视频内窥镜数据的贝叶斯框架，但重点是不同视频测量参数（如帧率、分辨率和视角）对模型参数估计的影响。值得注意的是，在持续发声期间的声带的生物力学模型首次设计于20世纪70年代，目的是从声学的角度理解和表示发声。在那个时候，这样的模型显然不是为了代表高速记录的视觉模式。大量研究致力于复制有声发声过程中气流诱导的声带振动，并通过参考文献[36对声源的研究对于理解流动诱导振荡现象的原理以及研究和理解声带病理学（例如参考文献[40物理模型也被用于说话人识别和语音合成，尽管今天它们在这些方面的应用似乎是微不足道的。另一方面，它们现在似乎是用于处理和自动解释喉部视觉数据的有趣工具，因为今天具有足够高的时间和图像分辨率的高速数字视频记录设施变得越来越容易获得。本文提出了一种基于生物力学模型与真实图像拟合的高速内窥镜视频分析方法，内窥镜视觉数据。相对于其他视频分析方法，专门设计的高速内窥镜数据的褶皱的处理，这里提出的一个调查的可能性，使用贝叶斯设置的生物力学模型，以适应在声门打开阶段的褶皱的边缘的位置，并使用反过来调整模型来预测在下一个分析窗口中的观察。有人认为，该方法也可以用来进一步推断声带边缘位置的位置，在这些时间间隔的声门周期中，没有观测数据是由于视觉遮挡，虽然这个功能的评估将是未来的调查对象。拟合算法依赖于生物力学模型，该模型的参数被调整，使得其时间演变与从高速视频内窥镜数据估计的褶皱边缘位置一致。动态模型，然后用于贝叶斯推理作为一个状态转换模型，具有双重作用：一方面，它模拟的褶皱边缘运动，以计算其位置的可能性在声门周期的给定部分;另一方面，它的参数进行微调，以最大限度地提高可能性的视觉观察。该方法在一组记录上进行评估以健康受试者发出持续元音的高速视频内窥镜数据为特色。结果表明，使用的生物力学模型的褶皱作为状态转换模型允许准确地适应上，下声带边缘的间隔，在这两个都是可见的，并推断其位置在完全折叠闭塞条件发生在关闭阶段的结束和声门周期的开放阶段相对于以往的文献处理贝叶斯参数估计，我们强调以下差异：1。在参考文献[33]中，模型仅在模拟的视觉数据上进行评估，而这里的拟合过程被设计为处理真实的HSV数据。使用真实数据意味着必须考虑视觉伪影，其不能被建模为加性状态和观察高斯噪声，诸如由内窥镜的小移动引入的时变声门-摄像机对准偏移; 2.在文献[31相反，在我们的建议中，模型参数估计值在每个其他声门周期更新，而状态估计值以采样率计算，并用于计算视觉观察的似然性。这导致更高的计算效率，而不会显著降低参数估计有效性，因为考虑的生理参数在一个周期内不会显著变化; 3.在本研究中使用的模型中，每个折叠由他自己的状态变量控制，以允许模拟L-R非对称振荡，而在参考文献中使用对称模型。[33、35]。2. 该方法正在调查的视频分析程序的目的是利用运动的声带从一个高速视频序列I x;y;t，其中声带振动是从顶视图位置捕获。褶皱运动被定义为声带边缘距声门轴的时变距离，该距离在从前声门末端到后声门末端的中途处取得（声门是相对声带之间的开口）。图1示出了喉部高速视频内窥镜记录的示意图，视频脉搏波图（VKG）对应于上图中报告的虚线，以及通过声带边缘的双质量集总模型图2示出了与声带位移的上边缘和下边缘相关的VKG模式的解释。该图涉及两个声门周期。romboid区域对应于两个褶皱的下边缘和上边缘都偏转的时间间隔，允许空气通过打开的声门。两个弧形区域之间的时间间隔对应于声门周期的关闭阶段，这是因为上边缘和下边缘都处于关闭位置，或者因为只有一个边缘关闭而另一个边缘打开或关闭。图3示出了根据声带边缘分析对对应于五个声门周期的视频描记数据片段的解释。可以看出，实际记录的数据如何以与打开阶段相关的可清楚区分的弧形区域为特征，但它在关闭间隔期间提供关于上褶皱边缘位置的几乎不可见的信息，并且在打开间隔期间完全没有关于下褶皱边缘位置的信息（由于相机遮挡）。此外，VKG数据通常以相对于L/R方向的不对称性为2.1. 模型的俯仰同步联合参数及状态估计我们将模型拟合到视觉观察的目标定义为联合模型参数估计和模型状态估计，如下所示。基于在声门周期中可用的关于声带边缘的部分视觉信息和基于过去的估计，估计新的一组模型参数和声带边缘位置（即，模型状态）。然后对彼此重复该过程C. Drioli和G.L. Foresti医学信息学解锁20（2020）1003733吉吉--Fig. 1. （a）与喉部高速视频内窥镜记录相关的视频脉搏波图（b）（两者不同步），以及（c）通过声带边缘的双质量集总模型声门周期让我们将分析限制在沿着声门轴的给定位置上。换句话说，我们将视频序列解释为在沿着声门轴的给定点处定义的视频脉搏波，并且我们pxk;θkjz1：k ¼p<$zkjxk;θk<$p<$xkjθk;z1：k-1<$p <$θkjz1：k-1<$（1）pzkjz1：k-1将分析问题公式化为模型对该限制区域中如果z1：k是到时刻k的观测值集，xk是时刻k的折叠边状态，θk是时刻k的参数集，那么我们感兴趣的是后验概率pxk;θkz1：k。该概率可以递归计算为：其中 p<$zkjxk;θk<$ 是似然概率， p<$xkjθk;z1 ： k-1 <$ 是状态先验，p<$θkjz1 ：k-1<$是参数集先验，p<$zkjz1 ：k-1<$是边际似然。因为它是p<$xkjθk;z1：k-1<$p<$θkjz1：k-1<$$>p<$xk;θkz1：k1，联合参数和状态估计可以通过由参数向量扩充状态空间来实现[43]。假设后验pdf在时间k-1可用，则先验（或预测）图二. VKG模式解释的方案：（a）打开阶段;（b，c）关闭阶段;（d）下边缘关闭，而上边缘关闭;（e）下边缘和上边缘都关闭;（f）下边缘打开，而上边缘仍然关闭（由于视频记录是从上方进行的，因此在该间隔中下边缘位移被遮挡）。C. Drioli和G.L. Foresti医学信息学解锁20（2020）1003734-2ðÞ我...图三. 视频脉搏波分析片段中的声带边缘分类：（a）左上边缘，打开阶段;（b）左下边缘，关闭阶段;（c）右上边缘，打开阶段;（d）右下边缘，关闭阶段。pdf可以计算作为pxk;θkjz1：k-1 Zpxk;θkjxk-1;θk-1pxk-1;θk-1jz1：k-1dxk-1;θk-1（2）注意，时间先验pdfpxk;θkxk1;θk1提供了在给定时间k1的状态和参数的情况下，在时间k的观察过程。一般来说，根据要解决的问题的类型，有各种方法来建模这种概率。一个常见的解决方案，仅松散地利用底层动力学的知识，是采用具有高斯噪声的可能低阶线性动力学系统[44]。其他更专业的选择利用了有关该过程的一些知识，例如物理牛顿模拟可以用于场景中物体或人的概率运动预测和跟踪[45]。在本文所讨论的具体情况下，我们建议采用声带的生物力学数值模型作为状态转移模型，并假设状态向量xk是由该模型的数值模拟所预测的声带位移。对于参数的更新，假设音高同步随机游走模型，即，θTkθTk-1φk（3）其中φkN0;Wφ满足具有零均值和协方差矩阵XWφ的高斯分布。因此，假设参数在声门循环期间是恒定的。注意，参数的优化过程可能对初始假设和参数的变化非常敏感在该过程中使用物理上知情的模型的优点是，通常可以在生理基础上完成起始假设（参见例如参考文献[46]关于这些参数的经验调整的讨论。2.2. 生物力学数值模型声带的生物力学模型是一种集总元件表示法，其中每个褶皱的下边缘由具有刚度k、阻尼r和质量m的单个质量-弹簧-阻尼器系统建模，并且下边缘和上边缘之间的振动相位差（这对于自维持振荡的建模至关重要）由其沿褶皱覆盖物的传播引起的位移延迟建模[38，46]。模型的方案是示于图四、让我们称x1;l为左折叠在图四、声带的生物力学模型。根据流量Ug和下声门面积a1 1/4Lx1;l<$Lx1;r，使用伯努利然后，将声门总面积计算为下声带边缘处的面积a 11/4Lx1;l<$Lx1;r与下声带边缘处的面积a 1/4Lx 1 ; l <$Lx 1a2¼Lx2;lLx2;r 在声带上缘，终于假设与总声门面积成比例（该流动模型在下文中被称为fU）。位移x沿着褶皱厚度T的传播由长度为τ 1/4TFs=cf样本的传播延迟线表示，其中Fs是采样率，cf是褶皱覆盖层上的传播速度（在下文中，我们假设右褶皱和左褶皱具有相等的厚度T和长度L）。传播线是沿其垂直轴（厚度）的褶皱边缘位移的近似，并且模拟了声带的下边缘和上边缘之间的振动相位差，这是声门周期的基本线索此外，为了说明声门入口（下缘），x2;l为出口位移折叠边缘位移的幅度可能是不均匀的沿着垂直轴，我们假设，对于左边的折叠，x2;lk1/4（上边缘）。右折叠的位移相应地命名为x1;r和x2;r。在相互碰撞期间褶皱上的变形由碰撞模型fX表示，并且偏移x0;l和x0;r表示褶皱的静止位置作用在压力板上的驱动压力Pm其中，xl是增益因子（换句话说，x2;l是通过具有传递函数h;lzlz-τ的滤波器从xl;l获得的）。类似地，沿垂直轴的右折叠位移的增益因子为C. Drioli和G.L. Foresti医学信息学解锁20（2020）10037358>K>ρ¼¼¼ð Þ ð Þ ðÞpfifiiffið ðÞÞpzjxexpKK2σ2叫阿瓜。整个系统可以用下面一组连续时间方程来描述。mαxαtrαx_αtkαxαtFmtFmtPmtSm>与观察到的数据一致。我们在图5示出了通过所讨论的模型对声带振动的数值模拟，对于不同的参数τ和λ。> P tP1ρUgt2方程的封闭形式解（1）和EQ。（2）一般不可行，m>L-2Lx1;l（xtx01;α如果x≤x01;α>0而通常寻求数值近似。我们在此使用粒子滤波方案（PF），具有顺序重要性恢复算法（SIR）代表后验[44，45，48，49]。>x1;αt;fXxαt;x 01;αt0否则（四）下划线的原理是形成以下的加权粒子表示：>�Σcf02;α后验分布，如p<$xk;θkjz1：k<$Pw<$i<$δ<$xk-x <$i <$i，其中x2;αt ft>xαt-Tx_αt;x我fwi;xi;i1;...; N g是粒子的集合，> UgtfUPl;a1t;a2tsffi2ffiffiPffiffilffiminfa1t;a2tgk时刻的权重。贝叶斯跟踪算法的一种方案是在算法1中报告。算法1.贝叶斯估计算法其中ρ是空气密度，Sm和L分别是折叠表面和长度。我们使用指数α来区分左（α （l）和声带的右侧（αr）部分（4）中方程的离散化导致了一个离散时间系统，可以数值求解该系统以获得离散时间k处声门流量Ug kTs以及褶皱位移x1kTs和x2kTs的估计值，其中Ts1=Fs为采样间隔[46]。该生物力学模型能够有效地再现声带的自持振荡，并可用作声门波形发生器。质量弹簧系统的固有频率为f0 1/41= 2πk=m，因此当期望模型的给定振荡周期时，可以相应地调整其参数k和m然而，请注意，所得到的（闭环）观察到的振动频率可能由于声带通过气流的耦合，恰好与f0不同。然而，动力学方案也可以作为一个信号，生物力学模型参与预测步骤，其中每个粒子可以被视为模型模拟的独立实例。在下文中，我们将在估计过程中包括每个折叠的三个模型参数，即自然频率fα、垂直相位延迟τα和上下边缘振幅比τα。因此，参数向量是θ1/2f fl;fr;τl;τr;θl;θrg。2.3. 票数似然函数应该提供一个可靠的度量，来衡量图像观测Ix;y;k在特定假设下的解释程度。如果我们假设一组与褶皱相关的视频特征fI x;y;k边缘可以从图像帧中计算出来，那么我们可以将离散时刻k处的似然度定义为在时刻k;k≠1;...的预测值系统在时间k时，模型需要预先调整，1.一、KK2πσ�f�I�x;y;k�-xj2！在先前时刻1; k;k- 1。因此，为了正确地预测Kfifififififififififififffiffi-（五）：C. Drioli和G.L. Foresti医学信息学解锁20（2020）1003736图五. 通过图示的声门模型对声带振动的模拟，对于相位延迟参数τ的不同值（在样本中）：褶皱边缘位移（上图）和声门源（下图）。这里示出了左右对称模型的输出（即，τ¼τl¼τr, andξ¼ξl¼ξr).这些曲线图显示了参数τ和τ ′如何与声门流量循环的闭合相间隔相关，即：x1或x2在闭区间内的区间位置以灰色描绘的区域对应于断开相间隔。然后，问题是计算一组可以与褶皱模型的可观察状态相关的特征，即左声带和右声带的下边缘和上边缘。如前所述，该信息仅部分包含在视频内窥镜成像数据中。在接下来的部分中，我们将说明如何设计一个有效使用不完整信息的ad-hoc似然函数。在粒子滤波器框架内使用这样的函数将允许在可以从可用信息计算特征的区域中拟合折叠位移，并且允许基于在信息缺失的那些时间间隔中的模型的预测来提供位置的估计。3. 视频数据处理和折叠特定的相似性功能与观察下的视觉数据相关的似然度的计算需要经历多个后续分析步骤，其包括初步视频处理阶段、与目标运动相关的视觉线索的提取以及选择的似然度函数的计算。在下文中，将详细描述这些步骤以及问题特定似然函数的设计。见图6。图像数据预处理、声门周期分割和分段线性趋势计算。上图：视频帧分析;下图：阈值化、去噪和开放相位区域轮廓绘制后的视频帧。下图还示出了分段线性趋势识别。C. Drioli和G.L. Foresti医学信息学解锁20（2020）1003737ðÞðÞ联系我们>�tt3.1. 初步视频处理rto oi1-oi⋅ ðt—t（6）每个输入图像I x y t我可能包含一个或多个声门周期，我tGO;i1-tGO;iGO;i;;在每一个中，打开声门间隔可以被区分为菱形凸起区域。因此，图像的像素被分类为属于菱形凸区域，即，开放相位，或者属于两个凸区域之间的时间间隔，即，闭合fortGO;ittGO;i1.<<然后，线性趋势信息用于垂直对齐由动态模型提供的褶皱位移预测，并且视觉信息：相间隔视频分析的目的首先是检测所有的开相像素，x12;rt¼xx12;ltrit-x' 1 2; lt（七）通过基于快速欧拉数（FEN）的变化检测方法[50]来检测视频时间序列的每一帧。该过程返回二进制图像Bx;y;t，其中开放相位pixels被设置为1并且背景pixels被设置为0。由于噪声仍然可能影响二值图像B x;y;t，因此执行基于关注机制的形态学焦点的进一步处理步骤[51]，其在两个步骤中操作：首先，将统计侵蚀应用于二值图像Bx;y;tBgβ1S，其中S是正方形结构元素，β1 作为一个调节运算符统计的参数[51，52];其次，对集合B'，B“”¼ B“”β 2 S“应用统计膨胀，其中S”是交叉结构元素，β 2 > β 1。最后，将开相区域的轮廓cnt i检测为其中垂直梯度呈现最大值的像素像素（上半轮廓，对应于像素的像素）。到左索）和最小值（下半轮廓，对应于右索）。得到的去噪视频帧和开放相位区域轮廓在图6的下图中示出。最后，声门打开和关闭时刻tGO闭合/断开阶段持续时间可以估计为Tc;i 1/4tGO;i1-tGC;i，分别为To;i1/4tGC;i-tGO;i其中，符号x声门打开和关闭瞬间、关闭/打开阶段持续时间和分段线性趋势在图6的下图中示出，分析窗口对应于大约16毫秒？3.2. 特征提取最后，需要视觉线索提取来收集关于打开阶段期间褶皱位移的信息。图7示出了与卵形区域相关的不同轮廓截面如何与模型提供的左折叠开口下边缘位移（x2;lt）、左折叠闭合上边缘（x1;lt）、右折口下缘（x2;r t），右折口闭合上边缘（x1;rt）。四个类别的时间支持间隔分别定义为：8Δ t�t 不不不Σ同时，还计算了用分段线性趋势函数建模的如果我们把oi和ci称为和关闭时刻tGO;i和tGC;i分别表示线性趋势段2;l/4：去<< EC;lΔt1;l 1/4�t：tEC;lttGC<<Δt1;r¼t：tEC;rttGC<<（八）开口处每条轮廓曲线的最左和最右拐角：>t2;r：tGOtEC;r<ð Þð Þ�ECEtl��~tEC;l-tEC;l��To;;~x2l/hCNTlt;不;Δt2lΔt1;αt2Δt1;α�2：~x2;rtcntrt;t2Δt2;r�~x2;αt-x 2;αtjdt21-2σ21-2σ2小于相应的上边缘位移，并且通过分别估计左和右轮廓的最大值来计算。然后定义以下视觉数据提示8>~x1ltlt;t2Δt1l;2;关于开放阶段，如下所示。首先将部分边缘拟合误差定义为Ex1;α1sffffffiffiffiffiffi1ffffiffiffiffiffiZffiffiffiffiffiffiffiffiffiiffiffi~xffiffi1ffi;ffiαffiffiitffiffi-ffiffixffiffi1ffiffi;ffiαffi ffitffi ffijffi2ffiffidffiffitffi（十> ~x1;r=0;t2Δt1;r（九）fifififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififififΔt2;αt2Δt2;α其中，Cnt_ t和Cnt_r_ t分别是与左折叠和右折叠3.3. 基于边的似然一旦开放相位轮廓的每个点已经被分配给上面定义的四个类别之一，依赖于声门模型的粒子滤波器的似然函数现在可以被定义为：L¼pzkjxkLx1;lLx2;lLx1;rLx2;r（10）哪里对于α<$fl;rg.时间间隔Δt1;α和Δt2;α的定义如等式2所示。并且目标边缘位移x~1;α和x~2;α如等式（8）中所定义。（九）、的边缘拟合上的总均方根误差（RMSE ）被归一化到最大偏移范围Mx1/4xcr;lxcr;r，其中xcr;l和xcr;r是上下边缘交叉处的左边缘位移和右边缘位移，然后被定义为ETE¼Ex1;lEx1;rEx2;lEx2;rMx（13）在左和右下-上边缘交叉时刻的估计中产生的归一化误差（NE）可以分别定义为.j~xX射线衍射仪快看2号！ECEtr��~tEC;r-tEC;r��To（14）L1Z Zexp11;l-1;l2σ2DTx1;l¼pffi2ffiffiπffiffiσffiffiffitΔtL其中~tEC;l和~tEC;r是通过下式估计的左交叉时刻和右交叉时刻：Z.j~x2;lt-x2;ltj2！是作为结果提供的左和右交叉时刻，贝叶斯估计程序。没有校准的动力学模型是x2;l¼pffi2ffiffiπffiffiσffiffiffi实验DT不 ΔtL相对于记波图完成，因此未校准建模22ZZj~x1;rt-x1;rtj2！L（十一）物理单位，RMSE值是指任意的对模型输出进行归一化。我们还定义了一组声门周期时间参数来表征x1;r<$pffi2ffiffiπffiffiσffiffiffi实验DT不 ΔtR声门区在关闭阶段。如果T是声门周期，则Tc21L1Z22~x2;rt-x2;rtj22σ2关闭声门相位持续时间，以及To打开声门相位持续时间，我们定义RCP^Tc=T为关闭相位比率，并且ROP^Tc=T为打开相位比率。我们进一步定义RCPd<$4Δt d=Tc，RCPe<$4 Δte=Tc，以及x2;r<$pffi2ffiffiπffiffiσffiffiffi实验DTtΔtR该方法的工作流程，包括图像预处理阶段，模型调整到声带边缘，最后的去趋势和显示阶段，如图所示。8.第八条。图图9和图10示出了利用声门模型预测过程通过粒子滤波获得的声带边缘拟合的示例。图9证明了L/R和x1=x2不对称性的演变与发声起始区域的四个后续帧以及模型驱动粒子对数据的适应有关。图10示出了褶皱边缘拟合的较宽图片，其证明了模型对由内窥镜相对于记录期间振荡褶皱的相对移位引起的缓慢变化趋势的适应。图11示出了在拟合过程期间的左和右折叠参数优化（示出了最大似然参数值和可信区间（CI））。可以注意到，褶皱的自然频率在140 Hz以上是近似恒定的，并且垂直相位延迟在10个样本附近，这反映了这样的事实，即在分析区间内，节距和闭合相位与打开相位之间的比率是相当稳定的。另一方面，在左褶中，振幅比达到2倍，而在右褶中，该比率平均约为1，反映了在该视觉数据片段中已经注意到的声带振荡的不对称性。4. 实验结果在本节中，声带位移重建和模型拟合程序在从真实高速视频内窥镜记录获得的视频运动数据集上进行评估。为了提供自动拟合过程性能的度量，我们定义了边缘位移拟合的误差.j-Ex2;α¼VKG图像上的轮廓识别过程，以及tEC;L和tEC;l！C. Drioli和G.L. Foresti医学信息学解锁20（2020）1003739见图8。方法工作流程。C. Drioli和G.L. Foresti医学信息学解锁20（2020）10037310�见图9。VKG视频分析和声带边缘拟合：L与R和x1与x2的不对称性。叠加到VKG图像上的散射图表示与x1;r（品红色，上部）、x1;l（品红色，下部）、x2;r（白色，上部）和x2;l（白色，下部）相关见图10。VKG视频分析和声带边缘拟合：分析窗口约为140 msec，显示粒子滤波拟合观察结果（黄色和白色散点图分别表示x1和x2估计值R CPf/4 Δ t f=T c，作为声门在闭合相期间的发散、平行和会聚构型的持续时间的量度（参见图2）。 2）的情况。4.1. 高速视频数据Erkki Bianco和IRCAM [53]从数据库中选择记录对所讨论的视频分析程序进行了测试。这些记录包括不同健康受试者的持续发声，其特征在于视频速率为6665帧/秒，分辨率为每帧256256像素。还提供了声学发声数据，采样率为44，100Hz，分辨率为16位，但本研究中未使用。对于每一个录音，受试者发出持续的有声声音与不同的发声设置或不同的基频（音高）。音高保持不变，或者在某些情况下，它不断上升或下降。对于用于实验评估的高速视频记录的每个片段，手动选择用于记波数据计算的线扫描位置，并且记波图像被导出为对应于该位置的视频帧像素的时间序列。C. Drioli和G.L. Foresti医学信息学解锁20（2020）10037310¼ð Þ¼¼¼¼f¼g¼gf¼g见图11。在拟合过程中优化的最大似然参数，以及相关的可信区间。上图：左脊髓的自然频率、垂直相位延迟和上下边缘振幅比;下图：右脊髓的相同参数表1不同受试者和发声设置的声门参数值，每个片段在200 msec时间间隔内计算。在开放相位提示列中，括号中列出的值是指相对于与打开阶段相关的参考提示值左边的紧张发声情况的特征在于长的闭合相位和因此短的开放相位，导致开放相位比ROP0： 35。基于模型的x1和x2拟合正确地匹配了开放阶段期间的声门面积演变（romboidal形状）。此外，它预测，在封闭阶段，主题不开相段d、e和f，归一化为总闭合相持续时间Tc1/45（毫秒）ECTE1（NE）ECTEr（NE）ETE（NRMSE）RCPdRCPeRCPfmsec，分别为RCPd1/40： 3，RCPe1/40： 5，RCPf1/40： 2。如果与紧张发声的情况相比，右边的呼吸发声有一个更长的开放阶段和更短的封闭阶段，导致S1a 10.2 0.18 0.04 0.10 0.16 0.44 0.40（f）第（1）款（f）第（1）款行扫描到目前为止所示的图像预处理和音高同步过程被应用于所得到的记波数据，包括每个片段大约200毫秒的语音。声门模型的参数在每个新的语音周期更新。表1报告了基于视频分析部分中所示4.2. 业绩分析和评估实验结果显示在Figs. 图12和图13示出了对于每个记录，高速内窥镜视频的帧和沿着在帧中突出显示的扫描线计算的视频记波数据，具有拟合到折叠边缘的模型的两个周期分析窗口的放大率，以及如由生物力学模型预测的对应声门流量U g t的估计。图12所示的视频数据和拟合结果与从同一受试者（男性，健康）记录的两个数据摘录有关，所述受试者发出具有相同音高（113 Hz）和不同发音设置（左：紧张发音，右：呼吸发音）的持续元音。的估计是0： 65。基于模型的x1和x2拟合正确地匹配了开放阶段期间的声门面积演变，并预测了总持续时间Tc为2 msec的闭合阶段的归一化间期RCPd<$40： 5、RCPe<$40： 0、RCPf<$40：除了开/闭相位匹配之外，基于模型的跟踪还证明了呼吸发声样本的更显著的R/ L不对称性程序提供了1： 12， 0： 81克，比紧张的phonation，它是0： 91，0： 87。在表1的前两行（S1a和S1b）中报告了在分析中使用的整个200 msec时间间隔上平均的拟合得到的全套性能测量和声门参数。图13中所示的视频数据和拟合结果与从不同男性受试者记录的两个数据摘录有关，所述不同男性受试者以两个不同音高（左：160 Hz，右：135 Hz）发出具有模态发音的持续元音。左边的样本的特征是褶皱边缘L/R不对称，这与前一情况中观察到的不对称相反这种情况下的相关参数实际上是fr¼0： 88，fl1： 19。另一方面，右边的样本显示了相当对称的L/R振荡模式，如由值Δr0： 93、Δl0： 86所证实的。在开/闭相位比方面，左侧的较高音调样本具有相等的开/闭相位持续时间（ROP0： 5），而在右侧的样本中，闭相位较长（ROP0： 42）。在表1的第三和第四行（S2a和S2b）中报告了在分析中使用的整个200 msec时间间隔上平均的由拟合得到的全套性能测量和声门参数。最后，表1还报告了来自女性说话者的三个不同模态发声记录的结果：S3a，具有526.3Hz的音高，S3b，具有357.1Hz的音高，以及S3c，具有294.1Hz的音高。它*S1b0.11 0.30 0.05 0.65*S2a6.6 0.00 0.16 0.11 0.52 0.00*S2b2019 - 05 - 25 0.00 0.06 0.34 0.21 0.45S3a1.90.140.140.280.570.000.43S3b2.80.080.080.190.000.710.29（f）第（1）款3.40.080.080.080.170.250.58C. Drioli和G.L. Foresti医学信息学解锁20（2020）10037311见图12。图像处理和拟合结果来自同一受试者的两个录音，用不同的发声设置发出持续的元音（左：紧张发声，右：呼吸发声）。从数据库中记录E. Bianco和G.德格特克斯，IRCAM。图十三. 来自同一受试者的两个记录的拟合结果。左：模态发声，音高：160 Hz;右：模态发声，音高：135 Hz。从数据库中记录E. Bianco和G. 德格特克斯，IRCAM。可以看出与开路相位相关的归一化误差（ECTE1，和归一化均方根误差（ETE）约为0.10平均（对于样本S3 a（f），最大为0;28的总边缘拟合误差4.3. 局限性和今后的工作在来自健康受试者的一小组记录上评估了与所观察到的原始视频数据拟合的模型，因此该方法的统计评估C. Drioli和G.L. Foresti医学信息学解锁20（2020）10037312录音.此外，该模型与声带质量、刚度和声门下压力的实际值不具有一一对应关系，即未考虑校准。尽管如此，建模和参数优化结果的检查允许客观地评估这些变量之间的生物力学相互关系。一旦对可用的视觉数据进行精细调谐，则动态模型可以用作贝叶斯运动估计设置中的状态转换模型，以获得上声带边缘位置和下声带边缘位置的生理动机估计，即使在由于测量限制而在观察中丢失该信息的情况在声门发散间隔（声门周期的闭合和关闭阶段）期间的上边缘不可闭合性和在声门会聚间隔（声门周期的打开阶段的开始）期间的下边缘闭合性。基于模型预测，即使在闭合阶段结束期间发生的完全褶皱闭塞条件下，也可以对下褶皱和上褶皱位置进行假设。然而，为了评估最后，我们还记得，在这项研究中，提出的方案是测试数据从健康发声，但它是潜在的适合作为一种工具，病理发声检测和分类。在这种情况下，跟踪方案中的模型拟合程序可能需要进一步改进，以处理不规则的振荡模式和严重的左右不对称。这也将是未来研究的主题。5. 结论我们讨论了分析的videokymography数据与贝叶斯估计程序的基础上预测的褶皱边缘，提供了一个非线性动力学模型的声带。所采用的低维声门模型在L/R平面上是不对称的，并且被证明能够准确地拟合从视频记录高速视频数据中提取的声带边缘位移信息。设计了一个视频处理分析程序，该程序根据预测声门模型计算所观察到的视频数据的似然度。该分析方案的一个相关特征是预测在没有视频数据可用的遮挡间隔中的折叠下边缘轨迹的可能性。在一组不同的内窥镜高速记录上的应用证明了该程序的适用性。通过计算标准声门子循环特征（例如开/闭相持续时间和声门面积演变）来进行性能分析和评估。对一组具有不同类型发声的录音进行的实验结果表明，由数字声门模型驱动的贝叶斯估计提供了对折叠运动视频线索的鲁棒拟合，在可用的情况下，和一个预测声门下由于对比度差或噪声太大而没有可用的视频数据的那些时间间隔中的循环特征和折叠边缘轨迹图像，或由于闭塞条件然而，如果一方面可以测量相对于记录的数据，该过程在开放阶段区域中的性能，另一方面，利用手头的数据，不可能评估在不能提取有用视频数据的区域中或在被遮挡区域中的预测线索的准确性。事实上，只有当不仅可以从声门上方而且可以从下方记录声带振荡时，才有可能进行与闭塞区域相关的评估。这种数据集记录将是可能的，例如在体外实验设置，并将是未来研究的主题。竞争利益提交人声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报道的工作致谢感谢E。Bianco和G.感谢Degottex提供本文中使用的高速视频记录引用[1] 温德勒频闪检查 J Voice 1992;6：149-54.[2] 波波罗山口软式高速电视鼻喉镜检查之探讨 J Voice2018;32：529-37.[3] Sévec JG，SchutteHK. 声带的高速线扫描振动. J Voice1996;10：201-5.[4] SchutteHK，Sévec JG，Séram F. 视频脉搏波描记术临床应用的初步结果。喉镜1998;1

下载后可阅读完整内容，剩余1页未读，立即下载