使用声学特征的机器学习模型区分轻度痴呆患者

108 浏览量更新于2023-12-09 收藏 12.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Kazu Nishikawa ∗ , Kuwahara Akihiro , Rin Hirakawa , Hideaki Kawano , Yoshihisa Nakatoh ∗ a r t i c l e i n f o a b s t r a c t 1. Introduction h 0认知机器人2（2022）21-290ScienceDirect提供目录列表0认知机器人0期刊主页：http://www.k eaipublishing.com/en/journals/cogniti ve-robotics/0使用声学特征进行轻度痴呆患者区分的机器学习模型0九州工业大学：日本福冈县北九州市戸畑区千岁町1-10关键词：痴呆症阿尔茨海默病声学特征机器学习变压器0在先前关于语音痴呆症区分的研究中，提出了一种使用机器学习的多种声学特征的方法。然而，它们并不专注于轻度痴呆患者（MCI）的语音分析。因此，我们提出了一种基于元音语音特征分析的痴呆症区分系统。分析结果表明，一些轻度痴呆患者的语音中出现了痴呆症病例。这些结果也可以作为未来改进痴呆症语音的指标。利用这些结果，我们提出了一种使用具有统计声学特征的分类器和变压器模型的神经网络的集成区分系统，F分数为0.907，优于现有技术方法。0根据世界卫生组织的报告，到2050年全球痴呆症病例将增加到1.3亿[1]。此外，到2030年，全球痴呆症的医疗成本预计将超过2万亿美元[1]。痴呆症的变化会引发思维能力下降，也就是认知能力，严重到足以影响日常生活和独立功能[2-5]。它们还会影响行为、情感和人际关系。因此，痴呆症是现代医疗保健的一个重大问题[6]。然而，目前尚未建立痴呆症的治疗方法[7]。痴呆症的治疗在早期开始并长期保持良好健康时更有效[8]。因此，早期确定病因至关重要。目前通常用问卷方法进行痴呆症筛查。特别是，最常用的全球测试方法是简易智力状态检查（MMSE）[9]。在MMSE期间，医护人员会向患者提出一系列旨在测试各种日常心理技能的问题。MMSE的最高分数是30分。27-30分表明正常对照组（NC），22-26分表明轻度痴呆（MCI），低于21分表示严重痴呆（AD）[10]。然而，这种方法需要医生和临床心理学家花费10-15分钟，这对医院和受试者都是一种负担。目前，有关从语音中区分痴呆症的方法包括一种提取语音特征并使用机器学习进行区分的方法。其他作品，如随机森林[11]和1DCNN-LSTM[12]也被提出。因此，使用统计压缩的多个声学特征进行区分的方法一直是研究的主流，但很少有研究关注老年痴呆症倾向者的语音分析。0MCI，轻度痴呆患者；NC，正常对照组。�通讯作者。邮箱地址：nishikawa.kazu615@mail.kyutech.jp（K. Nishikawa），kuwahara.akihiro135@mail.kyutech.jp（K.Akihiro）0https://doi.org/10.1016/j.cogr.2021.12.003 收稿日期：2021年12月17日；接受日期：2021年12月20日在线发表日期：2021年12月27日 2667-2413/© 2021 TheAuthors. Publishing Services by Elsevier B.V. on behalf of KeAi Communications Co. Ltd. 本文是根据CCBY许可（http://creativecommons.org/licenses/by/4.0/）的开放获取文章22 0K. Nishikawa, K. Akihiro, R. Hirakawa等人。认知机器人学2（2022）21-290通过分析他们的言语，还可以帮助患有痴呆症的人改善声音质量。因此，我们提出了一个痴呆症鉴别系统，澄清了尚未分析的轻度痴呆症（MCI）患者的言语特征，并将其纳入。02. 相关工作0最近，有许多关于使用机器学习模型鉴别痴呆症的研究。02.1. 使用机器学习鉴别痴呆症0近年来，有许多关于使用机器学习对痴呆症言语进行鉴别的研究。樋口等人。0[13]根据MMSE分数将45名受试者分为MCI和NC组，从openSMILE的库中分析了6552个特征，进行了主成分分析，并创建了一个具有减少特征的鉴别器，从逻辑回归中实现了78%的鉴别率。薛等人对平均73分钟的对话语音数据进行了5段交叉验证，使用CNN模型作为一维原始数据。结果，实现了0.742±0.033的F值[15]。薛等人还报告说，使用类似的语音数据进行LSTM模型的5分交叉验证，得到了0.596±0.047的F值。02.2. 对患有痴呆症的人的言语分析0Meghanani等构建了pBLSTM-CNN和ResNet-LSTM模型，并报告了MFCC和log-Mel频谱图，这是声道特征的声学特征，具有均方根误差（RMSE）为5.9[16]。结果击败了ADReSS挑战数据集上声学特征的基准准确率（62.5%）和RMSE（6.14）的报告。这表明log-Mel频谱图和MFCC是AD识别问题的有价值的特征。黑川等人通过记录60岁或60岁以上老年人的朗读语音（约9.2小时）和收集HDS-R答案来收集语音数据，并通过t检验分析了声学特征。结果证实了NC和MCI在语速、沉默时间和插入沉默次数方面存在显著差异[17]。03. MCI的声学特征分析0在第1和第2节中，我们讨论了分析痴呆症言语的重要性。因此，本节的目的是澄清尚未分析的MCI的言语特征。在本研究中，我们以音素单位为单位，分析了MCI和NC的声学特征，并分析了元音（/ a /，/ i /，/ u /，/ e /，/ o /）中的元音。03.1. 声学特征0音韵学包括发音语音学、声学语音学和听觉语音学。我们从三个学术观点分析了NC和MCI的声学特征。MFCC：MFCC是一种基于听觉滤波器的声学分析方法，主要用于语音识别。它使用分数化滤波器组的对数功率来有效地表示功率谱。类似地，沿着Mel刻度等间隔排列的三角函数的滤波器被应用于通过人类听觉的特征来精细地检查低频部分和粗略地检查高频部分。三角函数的数量表示滤波器组中的通道数[18,19]。本研究对每个维度计算和分析了12维的MFCC。F0：我们使用从喉咙到嘴唇的声带来发声。特别是对于声带，如果声带的张力很大，来自肺部的气压很高，声带的开合周期，即振荡周期就会缩短，声源的音高就会升高。这种振荡周期称为基频，其倒数称为F0。它对应于声音的音高[20]。我们通过自相关方法进行了F0分析。共振频率：共振频率是在语音波形的频谱包络上找到的多个峰值，可以用来分析语音的声道信息。在本研究中，从LPC分析得到的频谱的峰值点被定义为共振频率，只处理第二阶作为F1和F2，从最低阶开始[21]。关于共振频率，在语音工程中，通常认为F1与口张开有关，F2与舌头位置有关。抖动：抖动是声学中音高波动的数值表示。语音波形由各种频率和幅度的正弦曲线的组合表示，并且具有大致周期的波形。当这种重复被制成一个周期时，周期可能会被扰乱。这种扰动的数值结果就是抖动。在本研究中，分析了localJitter和PPQ5。接下来，我们将描述具体的计算方法。localJitter是相邻周期之间的绝对差[22]。以下公式计算它：0�� ( �� ) = ∑ � 0( � −1 ) (1)(5) 23 0K. Nishikawa, K. Akihiro, R. Hirakawa et al. Cognitive Robotics 2 (2022) 21–290表1 数据集详情。0人数年龄 MMSE0ALL Ave 80 65.2 28.4 Std – 16.1 1.64 NC Ave 30 48.8 28.9 Std – 15.8 1.64 NC(70 s) Ave 37 75.2 29.1 Std –3.08 0.69 MCI(70 s) Ave 13 74.3 25.9 Std – 2.81 0.990表2 元音数据数量。0/a/ /i/ /u/ /e/ /o/0NC (70 s) 45 48 26 38 42 MCI (70 s) 43 44 30 43 47 Total 88 92 56 81 890� �是第i个周期的持续时间，N是周期数。PPQ5是连续五个周期的周期性波动。首先定义absPPQ5[23]。� �是第i个周期的持续时间，�是周期数。0�� 5 ( �� ) = 0� =30||||| � � − ( � � −2 + � �1 + � � + �� +1 + � 0||0( � −4 ) (2)0平均周期定义如下：0�� ( �� ) =0� =10� � � (3)0最后，PPQ5由以下方程计算。0� � � 5 = �� 5 ( �� ) �� ( �� ) (4)0Shimmer：Shimmer是响度波动的数值表示，具体来说是相邻周期振幅之间的差异。通过用振幅代替Jitter的周期，可以得到类似的原理。HNR：HNR是语音波形的谐波分量和噪声分量的比值。它被广泛用作声音嘶哑程度的指标。当语音波形的谐波分量为A%，噪声分量为B%，HNR通过以下方程得到[25]。0� � � = 10 �� 10 ( � �03.2. 实验方法0数据集：我们利用了带有对照组的老年人语料库[26]。它涉及参与者的三项任务，包括语音、转录文本和MMSE分数。根据MMSE结果，得分为23或更高和27或更低的参与者被定义为MCI，其余的老年人被定义为正常对照组（NC）。表1展示了数据集的更多细节。预处理：我们分析了数据集中16个人的语音数据。这16名患者中有6名70多岁的MCI患者（3名男性和3名女性）和10名NC（5名男性和5名女性）。如上所述，本研究分析了元音。因此，使用语音分析工具Audacity[27]进行语音分割处理，同时通过目视确认波形。因此，得到了表2中每个元音的数据数量。我们没有使用四分位范围或正常范围之外的值。评估：我们进行了t检验，以调查每个特征的显著性。为了可视化MCI和NC之间的共振峰差异，我们将五个元音的共振峰区域绘制在二维坐标系上，以F1为横轴，F2为纵轴，对每个说话者进行绘制。一般来说，共振峰区域越小，声音的可懂度越低[28]。03.3. 实验结果和考虑0t检验结果：表3仅显示了MFCCst检验中具有显著差异的特征值，图1显示了MFCC的功率按维度。MFCCs主要在较高阶（7d-12d）上有显著差异。较高阶的MFCCs通常用于情感估计。由于情感平缓已被报道为痴呆症的症状[29]，因此可能出现了这一特征（表4）。表4仅显示了t检验中具有显著差异的特征值。F0是声音高度的特征量，MCI倾向于较低以确认其显著性。喉部肌肉的紧张F0 mean /i/ 166.9 12.68 154.3 12.17 2.783 ∗∗ /e/ 153.4 18.88 138.2 17.61 2.468 ∗ F0 std /u/ 3.222 1.440 1.832 0.417 3.075 ∗∗ localJitter /o/ 0.020 0.005 0.027 0.008 − 2.299 ∗ PPQ5 Jitter /o/ 0.007 0.002 0.013 0.005 − 3.442 ∗∗ Local Shimmer /a/ 0.122 0.031 0.095 0.016 2.604 ∗∗ /u/ 0.140 0.043 0.077 0.013 4.651 ∗∗∗ APQ5 Shimmer /a/ 0.059 0.017 0.042 0.003 2.612 ∗∗ /o/ 0.075 0.018 0.048 0.005 3.969 ∗∗ HNR /a/ 5.282 1.063 7.942 2.094 − 4.567 ∗∗∗ /u/ 12.57 1.551 14.50 1.551 − 2.910 ∗∗ /o/ 9.705 1.525 11.05 1.916 − 2.137 ∗ 24 0K. Nishikawa, K. Akihiro, R. Hirakawa等人。认知机器人学2（2022）21-290每个特征数量的评估结果表30特征数量元音NC MCI t-检验值Ave std ave std0� �<0.05，��<0.01，��<0.001。0图1. NC和MCI的MFCC功率0通常产生高音调的声音[30]。有痴呆倾向的人可能已经减弱了。当在Jitter中确认了显著差异时，MCI倾向于高于Jitter。倾向于患痴呆的人可能有更多的声音周期干扰。这可能是由于发音功能障碍，是痴呆的症状[31]。Shimmer发现NC倾向于具有显著差异的更高值。倾向于患痴呆的人可能有轻微的声音振幅干扰。这一结果需要进一步调查，考虑与声音音量的关系。当确认显著差异时，HNR值在MCI组中倾向于高于MCI组。倾向于患痴呆的人可能有响亮、嘶哑的声音。在这个样本中，没有发现特征数量的有效性与元音类型有关。共振峰分析结果：我们计算了5名男性和5名女性NC的平均共振峰和3名受试者的共振峰区域。结果显示在图2-4中。在图2中的受试者S32。我们可以看到共振峰区域比NC小。特别是，/a/的F1值较低，表明S32发音/a/时舌头位置较低。在图3中的受试者S37，可以确认共振峰区域比NC小得多，特别是F1值的变化较小，可以说发音时舌头位置的变化趋向较差。在图4中的受试者S44，共振峰区域与NC没有显著差异，但每个元音的共振峰频率值较小，表明舌头位置一般较低。从这些结果中发现，与NC相比，MCI倾向于总体降低舌头运动位置，并且在声音发音程度上存在个体差异。04. 用于检测痴呆的机器学习模型0在前面的章节中，提出了使用原始语音数据和LLD作为输入。同时使用降维统计作为输入，但存在一个问题，即输入数据变得很大。此外，这种方法是否对痴呆歧视模型有效，还有待商榷25 0K. Nishikawa, K. Akihiro, R. Hirakawa等人。认知机器人学2（2022）21-290图2. MCI的共振峰区域（S32）0图3. MCI的共振峰区域（S37）0图4. MCI的共振峰区域（S44）MFCC_1d − 7.961 2.264 − 6.841 2.692 − 3.282 ∗∗ MFCC_5d − 14.23 4.281 − 12.01 3.832 − 3.987 ∗∗∗ MFCC_7d − 5.655 4.233 − 3.971 2.435 − 3.562 ∗∗∗ MFCC_8d − 4.521 2.862 − 5.442 2.851 − 2.345 ∗ MFCC_9d − 5.295 2.599 − 6.216 2.441 − 2.663 ∗∗ MFCC_11d − 2.226 2.346 − 4.222 2.270 − 6.306 ∗∗∗ MFCC_12d − 5.227 2.593 − 3.685 2.083 − 4.785 ∗∗∗ 26 0K. Nishikawa, K. Akihiro, R. Hirakawa等人。认知机器人学2（2022）21-290MFCC评估结果表40特征数量NC MCI t-检验值ave std ave std0� p<0.05，��p<0.01，��p<0.001。0图5. 所提方法的概述0因为它只应用了广泛使用的机器学习技术，所以对痴呆歧视模型有效。我们提出了一个基于第3节结果的痴呆歧视模型04.1. 提出的机器学习模型0我们提出了一个集成的痴呆歧视模型，结合了在前一章中确认的声学特征和近年来取得显著发展的图像处理。所提歧视模型的概述如图5所示。最初，输入语音是常用痴呆测试的口头回答。我们基于输入语音提取了192个特征向量的声学特征。此外，由于在前一章中发现了MFCC的更高维度存在显著差异，因此在将其转换为MFCC之前，输出了对数梅尔频谱图的波形图像，以进一步抽象特征。声学特征提取器使用各种机器学习模型进行歧视。输出是输入预测的权重。图像特征提取器使用专门用于图像处理的深度学习模型进行歧视。SoftMax用作输出层。最后，这些输出被加权以产生痴呆概率。在这项研究中，我们使用声学特征提取器的权重为30%，图像特征提取器的权重为70%来获得痴呆的概率。最后，机器学习评估的阈值设定为50%。声学特征：我们建立了一个提取器，并计算了在先前实验中通过t-检验确认的声学特征的统计数据。提取器每20毫秒获取一个音频帧，并且每10毫秒移位一次，每个音频数据有192个特征向量。特征和统计数据的列表如表5和表6所示。声学特征提取器：在这个提取部分，使用一维统计作为输入的机器学习模型。在这项研究中，使用了SVM（线性）、随机森林和lightGBM模型进行验证。这些模型是使用python模块的skit-learn构建的[32]。SVM是一种使用线性输入元素构建两类模式判别器的方法。线性输入元素的参数是从训练样本中学习的，其标准是找到最大化与每个数据点的距离的间隔最大化超平面[33]。随机森林是一种集成学习算法，使用决策树作为弱学习器，用于分类、回归和聚类[34]。Image Size 224 160 Weights ImageNet –Epoch 120 120 Active function Relu Sigmoid −4 −4 27 0K. Nishikawa, K. Akihiro, R. Hirakawa等。认知机器人学2（2022）21-290表5 每个特征数量的评估结果。0声学特征描述 F0 从倒谱计算的基频 Jitter 语音波形的时间波动 Shimmer 语音波形振幅的波动 HNR音频信号的信噪比 MFCC 反映人类听觉特征的频谱轮廓（上述特征的一阶增量系数）0表6 功能细节。0功能最大值、最小值、平均值、标准差、偏度、峰度0表7 这些图像特征提取器的参数。0项目VGG16和VGG19 ViT_160梯度下降 Adam Adam0Log-melspectrogram：在前一节中显示出显著差异的MFCCs通过执行离散余弦变换强调了声道特征。对于图像处理，需要掌握局部特征和一般特征。因此，我们提取了在进行此处理之前可以获得的对数熔融谱的图像。图像特征提取器：在这个提取部分，这项研究通过几种在图像处理中广泛使用的深度学习模型进行了验证。机器学习模型有VGG16、VGG19和ViT_b16 [35,36]。VGG16是一个由16层、13个卷积层和三个全连接层组成的卷积神经网络，2014年在ILSVRC（ImageNet Large Scale Visual RecognitionChallenge）中提出。VGG19是VGG16模型，在中间层中增加了三个额外的卷积层。ViT_b16是一种针对图像处理进行了优化的Transformer模型。根据这种方法，Transformer的计算成本约为传统CNN模型的1/4到1/5，并且计算时间得到了改善。04.2. 实验方法0数据集：我们在第3章中使用的老年人语料库进行了实验，控制组的细节可以在第3.2节的数据集中找到。预处理：我们分析了数据集中16个人的语音数据。这16名患者包括70多岁的6名MCI患者（3名男性和3名女性）和10名NC患者（5名男性和5名女性）。我们将这些数据中的每个数据分成3秒的音节，并用静音填充缺失的部分。因此，获得了2970个NC和2970个MCI的数据。对这些数据计算了上一节中描述的声学特征的统计数据，并绘制了log-melspectrogram的热图。使用了表7中的声学特征的统计数据。使用python模块librosa [37]计算了log-melspectrum。评估：我们使用各种分类器评估了提出的系统。我们从混淆矩阵中计算了准确性、F-score和AUC，这是机器学习评估中常用的指标。我们训练了三个分类器，SVM（线性）、随机森林和lightGBM，以统计数据比较我们的结果。这些是使用python模块skit-learn [38]制作的。对于log-melspectrogram，我们在三个网络上进行了训练：ViT_b16，参数大致相同，对VGG16和VGG19进行微调。这些图像特征提取器的参数如表7所示。VGG16和VGG 19用于冻结中间层，向输出层添加密集层并调整参数。04.3. 实验结果和考虑0我们通过输入评估了每个分类器实验。实验结果如表8所示。在声学特征的情况下，作为线性模型的SVM并没有提供良好的准确性。这表明简单的线性模型在这个样本中很难区分。lightGBM的F-score为0.844，高于其他分类器。然后，我们计算了lightGBM的基本特征，并发现大多数ΔMFCCs位于列表的顶部。这可能是由于老年痴呆症言语中声道成分的大幅波动。当输入为Log-mel Spectrogram时，ViT_b16具有最佳的F值。在这个实验结果中， 28 0K. Nishikawa, K. Akihiro, R. Hirakawa et al. 认知机器人学 2 (2022) 21–290表8 每个特征数量的评估结果。0输入分类器准确性 F分数参数0声学特征（192个特征向量） SVM（线性） 0.657 0.657 – 随机森林 0.723 0.720 lightGBM 0.845 0.844 – 对数梅尔频谱VGG16（微调） 0.812 0.807 91M0VGG19（微调） 0.877 0.876 97M0表9 集成模型的评估结果。0输入（声学特征+图像特征）准确性 F分数0SVM（线性）+ VGG16（微调） 0.823 0.818 SVM（线性）+VGG19（微调） 0.877 0.877 SVM（线性）+ ViT_b16 0.904 0.904随机森林+ VGG16（微调） 0.829 0.826 随机森林+ VGG19（微调） 0.8720.872 随机森林+ ViT_b16 0.895 0.895 lightGBM+ VGG16（微调） 0.8600.858 lightGBM+ VGG19（微调） 0.889 0.889 lightGBM+ ViT_b16 0.9070.9070Transformer模型ViT_b16的性能优于传统的CNN模型VGG16和VGG19。从VGG16和VGG19的结果来看，通过加深中间层可以提高辨识率。最后，我们在每个分类器之间进行了集成学习。结果如表9所示。结果表明，除了随机森林+VGG19（微调）之外，所有集成模型都比单独进行辨识时提高了辨识率。在lightGBM +ViT_b16中，它还实现了更高的准确性和F分数。它似乎补充了仅使用对数梅尔频谱作为输入的深度学习无法捕捉的特征。此外，深度学习模型的参数非常庞大，并且在处理时间上没有变化。05. 结论0在本文中，我们提出了基于MCI语音特征分析的集成痴呆辨识系统。分析结果证明了MCI声音代表了几种痴呆症状，并且所提出的系统即使在几千个声音的情况下也实现了约90%的F分数。这些结果将为改善痴呆患者的语音质量提供机会。在进一步的研究中，我们将增加声音数据的数量，并研究能够减少神经网络参数的模型构建。0声明0我们声明，“使用声学特征区分轻度痴呆患者的机器学习模型”这项工作完全是我们自己的，没有从其他研究人员那里引用任何部分（图5）。0竞争利益声明0我们声明，我们对“使用声学特征区分轻度痴呆患者的机器学习模型”手稿中提出的立场或同行评审的任何性质或种类的专业或其他个人利益都没有。0CRediT作者贡献声明0Kazu Nishikawa: 概念化, 方法学, 验证, 正式分析, 调查, 原始草案撰写, 可视化. Kuwahara Akihiro: 概念化, 方法学. Rin Hirakawa: 资源,撰写-审查和编辑. Hideaki Kawano: 资源, 撰写-审查和编辑. Yoshihisa Nakatoh: 撰写-审查和编辑, 监督, 项目管理.0参考文献0[1] M. Prince , A. Wimo , M. Guerchet , G. Ali , Y. Wu , M. Prina 世界阿尔茨海默病报告, in: The Global Impact of Dementia, OECD, 2015, pp. 25–70 .29 0K. Nishikawa, K. Akihiro, R. Hirakawa et al. 认知机器人学 2 (2022) 21–290[2] E. Rundqvist, E. Severinsson, 对患有痴呆症的患者的关怀关系——一项访谈研究, J. Adv. Nurs. 29 (4) (2001) 800–807, doi: 10.1046/j.1365-2648.1999.00955.x .0[3] C. Qin, B. Winblad, L. Fratiglioni, 血压与认知功能和痴呆的年龄相关关系，柳叶刀神经学 4 (8) (2005) 487-499，doi: 10.1016/S1474-4422(05)70141-1 .0[4] V. Crooks, J. Lubben, D. Petitti, D. Little, V. Chiu, 社交网络，认知功能和老年痴呆发病率之间的关系，美国公共卫生杂志 98 (7) (2008) 1221-1227，doi: 10.2105/AJPH.2007.115923 .0[5] R. Mahurin, B. DeBettignies, F. Pirozzolo, 独立生活技能的结构化评估：痴呆功能能力的性能测量初步报告，老年学杂志 46 (2) (1991) 58-66，doi: 10.1093/geronj/46.2.P58 .0[6] O. Indicators, 健康一瞥，经济合作与发展组织，2019年，第1-249页，doi: 10.1787/19991312 . [7] D. strooper, E. Karran, 阿尔茨海默病的细胞阶段，Cell 164 (2016) 603-615，doi:10.1016/j.cell.2015.12.056 . [8] P. Panegyres, R. Berry, J. Burchell, 早期痴呆症筛查，诊断学 6 (1) (2016) 1-13，doi: 10.3390/diagnostics6010006 . [9] T. Tombaugh, N. Mclntyre,MMSE量表：全面评价，美国老年医师协会杂志 40 (9) (1992) 922-935，doi: 10.1111/j.1532-5415.1992.tb01992.x .0[10] M. Folstein, S. Folstein, P. McHugh, MMSE量表：临床医生评估患者认知状态的实用方法，精神病学研究杂志 12 (3) (1975) 189-198，doi: 10.1016/0022-3956(75)90026-6 .0[11] K. Nishikawa, R. Hirakawa, H. Kawano, K. Nakashi, Y. Nakatoh, 用于区分轻度痴呆患者和健康人的有效语音特征，人机交互与新兴技术国际会议论文集，2021年，第356-361页，doi:10.1007/978-3-030-55307-4_54 .0[12] K. Nishikawa, R. Hirakawa, H. Kawano, K. Nakashi, Y. Nakatoh, 用于日语语音中的1d CNN-LSTM检测系统阿尔茨海默病，IEEE国际消费电子会议论文集，2021年，第1-3页，doi:10.1109/ICCE50685.2021.9427692 .0[13] M. Higuchi, M. Nakamura, T. Okazaki, J. Takemura, T. Takano, Y. Omiya, ... S. Tokuno, 通过语音分析检测轻度认知障碍，日本医学生物工程学会会刊 59 (2021) 495, doi:10.11239/jsmbe.Annual59.495 .0[14] openSMILE: https://www.audeering.com/research/opensmile/，(访问时间：2021年11月27日) [15] C. Xue, C. Karjadi, I. Paschalidis, R. Au, V. Kolachalama,使用深度学习在原始语音记录中检测痴呆：一项弗雷明翰心脏研究，阿尔茨海默病研究与治疗 13 (146) (2021)，doi: 10.1101/2021.03.04.21252582 .0[16] A. Meghanani, C. Anoop, A. Ramakrishnan, 从自发言语中探索log-Mel频谱图和MFCC特征用于阿尔茨海默病识别，IEEE口语语言技术研讨会（SLT）论文集，2021年，doi:10.1109/SLT48900.2021.9383491 .0[17] Y. Kurokawa，Y. Iribe，利用声学特征分析老年人群中痴呆趋势，爱知县立大学，2016年毕业论文摘要。[18] P. Mermelstein，语音识别的距离度量，心理和仪器，模式识别与人工智能 92 (3)(1976) 374-388 . [19] S. Davis, P. Mermelstein，连续语音句子中单音节词识别的参数表示比较，IEEE声学杂志 28 (4) (1980) 357-366，doi: 10.1109/TASSP.1980.1163420 .0[20] S. Furui，声学和语音工程，Kindai Kagaku-sha，1992年。[21] H. Itahashi，M. Akahane，S. Ishikawa，T. Ookouchi，H. Kasutani，N. Kuwahara，... T. Watanabe，VoiceEngineering，Morikita Publishing Co.，2008年，第6-12页。[22] Voice 2. 抖动: https://www.fon.hum.uva.nl/praat/manual/Voice_2__Jitter.html，(访问时间：2021年11月27日) [23]PointProcess: 获取抖动(本地)...: https://www.fon.hum.uva.nl/praat/manual/PointProcess__Get_jitter__local____.html，(访问时间：2021年11月27日) [24] Voice3. 闪烁:https://www.fon.hum.uva.nl/praat/manual/Voice_3__Shimmer.html，(访问时间：2021年11月27日) [25] 声音调和性:https://www.fon.hum.uva.nl/praat/manual/Harmonicity.html，(访问时间：2021年11月27日) [26] D. Shibata, K. Ito, S. Wakamiya, E. Aramaki, 基于自然语言处理的早期痴呆症检测, Trans.Jpn. Soc. Artif. Intell. 34 (4) (2019) 1-9, doi: 10.1527/tjsai.B-J11 .0[27] Audacity: https://www.audacityteam.org/ , (访问日期：2021年11月27日 ) [28] Y. Masuko , 日语元音的共振峰和音质研究，东京外国语大学学报，82 (2011) 105–121 . [29] H. Takechi, H.Yamada, Y. Sugihara, T. Kita, 阿尔茨海默病患者的行为和心理症状、认知障碍及门诊记忆诊所护理负担，老年病学与老年医学国际杂志，43 (2) (2006) 207–216, doi: 10.3143/geriatrics.43.207 .0[30] K. Honda, 用于调整声音基频的生物机制，日本喉科学会，8 (2) (1996) 109–115, doi: 10.5426/larynx1989.8.2_109 . [31] M. Ikeda,神经退行性痴呆患者的沟通困难，日本高级脑功能障碍学会，35 (3) (2015) 292–296, doi: 10.2496/hbfr.35.292 .0[32] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, . . . É. Duchesnay, Scikit-learn: Python中的机器学习，J. Mach. Learn. Res. 12(2011) 2825–2830, doi: 10.5555/1953048.2078195 .0[33] V. Vapnik , A. Lerner , 使用广义肖像法进行模式识别，自动遥控，24 (1963) 774–780 . [34] B. Leo, 随机森林，机器学习，45 (1) (2001) 5–32, doi: 10.1023/A:1010933404324 . [35] K.Simonyan , A. Zisserman , 用于大规模图像识别的非常深的卷积网络，国际学习表示会议论文集，2015年，第1-14页。0[36] A. Dosovitskiy , L. Beyer , A. Kolesnikov , D. Weissenborn , X. Zhai , T. Unterthiner , ….N. Houlsby ,一张图片相当于16×16个单词：大规模图像识别的变压器，ICLR会议论文集，2021年，第1-24页。0[37] A. Dosovitskiy , L. Beyer , A. Kolesnikov , D. Weissenborn , X. Zhai , T. Unterthiner , M. Dehghani , M. Minderer , G. Heigold , S. Gelly , J. Uszkoreit , N. Houlsby ,一张图片相当于16×16个单词：大规模图像识别的变压器，ICLR会议论文集，2021年，第1-22页。0[38] M. Brian, C. Ra�el, D. Liang, D. Ellis, M. McVicar, E. Battenberg, O. Nieto, librosa: Python中的音频和音乐信号分析，第14届科学Python会议论文集，2015年，第18-25页，doi:10.5281/zenodo.4792298 .

下载后可阅读完整内容，剩余1页未读，立即下载