基于宽残差网络的游戏挫折感识别方法

61 浏览量更新于2024-01-24 收藏 798KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟现实智能硬件2021年12月3日第1Citation ：Meishu SONG ，Adria MALLOL-RAGOLTA ，Emilia PARADA-CABALEIRO ， Zhao Jiang YANG ，ShuoLiu，Zhao Ren，Zhao Zhao，Björn W.舒勒。基于宽残差网络的游戏交互语音挫折识别。虚拟现实智能硬件，2021，3（1）：76-86DOI：10.1016/j.vrih.2020.10.004·文章·基于宽残差网络MeishuSonG1*，AdriaMALLOL-RAGOLTA1，EmiliaPA RADA-CABALEIRO1，自吉扬扬G1，舒奥里U1，赵奥热N1，自平ZHAO3，布约恩W. SCHULLER1，21. 德国奥格斯堡大学嵌入式智能医疗保健和福祉主席2. GLAM语言、音频、音乐小组，伦敦帝国理工学院，英国3. 天津师范大学计算机科学系，天津300389*通讯作者，www.example.commeishu.song @ informatik.uni-augsburg.de投稿时间：2020年8月28日修订日期：2020年10月14日接受日期：2020年10月18日由欧盟的地平线2020计划资助协议（826506，sustAGE）支持。虽然挫折感是玩游戏时常见的情绪反应，但过度的挫折感会对用户的体验产生负面影响，使他们不愿进行进一步的游戏交互。挫折感的自动检测可以使自适应系统的开发成为可能，该自适应系统可以通过实时难度调整来使游戏适应用户的特定需求，从而优化玩家的体验并保证游戏成功。为此，我们提出了一种基于语音的方法，用于在游戏交互过程中自动检测挫折感，这是一项在研究中仍处于探索阶段的特定任务。方法实验在多模态游戏挫折数据库（MGFD）上进行，MGFD是一个视听数据库，收集在绿野仙踪框架内，专门用于调查游戏交互过程中挫折的言语和面部表情。我们探讨了各种声学特征集的性能，包括梅尔频谱图，梅尔频率倒谱系数（MFCC），和低维的基于知识的声学特征集eGeMAPS。由于使用卷积神经网络（CNN）实现的语音识别任务的不断改进，与基于长短期记忆（LSTM）架构和支持向量机（SVM）分类器的MGFD基线不同，在本工作中，我们考虑典型的CNN，包括ResNet，VGG和AlexNet。此外，鉴于浅网络和深网络的适用性尚未解决的争论，我们还研究了两种最新的深CNN的性能：WideResNet和EfficientNet。结果我们最好的结果，通过WideResNet实现和Mel-Spectrogram特征，将基于语音的自动挫折识别的系统性能从58.8%的未加权平均召回率（UAR）提高到93.1%的UAR。关键词挫折识别; WideResNets;机器学习2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.comMeishu SONG et al：使用宽残差网络从游戏交互期间的语音中识别挫折771引言挫折相关理论将挫折定义为“阻止满足需求的障碍的发生”[1]。挫折是一种情绪状态，自20世纪初以来一直在研究[1]，在人类行为分析领域特别感兴趣。因为挫折感是玩游戏时引发的常见反应[2]，所以它也在人类-游戏交互范式中进行了研究。在这种情况下，挫折是一种消极的情绪状态，发生在目标导向的游戏中，当不满的感觉来自于玩家未满足的需求[3]。在与游戏互动时经历挫折也会引发各种负面情绪反应，如急性压力，悲伤或愤怒。这些情绪会影响用户对游戏体验的看法，这通常会对他们对游戏的评价产生负面影响，从而降低他们对游戏的接受程度[4]。在这方面，计算机游戏分析的最新发展已经成为通过游戏时玩家情绪的启发，检测和建模来改善用户体验（UX）的主要途径。事实上，挫折感已被确定为游戏交互过程中常见的情绪反应[6]，对用户体验产生负面影响[5]。因此，能够有效地识别和减少用户在玩游戏时的挫折感的技术的开发预计对改善UX非常有益。虽然情感计算[7]技术已经应用于游戏研究领域[5]，但游戏过程中挫折的自动分析仍然是一个欠发达的研究领域。事实上，由于与收集合适和现实的数据库相关的困难[8]，现有的数据集足以研究游戏交互过程中的挫折感是罕见的。一个例外是多模式游戏挫折数据库（MGFD）[9]，其中包括玩家在玩“疯狂奖杯”时的自发互动，这是一款语音控制游戏，其中挫折是通过创建可用性问题引起的。用户的口头和面部表情都被记录下来，并根据是否存在挫折来标记交互。MGFD的初步工作提出了一个基线，使用支持向量机（SVM）和长短期记忆递归神经网络（LSTM-RNN），并应用梅尔频率倒谱系数（MFCC）声学特征，从用户的面部表情和语音中自动检测挫折/非挫折状态[9]。除了已成功用于语音分析任务的SVM和LSTM-RNN之外[10]，其他神经网络技术（如卷积神经网络（CNN））也显示出对此类任务有希望的结果[11]。具体来说，[12]中的研究与RNN相比，CNN获得了更好的性能。以前的工作提供了一些证据，证明CNN比LSTM-RNN更适合自然语言处理任务中的长句分类[13]。类似地，基于注意力的CNN也比基于注意力的LSTM-RNN获得了更好的结果，用于使用开放域问答选择数据集进行答案选择[14]。这些结果可能是由于RNN[15]计算输入特征的循环连接，而CNN使用深度卷积的不变性来克服语音信号和多层富集特征的多样性[16]。考虑到这一点，我们预计CNN将在识别用户对MFGD的失望方面表现良好。对CNN的研究导致了机器学习任务的一系列突破，促进了对“非常深入”模型的探索，这已成为当前最先进的研究[17]。然而，当深度网络开始收敛时，可能会出现“退化”问题，从而降低准确性[17]。例如，残差网络（ResNets[18]）已被证明可以有效地扩展到数百层，同时保持更好的性能[19]。然而，每提高一个百分比的精度通常需要将层数增加近一倍。同样，训练非常深的残差网络往往会导致减少特征重用的问题。此外，所有区块之间共享的信息有限，无法提供足够的贡献[19]。为了解决这个问题，设计了WideResNet，它在训练期间随机禁用残差块。宽残差块可以超越78虚拟现实智能硬件2021年12月3日第1他们的后裔，也是他们的后裔。在这项工作中，我们的目标是克服MGFD基线中考虑的有限特征集和机器学习模型的缺点。因此，我们提取了比基线论文中考虑的更多种类的音频特征集，并应用最先进的深度CNN来自动识别游戏交互过程中的用户挫折感。我们提供了各种CNN的比较，包括AlexNet，VGG，EfficientNet，ResNets和WideResNets，并考虑不同的特征集：MFCC，Mel- Spectrograms和eGeMAPS。此外，我们确定最有效的配置上的MGFD的挫折识别。2相关工作虽然关注挫折的情感数据库很少见[9]，但在文献中介绍的各种数据库中，在一定程度上包含挫折，对这种情感进行计算建模的兴趣是显而易见的。关于音频内容，UTDrive数据库包含在真实条件下从城市地区驾驶的人收集的录音[20，21]。在ChIMP-儿童互动多媒体项目数据库中，在儿童与计算机互动期间收集，对挫折的口头表达进行了评估[22]。在文献中，以挫折为注释的数据集相对常见，尤其是包含其他情绪状态的数据集。例如，DEAP，使用生理信号进行情绪分析的数据集[23]，在受试者观看音乐视频时记录，提供脑电图（EEG）和外周生理信号。类似地，FEEDB，面部表情和情绪数据库[24]，包含同步的面部彩色视频和深度图，两者都包含沮丧和其他情绪的注释。最后，尽管行为情感的有效性受到了批评[25]，但也提出了包含挫折行为表达的视听数据集;示例包括IEMOCAP，交互式情感二元运动捕捉数据库[26]和陈黄数据库[27]。总的来说，尽管现有的情感数据库暗示挫折感的兴趣，缺乏一个语料库专注于这种情绪限制了系统的发展，能够自动识别用户的挫折感。基于神经网络的研究的最新进展表明，适当扩大残差块，而不是增加它们的深度，可以导致更有效的残差网络，具有更好的性能[28]。最近对基于图像的食物识别的研究[29]表明，具有切片卷积的宽残差块可以成功捕获特定信息，从而产生比现有方法更好的性能。在ILSVRC 12图像分类任务中，即ImageNet大规模视觉识别挑战中，深度较小的宽残差网络显示出与更窄和更深的ResNets相当的准确性。这种“WideResNets”最近也被用于肺癌分类的医学领域[31]，在预测大多数转诊和非转诊结节方面实现了最先进的准确性结果。类似地，在另一个医学应用中，WideResNets被考虑用于乳腺组织学图像中的有丝分裂检测[32]，该方法在MICCAITUPAC 2016有丝分裂检测竞赛中排名第二。Aditi介绍了使用3D WideResNets进行疾病诊断，特别是获得比最先进方法质量更好的去噪脑磁共振图像[33]。3实验装置在下文中，描述MGFD数据库，提供所考虑的特征集的细节，并且指示数据分区和设备设置。3.1MGFD“疯狂奖杯”的第6级界面：虽然用户只收集了10个奖杯，但由于79Meishu SONG et al：使用宽残差网络从游戏交互期间的语音中识别挫折（故意的）可用性问题，右边的面板表示加倍的计数，即。例如，20个奖杯;这使得它不可能赢得比赛。MGFD1是一个数据库，包含来自67名健康个体（27名女性和40名男性，平均年龄为15岁）的5小时视听记录，这些健康个体经历了各种（故意）可用性问题引起的不同程度的自发挫折。MGFD是通过用户与游戏“Crazy Trophy”的互动收集的，这是一款专门设计用于诱导参与者沮丧的语音控制游戏。在他们与“CrazyTrophy“的交互期间，用户感知到游戏化身由他们的语音控制，并且他们能够使用口头命令”左“、”右“、”上"和“下”来移动化身。游戏的目标是收集特定数量的奖品-通过计数器向用户指示（参见图1）。图1中的右侧面板）-并随后将它们递送给熊（参见图1顶部的右上角）。目标（一）例如，收集的奖杯数量）在六个游戏级别中的每一个都不同，并且参与者只被给予一次完成每个级别的尝试;他们必须在特定的时间内完成任务才能获胜。在1-4级，没有可用性问题，参与者通常表现出中性/积极的情绪。相比之下，在第5级和第6级中，引入可用性问题，例如故意改变计数器以阻止用户实现目标，导致参与者表现出不同程度的挫折感。与数据库一起提供的基线提供了二元分类任务的结果，即区分挫折感和缺乏挫折感。关于实验设置：作者提取了MFCC声学特征，并将SVM 和LSTM 应用于音频通道。最好的基线结果是58.8% 的未加权平均召回（UAR）的考虑语音通道。图1“C raz y T r o ph y“的级别16接口：由于（故意的）可用性问题，尽管使用了10个接口，但右侧的面板指示加倍的计数，即。例如，20个奖杯;这使得它不可能赢得比赛。3.2功能集已经产生了大量不同的特征集来执行语音的分析和识别在1MGFD数据集可在https://zenodo.org/record/3957238#.X4A0v3X7TmF免费访问。80虚拟现实智能硬件2021年12月3日第1在监督机器学习中，性能通常在不同的基准特征集之间进行比较，这使得能够针对特定任务进行特征比较。考虑到这一点，连同已经考虑用于基线的MFCC特征，我们还评估了Mel-Spectrograms和eGeMAPS特征集的性能，因为它们在以前的研究中已成功用于识别情感语音[35，36]。3.2.1梅尔光谱图梅尔频谱图是通过将梅尔滤波器组应用于频谱图而生成的，频谱图是通过短期傅里叶变换（STFT）从音频信号中提取的[37]。窗口长度为2000。我们使用了800跳长。N-FFT值为2000。Mel滤波器组将频谱图转换为Mel尺度，这是因为它强调低频而不是高频，反映了人耳的感知能力。为了计算Mel光谱图，我们在实验中使用了librosa Python包。在图2中，示出了示例挫折梅尔谱图。图2从女性挫折演讲片段中提取的梅尔声谱图样本（秒）。3.2.2MFCCsMFCC是通过计算旋律频率的倒谱而得到的表示[38]。由于其高性能[39]，MFCC是语音处理应用中最常用的基于滤波器组的特征类型之一，例如语音识别[39]，说话人验证/识别[40]和语言识别[38]。此外，MFCC提供了低维度和跨特征维度的部分窄带损坏的位置的独立性的优点[41]。在这项工作中，我们提取了总共39维MFCC特征，包括13个MFCC系数和第一和第二delta回归系数（第一和第二delta都具有13维）。3.2.3电子地图扩展的Geneva最小声学参数集（eGeMAPS）[42，43]是一个小的（低维）基于知识的声学特征集，旨在从语音中捕获情感时实现高水平的鲁棒性[42]。它由42个低层描述符（LLDs）和2个泛函组成，即算术平均值和变异系数[42]。eGeMAPS的总体尺寸为88。3.3数据划分在基线实验设置中，我们应用了独立的Leave-Three-Speakers-Out交叉验证方法，这意味着67名参与者（40名男性，27名女性）被分为两个子集。一个子集被用作固定测试集（10名男性，12名女性），而另一个子集（30名男性，15名女性）被用作固定测试集。81Meishu SONG et al：使用宽残差网络从游戏交互期间的语音中识别挫折被认为是交叉验证的训练和开发集，然后进行分区表1按参与者和实例划分数据集分为15个亚组，每个亚组包括2名男性和1名女性。在训练过程中，选择一个子集作为开发集，而其他14个子集作为训练集。使用固定测试集来评估模型。分布模型列车发展测试仪器在表1中给出了子集中的说话者和实例3.4设备设置高性能计算系统越来越多地包含加速器（特别是GPU）提供的计算能力。因此，为了实现实验，我们应用了NVidia GeForce GTX Titan X作为我们的GPU，以提高计算性能。我们的深度学习模型是使用PyTorch和MacBook2编程的。4深度学习方法目前最先进的深度学习方法已经探索了残差网络（ResNets）在地震信号检测[44]，婴儿哭声识别[45]和儿科肺炎诊断[46]等应用中的使用。这些方法的特点是使用特别深的网络。当ResNets的深度增加时，模型训练特别耗时，如上所述，使用WideResNets[19]可以缓解这个问题。WideResNets与ResNets共享的属性之一是包含快捷连接[31]，即跳过一个或多个层的连接，这有助于减少消失梯度问题。ResNets和WideResNets之间的主要区别是网络的宽度。在这项工作中，ResNets 和WideRestNets 的架构与其他三种广泛使用的CNN 进行了比较：AlexNet，VGG和EfficientNet。AlexNet[47]模型包含五个卷积层，两个全连接层和一个softmax输出层。与以前的浅网络相比，该模型中使用了整流线性单元（ReLU），重叠池和dropout[47]。VGG-11网络由11个权重层、8个卷积层和3个全连接层组成。它由softmax分类器层分类以输出。有前途的EfficientNet[48]已被提出作为平衡网络深度，宽度和分辨率的基准。事实上，卷积神经网络已经被广泛地扩展以提高网络精度，一种简单的复合缩放方法是基于一组固定的缩放系数，从而均匀地缩放深度，宽度和分辨率参数。这种缩放方法可用于有效避免繁琐的微调处理[48]。本工作中使用的ResNets和WideResNets架构的概述如图所示3. WideResNets中的一个关键参数是加宽因子k。它是与残差块的宽度相乘的系数，用于从ResNets到WideResNets的变换。然而，在与k因子相乘之前，不能确定性地定义最佳值。因此，我们决定使用k=2、k=3和k=4来比较此架构的性能。在图3中，在残差块中设置k因子。批量归一化[49]用于卷积层的输出，ReLU用作所有残差块中的激活函数我们的网络是经过训练的2为了重现性，重新实现实验的代码可以在https：//github.com/Meishu619/frustrationrecognition-fromspeech中免费访问。发言者452267性别（男：女）三十点十五分十点十二分四十点二十七分挫折48320969282虚拟现实智能硬件2021年12月3日第1批量为32个样品。它使用加权交叉熵作为损失，用亚当优化器进行优化.我们实验中的学习率是0.0001。在我们的架构中，网络的输入大小对于 MFCC 是1000×39，对于Mel- Spectrograms是1000×900，对于eGeMAPS是1000×88。5实验结果分类性能是使用未加权平均召回率（UAR）来衡量的，这是一种已经在同一数据集的先前工作中使用的评估指标[9]，并且在该领域中广泛使用，因为它非常适合常见的类别不平衡。表1呈现了使用使用不同声学特征集训练的挫折识别模型获得的结果。从结果的评估中，我们观察到WideResNets 50 -2架构使用Mel-频谱图声学特征实现了最佳性能（UAR=93.1%; cf.表2中的测试）;也就是说，我们的最佳结果超过基线34.3%。使用WideResNets 50 -2架构也实现了更好的MFCC结果（UAR=92.9%;参见在使用eGeMAPS作为声学特征时，WideResNets 50 -3的性能优于其他架构（UAR=85.7%; cf.表2中的测试）。我们发现对于Mel谱图和MFCC，最佳k值为2，而对于eGeMAPS，最佳k值为3，这表明k的选择是依赖于输入的图3 WideResNets（蓝色）和ResNets（绿色）模型架构的图示。因此需要针对不同的输入特征对k进行微调。请注意，我们没有测试其他值，因为我们观察到较高的k值会产生较低的性能。总体而言，与基线结果[9] 的比较表明，基于CNN 的架构提供了显着的改进（从58.8% 到93.1%UAR），这对于所有评估的CNN模型都是显而易见的-即使是使用eGeMAPS功能集的VGG 11架构实现的最差结果（UAR=73.5%）也优于基线。这可能部分归因于数据收集过程：在“非挫折”片段中，个体顺序地、频繁地和自信地发音命令“左“、“右“、“上“和“下”。相比之下，在“挫折”剪辑中，命令之间引入了长时间的沉默。我们假设，尽管MGFD数据集包含时间序列数据，但在对MGFD数据集中的挫折进行建模时，大量的沉默会使LSTM架构的性能发生偏差。另一个有趣的结果是，在大多数情况下，WideResNets架构的性能优于基于ResNets的模型，这证实了剩余块的宽度而不是深度的增加会导致我们基于语音的挫折检测任务的性能更好。尽管EfficientNet在图像分类任务中表现出色[48] ，但这种类型的架构获得的UAR 值低于这里考虑的ResNets 和WideResNets架构，这可能是因为83Meishu SONG et al：使用宽残差网络从游戏交互期间的语音中识别挫折MGDF数据集中的语音信号低于图像分类中的图像维度。另一个可能的解释是，在EfficientNet中没有跳过连接。6结论表2通过评估的基于CNN的模型获得的未加权平均召回率（UAR[% ]）结果。考虑输入音频信号的三种声学表示：MFCC，eGeMAPS和Mel频谱图。给出了UAR结果;每个功能集的最佳结果以粗体突出显示。包括来自一篇重要论文的基线结果[9]在本研究中，在我们对游戏交互过程中基于语音的挫折识别进行研究之后，我们表明，使用Mel- Spectrogram声学特征与WideResNets架构相比，基线结果有了显着的改善（UAR提高了34.3%）。通过对几种模型的比较，我们的研究结果证实了卷积神经网络（CNN），特别是宽残差网络（WideResNets），是成功从语音中检索情感内容的合适架构。未来的工作将需要在其他数据集上重新评估这一发现，包括挫折和更一般的语言任务，模型MFCCs电子地图Mel光谱图为WideResNets架构在该领域的价值提供了额外的证据竞争利益我们声明我们没有利益冲突。引用1张文辉，张文辉，张文辉.故意挫败用户：迈向情感计算机的一步。与计算机交互，2002，14（2）：93DOI：10.1016/s0953-5438（01）00059-52Caroux L，Isbister K，Le B L，Vibert N.玩家-电子游戏互动：当前概念的系统回顾。计算机在人类行为中的应用，2015，48：366DOI：10.1016/j.chb.2015.01.0663Craig S D，D'Mello S，Witherspoon A，Graesser A.在使用AutoTutor学习期间大声朗读：将面部动作编码系统应用于学习期间的认知情感状态。认知情感，2008，22（5）：777-788 DOI：10.1080/026999307015167594Picard R W，Klein J.计算机识别和响应用户情绪：理论和实践意义。与计算机交互，2002，14（2）：141DOI：10.1016/s0953-5438（01）00055-85杨志华，王志华.游戏中的情感IEEE Transactions on Affective Computing，2014，5（1）：16作者：J. M.在自适应视频游戏设计中使用挫折。2004年ACM SIGCHI计算机娱乐技术进展国际会议论文集-ACE'04。新加坡，纽约，ACM出版社，2004年DOI：10.1145/1067343.10673727皮卡德情感计算。麻省理工学院出版社，美国马萨诸塞州剑桥，2000年8Schuller B，Vlasenko B，Eyben F，Wollmer M，Stuhlmarta A，Wendeira A，Rigoll G.跨语料听觉情感基线（SVM）[9]58.8没有一没有一基线（LSTM）[9]57.4没有一没有一AlexNet88.482.389.2VGG1180.173.580.0高效网络-086.175.587.0高效网络186.276.789.3高效网络489.280.190.8ResNets1883.780.288.6ResNets3490.084.289.7ResNets5087.380.791.9WideResNets50-292.983.293.1WideResNets50-389.385.791.9WideResNets50-490.884.790.484虚拟现实智能硬件2021年12月3日第1确认：差异和战略。IEEE Transactions on Affective Computing，2010，1（2）：119-131 DOI：10.1109/t-affc.2010.89宋文生，杨正杰，贝尔德A，帕拉达-卡巴勒E，张正新，赵志平，舒勒B.游戏中挫折感识别的视听分析：介绍多模式游戏挫折感数据库。2019第八届情感计算与智能交互国际会议（ACII）英国剑桥IEEE，2019，517DOI：10.1109/acii.2019.892546410李春坤，王培春，王生，侯永华，李文庆.使用LSTM和CNN进行基于神经网络的动作识别。2017 IEEEInternational Conference on Multimedia Expo Workshops（ICMEW）中国香港，IEEE，2017，585-590 DOI：10.1109/icmew.2017.802628711Zhao Ji F，Mao X，Chen L J. Speech emotion recognition using deep 1D 2D CNN LSTM networks.生物医学信号处理与控制，2019，47：312DOI：10.1016/j.bspc.2018.08.03512Kollias D，Zafeiriou S.一种用于野外维度情感识别的多分量CNN-RNN方法。201813[10]杨文，李文，李文.基于FPGA的RNN和CNN实现：简要分析。2019年国际创新计算会议（ICIC）Lahore，Pakistan，IEEE，2019，1-8 DOI：10.1109/icic48496.2019.896667614尹文波，康康，余明，许策.CNN和RNN在自然语言处理中的比较研究201715Keren G，Schuller B.卷积RNN：一种从序列数据中提取特征的增强模型。2016国际神经网络联合会议（International Joint Conference on Neural Networks，IJCNN）温哥华，BC，加拿大，IEEE，2016，3412-3419DOI：10.1109/ijcnn. 2016. 772763616张晓刚，张晓刚，张晓刚.自闭症儿童发声的自动分类：一个新的数据库和结果。在：2017年国际语音会议记录。斯德哥尔摩，瑞典，国际语音通信协会，2017年17何克民，张晓宇，任世清，孙杰。基于深度残差学习的图像识别。2016年IEEE计算机视觉与模式识别会议（CVPR）拉斯维加斯，NV，美国，IEEE，2016，770-778 DOI：10.1109/cvpr.2016.9018何康民，张晓宇，任世强，孙杰。深度剩余网络中的恒等映射。In：Computer Vision-ECCV 2016. Cham，Springer International Publishing，2016，630DOI：10.1007/978-3-319-46493-0_3819Zagoruyko S，Komodakis N.广残的关系网。2016年计算机科学20吴伟杰，李伟杰，李伟杰. UTDrive：用于车载环境的驾驶员行为和语音交互系统。2007年IEEE智能汽车研讨会。伊斯坦布尔，土耳其，IEEE，2007，566-569 DOI：10.1109/ivs.2007.429017521Boril H，Sadjadi S O，Kleinschmidt T.驾驶员言语中认知负荷和挫折感的分析与检测。在：国际语音通信协会会议。幕张，千叶，日本，DBLP，201022[10]李文辉，李文辉.儿童与机器互动中的礼貌与挫折语言。第七届欧洲语音通信与技术会议。2001232005年10月26日，李文辉，李文DEAP：情绪分析数据库;使用生理信号。IEEE Transactions on AffectiveComputing，2012，3（1）：18-31 DOI：10.1109/t-affc.2011.1524斯沃奇湾FEEDB：面部表情和情绪的多模式数据库。2013年第六届国际会议人类系统互动（Human SystemInteractions，HSI）索波特，波兰，IEEE，2013年，524DOI：10.1109/hsi.2013.657787625Douglas-Cowie E，Campbell N，Cowie R，Roach P. Emotional Speech：Towards a New Generation of Databases.言语交际，2003，40（1/2）：33DOI：10.1016/s0167-6393（02）00070-526放大图片作者：Jenkins M，Jenkins M. IEMOCAP：交互式情感二元运动捕捉数据库。语言资源和评价，2008，42（4）：33585Meishu SONG et al：使用宽残差网络从游戏交互期间的语音中识别挫折DOI：10.1007/s10579-008-9076-627陈立生人机交互中情感表情识别的视听信息联合处理。伊利诺伊大学香槟分校，2000年28[10]张文军，王文良，孙永芳，王文强.宽压缩：张量环网。2018年IEEE/CVF计算机视觉和模式识别会议。SaltLake City，UT，USA，IEEE，2018，9329-9338 DOI：10.1109/cvpr.2018.0097229作者：Martin N，Foresti G L，Micheloni C.用于食物识别的宽切片残差网络。在：2018年IEEE计算机视觉应用冬季会议（WACV）。Lake Tahoe，NV，USA，IEEE，2018，567-576 DOI：10.1109/wacv.2018.0006830张毅，欧泽，李世辉，冈谷.使用二叉树架构截断广域网络。2017年IEEE International Conference on ComputerVision（ICCV）。威尼斯，意大利，IEEE，2017，2116-2124 DOI：10.1109/iccv.2017.23131Ferreira C A，Aresta G，Cunha A，Mendonça A M，Campilho A. 广泛的残余网络，用于肺放射性物质™筛查转诊。在：2019年IEEE第六届葡萄牙生物工程会议（ENBENG）。里斯本，葡萄牙，IEEE，2019，1-4 DOI：10.1109/enbeng.2019.869256032Zerhouni E，Lányi D，Viana M，Gabrani M.广泛的有丝分裂检测残留网络。2017 IEEE第14届国际生物医学成像研讨会（ISBI 2017）。墨尔本，VIC，澳大利亚，IEEE，2017，924-928 DOI：10.1109/isbi.2017.795066733Panda A，Naskar R，Rajbans S，Pandas S.一种用于脑MRI图像去噪的具有感知损失的3D宽残差网络。2019第十届计算、通信和网络技术国际会议（ICCCNT）印度坎普尔，IEEE，2019，1DOI：10.1109/icccnt45670.2019.894453534放大图片作者：Jönsson A，Ahrenberg L.绿野仙踪研究：为什么和如何。在：第一届智能用户界面国际会议-IUI'93的会议记录。奥兰多，佛罗里达州，美国，纽约，ACMPress，1993 DOI：10.1145/169891.16996835[10]杨文，李文，李文.语音清晰度的声学相关性：eGeMAPS功能集对非典型语音的可用性。在：SLaTE 2019：第八届ISCA研讨会语音和语言技术在教育。ISCA，2019DOI：10.21437/slate.2019-936Valstar M，Pantic M，Gratch J，Schuller B，Ringeval F，Lalanne D，Torres Torres M，Scherer S，Stratou G，Cowie R. AVEC 2016：抑郁症，情绪和情绪识别研讨会和挑战。在：会议记录的第六届国际研讨会上的音频/视觉情感的AVEC '16。荷兰阿姆斯特丹，ACM Press，2016 DOI：10.1145/2988257.298825837沈军，庞瑞，魏瑞军.用条件波对熔融谱图预测的天然TTS合成。在：声学，语音和信号处理国际会议论文集。2018年IEEE年会38Eyben F，Weninger F，Gross F，Schuller B.慕尼黑开源多媒体特征提取器SMILE的最新进展。在：第21届ACM多媒体-MM '13国际会议的会议记录。巴塞罗那，西班牙，ACM出版社，2013年DOI：10.1145/2502081.250222439Schmitt M，Ringeval F，Schuller B.在声学和语言学的边界：语音中情感识别的音频词袋。In：Interspeech 2016.ISCA，2016DOI：10.21437/interspeech.2016-112440吴伟杰，李伟杰，李伟杰.基于频谱、倒频谱和能量相关音频特征的步态身份识别。2013年IEEE声学、语音和信号处理国际会议。加拿大不列颠哥伦比亚省温哥华，IEEE，2013年，458DOI：10.1109/icassp.2013.663768941Winursito A，Hidayat R，Bejo A.在印尼语语音识别中使用PCA提高MFCC特征提取精度。2018年信息和通信技术国际会议（ICOIACT）。印度尼西亚Yogyakkaman，IEEE，2018，37986虚拟现实智能硬件2021年12月3日第1DOI：10.1109/icoiact.2018.835074842Eyben F，Scherer K R，Schuller B W，Sundberg J，André E，Busso C，Devillers L Y，Epps J，Laukka P，Narayanan S S ， Truong K P. The Geneva minimalistic acoustic parameter set （ GeMAPS ） for voice research andaffective computing. IEEE Transactions on Affective Computing，2016，7（2）：190DOI：10.1109/taffc.2015.245741743[10]张文辉，张文辉.基于图像的深谱特征表示用于情感语音识别。在：2017年ACM多媒体会议论文集- MM '17。美国加州山景城，ACM出版社，2017年DOI：10.1145/3123266.312337144[10]李文清，李文清. CRED：用于地震信号检测的卷积和递归单元的深度残差网络。科学报告，2019，9：10267DOI：10.1038/s41598-019-45748-145谢新，张玲，王军。残差网络在婴儿哭声识别中的应用。电子信息学报，2019，41（1）：233-239DOI：10.11999/JEIT18027646梁国斌，郑丽霞.基于深度残差网络的迁移学习方法在小儿肺炎诊断中的应用。生物医学中的计算机方法和程序，2020，187：104964DOI：10.1016/j.cmpb.2019.06.02347肖良生，严强，邓世英.使用改进的AlexNet模型进行场景分类。2017第12届智能系统与知识工程国际会议（ISKE）南京，中国，IEEE，2017，1-6 DOI：10.1109/iske.2017.825882048Tan M X，Le Q V. EfficientNet：重新思考卷积神经网络的模型缩放。201949Ioffe S，Szegedy C.批量归一化：通过减少内部协变量偏移来加速深度网络训练。2015

下载后可阅读完整内容，剩余1页未读，立即下载