没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于数据增强深度神经网络的印尼语说话人识别Kristiawan Nugrohoa,b,Edi Noersasongkoa,Purwantoa,Muljonoa,De Rosal Ignatius Moses Setiadiaa印度尼西亚三宝垄Dian Nuswantoro大学计算机科学系b印度尼西亚三宝垄AMIK Jakarta Teknologi Cipta阿提奇莱因福奥文章历史记录:2021年1月17日收到2021年3月31日修订2021年4月11日接受2021年4月23日在线提供保留字:说话人识别数据增强深度神经网络印尼民族添加白噪声音调偏移时间拉伸A B S T R A C T说话人识别是语音处理领域中一个具有挑战性的课题。提出的各种模型在本研究中成功地达到了相当高的精度水平。然而,水平说话人识别的准确性还没有最大化,因为小数据集是目前仍然面临的问题,导致过拟合和有偏差的数据样本。这项工作提出了一种数据增强策略,使用添加白噪声技术,音调偏移和时间拉伸,使用深度神经网络进行处理,以产生一种称为DA-DNN 7 L的说话人识别新模型。数据增强方法被用作增加印度尼西亚少数民族说话者有限数据量的解决方案,而七层DNN是与其他多层方法模型相比提供最佳准确性性能的架构,此外,在其他几项使用性能最好的七层深度神经网络数据增强策略进行的研究,在70%:30%的分割比例下,准确率为99.76%,损失0.05,并增加了400个增强数据。在看到这个模型的性能之后,可以得出结论,数据增强深度神经网络可以使用印度尼西亚民族数据集提高说话人版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍说话人识别是一个很有意义的研究领域,因为它仍然有许多问题需要解决,还有各种研究空白需要进一步研究。使用机器学习(ML)和深度学习(DL)的各种方法已经被实现用于解决说话人识别问题,特别是使用大量语音数据集的研究的数据.目前,数据量的增长越来越大。世界各地的数据量爆炸是不可避免的数百PB的数据是从不同的-*通讯作者。电子邮件地址:kristiawan@mhs.dinus.ac.id(K.Nugroho),edi-nur@dosen.dinus.ac.id ( E. Noersasongko ) , purwanto@dsn.dinus.ac.id ( Purwanto ) ,muljo-no@dsn.dinus.ac.id ( Muljono ) , moses@dsn.dinus.ac.id ( DeRosalIgnatius Moses Setiadi)。沙特国王大学负责同行审查制作和主办:Elsevier我们的来源,包括移动设备,社交媒体,传感器,相机,天文学,个人 档 案 , 相 机 , 金 融 市 场 数 据 到 健 康 数 据 ( Gupta 和 Rani ,2019)。根据世界经济论坛的数据,到2025年,世界预计每天将产生463艾字节的数据,因此找到正确的方法将大数据处理为有助于人类生活的信息是一个具有挑战性的研究课题。人工智能方法已被应用于各种类型的现代研究。最初,使用机器学习(ML)的语音识别研究已经使用高斯混合模型(GMM)方法达到了高水平的准确性,例如Bao和Shen,2016; Chakroun等人,2016; Veena和Mathew,2016; Maurya等人, 2018)和隐马尔可夫模型(HMM)的研究(达席尔瓦等人,2016;Maghsoodi等人,2019; Mouaz等人,2019),但是随着数据量的增长,该方法的准确度水平显著降低,使得这种传统的机器学习方法仍然导致低准确度和泛化问题(Xie等人,2018年)。在随后的开发中,ML的这些局限性已经通过深度学习(DL)方法得到了解决该方法是解决大数据中数据分析和数据学习问题的一种有效方法https://doi.org/10.1016/j.jksuci.2021.04.0021319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comK. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报4376组(Oussous等人, 2018年),因此该方法适用于需要大量数据的语音处理研究。关于使用深度学习方法的说话者识别的各种研究使用几种方法,包括深度神经网络(DNN),例如由(Cernock,2016; Seki等人,2016;Dumpala 和 Kopparapu , 2017; Snyder 等 人 , 2018;Novotny'etal. ,2019;Najafian和Russell,2020;Rohdin等人,2020)和研究中的卷积神经网络(CNN)方法(Ravanelli和Bengio,2018),使用TIMIT数据集实现了85%的准确率,使用LibriS-peech和(An等人,2019),准确率达到96.5%,为解决说话人识别中的各种问题做出了巨大贡献。然而,深度学习需要大量数据集的训练过程,这些数据集代价昂贵且不易收集,这种方法不适合用于数据集数量较少的说话人识别研究,因为它会导致深度学习中的过拟合问题和数据样本偏差。在说话人识别研究中,解决小数据问题的方法包括使用数据增强(DA)。DA方法是一种用于改变训练样本集的形状以产生额外的新训练数据的技术。DA是各种研究中的有效技术,例如声音分类、对象识别和图像处理(Li etal., 2020年)。DA方法已被广泛应用于各种类型的研究。使用DA方法是因为,在详细的分类中,许多DA类中的少量样本对解决问题的贡献更大(Zhenget al.,2020年)。在使用DA进行的语音识别研究中(Schlüter和Grill,2015; Salamon和Bello,2017; Pandeya和Lee,2018)被证明能够将分类错误减少高达30%,并实现86.1%至94%的准确率。DA有几种方法已经在几项研究中使用,例如Barea使用的变分自动编码器(VAE)和生成对抗网络(GAN)方法,以使用小数据集提高分类准确性(Moreno-Barea et al.,2020年),成功将准确率提高至87.7%。在另一项研究中,Long使用声学数据增强方法进行普通话-英语代码转换(Long等人,2020年),准确率为82.6%。音高变换方法也经常用于DA中,例如由( Ye等人,2020年),成功达到90%的破案率。Damskägg使用时间拉伸方法对各种音乐信号进行基于DA的模糊分类(Damskägg和Välimäki,2017),Aguiar在他对DA的研究中提高了音乐流派分类的性能,还使用了拉丁音乐数据库(LMD)中的添加噪声,音高偏移,响度变化和时间拉伸(Rafael Aguiar et al.,2018年)的准确率为89.45%。在我们的工作中,通过我们提出的方法,DA被证明可以增加数据集的数量因此,它可以帮助提高说话人识别性能,准确率为99.76%。在这项工作中,我们提出了一种数据增强方法,七层深度神经网络(DA-DNN 7 L),用于识别印度尼西亚的少数民族发言人,他们使用来自印度尼西亚70个少数民族发言人类别的700个话语。使用70个类的研究是不容易的,因为它涉及许多类,因此它可能导致多类问题。我们选择深度神经网络(DNN),因为它是深度学习中经常用于语音识别研究的方法之一(Nugroho et al.,2020年)。DNN也是一种强大的模型,可以在模式识别方面取得很高的成就(Nurhaida等人,2020年)。DNN在说话人识别中的成功通过研究进行证明(Novotny'etal., 2019)与MFCC相结合,MFCC成功地提高了噪声和回声环境中的系统性能,DNN与MFCC也被证明在说话人识别单通道研究中优于其他几种方法(Saleem和Irfan Khattak,2020)。此外,DNN还成功地结合增强数据以增加预测效率(Moreno-Barea等人,这项工作使用七层DNN架构,因为DNN七层产生具有最佳性能的准确性,并且七层方法在用于几项研究时也产生良好的性能,例如由Liu等人,2016年; Zhang等人,2017年; Li等人,2019年),平均准确率达到90%以上。使用Data Augmentation和DNN对具有许多类别和数据的印度尼西亚语使用者的介绍进行研究,将提高印度尼西亚数十个民族的使用者识别的准确性。本文由几个部分组成,第一部分是引言,介绍了问题的背景和作者在引言中所做的研究,第二部分是相关的相关著作,其中包含了几个类似的研究,这些研究是研究的基础,第三部分是数据增强,讨论了数据增强的理论以及研究中将要实现的几种方法。第4节包含深度神经网络,这是使用的深度学习方法。第五章是包含所提出的模型的方法论。第6节是结果和讨论,包含研究结果和研究结果的讨论,第7节包含结论,其中包含关于已进行的研究结果的结论的几个重要事项。2. 相关作品多民族说话者识别的研究已经在各个国家进行,例如在包括中国在内的各个国家进行的多民族语音识别的研究(Wang等人,2014年)、非洲(Oyo和Kalema,2014年)、意大利(Najafian等人,2016),巴基斯坦(Qasim等人,2017年),美国(Upadhyay和Lui,2018年)和印度使用卷积神经网络(CNN)与MFCC的合并(Ashar等人,2020年)。如果我们看看上面的一些研究,MFCC方法是一种常用于说话人识别的特征提取方法,因为MFCC是一种鲁棒的方法,并且已被许多研究人员选择用于提高说话人识别性能(Chowdhury和Ross,2020)。然而,上述各种研究中的多民族说话人识别的问题包括说话人数据的有限数量和说话人类别的缺乏,这将导致弱的数据训练过程,从而导致 准 确 性 不 是 最 佳 的 结 果 。 印 度 尼 西 亚 语 语 音 识 别 的 一 些 研 究(Muljono等人,2017年; Nursetyo和Setiadi,2019年),此外,印度尼西亚也有多民族语音研究,例如使用I-vector识别印度尼西亚语说话人的研究,其中涉及19个说话人类别,包括13个男性说话人和6个女性说话人(Shahab和Lestari,2017年),以及涉及三个类别的分层迁移学习研究,即印度尼西亚语,爪哇语和巽他语(Azizah等人,2020年),但这项研究也有限制的类的数量和数据集的数量。人 们 对 语 音 识 别 进 行 了 各 种 各 样 的 研 究 。 Salamon 和 Bello(2017),使用卷积神经网络(CNN)和数据增强来识别环境声音,以达到94%的准确率。在另一项使用模糊矢量量化建模和MFCC的研究(Singh,2018)中,涉及从TIMIT数据集中提取的100类说话者,该研究产生了98.8%的准确率,与其他方法(如模糊C均值和模糊矢量量化2(FVQ2))相比,这是最好的准确率。机器学习(ML)方法是一种仍然使用传统方法的方法,例如隐马尔可夫模型(HMM)结合K. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报4377MFCC在识别四类说话者与摩洛哥方言(Mouaz等人, 2019年),使用20个扬声器,这项研究的结果是扬声器识别准确率为90%。具有与数据增强相结合的一层的DNN也由(Rituerto-González等人,2019年),以分析对说话人识别性能的压力水平。本研究使用VOCE语料库,其中包含45名学生的135个录音的声音,这导致在99.45%的准确率性能。高斯混合模型(GMM)和MFCC也用于说话人识别研究,例如(Chakroun和Frikha,2020)进行的研究,使用TIMIT数据集识别来自64个不同区域的说话人的短语音,准确率比标准GMM高98.44%。所使用的另一种方法是如在研究中的支持向量机(SVM)(Hanifa等人,2020)通过使用MFCC方法使用52个连续语音记录说出各种马来西亚话语在提取特征中,准确率为57.7%。除了使用ML之外,说话人识别领域的一些研究,多民族也使用深度学习(DL)方法,这被称为说话人识别的鲁棒方法。具有DNN的DL方法与各种方法组合,其中之一是数据增强,诸如由(Long等人,2020)使用OC 16-CE 80数据集,该数据集是一个普通话-英语混合语音语料库,已成功地在说话人识别中产生有效的模型,最佳准确率为86.1%。上述研究与我们将要进行的研究有几个相似之处,即在数据集方面,这是包含来自多个伦理的发言者的数据,数据八年的使用然而,上述研究与我们的研究相比也存在一些差异,即说话人类别的数量、说话人说话的持续时间关于说话人识别的研究的发展在表1中得到更充分的解释:3. 数据增强数据扩充(DA)是研究人员通过修改现有数据来增加数据量的一种技术。DA是一种用于增加训练数据量的策略,其已被证明在神经网络的训练中是有效的(Rebai等人,2017),并对小数据集的深度学习产生重大影响(Ma,Tao和Tang,2019)。DA是克服过拟合问题,提高模型可靠性(Kanimozhiselvi和Sathiyawathi,2020)和提高泛化能力(Wang和Sangki Kim,2019)的有效方法,这是机器学习中经常出现的问题。使用深度学习DA的研究在提高大量数据的预测准确性方面发挥着关键作用(Moreno-Barea et al., 2020年)。一些技术-表1相关研究。论文方法数据集类数评价结果用于带口音普通话语音识别的多级自适应网络(Wang et al.,2014年度)GMM-HMM标准普通话(S-PTH)数据集4相对CER(字符错误率)降低13.8%和24.6%使用深度神经网络的有限口音多样英国英语训练数据改进语音识别(Najafian等人,(2016年)DNN的ABI口音语料库14 3.91%和10.59%相对于-降低字错误率巴基斯坦地区名称的乌尔都语语音识别系统:发展、挑战和解决方案(Qasim等人,(2017年)SVM、随机森林和GMM巴基斯坦裔说话者6准确率92.56%使用I向量进行印度尼西亚语说话人识别的信道相关建模研究(Shahab和Lestari,2017)GMM、JFA、I-Vector印度尼西亚语演讲者识别(IDSR)3累积错误率(AER)深度卷积神经网络和环境声音分类的数据增强(Salamon和Bello,2017)SB-CNN Urban-Sound 8 K数据集10准确率94%使用深度信念网络进行外国英语口音分类(Upadhyay和Lui,2018)基于高斯滤波器的特征提取和提出的模糊矢量量化建模技术的说话人识别(Singh,2018)深度信念网络(DBN)模糊矢量量化外国口音语音数据库6准确率90.2% TIMIT 100准确率98.8%使用隐马尔可夫模型的摩洛哥方言的语音识别(Mouaz等人,2019年度)隐马尔可夫模型现代标准阿拉伯语(MSA)和摩洛哥方言4准确度90%在压力条件下进行说话人识别的数据增强,以打击基于性别的暴力(Rituerto-González等人, 2019年度)DNN 1层VOCE语料库3准确率99.45%使用混合CNN-MFCC方法的说话者识别(Ashar等人, 2020年)卷积神经网络(CNN)来自多个视频的同学和音频–用于低资源语言上的多语言、多说话者和风格迁移的基于DNN的TTS的分层迁移学习(Azizah等人, 2020年)DNN an Indonesian(ID)speech corpus 4准确率98.96%使用高斯混合模型进行短话语的鲁棒文本无关说话人识别(Chakroun和Frikha,2020)高斯混合模型TIMIT 8准确度98.44%使用音高和MFCC对马来语中的连续语音进行说话者种族识别(Hanifa等人, 2020年)支持向量机说话者的4准确率57.7%用于普通话-英语代码切换语音识别的声学数据增强(Long等人, 2020年)DNN码切换声学数据增强OC 16 MixASR-CHEN 2准确度86.10%K. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报4378Fig. 1.将白噪声信号添加到数据增强。在DA中经常使用的技巧是添加白噪声、音高移位、响度变化和时间拉伸。3.1. 添加白噪声使用深度学习的一个挑战性问题是数据集太小。解决这个问题的一种方法是在训练过程中向输入中添加噪声。添加白噪声是说话人数据增强识别中的一种有效方法(Noah等人,2017年)。这种方法是一种添加在不同频率下具有相同幅度的随机音频信号的技术(Kanimozhiselvi和Sathiyawathi,2020)。在音频信号中,相关范围是可听声音频带(介于20和20,000 Hz之间),更多细节见图。1.一、添加白噪声提高了语音识别模型的性能,例如由Rafael Aguiar等人, 2018),(Tong,2018);通过添加原始声音,噪声被赋予噪声效果,使得它将给出不同的声音效果,这是在数据增强技术中可以实现的方式之一。3.2. 变桨(PS)PS是一种在录音中经常使用的技术,用于提高或降低原始声音的音调。这种方法的目的是在不改变播放速率的情况下改变音高(Mousa,2010)。在PS中,使用了一种过程,其中原始声音的音高被提高或降低,而不影响录制的声音片段的长度(Rai和Barkana,2019)。一些研究人员使用PS,因为它已被证明可以提供非常有用的数据增强,例如关于唱歌声音检测的几项研究(Schlüter和Grill,2015),环境声音分类,管道由(Salamon和Bello,2017),家猫分类(Pandeya和Lee,2018)。在图2中,可以看出,在将音高变换方法应用于印度尼西亚的一个民族语音之后,语音音调的增加已经发生了变化,因此该方法确实适合于应用增强数据来增加选票数量。3.3. 时间拉伸(TS)TS是一种通过改变声音的速度或持续时间而不影响音调来操纵音频信号的方法。这种方法在处理由音调、噪声和瞬态混合分量组成的音乐信 号 时 很 有 用 , 例 如 唱 歌 、 电 子 音 乐 和 包 含 人 声 的 爵 士 乐 录 音(Damskägg和Välimäki,2017)。几项研究也使用TS来执行数据处理 , 例 如 Sasaki 等 人 , 2010;Kupryjanow 和 Czyzewski , 2012;Salamon和Bello,2017;Damskägg和Välimäki,2017; Wei等人,2018)结合SOLA算法(同步重叠和添加),模糊,卷积神经网络等各种方法,提高了所提出的模型的性能。使用时间拉伸方法的语音信号的图形处理显示了通过使用时间拉伸方法改变持续时间后的原始语音的数据增强技术之一(见图1)。3)。4. 深度神经网络深度学习方法已被开发用于在说话人识别中产生各种鲁棒方法。最常用的深度学习方法之一是深度神经网络。DNN被图二.原始声音和音高转换声音。K. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报4379-图三. 原始的声音和时间拉伸的声音。它被广泛用于各种语音识别研究,因为它比机器学习中的传统方法具有许多优点。这种方法被广泛使用,因为它在各种研究领域中具有优势,包括视觉对象识别、地理和语音识别(Seifert et al.,2017年)。在其他研究中,DNN实现了显著的性能水平,例如由Mclaren等人,2015)关于电话语音(Seki等人,2016)关于使用基于DNN的声学模型 的 短 语 音 ( Snyder 等 人 , 2018 ) 关 于 DNN 与 数 据 增 强 ,(Novotny'etal., 2019)还使用基于自动编码器的DNN进行了研究,并且(Saleem和Irfan Khattak,2020)对DNN在单通道独立扬声器多说话者语音分离中的使用进行了研究。DNN模型架构由输入层、若干隐藏层、丢弃层和输出层组成(Rajyaguru等人,2020年)。根据Cheon等人(2019)进行的研究。DNN模型是神经网络的发展(见图4),神经网络基本上是数学模型中的函数。f:X!Y,可以解释如下:1. 输入层它是一个由神经元组成的层,接收来自变量X的输入数据这一层的 神经 元直 接 连接 到 隐藏 层。 11 个 输入 层是 使 用主 成 分分 析(PCA)方法预处理后2. 隐藏层它是一个可以由几层神经元组成的层,这些神经元从输入层接收数据。一些观点从几个研究指出,在隐藏层的神经元的数量可以确定之间的大小输入层和输出见图4。 深度神经网络架构。层.在图4中,隐藏层中的神经元数量22.10和10的大小是已经完成的研究中DNN特征的最佳数量。3. 辍学率(DO)DO是用于模拟大量不同网络架构的单个模型,这些网络架构可用于减少神经网络模型中的过拟合问题。DO的量在0和1之间确定。在图4中,对于每个层,DO被设置为0.2的大小,因为使用该参数,DNN实现了最佳性能。4. 输出层它是一个由神经元组成的层,从隐藏层或直接从输入层接收数据,其输出值表示从X到Y值的计算结果。在图4中,2个输出层节点显示了研究中的类别数量。5. 方法在这项工作中,DA-DNN 7 L方法用于提高印度尼西亚多民族扬声器的准确性。所提出的方法的设计可以在图中看到. 第五章:图5示出了本研究中提出的方法是使用数据增强深度神经网络7层(DA-DNN 7 L)的说话人识别,这是处理印度尼西亚民族说话人识别数据集的鲁棒语音识别方法,该方法从将数据集分为训练数据(70%)和测试数据(30%)形式的两部分的过程开始。在说话人识别数据集中,训练数据是通过预处理的形式进行的,即切割具有相同持续时间的声音信号,然后转换具有相同大小和形状的样本类型。此外,对数据集进行数据增强处理,以通过使用添加白噪声、音高移位和时间拉伸三种方法来增加音频声音的数量。然后,使用MFCC对音频信号进行特征提取,然后使用DNN 7层进行处理,以生成用于进行预测的模型。测试数据集在预处理过程中也得到了相同的处理,数据增强,并与MFCC特征提取DA-DNN 7 L模型将使用测试数据对其在说话人识别中的准确性进行测试。5.1. 数据集和预处理本研究使用的是印尼地方语言301种语言印尼语#2.MP4,其中包含K. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报4380图五. 推荐型号DA-DNN 7 L。来自印度尼西亚不同种族的演讲者,持续时间为34分45秒,来自Youtube,网址https://www.youtu-be.com/watch?v= FkwXbCY1 rWg,视频质量帧宽638,帧高360,数据速率108 kbps,总比特率204 kbps和帧速率25帧/秒。 视频文件是采取音频格式的手段,每个部落的发言人; 1秒的声音样本的持续时间是采取使用AdobeAudition CS6应用程序与采样率为44,100 Hz位深32位(浮点)单声道WAV设置32位浮点(IEEE)。 声音被输入到训练数据文件夹中,每个部落的说话者包含10个声音样本。在一些声音样本少于十票将被添加使用数据增强技术,如添加噪音,时间拉伸,和音高移位。使用数据增强添加的声音结果将被调整为以前的声音数据采样设置,即单声道WAV设置32位浮点(IEEE),采样率为44,100 Hz位深32位(浮点)。本研究所用的印尼语说话人数据集由70个类组成,其中280个数据为原始数据,420个数据为数据是使用如表2所述的增强数据处理的数据:本文中的数据集处理使用了分割过程,例如情感语音和歌曲的瑞尔森视听数据库(RAVDESS)的数据集,这是一个以音频和视频格式的情感语音和歌曲形式的多模态记录数据集(Atmaja和Akagi,2020)。关于RAVDESS的研究由Livingstone和Russo进行,2018年使用了24名具有北美口音的专业演员,包括中性,平静,快乐,悲 伤 , 愤 怒 , 恐 惧 , 惊 讶 和 厌 恶 的 表 达 的 演 讲 和 歌 曲 。 在Indonesian Ethnic Speaker数据集中,整个声音样本文件再次使用以下模式分段:1. 模态(01 =全AV,02 =仅视频,03 =仅音频)。2. 声乐(01 =演讲,02 =歌曲)。3. 情绪(01 =中性,02 =平静,03 =快乐,04 =悲伤,05 =愤怒,06=恐惧,07 =厌恶,08 =惊讶)。表2数据增强数据量的比较类别名称(民族)量量类名量量类名量量数据DA(族裔)数据DA(族裔)数据DA亚齐加约64苏特拉肯达里64马鲁古戈罗姆64亚齐梅拉尤64苏鲁特·梅纳多64马鲁古圭82巴利·塔巴南64松巴林陶64Maluku Latulahat64马士82松巴尔·塞洛克82马鲁古莱蒂82贝利通·梅拉尤82巨港山82马鲁古·马卡里尼64明古鲁伦邦82苏穆特熟食店82马鲁古·梅拉尤82明古鲁82苏穆特·曼达林82马鲁古·瓦特卢丹64牧本明古鲁勒让82苏穆特·尼亚斯82马鲁古韦塔尔64井里汶82苏穆特·帕克帕克64马鲁古布里64雅加达梅拉尤64马鲁古·阿卢内82马鲁古·蒂多雷82独奏82马鲁古·阿马海64卡尔巴尔·凯塔庞82苏巴尔·马穆朱64马鲁古·阿鲁多博82卡卢特·伦达耶64苏尔滕布尔82马鲁古64卡尔蒂姆·卡扬64苏丹·特霍64班达奈拉马鲁古福尔达塔64卡尔蒂姆·库塔伊64量1004098429446K. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报43814. 情绪强度(01 =正常,02 =强烈)。5. 重复(01 =第1次重复,02 =第2次重复)。6. 每个部落/地区的发言者序列号从01到10。7. 从01年到70年,演讲者的种族是一个阶级5.2. 特征提取在这项工作中,我们使用梅尔频率倒谱系数(MFCC),这是一个最强大的说话人识别的梅尔频率倒谱系数是最流行和最常用的音频特征提取技术,用于使用傅立叶变换信号的基于感知的梅尔空间滤波器组处理来提取语音的频谱特征。此外,特征提取过程使用Python编程语言中的Librosa,它具有读取音频文件的功能,并使用MFCC帮助提取过程。根据Hamidi等人(2020)的MFCC方法架构可以在图中看到。第 六章:在MFCC方法中,在预加重过程中加强音频声音输入以增加信噪比,使得音频不受噪声影响。此外,通过将音频声音划分为具有相同数量的信号的若干帧来执行成帧过程。窗口化是使用窗口函数对结果帧进行加权的过程。接下来的过程是DFT(离散傅里叶变换),这是一个旨在从离散时间信号中分析频率信号的过程,然后使用Mel滤波器组来计算源自原始话语的MFCC。Mel频率包络通常使用滤波器组。滤波器组是一种形式的滤波器,其目的是确定来自频率中的某个频带的能量的量(Afrillia等人,2017年)。可以通过将DFT值变为一个值来找到对数值。逆DFT是用于根据线性预测系数(LP)的计算来获得感知自适应序列的过程。本文采用MFCC方法,设定参数为25帧长、10帧移位、窗型汉明、0.97预加重系数、13个倒谱系数和22个提升器。5.3. DNN 7层Relu激活函数在本研究中与adam优化器一起使用,adam优化器是一种用于自适应学习速度的优化算法,用于训练深度neaural网络,该算法于2014年在深度学习从业者参加的着名会议上介绍(Kingma和Ba,2015),退出率为0.2。DNN由七层组成,其结构如图7所示:DNN七层结构如图所示。 7由第1层完全连接组成,第2层有400个节点,这是我们在研究中估计的节点数量,而下一层是上一层节点的一半。第1层是由Dense函数组成的层,用于添加全连接层;第2层包含400个节点,由Dense函数和Dropout函数组成,这是神经网络中防止过拟合的功能之一,也加快了学习过程。见图6。 MFCC方法工作过程。第三层包含200个具有密集功能和丢弃功能的节点,第四层结构包含100个具有密集功能和丢弃功能的节点,第五层包含50个具有密集功能和丢弃功能的节点,第六层包含25个具有密集功能和丢弃功能的节点,第7层包含15个节点,具有Dense功能和Dropout功能,而在输出层,我们使用Softmax激活。在本研究中使用DNN七层作为架构,因为与其他层架构(如DNN三层和DNN五层)相比,该架构具有最高精度性能的优势。5.4. 评价这项研究使用印度尼西亚少数民族说话者数据集,使用分割比技术和训练测试分割评估,这是一种评估机器学习性能的方法。该方法将数据集分为两部分,即用于匹配机器学习模型的训练数据集和用于评估机器学习模型的测试数据集。通常使用的百分比是将训练数据和测试数据分为70%:30%,80%:20%或90%:10%。分流比百分比的选择是通过考虑几件事来进行的,包括模型训练中的计算成本,测试模型中的计算成本和数据表示。测量我们的分类性能评估结果使用准确性,它被广泛用于测量平衡和接近平衡数据的错误分类水平(Atmaja和Akagi,2020),这是机器学习中经常使用的模型性能评估方法之一。6. 结果和讨论在这项工作中,数据增强技术,通过添加白噪声,时间拉伸和音高移位使用的采样率设置为44,100单声道,在测试700个声音的民族发言者是印尼使用DNN 7层(DA-DNN 7 L)数据增强模型,在epoch 100批次大小4时,训练数据性能如图所示。第八章:测试训练数据集的结果显示,准确率为95.28%,损失率为0.0102损失,如果我们看看图。 8.损失水平从时期1下降到100,但在时期22、27、36、62、70、79时趋于不稳定,损失增加自动地跟随着时期22、27、36、62、70、79时的准确度性能下降,尽管最后在第90个时期稳定在95%以上。使用数据测试的模型测试的结果可以在图9中的曲线图中看到。使用700个数据波说话人识别产生了99.76%的高准确率和0.052的低丢失率,DA-DNN 7 L模型被证明产生了用于说话人识别的鲁棒方法。在这个模型测试中没有过拟合证明。所得模型的性能测试也以如表3所示的分流比进行:在表3中,使用70:30的分割比技术,已经训练的模型产生最高水平的准确度和最低的损失水平。当使用80:20的分割比时,准确度结果开始降低,同时损失增加,并且当分割比为90:10时,准确度变得更高,即使损失率也降低。这些测试的结果表明,使用大量训练数据进行测试通常是一件好事,因为模型将看到许多示例,以便它可以找到最佳解决方案。如果我们使用有限的训练数据,模型将缺乏知识,导致测试性能不佳。另外,通过使用大量的测试数据,也会对模型有更好的理解,从而使模型的泛化性也更准确。另一个使用数据增强(DA)的测试来自K. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报4382见图7。 DNN七层。图8.第八条。DA-DNN 7 L在训练数据上的性能图9.第九条。DA-DNN 7 L性能测试数据。表3分流比级精度和损耗对比表原始的300个WAV数据被赋予与分流比技术相结合的100到400个数据的相加,如下表所示。在表4中,可以看出,添加具有400的DA和70:30的分割比的数据集数量产生具有低丢失率的最高水平的准确性,DA的数量越小,说话人识别中的模型性能也将降低。在另一个比较中,使用大的DA和大的训练数据,分流比准确度(%)损失七十点半99.760.052八点二十分95.710.163九十比十94.440.065K. Nugroho,E. Noersasongko,Purwanto等人沙特国王大学学报4383表4精度和损失比较表,增加了增强数据(DA)。DA分流比70:30分流比80:20分流比90:10准确度(%)损失准确度(%)损失准确度(%)损失10098.571.6597.899.4396.00.0120098.210.0498.950.0197.90.0830098.833.8999.460.1298.42.1940099.760.0599.281.4898.65.20表5与其他ML和DL方法的性能比较数据集方法准确度(%)印尼民族议长KNN92.00识别随机森林81.00多层感知器77.00(MLP)决策树76.00DNN 3层98.43DNN 5层99.21DA-DNN 7 L(拟定)99.76精度性能越来越高。与使用机器学习和深度学习算法的几种方法相比,所进行的研究也具有最佳的准确性性能,如表5所示:表5中对说话人识别的研究性能表明,我们提出的方法(DA-DNN 7L)是一种用于说话人识别的鲁棒方法,通过实现高精度来证明。涉及许多类的研究不容易获得良好的预测结果,因为在多类中有些事情会更复杂,因为它们在进行预测时必须区分许多类(Silva-Palacios等人,2017年)。与传统的机器学习方法相比,DA-DNN 7 L具有最佳的精度性能,例如KNN,随机森林,MLP,决策树和使用DNN 3层和DNN 5层的深度学习方法,与其他方法相比,DA-DNN 7 L实现了最高的精度性能7. 结论涉及大数据的语音识别领域的研究是一个具有挑战性的研究课题,印度尼西亚少数民族说话人数据集包含来自印度尼西亚少数民族的数百个话语。本研究中提出的方法是DA-DNN 7 L,这是一种通过数据增强来增加数据量以避免语音识别中的过拟合问题的方法,结合包含七层的深度神经网络来提高说话人识别性能。总之,本研究对我们工作的一些贡献是建立了一个新的印度尼西亚少数民族说话人识别数据集,这有助于提供有关印度尼西亚各种少数民族说话人的介绍的数据源,数据增强是有用的,通过添加白噪声,音高移位和时间拉伸技术来产生新的语音数据,印度尼西亚少数民族说话人的话语,以增加关于少数民族讲话人的数据量。使用DNN七层的分类对于提高使用印度尼西亚民族语音的说话人识别系统的性能是有用的,并且使用DA-DNN 7 L方法的所提出的模 型 在 说 话 人 识 别 准 确 度 的良 好 性 能 方 面 也 具 有 优 势 , 其 为99.76%,就像使用传统机器学习和深度学习方法的一些方法一样,这些方法也产生高准确度性能。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用Afrillia,Y.例如,2017.基于Nagham模式识别的古兰经学习系统中Mel频率倒谱系数( MFCC ) 方 法 的 性 能 测 试 J.Phys.Conf.Ser.930 ( 1 ) .https://doi.org/10.1088/1742-6596/930/1/012036.安 , N. N. , Thanh , N.Q. , Liu , Y. , 2019. ‘Deep CNNs With Self-Attention forSpeakerIdentification’,访问7(c),85327-85337。https://doi.org/10.1109/ACCESS.2019.2917470.Ashar,A.,Bhatti,M.S.和Mushtaq,U.(2020)10.1109/ICETST49965.2020.9080730。Atmaja,B.T.,Akagi,M.,2020.在:“在歌曲和语音情感识别之间的差异:特征集的影响,pp。 1-8号。Azizah,K.,Adriani,M.,Jatmiko,W.,2020. ‘Hierarchical Transfer Learning
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功