端到端韩语语音识别开源工具包

59 浏览量更新于2024-01-25 收藏 659KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响7（2021）100054原始软件出版物用于端到端韩语语音识别的开源工具包Soohwan Kima，b，Seyhwan Baeb，Cheolhwang Wonba大韩民国Kakao Brain Corpb光云大学电子&通信工程系，大韩民国自动清洁装置保留字：端到端（E2E）韩语自动语音识别（ASR）开源软件语音处理A B标准一个基于深度学习库PyTorch的模块化和可扩展的端到端韩语自动语音识别（ASR）工具包，称为KoSpeech1，作为开源软件发布。已经发布了几个ASR开源工具包，但它们都处理非韩语语言。因此，KoSpeech的目的是为韩国ASR研究人员提供可定制的培训环境。此外，KoSpeech还提供了50多个选项。研究人员可以方便地定制各种超参数。由于这些优点，KoSpeech可以成为韩国ASR研究人员非常有用的工具包，并可以作为指导方针对于那些研究韩语语音识别的人来说代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2020-63合法软件许可证Apache-2.0使用Git的代码版本控制系统软件代码语言、工具和服务Python、Shell脚本编译要求、操作环境依赖性Microsoft Windows，OS X，Linux如果有开发人员文档链接/mhttps://sooftware.github.io/KoSpeech/支持电子邮件为问题sh951011@gmail.com1. 介绍传统的自动语音识别（ASR）系统[1-这些高度复杂的结构用于构建单个解码网络。相反，端到端ASR系统具有许多优点。首先，它更方便，因为它用一个系统管理上面写的整个过程。因此，已经提出了许多端到端模型：Deep Speech 2，Listen，Attend and Spell（LAS），Transformer，RNN-Transducer和Joint CTC-Attention LAS [7它们足够简单，无需领域知识即可访问，并且更直观，因为模型结构清晰简洁。ASR的各种实现都是这样发布的然而，像LibriSpeech，WSJ，Switchboard，CallHome [12-通讯作者：Kakao Brain Corp，大韩民国处理英语等非韩语语言。韩国ASR开源的缺乏成为提高韩国语音识别进入门槛的主要因素之一。因此，我们决定开放我们的工具包 KoSpeech ，它能够处理KsponSpeech [16]，这是有史以来发布的最大的韩语语音数据集。KsponSpeech由1000 h的语音数据-转录对组成。由于KsponSpeech文本的预处理是困难的，我们也解释了我们的预处理方法，为KsponSpeech数据集。用户可以参考拼音和拼音的选择方法，或者删除特殊字符的方法等。此外，对于试图在各种单位上执行韩语语音识别的研究人员，我们已经配置了在模型部分，KoSpeech提供了四大基于深度学习的端到端1本文是根据我们的技术报告编写的，可在https://arxiv.org/abs/2009.03092上查阅。https://doi.org/10.1016/j.simpa.2021.100054接收日期：2020年12月14日;接收日期：2021年1月6日;接受日期：2021年1月7日2665-9638/©2021由Elsevier B. V.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsS. Kim，S.Bae和C.赢得软件影响7（2021）1000542表1各输出单位处理的成绩单输出单位成绩单字符子字石墨烯语音识别模型：Deep Speech 2、LAS、Transformer和Joint CTCAttention LAS。此外，提供了各种选项，诸如特征提取方法、诸如递归神经网络（RNN）的递归神经网络的类型、长短期存储器（LSTM）、门递归单元（GRU）。它们与模型性能高度相关研究人员可以在语音识别任务中使用各种选项进行实验此外，为了节省研究人员的时间和成本，我们免费许可开放预训练模型和预处理转录。我们将继续开发这个软件。我们希望我们的研究能够这是一个给追随者和初学者的指南2. ASR系统ASR任务由相当复杂的管道组成。KoSpeech支持所有复杂的管道，如特征提取，模型训练和解码，并为用户提供在此过程中所需的选项选择。KoSpeech有50多个选项，但有三件重要的事情将被简要描述。除了上述三个选项外，还有优化器、模型维数和损失函数等选项有关选项的更多信息，请参阅下面的链接： https ： //soooftware 。github.io/KoSpeech/notes/opts.html2.1. 输出单元在语音识别任务中，输出单位是一个重要的超参数。KoSpeech提供字符、子字和字素单元的处理，如表1所示。研究人员可以指定他们想要的输出单位。2.2. 模型架构KoSpeech的模型架构如下。实现了四个模型：（a）深度语音2，（b）听、听、拼，(c)Transformer，以及（d）联合CTC-注意LAS。要查看这些模型架构的详细信息，请查看每个部分所附的图(a) Deep Speech 2Deep Speech 2在ASR任务上表现出更快，更准确的性能，并且具有连接时间分类（CTC）损失（见图1）。①的人。与以前的端到端模型相比，该模型具有显著的良好性能（见图1）。2）的情况。(b) 听、听、拼（LAS）在文献[8]中提出的体系结构的基础上，对其中的一些部分进行了改进，以提高性能.我们提供了四种不同的注意机制：缩放点积注意，添加剂注意，位置感知注意，多头注意。注意力机制对模型的性能影响很大（见图1）。 3）。(c) TransformerTransformer是自然语言处理领域的一个强大的体系结构。该体系结构在ASR任务中也表现出良好的性能。Transformer的改进有待进一步研究（见图）。 4）.(d) 联合CTC-注意LAS这一模式是（b）小节所述劳工会计制度架构的补充版本。所提出的架构使用基于CTC的模型和基于注意力的模型，表现出更好的Fig. 1. Deep Speech 2.图二. LAS的架构2.3. 特征提取通过KoSpeech，研究人员可以选择从音频数据中提取的四个主要特征的ASR任务的特征：频谱图，梅尔频谱图，滤波器组，梅尔频率倒谱系数（MFCC）。研究人员可以设置与提取特征相关的参数，例如窗口大小、步幅量、梅尔滤波器组的数量等。3. 评价作为性能指标，我们使用字符错误率（CER）作为指标：=距离LEV（，）（1）与朴素的CTC和注意力模型相比，�� =长× 100（2S. Kim，S.Bae和C.赢得软件影响7（2021）1000543）S. Kim，S.Bae和C.赢得软件影响7（2021）1000544表2图三. Transformer的体系结构。见图4。联合CTC-注意体系结构。我们做了几个实验，并将结果作为KoSpeech的基准，以LAS作为基线模型。我们的基线模型取得了10.31%的CER与过滤器银行功能作为一个功能和多头注意。表2和代码元数据显示了通过特征向量和注意力机制进行比较的结果。4. 影响概述KoSpeech为实验提供了可扩展性，提供了各种选项来定制训练环境：模型架构，输出单元，特征提取，模型维度等。它是一个处理韩语任务的开源ASR项目。不是为了单一的研究，而是为了用户此外，KoSpeech是第一次处理大型韩语语料库数据集KsponSpeech1000小时韩语对话的工具包。到目前为止，还没有开源处理它KoSpeech还提供了组织良好的文档。本文档包含工具包的解释，特别是如何设置KoSpeech的各种选项以及这些选项的作用。此外，本发明还为研究者提供了预处理的转录本和预训练的模型。详细介绍了数据预处理流程。这些预处理方法可以广泛应用于将来发布的其他韩国数据集每当新的和新鲜的技术发布时，我们都会不断更新KoSpeech，例如SpecAugment [17]和AdamP opti- mizer [18]的修订版本。除了处理KsponSpeech数据集外，我们还计划为英语或普通话等非韩语语言提供各种食谱。KoSpeech已经提供了LibriSpeech配方，这是最知名的英语语音语料库之一KoSpeech代码显示了良好的可读性，对于学习韩语语音识别的初学者可能会有帮助。此外，KoSpeech因此，研究人员可以随时在其他工作或项目中轻松使用这些功能。由于这种可读性和模块化，KoSpeech成为许多开源项目的参考，如[19此外，KoSpeech还有超过100名GitHub观星者，他们对我们的项目感兴趣，并积极与其他人交换反馈我们希望KoSpeech的进一步开发能够在研究前沿保持强大的语音识别性能，提供一个稳定和可扩展的开源工具包。CRediT作者贡献声明各种选项的CER（%）比较功能CER（%）MFCC 17.31对数梅尔频谱图15.79对数频谱图10.72过滤器组10.31CNN提取器CER（%）深度演讲2 14.81VGG净10.31注意力机制CER（%）缩放点积注意力14.81附加注意力10.31位置感知注意力13.52多头注意力10.31其中X、Y是预测的，并且是地面实况脚本。D是X和Y之间的Levenshtein距离，L是地面实况脚本Y的长度。S. Kim，S.Bae和C.赢得软件影响7（2021）1000545Soohwan Kim：概念化，方法论，软件，数据管理，写作-原始草稿，可视化，监督。SeyjeBae：方法论，软件，调查，资源，数据管理，写作-原始草稿。Cheolhwang Won：软件，验证，错误分析，资源，写作-原始草稿，项目管理。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认我们要特别感谢Kwangwoon大学的Suwon Park教授，Rep。韩国，为他的帮助和指导。S. Kim，S.Bae和C.赢得软件影响7（2021）1000546引用[1]Nathaniel Morgan等人，利用隐马尔可夫模型的多层感知器进行连续语音识别，见：IEEE声学、语音和信号处理国际会议，ICASSP，1990年。[2] Abdel-rahman Mohamed等人，用于电话识别的深度信念网络，在：神经信息处理系统：语音识别和相关应用的深度学习研讨会，2009年。[3] George E. Dahl等人，大词汇量连续语音识别与上下文相关的dbn-hacking，在：IEEE国际会议声学，语音和信号处理，ICASSP，2011年。[4] Geoffrey Hinton等人，声学建模使用深度信念网络，在：IEEE2012年国际声学、语音和信号处理会议，ICASSP。[5] Navdeep Jaitly 等人，预训练深度神经网络在大词汇量语音识别中的应用，INTERSPEECH，2012年。[6] Tara Sainath等人，用于LVCSR的深度卷积神经网络，在：IEEE2013年国际声学、语音和信号处理会议，ICASSP。[7] Dario Amodei 等人， Deep Speech 2 ： End-to-End Speech Recognition inEnglish and Mandarin，2015，arXiv preprintarXiv：1512.02595.[8] W. Chan等人，收听参加和拼写，在：IEEE国际会议上声学，语音和信号处理，ICASSP，2016。[9] Ashish Vaswani等人，注意力就是你所需要的一切，在：神经信息处理系统的进展，NIPS，pp。6000-6010[10] Alex Graves ， Sequence transduction with recurrent neural networks ， in ：International Conference of Machine Learning，ICML，2012.[11]Suyoun Kim，使用多任务学习的基于联合CTC注意力的端到端语音识别，在：IEEE声学，语音和信号处理国际会议，ICASSP，2017年。[12] V. Panayotov等人，Librispeech：一个基于公共领域的ASR语料库音频书籍，在：IEEE声学，语音和信号处理国际会议，ICASSP，2015年。[13] D.B. Paul等人，基于华尔街日报的CSR语料库的设计，在：语音和自然语言研讨会论文集，计算语言学协会，1992年。[14] J.J. Godfrey等人，电话语音语料库的研究和IEEE International Conference on Acoustics ， Speech ， and Signal Processing，ICASSP，1992.[15] Alexandra Canavan等人，Callhome American English Speech，LinguisticDataConsortium，1997.[16] Bang等人，KsponSpeech：用于自动语音识别的韩国语自发语音语料库语音识别，应用科学。 10（2020）6936。[17]D.S. Park等人，大规模数据集上的Specaugment，在：Proc.ICASSP，2020年。[18] B. Heo等人，减缓基于动量的优化器的权重范数增加，2020，arXiv预印本arXiv：2006.08217。[19] https://github.com/GT-KIM/jamo-based-korean-speech-recognition网站。[20] https://github.com/fd873630/RNN-Transducer网站。[21] https://github.com/qute012/las-ko网站。

下载后可阅读完整内容，剩余1页未读，立即下载