少量文本数据的深度学习大规模说话人识别方法

30 浏览量更新于2024-01-17 收藏 884KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报使用少量文本无关语音数据的BiLSTM大规模说话人识别方法穆罕默德·K Nammousa，Khalid Saeedb，Paweidan Kobojekaa波兰华沙理工大学数学和信息科学学院b波兰比亚韦斯托克理工大学计算机科学学院阿提奇莱因福奥文章历史记录：2020年1月11日收到2020年3月23日修订2020年3月30日接受2020年4月1日网上发售保留字：说话人识别小训练数据双向LSTM MFCC深度学习A B S T R A C T在过去的二十年里，人与机器之间的交流得到了扩展。相应的技术已经被建立，以满足语音理解的需要，包括大规模的语音和说话人识别。在本文中，作者提出了一种简化的深度学习方法，可以使用尽可能少的训练数据来完成大规模说话人识别任务。Fisher语音语料库已经被探索以选择具有足够数据的独特说话者的录音。作者使用MFCC方法来表示一个大的集合的特征向量的超过4k的扬声器与约343 h的语音信号。解决方案包括省略预处理并且考虑语音信号的较长段。已经测试了训练数据集的各个部分，并将更大比例的使用数据用于测试。双向LSTM神经网络对单个语音片段的准确率高达76.9%，当将每个说话者的片段视为一个束时，准确率为99.5%将训练数据量加倍，获得了100%的完美准确率。©2020作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 导言和动机语音识别技术目前足够先进，可以用于市场上现成的产品，如苹果Siri（格鲁伯，等人，2016）、亚马逊Alexa（Lopatovska等人，2019年）和谷歌语音搜索（Schalkwyk等人，2010年），以及空中交通管制系统（Helmke等人，2015）和教育（Huang，et al.2016年）。说话人识别和说话人确认是说话人识别的两个任务。前者涉及基于用户的声音样本对用户进行分类。在这种情况下，可能结果的数量就是系统中用户的数量。后者涉及检查用户是否是他们声称的人;因此，有两种可能的结果：真或假。对于说话人识别挑战，使用不同种类的NN*通讯作者。电子邮件地址：m. mini.pw.edu.pl（M. K. Nammous），k.saeed@pb. edu.pl（K.赛义德），p. mini.pw.edu.pl（P。Kobojek）。沙特国王大学负责同行审查包括CNN（Lukic等，2016; Nang An等，2019），多模态LSTM（Ren等，2016）和双向长短期记忆网络（BiLSTM）（Dovydait is和RudzZeroionis2018）。LSTM 网络显著优于其他方法，如Ren等人，2016年），作者介绍了多模态LSTM，并将其应用于大爆炸理论数据集，其中不仅需要识别说话者的声音，还需要在视频中找到他或她的脸，这表明了这些模型的灵活性。LSTM的上述灵活性使它们不仅可以用作分类器，还可以用作预处理机制，在识别验证之前对输入语音样本进行降噪（Tkachenko等人，2017）。BiLSTM相对于隐马尔可夫模型的优势可从（DovenaitisandRudzZeroionis2018）中得出尽管机器学习方法取得了巨大的成功，但它们在处理不充分的训练数据时存在局限性（vonRüden et al.，2019年）。已经开发了各种技术来处理训练数据的缺乏，这包括：数据扩充和领域专业知识，以及迁移学习，如使用BiLSTM进行具有低训练数据的多语言语音识别，结果表明它可以用一种语言的数据进行预训练，并针对另一种语言进行微调（Karafiát等人）。 2018年）。拥有越来越多的数据将提高性能，提高质量并释放机器https://doi.org/10.1016/j.jksuci.2020.03.0111319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. K. Nammous等人/Journal of King Saud University765不×r±1×学习算法;然而，收集无限量的数据仅限于官方机构和大型公司。在实践中，大多数研究分配了大部分用于训练模型的数据集，而只有有限的部分用于测试。训练子集和测试子集的常用比率将通过各种研究示例来呈现，以显示这种差距。例如，（Fredouille和Charlet2014）使用i-向量框架在多模态条件下从47个收集的语音小时的电视节目语料库中进行说话者日记化和识别任务实验表明，训练集的正确率在82.5%~ 94% 在（Lukic，et al. 2016），作者使用TIMIT数据集（Garofolo，et al. 1993），其包含630个扬声器的电话质量记录，分配60%的数据集用于训练，20%用于验证，20%用于测试。对于说话人识别和验证，（Liu等人，2017）使用了三种不同的特征集，包括时域特征、频域特征以及两者的组合。该研究考虑了36个扬声器，63对于大规模说话人识别的情况，（Schmidt，et al. 2014）提出了一种基于从YouTube上的Google Tech Talk频道（Google Inc. 2007年）。这个数据集包含了大约1，111个在Google上发表的演讲视频，998个不同的扬声器。训练数据集的百分比相当高，占完整数据集的94.8%至98.6%（Schmidt等人，2014）。另一个大型数据集用于VoxCeleb1（Nagrani等人，2017），其中包含从YouTube视频中检索的音频和视频，用于1，251位名人，超过100，000次发言。数据集中包含的视频是在大量具有挑战性的多扬声器声学噪声环境中拍摄的，因此这可能是使用94.5%进行训练而仅使用完整数据集的5.5%进行测试的原因后来的研究（Yadav和Rai 2018）几乎保留了这些部分，同时重用了相同的VoxCeleb1数据集，95.5%的数据集专用于训练，只有4.5%用于测试。（ Xie 等人， 2019 ）使用包含 1 ， 092 ， 009 个话语的VoxCeleb2 dev数据集作为训练集，Fig. 1. Vanilla RNN（Olah，Understanding LSTM Networks 2015）。模型试图预测一个句子“他们去了...... 点了牛排”只有前面的上下文（“They went to”）是不可能的，也利用来自未来的信息和来自过去的信息的想法被实现为双向递归神经网络（Schuster和Paliwal，1997）。LSTM网络（图2）通过采用单元状态来解决长期依赖性问题。这个细胞状态是一个流经时间步的向量。它使网络能够在很长一段时间内传递信息。在每个时间步上，网络可以从单元状态擦除一些或所有信息，并且可以写入新信息。给定时间步长t的单元状态输出由等式给出。（1）、VoxCeleb1测试数据集包含8，251个用于测试的话语。这Ct¼ftωCt-1itωC0ð1Þ这意味着使用99.25%的可用数据来训练模型。正如在上述案例中所看到的，分配较大部分的数据集用于训练模型，并分配有限部分的样本用于测试，这是非常常见的这阻止了探索，开发的解决方案如何在较少训练或更多测试数据的实际条件下执行作者研究了考虑尽可能少的训练信息的方法，并使用训练与测试比率的各个部分进行评估简化方法，考虑用最少的训练所需数据所说的一切，是所提出的解决方案考虑的因素。2. BiLSTM：双向长短期记忆神经网络递归神经网络（RNN）被证明在解决本质上是顺序的问题方面非常有效（LeCun等人，2015年，Kobojek和Saeed 2016年）。然而，在其香草形式（图1），他们遭受消失/爆炸梯度。LSTM 网络于 1999 年首次引入（ Hochreiter 和 Schmidhuber1997）。LSTM及其变体，特别是门控递归单元（GRU）（Cho等人，2014）的应用非常广泛，包括语音识别（Graves和Schmidhuber2005）、翻译（Sutskever等人，2014）、文档分类（Zhou等人，2014）。 2016年）。尽管LSTM在上下文很重要的情况下可以很好地处理顺序数据，但在默认设置下，它们只考虑过去的观察结果。当考虑到未来的观察时，可能会更好地理解一些序列。例如，在一种语言其中：Ct-时间步t的单元状态，ft-时间步t的遗忘门，It - 时间步长t的输入门，C0 - 新的小区状态候选，时间步t遗忘门控制在给定的时间步长应该“遗忘”（即擦除）什么信息。该向量的值基于网络权重（表示为Wf和bf）计算，其隐藏状态（ht）和给定时间步长（xt）的输入，如（2），其中[x，y]是一个级联，并且y和X1.expftrWfω½ht-1;xt]bf2图二. LSTM网络（Olah，Understanding LSTM Networks 2015）。不766M. K. Nammous等人/Journal of King Saud University不不e-e¼ ¼ þ¼写入新信息涉及计算可更新的新单元状态C0的向量和控制可更新的单元状态和当前单元状态将如何合并的向量i t。这两向量，由等式中的it表示（3）C0 由方程式（4）回顾，适用于所有文件。虽然语料库中有关于相对信号质量的文档：差，一般，好;以及通话质量：差，一般，好，对于每个通话的每个30秒片段，作者使用完整的录音来获得更多xxt测试这种方法的现实条件。tanh_x_x-e-x还取决于隐藏状态和输入。itrWiω½ht-1;xt]bi3了c01/4tanhWCω½ht-1;xt]bC4有了所有这些信息，我们可以把细胞状态看作是一种可区分的记忆。这个存储器，连同隐藏状态和输入一起用于计算LSTM网络的当前输出隐藏状态。（5）和（6）。otrWoω½ht-1;xt]bo5htotωtanhCt6LSTM还有其他变体，最流行的是门控递归单元使用原始的LSTM我们在双向变体中使用LSTM BRNN（图 3）首次引入（Schuster和Paliwal，1997）。BiLSTM（Graves andSchmidhuber 2005）遵循相同的模式，但使用LSTM单元而不是vanilla RNN。BiLSTM利用来自序列的过去和未来观测的信息。对于长度为T的序列中的任何给定时间步长t c，BiLSTM计算从t1到t 1/4t c-1的前向传递和从t开始的前向传递T到ttc1.网络的最终输出为ttc通常计算为两个输出的平均值（例如几何平均值），然后是softmax（用于分类问题）。序列分类问题的推理过程可以如下。BiLSTM将从开始到结束和从结束到开始遍历序列，对于每个时间步，输出将是从网络的前向和后向部分的两个相应输出计算的几何平均值。然后可以对所有时间步的输出进行平均（或馈送到模型的下一3. 数据集和方法已经使用了 Fisher 英语训练语音及其转录本，对应于LDC2004S13（Cieri等人， 2004a）、LDC2004T19（Cieri等人，2004b ）、LDC2005S13（Cieri等人， 2005a）、LDC2005T19（Cieri等人，2005年b）。该语料库表示超过12，000个说话者的会话电话语音的集合，并且包括频率为8kHz的11，699个音频文件，其中每个音频文件包含长达12分钟的完整会话，而在两个说话者的语音信号之间没有重叠单独的音频文件以NIST SPHERE格式呈现，包含双声道μ律样本数据;由于语料库没有机制来确保参与不同通话的说话者确实是相同的，因此作者将考虑的录音限制为具有一个会话的说话者。另一个限制是有足够的语音数据用于训练和验证（1分钟），以及用于测试（至少30秒）。这些限制将扬声器的数量减少到4，223个，录音时间约为706小时。为了选择正确的对话片段，作者使用了每次通话所附的记录。最终考虑的记录超过343小时;详情见表1。录音的抄本帮助确定了有声部分的开始和结束。对于每个扬声器，我们将语音信号分成1和10 s的非重叠段的相等片段MFCC方法已用于提取具有40个系数的信号的特征（Sarria-Paja和Falk，2017）。对于分类任务，作者使用了双向LSTM神经网络，这是对经典LSTM神经网络的一个轻微但重要的改进虽然值得注意的是，BiLSTM网络在考虑两个方向上的数据序列时表现良好，但当不需要考虑序列时，它也会给出良好的结果使用它作为单个特征向量的分类器已经给出了非常好的结果，将NN所需的架构简化为以下六层：序列输入层，包含长度取决于所用参数的输入特征向量。在我们的例子中，它包含40个神经元，代表MFCC系数矩阵的平均向量BiLSTM层包含80个隐藏单元。丢弃层，丢弃可能性为25%全连接层有4,223个神经元。Softmax层是一个分类器输出组件，它将softmax函数应用于输入（它产生0和1之间的分类概率输出），并返回权重。● 使用交叉熵函数的分类输出层k个互斥类。在所有考虑的实验中，训练过程的参数几乎是固定的，表2列出了训练过程中最重要的参数。一个样本训练过程如图所示。四、当涉及到语音识别任务的评估时，许多研究（Tkachenko等人，2017年，Liu等人，n.d.，Yadav和Rai2018，Ren等人，2016 年，Dovenaitis和Rudzionis201 8）使用正确分类样本的简单比例作为成功的衡量标准。作者使用了两个指标：图三. BRNN网络（Olah，Neural Networks，Types，and FunctionalProgramming2015）。表1关于所考虑的记录的摘要。记录类型时间4，223位演讲者的原始录音705小时48分钟23秒，累计考虑录音343小时29分钟25秒较短的记录1分钟，30秒较长的录音9分51秒平均记录4 min，53 s1 s段数1，236，564段10 s段数121，757段●●●●●M. K. Nammous等人/Journal of King Saud University767Kð %X×%X=表2训练过程的参数。参数值备注权值优化方法Adam Optimizer自适应矩估计优化器初始学习率0. 01学习率下降系数0.1学习率下降周期100 epochs平方梯度移动平均0.9第一次尝试最多300次，第二次尝试最多10，000次。确认患者5验证频率10个EpochShuffle每个epoch训练将在完成指定数量的epoch后停止，或者当验证集上的损失等于或大于先前“验证耐心”时间的最小损失时4. 单个段的平均准确率为：100K正确预测的平均精度1 样本总数其中K是类的数量（例如，类别、发言人）。2.以束或一个单元表示的段的平均准确率：适用于大规模的实际应用。该度量将说话者的测试段（或称为发音的段链）视为一束。为此，它对所有这些段的softmax层中的神经元的权重求和，并选择具有最高权重的潜在扬声器。对于最终的结果，精度，召回率和F1分数也将提供。4.1. 预先研究各种数量的训练数据在第一次尝试中，已经用训练数据的各个部分测试了两个段的长度（1和10 s）。这包括省略验证数据集，并使用其余的可用数据进行测试。表3给出了各种训练部分和两个考虑的分段长度的两个准确率准确率图如图5，其中X轴表示用于训练的数据（以秒为单位），以及它们与总体数据相比的百分比;同时Y轴表示准确率的百分比。如表3和图5所示，在“单独段”的情况下作为一个序列，考虑较长的段提供了更好的结果的情况下，独立评估的片段。在将测试段视为“一束（一个单元）”的情况下，两个段的长度（1和10 s）的结果非常相似。可以看出，使用非常少量的数据进行训练（例如仅使用总数据的3%进行训练）。在上述情况下，10 s段的有限数量的样本提供了更差的结果。两种评价指标之间存在明显差异，其中通过将每个扬声器的所有测试段视为一个束（一个单元）来实现显著改进。对于一个完整的片段集有一个发言者的假设大大改善了结果。在这种情况下，即使是30 s的训练数据也足以获得良好的结果，并且增加训练数据集的部分并没有得到更多的改善。这种测量精度的方法提供了稳定的结果，两个考虑段的长度。图四、训练用于说话人识别的BiLSTM NN，对于10 s的片段具有40个MFCC系数768M. K. Nammous等人/Journal of King Saud University表3训练数据集的各个部分的准确率，以及不同段线段1s10s训练集（in个别分部捆绑（作为一个单元）个别分部捆绑（作为一个单元）秒，百分比）10s 3%23.31%百分之九十三点九六31.36%69.64%20s 7%29.34%百分之九十七点八52.39%百分之九十三点四六30s10%31.18%百分之九十八点三63.52%百分之九十八点一五40岁以上14%36.77%九十九点二二69.32%百分之九十九点一九50岁以上17%37.35%百分之九十九点四六73.60%百分之九十九点五五60年代20%39.04%百分之九十九点六四76.27%百分之九十九点五七表4使用BiLSTM的不同参数的准确率。线段测试集的准确率为个别分部38.01% 76.88%捆绑（作为一个单位）99.43% 99.53%图五.训练数据集各个部分的准确率。4.2. 最后确定参数正如第一次尝试中所讨论的那样，30 s的训练数据足以提供良好的结果。然而，为了确保NN参数的稳定性和正确组合，作者决定也涉及验证数据集对于每个说话者，我们使用30 s用于训练，30 s用于验证，其余的语音信号用于测试。训练/验证/测试数据集的百分比划分见图。六、表4包含不同参数获得的结果，并作为本研究探索的更大范围实验和参数的一部分。BiLSTM网络表现稳定，并成功地给出了良好的结果。用更多的信息扩展输入向量的特征增加了平均识别率，尽管更长的片段提供给更少数量的样本。建议的度量依赖于一组片段属于一个说话者的假设，这可以显著提高所提出的解决方案的效率。4.3. 不同长度测试话语的影响将每个扬声器的完整测试段视为一个束（一个单元）可以被认为是一个严格的假设;这意味着我们已经知道所有这些段都有一个主人因此，作者根据案例提供了额外的灵活使用方式。这依赖于将一些片段分组为一个话语（属于同一说话者）。属于同一话语的片段的数量越多，要测试的话语就越少，但是我们可以期望的结果就越准确。每个话语一个片段的情况反映了如表4中所呈现的各个片段的情况。为了确保结果的稳定性，本节将提供更多的指标，特别是精确度，召回率和F1分数。精确度，以确定频率与我们的模型是正确的，当预测正确的发言者。回想一下，在所有可能的阳性标签中，模型正确识别了多少？F1分数作为召回率和准确率的加权平均值作者考虑了上述度量的图图7给出了每个话语从一个到三十个段的值范围的这些度量，其中每个段具有1 s的长度。对于一些指标可能返回未定义值的实验，作者假设有一个已被正确识别的话语（人工预测）。这些人为增加的预测的数量是一件小事，因为它经得起考验。图六、训练、验证和测试数据集的百分比见图7。将不同长度的说话人语段作为一个话语处理，获得准确率、召回率和F1分数M. K. Nammous等人/Journal of King Saud University769表5将不同长度的说话人语段作为一个话语处理，得到了平均准确率、精确率、召回率和F1分数片段（秒）作为一个语句测试语句人工预测平均准确率精度召回F1分数1 983 18460.001%百分之三十八点九五0.360.390.352 490 53290.002%54.26%0.510.540.493 326 324120.004%63.93%0.610.640.594 244 201140.006%70.52%0.680.710.665 194，916120.006%75.30%0.740.750.7110 96，419200.021%87.28%0.860.870.8415 63，536150.024%百分之九十二点一四0.910.920.9020 47，153190.040%百分之九十四点三八0.940.940.9325 37，286190.051%百分之九十五点八八0.960.960.95三万零七百一十130.042%96.70%0.960.970.96每个实验22个话语（高达总话语的0.05%）。曲线示出了针对每个话语的更多分段的稳定和改进的度量。我们考虑的话语越长，我们得到的结果就越好。在不同的曲线中没有看到特殊的流动，这些值非常有希望。这可能是在语料库中具有良好分布的结果。表5给出了所提出的说话人识别算法对于各种选定长度的话语的度量。5. 结论与讨论说话人识别是许多应用中所必需的任务。研究通常从小数据集上的试点开始，很少检查大规模数据集上提出的解决方案的有效性。这种可扩展性是作者在这个领域的漫长工作旅程中想要证明的。在以前的研究中，说话人识别任务已经在阿拉伯语作为媒介语言的小数据集上进行了测试。在最近的研究中，作者使用LSTM神经网络进行文本无关的说话人识别任务。该数据集是用三种语言手动准备的：阿拉伯语，英语和波兰语，用于24名发言者，录音时间超过这些结果有望在更大范围内进行测试，需要进行改进和进一步的研究。这项工作的新颖性在于它能够使用小部分训练数据实现非常好的结果，即使是在大规模数据集上。此外，还提出了简化这一过程的更多步骤一种常用的方法是简化为分类问题准备语音信号的过程，并最大限度地利用深度学习。其中一部分是跳过预处理阶段，将语音信号直接转发到特征提取阶段。使用了文字记录每个音频文件都被分割成不同长度的相等而不重叠的片段MFCC已被用于为每个片段获取所收集的MFCC向量的平均值BiLSTM网络在所有情况下都给出了良好的结果。虽然BiLSTM网络在考虑两个方向上的数据序列时表现良好，但当不需要考虑序列时，它们也会给出良好的结果。使用它作为一个单独的特征向量的分类器给出了非常好的结果，简化了所需的NN架构。具有较长的段增加了这些段中包含的信息在这种情况下，测试单个片段的准确率给出了更高的结果;同时，将属于每个扬声器的所有我们还应该归因于另一个结论，即我们测试的片段越多，我们的算法呈现的结果就值得一提的是，跳过验证数据集并将其与训练集结合以获得完整的训练分钟，在许多情况下可以获得100%的准确率。很难将所获得的结果与其他研究进行比较，因为每个研究都使用不同的方法，并将模型应用于各种场景;这也适用于准确率和其他评估指标的公式化。然而，通过快速概述来了解每种方法与建议的方法相比的具体特点仍然很重要。表6给出了说话人识别的其他结果与其他一些作品和出版物的比较（据作者所知）。值得一提的是，无论何时使用，验证数据集都是用训练数据集计算的。最后的结论是，作为使用机器学习方法的常见角色，拥有足够的训练数据不仅重要，而且拥有足够的测试数据也很重要。通过这一点，我们可以证明我们的模型的可扩展性和鲁棒性的长期发展，更复杂和大规模的数据集。作者表6我们的结果和一些其他作品之间的比较。方法/参数数据集Nr.发言者录音持续时间（小时）培训与测试比率Ident. 精度我们的方法Fischer的一部分4,223中清洁电话34320/80百分之九十九点五对话（Nang An，et al. 2019年度）VoxCeleb11,251复杂条件35295/5百分之九十点八（Yadav and Rai 2018）96/4百分之八十九点五（Nagrani等人，2017）94.5/5.5百分之九十二点一（Dovenaitis等人，利帕370清洁10070/30百分之九十三点三2018年）（Liu，et al. （2017年）链条，声音共鸣36,197清洁n/a63/37百分之九十九点七70/30百分之九十六点三（Lukic等人，（2016年）TIMIT630干净的电话交谈52.580/20百分之九十七（Schmidt，et al.2014年度）Google YouTube技术讲座998中期清洁n/a94.8/5.2百分之九十五信道98.6/1.4770M. K. Nammous等人/Journal of King Saud University如背景噪声、年龄跨度上的鲁棒性以及亲属之间的声音相似性。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。确认这项工作得到了赠款S/WI/3/2018的支持，并由波兰科学和高等教育部提供研究资源引用周，K.，B. Van Merriënboer，D. Bahdanau和Y Bengio。2014.“关于神经机器翻译的特性：编码器-解码器方法。arXiv预印本arXiv：1409.1259。Cieri，Christopher，D.Graff，O.Kimball，D.米勒和K·沃克2005年费雪英语培训第二部分，演讲LDC2005S13。Philadelphia：Linguistic Data Consortium. Cieri，Christopher，D.Graff，O.Kimball，D.米勒和K·沃克2005年费雪英语培训第二部分，成绩单LDC2005T19，网上下载。费城：语言数据联盟。Cieri，Christopher，D.Graff，O.Kimball，D.米勒和K·沃克2004年费雪英语培训演讲第一部分演讲LDC2004S13.DVD.语言数据联盟。Cieri，Christopher，D.Graff，O.Kimball，D.Miller和K.沃克2004年费雪英语培训演讲第一部分录音。网页下载。费城：语言数据联盟。Dovenaitis，Laurynas，RudzZeroionis，Vytautas，2018. 使用BLSTM神经网络提高说话人识别精度。印度J. Sci.工程师：31-37 Fredouille，Corinne，and DelphineCharlet. 2014. "i-vector分析框架用于电视节目中的说话人识别。”Interspeech. Interspeech. 71-75. Garofolo，John S.放大图片作者：William M.作者：Jonathan G.Fiscus，David S.帕利特，和南希·L.达尔格伦一九九三年谷歌公司 2007.“ 在 Youtube 上搜索谷歌技术讲座。 ”1508 2019 年 6 月 9 日访问。https://www.youtube.com/user/GoogleTechTalks网站。Graves，Alex，Schmidhuber，Jürgen，2005.使用双向LSTM和其他神经网络架构的逐帧音素分类。神经网络，602-610。Gruber，Thomas Robert，Adam John Cheyer，Dag Kittlaus，Didier Rene Guzzoni，Christopher Dean Brigham，Richard Donald Giuli，Marcello Bastea-Forte，andHarry Joseph Saddler. 2016.智能自动化助手美国专利US9318108B2. 1904年Helmke，Hartmut，Jürgen Rataj，Thorsten Mühlhausen，Oliver Ohneiser，Heiko Ehr，Matthias Kleinert，Youssef Oualil，and Marc Schulder.2015.“ATM应用中基于助手的语音识别。”第十一届美国/欧洲空中交通管理研究与发展研讨会（ATM 2015）。里斯本，葡萄牙。Hochreiter，Sepp，Schmidhuber，Jürgen，1997年。长短时记忆。神经计算：1735-1780年Huang，Yueh-Min，Shadiev，Rujin，Hwang，Wu-Yuin，2016.研究语音转文本识别应用程序对学习表现和认知负荷的有效性。Comput. Educ.101，15-28.Karafiát ， Martin ， MuraliKarthickBaskar ， KarelVavy' ， FrantisekGrézl ，LukásBurget，andJanCernocky'. 2018年低资源和高资源语言。2018 IEEE声学、语音和信号处理国际会议（ICASSP），5789-5793。Kobojek，Paweyet，Saeed，Khalid，2016.基于递归神经网络的用户验证。 J. 电信。告知。Technol. 3，80-90。Y.莱昆，本焦，Y.，Hinton，G.，2015.深度学习自然521（7553），436。Liu，Jung-Chun，Fang-Yie Leu，Guan-Liang Lin，and Heru Susanto.n.d.基于文本的独立说话人识别系统的访问控制。并发与计算：实践与经验。Liu ， Rui ， Reza Rawassizadeh ， and David Kotz. 2017.“Toward Accurate andEfficient Features Selection for Speaker Recognition on Wearables.”WearSys@WearSys。41-46.Lopatovska，Irene，Katrina Rink，Ian Knight，Kieran Raines，Kevin Cosenza，Harriet Williams ， Perachya Sorsche ， David Hirsch ， Qi Li ， and AdriannaMartinez. 2019年。 JOLIS51 （ 4 ）。 2019 年 1 月 24 日访问。 https://www.amazon.com/b? 节点=17934671011。Lukic，Y.，C.福格特岛杜尔和T.，斯塔德曼2016.“使用卷积神经网络进行说话人识别和聚类。”2016 IEEE第26届信号处理机器学习国际研讨会（MLSP）。Vietri sul Mare，意大利Nagrani，Arsha，Chung Son Joon，and Andrew Zisserman. 2017. VoxCeleb：一个大规模说话人识别数据集. Interspeech.Nang An，Nguyen，Nguyen Quang Thanh，and Yanbing Liu. 2019.“具有自我注意力的深度CNN用于说话者识别。IEEE Access 7，85327-85337。天啊克里斯托弗2015年。神经网络，类型和函数式编程。9月3日。2019年1月24日访问。http://colah.github.io/posts/2015-09-NN-Types-FP/.天啊克里斯托弗 2015. 了解 LSTM 网络。 8 月 27 日。 2019 年 1 月 24 日访问。http://colah.github.io/posts/2015-08-Understanding-LSTMs网站。Ren，Jimmy S. J.，Yongtao Hu，Yu-Wing Tai，Chuan Wang，Li Xu，Wenxiu Sun，andQiong Yan. 2016.“Look ， Listen and Learn-A Multimodal LSTM for SpeakerIdentification.”AAAI，3581-3587。Sarria-Paja，Milton，and Tiago H.福克2017.“梅尔频率倒谱系数的变体，用于在不匹配条件下改进耳语音说话者验证。”第25届欧洲信号处理会议（EUSIPCO）。希腊科斯。Schalkwyk，J.，Beeferman，D.，Beaufays，F.，Byrne，B.， Chelba角，科恩，M.，Kamvar，M.，Strope，B.，2010.“你的话就是我的命令”：谷歌语音搜索：案例研究。高级演讲稿，6 1 -90Schmidt，Ludwig，Sharifi，Matthew，Lopez-Moreno，Pakaracio，2014.大规模说话人识别。ICASSP.，1650-1654年Schuster，Mike，Paliwal，Kuldip K.，一九九七年。双向递归神经网络IEEE传输信号处理，2673-2681Sutskever，Ilya，Vinyals，Oriol，Quoc，V. Le.，2014.序列到序列学习与神经网络。Adv. 神经信息过程系统：3104-3112Tkachenko，M.，Yamshinin，A.，柳比莫夫，N.，Kotov，M.，Nastasenko，M.，2017. 使用深度递归神经网络的说话人识别语音增强。国际会议发言和计算，690-699von Rüden，Laura，Sebastian Mayer，Jochen Garcke，Christian Bauckhage，andJannis Schücker. 2019.“Informed Machine Learning - Towards a Taxonomy ofExplicit Integration of Knowledge into Machine Learning.”doi ： CoRR abs/1903.12394。Xie，Wiedi，Arsha Nagrani，Joon Son Chung，and Andrew Zisserman. 2019.“语音级聚合用于野外说话人识别。”ICASSP 2019-2019 IEEE声学、语音和信号处理国际会议（ICASSP）。IEEE，5791-5795。亚达夫，萨萨克，阿图尔 · 雷 2018. ‘‘Learning Discriminative Features for SpeakerIdentification Interspeech 2018.海得拉巴2237-2241Zhou，Peng，Qi，Zhenyu，Zheng，Suncong，Jiaming，Xu.，宝，红云，波，徐，2016. 通过集成双向LSTM和二维最大池来改进文本分类。科林，三四八五至三四九五

下载后可阅读完整内容，剩余1页未读，立即下载