深度神经网络在语音理解中的应用

100 浏览量更新于2023-12-03 收藏 3.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

深度神经网络在语音埃德温·西蒙内特引用此版本：埃德温·西蒙内特。深度神经网络应用于语音理解信息学和语言[cs.CL]。勒芒大学，2019年。法语。NNT：2019LEMA1006。电话：02077011HAL ID：电话：02077011https://theses.hal.science/tel-02077011提交日期：2019年HAL是一个多学科的开放存取档案馆，用于存放和传播科学研究论文，无论它们是否被公开。论文可以来自法国或国外的教学和研究机构，也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire博士学位论文勒芒大学COMUEU NIVERSITEB RETAGNE L'Oire第601号博士学校数学与信息与通信科学与技术通过"埃德温·西蒙内特"深度神经网络在语音理解中的应用论文于2019年2月12日在L'E MANS UNIVERSITÉ，LIUM上发表并答辩研究单位：勒芒大学计算机科学实验室答辩前的报告员：Sophie ROSSET女士，南巴黎大学CNRS LIMSI研究主任M. Frédéric BÉCHET，艾克斯-马赛大学CNRS LIS教授评审团组成：检查员：M.Marco DINARELLI，新索邦大学CNRS LATTICE研究员M. Bassam JABAIAN，阿维尼翁大学CERI/LIA高级讲师Dir. 论文：M.Yannick ESTVE，勒芒大学LIUM教授共同导演。论文：Nathalie CAMELIN女士，勒芒大学LIUM讲师M. Paul Deléglise，勒芒大学LIUM名誉教授献给我的母亲，她献给我的爱人，她和我一起经历了这场冒险。ii.谢谢你我想感谢我的论文评审团成员花时间我要感谢我的论文导师： Yannick Estève 、 Nathalie Camelin 和 PaulDeléglise，感谢他们在我的论文过程中给予的支持、建议和宝贵的指导。我还要感谢Renato De Mori和Sahar Ghannay，最后，我要感谢勒芒大学计算机科学实验室的所有成员，感谢他们的积极和他们的欢乐。最后，我要感谢我的家人、伴侣、姻亲和朋友，感谢他们在这篇论文的过程中，无论是在好的时候还是在困难的时候，给我的所有支持和建议我们感谢卢瓦尔河地区的资助。我们感谢材料表外展1我工作环境和最新技术水平51对这个词的理解71.1什么是言语理解？... . . . . . . . . . . . ...81.1.1定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...81.1.2与言语理解相关的各种任务。. . ...91.1.3口头对话中的理解。 . . . ...131.1.4所选语义表示 . . . . . . . . . . . . . . ...151.1.5评估措施 . . . . . . . . . . . . . . . . . . . . . ...161.2语料库。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...202.1语料库和分类。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...211.2.2ATIS。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ...211.2.3媒体。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...221.2.4门户媒体。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...231.2.5解码器。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...241.2.6总结 . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...241.3结论。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ...252对单词的识别272.1说明。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ...282.1.1声学模型 . . . . . . . . . . . . . . . . . . . . . . . ...292.1.2语言模型 . . . . . . . . . . . . . . . . . . . . . . . ...2.2自动转录对言语理解的影响。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...30322.3评估 . . . . ...332.3.1原则。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .332.3.2采取的措施。 . . . . . . . . . . . . . . . . . . . . . . . ...34iv.材料表2.3.3措施比较352.4用于误差模拟的相似性度量2.4.1原则352.4.2语言和声学相似性的测量362.4.3相似性的线性插值372.5结论383标签和分类的主要模式3.1理论描述403.1.1语法403.1.2有限状态自动机423.1.3支持向量机433.1.4条件随机字段453.2语音理解中的实现473.2.1先验知识和词的483.2.2实验结果493.3结论494神经元模型514.1理论描述524.1.1神经元和神经524.1.2学习544.1.3建筑564.2语音理解中的实现644.2.1条目的表示4.2.2神经模型在言语理解中的应用654.2.3实验结果674.3结论69二、捐款715将注意力的机制5.1动机755.2建立最先进的5.2.1ATIS 76上的最新技术水平biRNN5.2.2媒体改编785.2.3在MEDIA 80上实现最5.3注意力机制的实施iv.材料表5.3.1注意力机制的实施5.3.2初步分析845.3.3单词描述符：最高级别的信息集成5.3.4优化905.4结论916处理自动转录错误936.1自动成绩单的影响946.1.1LIUM的语音识别系统专用于MEDIA946.1.2结果966.2识别错误的管理和检测6.2.1承认的信心措施1026.2.2错误检测理解系统6.2.3多系统理解的1076.3识别错误的模拟6.3.1原则1096.3.2模拟方法1106.3.3噪声和/或增强1126.3.4新的多系统组合理解1176.4结论1187分层元标签和多通道系统1217.1标签的层次结构：元标签1227.1.1动机1227.1.2元标签集的定义1237.1.3元标签检测1257.2元标签的集成1277.2.1将元标签集成到系统中的潜力最终理解1277.2.2元标签的表示1287.2.3结合假设和参考文献的学习1307.2.4集成多组元标签1327.2.5战略的重复1347.3结论1368结论和展望1398.1前景141B个人书目145iv.材料表参考书目147附件E163表的列表1.1来自ME语料库的语义概念中的标签示例DIA（第1.2.3节）。........................................................................................171.2使用hypo-的概念/参考值标签示例由自动标记系统提供的论文1.3表1.2中的RBIO/HBIO校准。...........................................................................191.4表1.2中的R CV / H CV在概念中的对齐文字。......................................... 201.5表1.2中的RCV/HCV对齐仅在概念中。.............................................................201.6表1.2中的RCV/HCV在概念/值对中的对齐。...................................................201.7所提供语料库的比较摘要。............................................................................ 242.1根据语料库上的NCE比较Pap和CM的语音识别错误预测能力介质测试。........................................................................................................353.1根据MEDIA TEST语料库中描述符的使用，比较CRF的性能[HahN等人。2011年]。..................................................................................483.2RSM、LVM和CRF在MEDIA TEST语料库上的性能比较[Hahn et al. 2011年]。.................................................................................................................. 494.1与ATIS （测试）的比较进入CRF和RNN[Snil等人。2013年，Snil等人。2015年]。.......................................................... 684.2CRF和biRNN在ATIS和MEDIA（TEST）上的比较[Vukotic et al. 2015年]。.................................................................................................................. 685.1[ Me snil et al.]中介绍的biRNN性能比较2013年]和我们的biRNN实现艺术（ATIS测试手册）。.......................................................................... 775.2RNN向前/向后（手动介质测试）。.............................................................78八图片列表5.3具有多种测试学习模式的biRNN（手动媒体测试）。............................... 795.4长期依赖性的影响（手动介质测试）。........................................................805.5带/不带弹出窗口的CRF结果（手动媒体）。..............................................815.6我们的CRF结果与Stephan Hahn（手动媒体）的结果进行了比较。...... 825.7添加了注意机制（手动介质测试）。.......................................................... 835.8在biRNN-EDA（手动媒体）上应用弹出窗口。......................................... 865.9通过单词和单词或语义类别来表示用户语句。............................................. 875.10 在biRNN上使用语义输入类别获得的结果（手动媒体）。........................875.11 描述符对单个biRNN-EDA的贡献（手动媒体）。..................................... 885.12 使用biRNN-EDA（手动媒体）优化描述符。885.13 同时为biRNN-EDA贡献描述符（手动媒体）。......................................... 895.14 超参数优化对biRNN的影响具有所有单词描述符的EDA（手动媒体）。............................................... 916.1WER由自动媒体识别系统生成的转录。...................................................... 956.2使用描述符（MEDIA）的biRNN-EDA向自动转录转换的影响。............966.3使用单词描述符对biRNN-EDA的影响，取决于是使用手动还是自动转录（MEDIA）。.............................................................................................976.4biRNN-EDA和CRF对Tomatic转录的结果，显示了不同单词描述符配置（自动媒体）的影响。.................................................................................... 986.5通过自动语音识别对媒体语料库中的20个最错误的单词进行排名。.......996.6媒体语料库中最受自动语音识别错误影响的十个概念的排名。..............1006.7媒体语料库中机器理解最容易出错的十个概念的排名。..........................1006.8媒体语料库中最常见的语音理解和识别错误的共同概念（表6.7和表6.6的交叉引用）以及最常见的单词。粗体单词是语音识别中最容易出错的20个单词之一（参见图片6.5）。 . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... 101图片列表九6.9整合信任措施对biRNN-EDA（自动媒体）的影响。................................1026.10 信任措施对CRF（自动媒体测试）的影响。..............................................1036.11 信任措施对错误检测biRNN（自动媒体）的影响。................................. 1046.12 离散化对有或无语音检测的biRNN-EDA的语音识别错误（自动媒体）。......................................................................................1056.13 下表显示了在媒体理解任务中检测语音识别错误的示例，仅限。..............................................................................................................1066.14 具有错误检测（Err.）的biRNN-EDA的不同评估模式，描述符（自动媒体开发）。Cf. 选项卡。6.9和6.11。..................................................................................................... 1066.15 具有错误检测（Err.）的biRNN-EDA的不同评估模式，描述符（自动介质测试）。Cf. 选项卡。6.9和6.11。..................................................................................................... 1076.16 我们的四个标准NN/CRF理解系统的性能和语音识别错误检测（自动媒体）。Cf. 选项卡。6.9、6.10和6.11。给出了概念的结果（错误率（%）、准确度（P）和召回率（R））。（C）和概念/价值对（CV）。....................................................................1086.17 对标准理解系统和语音识别错误检测（自动媒体）进行投票和共识。给出了概念（C）和概念/值（CV）对的结果（错误率（%）、准确度（P）和召回率（R））。1096.18 比较不同的APP语料库与自动DEV和TEST语料库在媒体上显示自动转录或类似的。......................................................................................1136.19 比较不同APP语料库的自动DEV和TEST语料库在媒体上：手动数据的组合和噪声（cf. 选项卡。6.18）。....................................................................1146.20 比较不同APP语料库的自动DEV和TEST语料库在媒体上：不同类型的声音效果（cf.选项卡。6.18、6.19）。..............................................................................114x图片列表6.21 比较不同APP语料库的自动DEV和TEST语料库在媒体上：自动，手动和噪声数据的组合。..........................................................................................1156.22 在没有APP语料库或DEV语料库的媒体。.............................................................................................................1166.23 对改进的系统和错误检测（自动媒体）进行投票并达成共识。Cf. 选项卡。6.16和6.21。给出了概念（C）的结果（错误率和概念/价值（CV）对。...............................................................................1176.24 CRF和biRNN-EDA（自动培养基试验）之间的总结比较。这些系统使用语义和语法描述符以及信任度量描述符。认可（D.）在某些情况下。..........................................................................1187.1元标签的示例。..............................................................................................1257.2标准系统和专业系统之间转换的LER比较，涉及所有标签集元标签（自动媒体）。..................................................................................1277.3在biRNN中添加无错误（Oracle）先验知识元标签的潜在结果EDA（自动媒体）。..................................................................................... 1287.4以一个热的形式，一次一个（自动媒体），展示具有元标签的丰富系统。1307.5一个热门元标签表示与评分的比较在元标签#4（自动媒体）上。.......................................................................1317.6使用假设与参考的比较元标签4（自动媒体）。............................................................................... 1317.7同时使用元标签描述符的影响（自动媒体）。.........................................1337.8富系统之间的投票（自动媒体）..................................................................1347.9以一次热、一次一个、第二次迭代（自动媒体）的形式展示具有元标签的丰富系统。1367.10 富系统之间的投票，第二次迭代（自动媒体）。.......................................1368.1介绍本论文贡献的主要结果（媒体语料库）。..........................................141图表1.1媒体中的概念示例[Hahn et al. [2008年]。这里有一个tempor-date和objetBB是属性，括号中是值。. ...111.2一个示例框架语义学用于 LE域ATIS[Wang等人。2006年]。121.3口头对话系统的示意图。................................................................................141.4媒体语料库的比例。........................................................................................222.1识别系统的体系结构 [GhAnnay，2017]。.................................................292.2具有5个状态（包括3个发射机）的HMI示例[ Bou gares，2012 ]。........302.3用于声学建模的HSM/神经架构[Samson Juan，2015]。......................... 312.4在ME语料库上比较cm与pap的预测能力DIA测试。........................................................................................................ 363.1具有atta语义标签的语义分析树[来自Mori等人。[2008年]。.........................................................................413.2表示语法的WSF示例[Raymond，2005]。................................................... 433.3SSM换能器示例[Raymond，2005]。...........................................................433.4将输入数据投影到一个空间中，在该空间中输入数据是线性可分的。..........443.5最佳超平面图和最大边距453.6具有设计的有限区分"肋骨"和"罗布"[Bottou，1991]4.1生物神经元与形式神经元的比较[GhAnnay，2017]。................................534.2NN的示意图。................................................................................................. 544.3前向传播神经网络（a）、Elman神经网络（b）和Jordan神经网络（c）的示意图[Snil等人，2001年]。2015年]。....................................................57xii图表4.4之前的RNN示意图。.......................................................................................574.5这是一个很大的问题，也是一个很大的问题。LSTM：cetcsontla我的意思是，我的意思是。GRU：hethsont激活和候选激活 [ C h o e t al. （2014年b）。.......................................... 594.6biRNN的示意图。........................................................................................... 604.7自动编码器示意图[ Gh Annay，2017 ]。.....................................................614.8[Cho等人的编码器-解码器前RNN的插图。2014a]。63.4.9具有等待机制的biRNN编码器-解码器的插图[BahDanau等人] 2014年]。...........................................................................644.10 词嵌入的二维可视化[Turian et al. 2010年]。左边：带有数字信息的单词。右图：包含就业信息的单词 664.11[Dinarelli和Tellier，2016，Dinarelli等人，2016]提出的新架构[2017]（a：Elman，b：Jordan，c：新方法）675.1用于媒体的biRNN-EDA架构。..................................................................... 825.2biRNN-EDA在MEDIA句子上的应用示例注意句子中的单词（横坐标）。....................................................................845.3图5.2的放大图。.............................................................................................. 856.1根据阈值c和n用错误单词替换正确单词的概要图7.1语义标签的层次分类概念1247.2元标签检测方法的比较。..............................................................................1267.3从Oracle系统集成元标签7.4在先验知识中集成元标签，一次一个。1297.5为元标签#1（空或概念）获得的分数示例在入口处的单词的横坐标。在纵坐标中，元标签从上到下排列：null和concept。颜色越红，得分越高.1317.6元标签组合模式的比较。..............................................................................1327.7通过以下方式丰富的理解系统的总结图多通道体系结构中的元标签。.......................................................................135引言在过去的几年里，自动语音理解在研究和工业领域都引起了极大的兴趣。语音理解的研究是人机通信发展的核心，例如在呼叫中心、电话服务、机器人伴侣或集成在智能手机中的个人助理中，语音理解可以通过导致不同的任务（语音摘要、主题识别、意图检测、语义概念或命名实体的提取等）来以不同的方式定义。然而，它可以被广义地定义为从口语句子的单词中提取和自动表示所包含的意义[ De Mori et al. [2008年]。在许多情况下，它可以通过监督机器学习的方法来解决语音理解可以被认为是语义分类的任务，或者是语义概念的分割和语义概念中的标记任务已知条件随机场（CRF）在该任务中获得最佳结果[Hahn等人，2001]。2011年]。2015年，开始测量神经元模型[ Mesnil et al. 2015年]。自20世纪50年代以来，神经模型一直在被考虑和完善。（罗森布拉特，1957）。在过去的十年里，神经模型已经在许多自然语言处理任务中占据了主导地位。算法的进步和强大的计算工具的可用性，如图形处理器，使其能够充分发挥其潜力。今天，它们在声学建模等许多领域都取得了巨大的成功[ Hintonet al. [Mikolovetal. 2012]，语言建模[Mikolov et al. 2011年]，机器翻译[Bahdanau et al. [Mesnil et al. 2014]和言语理解，[Mesnil et al. 2014 ]提供了有希望的结果。2015年]。本论文始于2015年，将自己置于言语理解的应用框架内，同时也是学习-语言的出现L2简介深度编织：旨在许多障碍使理解言语的任务变得复杂。实际上，语音理解模块依赖于自动上游语音识别模块，该自动上游语音识别模块本身然后，这些识别错误会影响理解过程。它们可能是由于语音质量或自发口头交流中固有的问题，如环境噪声或与不同类型的说话者相关的可变D’autres这可能与语法短语或言语差异有关，如犹豫、重复和由于自发的口头交流而再次重复一个句子也可能有几种可能的因此，歧义消除将通过上下文来完成这些误差和不精确性的影响需要进一步改进，以进一步限制文档的组织本文件分为两个主要部分，每个部分有四章。首先，最新我们从经典系统开始，以深度学习技术结束其次，论文介绍了本论文所做的工作，即注意机制在语音理解中的应用，自动转录错误的管理，最后通过提出语义标签的分层分类来优化理解系统的性能在第一章中，通过可能与言语理解相关的不同定义以及可能由此产生的不同任务来描述言语理解。第二步是对不同的理解语料库进行清点。在第二章中，我们定义了语音识别，它直接依赖于对语音的理解。我们还介绍了本论文中使用的语音识别的置信度测量在第三章中，我们讨论了一些传统的模型，这些模型在神经元方法兴起之前就被成功地用于首先，我们提供一个演示3这些模型的理论。在第二步中，我们研究了它们的具体应用，并介绍了在言语理解中获得的结果在第四章中，我们介绍了基于人工神经网络的模型，这是我们研究的主要焦点在这些领域中，还有Grégoire Mesnil研究的言语理解[ Mesnil et al. 2013年，Mesnil等人。，2015]，我们选择的工作作为初步研究的基础。本章的在第五章和第一章的贡献，我们研究的贡献，注意机制的这种用于神经模型的技术是2015年本论文的起点注意力机制本章的第一部分概述了我们方法的动机。第二部分讨论了基于一旦获得了这个系统，我们希望将我们还将讨论我们还讨论了单词描述符在我们的注意机制在本章中，我们将研究人工转录的输出，以便首先将我们置于一个纯粹的理论理解框架中：我们将与语音识别相关的错误与与我们的理解系统直接相关在第六章中，我们研究了与理解模块上游的自动识别模块中的事实上，有必要研究自动转录的输出，以便将自己置于目标应用的实际框架中因此，本章探讨了在在处理自动转录时不可避免的识别错误是语音理解中的主要问题。这就要求我们寻找策略来减少这种对我们绩效的不利影响我们建议

下载后可阅读完整内容，剩余1页未读，立即下载