没有合适的资源?快使用搜索试试~ 我知道了~
音频数据库的有效访问与自动语音摘要-法夫尔博士论文
用于有效访问音频伯努瓦·法弗尔引用此版本:伯努瓦·法弗尔。用于高效访问音频数据库的自动语音摘要。人机界面[cs.HC]。阿维尼翁大学,2007年。法语。NNT:电话:00444105HAL ID:电话:00444105https://theses.hal.science/tel-004441052010年1月5日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire艾克斯-马赛学院阿维尼翁大学和沃克吕兹地区大学论文提交给专业:计算机科学博士学校380 "科学和农学"计算机科学实验室用于有效访问音频由本尼迪克特·法夫尔2007年3月19日在由以下人员组成的评审团面前公开答辩:Catherine BERRUT教授,格勒诺布尔LIG,评审团主席M.盖伊·拉帕尔梅蒙特利尔RALI教授报告员M.弗朗索瓦·伊冯巴黎ENST高级讲师报告员M.帕特里克·加里纳里LIP6,巴黎检查员M.弗朗索瓦·卡普曼工程师,泰雷兹,科隆布检查员M.让-弗朗索瓦·博纳斯特雷阿维尼翁LIA高级讲师论文指导M.帕特里斯·贝洛特阿维尼翁LIA高级讲师论文联合主任阿维尼翁计算机实验室计算机科学实验室阿维尼翁大学23谢谢你首先,我要感谢我感谢凯瑟琳·贝鲁特同意担任我的评审团Guy Lapalme和FrançoisYvon也给了我很大的荣誉,他们同意成为我论文的报告员。他们我把这份文件献给我最亲近的人Laure、Floriane、Martine和Roger,也献给我哥哥Julien。他们在整个工作过程中的支持是无价的。我也要感谢那些在我的白天和晚上给我带来这么多的人,他们的欢乐、善良和友谊。按字母顺序,它给出了这样的东西:亚历克斯,阿纳金,安德烈,安尼博格,安东尼,奥黛丽,本,贝特朗,凯西,克里斯托弗,西苏,科琳,丹兹,朱,多米,德里斯,埃里克,弗洛里安,弗雷德B。弗雷德·D,弗雷德·W,盖普,乔治,吉勒,J。P.,乔西,乔斯林,拉普,劳伦特,劳里安娜,洛洛,路易莎,M.-J.,《熊妈妈》,马克·P。马克斯、梅德、咪咪、纳诺、纳特、内内克斯、诺伊格、尼克、尼科、尼古拉斯·F.妮可、尼曼、奥利维尔、乌尔塞林、熊爸爸、帕斯卡、帕努、菲卢、皮埃罗、广、拉尔夫、里科、里顿、罗曼、莎拉、西蒙娜、斯坦、斯蒂芬、塔尼亚、泰德、蒂埃里·S.蒂埃里五世,汤姆、弗吉尼亚和威尔。45摘要数字技术的出现使得以较低的成本存储大量的语音成为可能。尽管最近在音频文献研究方面取得了进展,但由于收听这些文献所需的时间,利用这些文献仍然是一项挑战。我们试图为了实现这一点,提取摘要方法被应用于口语、转录和自动结构化的使用LIA开发的Speeral和Alize工具进行丰富的转录。我们通过句子分段和命名实体检测来补充这个结构化链,这是提取摘要的两个所提出的摘要方法考虑了由音频数据和用户交互施加的约束此外,该方法还包括在句子的伪语义空间中的投影。不同的模块产生了一个完整的演示器,促进了与用户交互的在我们通过人为地降低同一活动的数据来模拟最后,在本演示的框架内,我们提出了一个交互式时间线,以补充口头总结。关键词自动语音摘要、语音信息搜索67摘要数字时代已经揭示了以低成本存储大量语音的新方法。虽然语音文档检索的最新进展,但利用音频文档仍然很困难,因为收听它们需要时间。我们试图通过从最重要的信息中生成自动的口语摘要来减轻这种不便。为此,通过自动语音结构化,将提取摘要化算法应用于丰富的转录是携带感谢Speeral和Alize工具包开发的LIA。我们通过句子分割和命名实体检测来补充这个结构化的环链,这是提取摘要化的两个重要功能。所提出的摘要化方法包括由音频数据和与用户的交互施加的约束。更重要的是,m-Method整合了句子在伪语义空间中的投影。我们将各种模块集成到一个连贯的原型中,以简化用户交互的研究。由于缺乏对演讲摘要化任务的评估数据,我们正在评估我们对DUC 2006年活动的文本文档的方法。我们通过人为地降低为DUC提供的文本内容来模拟口语内容结构化的影响最后,在演示器中实现了完整的处理序列,以促进来自ESTER评估活动的接入无线电广播在这个原型的框架内,我们呈现了一个交互式的时间线,它与口语摘要相反--现实化。关键词自动语音摘要化、口语文档检索、自动语音识别、富转录、句子边界、命名实体、最大边际相关性、MMR、条件随机字段、CRF、潜在语义分析、LSA、文档理解会议、DUC。89长总结数字技术的出现使得以较低的成本存储大量的语音成为可能。为了利用它们,音频文献研究利用了口语的自动转录。尽管对转录错误进行了补偿,但语音搜索引擎仍然需要听文档,因为音频内容比书面或视觉内容更难获得由于长时间和乏味的收听限制了音频搜索引擎的有效性,该特征导致用户感知的信息量的减少为了解决这个问题,我们建议对搜索引擎找到的最重要的信息进行口头总结为了实现这一点,提取摘要方法被应用于口语、转录和自动结构化的内容。使用LIA开发的Speeral和Alize工具进行丰富的转录我们通过句子分段和命名实体检测来补充这个结构化链,这是提取摘要的两个使用基于韵律和语言特征的条件随机场(CRF)建模,通过序列标记来检索句子边界。 此外,直接在转录假设图中检测命名实体,以尝试减轻转录阶段中所加权有限状态换能器(WFST)框架允许将在ESTER活动的实验任务中进行了测试,该方法获得了最佳结果(F1-测量值为0.63)。所提出的用于语音摘要的模型考虑了口语内容的性质该模型在最大边际相关性(MMR)中实现,其形式是将句子的长度或结构化的置信度分数通过潜在语义分析(LSA)将句子投影到伪语义空间中,计算句子与用户需求的相似性10在文件理解会议(DUC 2006)活动期间,通过LIA-Thales联合提交的文本摘要进行评估由于没有语音的评估数据通过在文档中插入、删除和替换单词来模拟结构化错误这些错误被均匀地引入,以限制摘要系统选择包含较少错误的句子将词汇量限制为最常用的单词不会对红色评估标准产生显著影响。另一方面,命名标题的系统性退化导致这一标准的下降。一项关于原始文档中单词错误率的Red演变的研究表明,在摘要被"收听"的条件下,该系统在高达约40%的错误率下是鲁棒的。相反,当执行摘要被"读取"时,性能会下降10%这些结果是相对的,因为当数据退化时,红色标准的行为仍然没有得到很好的研究。结构化链和摘要系统在ESTER活动的无线电数据上实现。这样设计的原型证明了所提出的方法的可行性,并将允许与用户进行直接评估。进行了第一项研究,以验证该视图改善了用户对检索到的信息的时间组织的感知,并为新的基于摘要的11自动生成的摘要对音频数据库访问接口的研究将用户需求和口头信息投射到语义空间中,然后使用文献检索和自动摘要方法在口语内容中搜索信息的早期方法自动语音摘要由语音音频流(输入)组成,并以书面或语音形式(输出)生成。L’objectif de ces travaux est defaciliter l’accès à l’information audio à l’aide du résumé de parole et les éléments destructuration pré- sentés au chapitre précédent ne sont pas suffisants pour obtenir unrésumé de这些最新的工作代表了一个开放的研究方法,以在本研究中,我们提出了一种基于自动语音摘要的方法来然而,由于缺乏专门用于ESTER中自动语音摘要的数据(该活动没有提出与自动摘要直接相关的任务),因此无法对所本总结是通过本文件中概述的方法生成的有关该过程的详细信息,请1213材料表1导言171.1信息检索1.2问题191.3总体方案221.4文件的组织24I信息搜索2语音信息搜索2.1文献检索272.1.1任务29的定义2.1.2评估302.1.3语言预处理322.1.4型号332.1.5扩展请求382.1.6扩展到Word392.1.7与用户的交互2.2自动摘要432.2.1评估442.2.2按提取总结502.2.3第54章第一次见面2.3结论563口语信息的结构化3.1Speceral58结构链3.1.1声学参数化583.1.2声学类别的划分593.1.3扬声器索引603.1.4自动转录613.1.5最高级别613.2ESTER62活动期间的评估3.2.1数据和任务的623.2.2评估措施143.2.3LIA66系统的结果3.3结论674对结构和语义描述符提取的补充4.1通过序列704.1.1条件随机字段714.1.2声学和语言734.1.3性能744.1.4设想的改进774.2从语音流中提取4.2.1导言784.2.2与转录804.2.3性能854.2.4限制904.3结论90II多文档自动语音935在摘要97中纳入交互性约束5.1摘要97提取假设的口语媒体可移植性5.2通用型号1005.3最大边际相关性102中的底模脱钩5.3.1用于选择代表性短语的1025.3.2句子在伪语义空间1055.4结论1076对文本1096.1文件理解会议6.1.1LIA-Thales111提交材料的描述6.1.2DUC 2006的结果1186.2模拟6.2.1实验框架1256.2.2降级数据的结果1276.2.3结果的解释1306.3结论1317口头总结的补充互动1337.1交互式时间线1337.2原型134的描述7.2.1用户界面1357.2.2技术体系结构1377.3用户调查137157.3.1原则1387.3.2结果1397.4结论1438结论1458.1获得的结果1468.2前景148A主题 D0641(全球变暖)的151A.1 由系统S1至S5及其合并F2151A.2 参考文献摘要154B本文件的自动摘要157B.1摘要中的句子在上下文157B.2关于摘要159的信息词汇表161插图列表163表列表165参考书目167个人出版物1821617第一章简介摘要1.1信息检索1.2问题191.3总体方案221.4文件的组织241.1信息搜索信息搜索的目的 L’outil 这个定义揭示了不同的概念:信息信息虽然数据表示宇宙的一个组成部分更一般地说,这一定义可能会引发许多问题(Floridi,2005),例如: 真理和信息之间的联系是什么?虽然这些问题的答案远非微不足道,但我们通过建立一个搜索信息所必需的假设来第一章. 简介18这是一个在人类尺度上具有重要意义的事实。只有当用户对它感兴趣时,它需求是用户所寻求的东西的表达,在给定的上下文中,什么对他来说是重要的它告诉相关性的概念非常重要,因为它允许信息搜索的结果该结果通常采用用于存储信息的对象的子集的形式虽然一般的信息搜索是一个非常有趣的研究领域,但我们的重点是音频信息,更具体地说,是自人类出现以来言语在这方面发挥了重要作用,因为它是人与人之间最受欢迎的交流手段,尤其是通过语言实现思想。言语早在文字出现之前就出现了,在一些文化中仍然是表达和集体记忆的主要形式。例如,大约有1 500万人说索马里语,其中不到一半的人用音译的形式书写,这种形式自1972年以来才存在(人们不得不问,文字是否会被发明出来,如果在需要保留语言的时候,有考虑到一个人平均每天产生1小时的言语,或大约10,000个单词,60亿人每天发音6 × 1016个单词,这远远超过了在同一时间产生的书面材料的数量(根据1998年联合国的一项研究,考虑到世界人口的16%是文盲,估计每人平均每天产生100个言语的短暂性是通过大量有用信息的丢失来阻碍根据第一个假设,如果所有的对话都被记录下来并进行分析以供以后使用,社会会有什么反应如果我们忽视了断章取义地重复使用话语的问题口语与书面语言有很大的不同(Biber,1991),它传达了更多非预期信息是上下文、例如,语境包括迫使说话者或多或少清晰地说话的声学环境;最后,语言1.2. 问题19它迫使思想以文字的形式表达,而它们可能更好地通过图像或手势来表达另一方面,意向信息包括说话者的自愿状态和信息本身。例如,说话者可以通过缓慢地说话来适应非母语的听众,或者使用情绪和态度来支持他们的信息。与口语不同,书面语言除了信息之外,只包含来自语言和格式约束(布局、颜色、字体、大小)的信息,这在限制其可变性的同时使交流变得贫乏。例如,为了克服书面表达中缺乏书面文字作为一种澄清,使人们能够集中注意力于信息,而语言的标准化和广泛教授的规则有助于信息的解释。没有普遍的符号系统来表示说话者的状态或声学环境。此外,犹豫、重复、重复、中断或phatic元素(用单词代替也没有一个系统来表示这些非常普遍的现象。从口语到书面语的转换语音信息中包含的信息被转化为可测量的参数和现象声音是由空气通过声道(喉、咽、口腔和鼻腔的声带)、由环境(回声、噪声、声道......)对其进行并通过传感器(耳朵、麦克风)感知该信号首先在物理层面上,这些参数可以通过频谱研究来观察,频谱研究是对信号与时间的关系进行频率分析因此,音频信息搜索要处理的信息量1.2问题音频信息的生命周期信息的获取;
下载后可阅读完整内容,剩余1页未读,立即下载
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![java](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![exe](https://img-home.csdnimg.cn/images/20210720083343.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 保险服务门店新年工作计划PPT.pptx
- 车辆安全工作计划PPT.pptx
- ipqc工作总结PPT.pptx
- 车间员工上半年工作总结PPT.pptx
- 保险公司员工的工作总结PPT.pptx
- 报价工作总结PPT.pptx
- 冲压车间实习工作总结PPT.pptx
- ktv周工作总结PPT.pptx
- 保育院总务工作计划PPT.pptx
- xx年度现代教育技术工作总结PPT.pptx
- 出纳的年终总结PPT.pptx
- 贝贝班班级工作计划PPT.pptx
- 变电值班员技术个人工作总结PPT.pptx
- 大学生读书活动策划书PPT.pptx
- 财务出纳月工作总结PPT.pptx
- 大学生“三支一扶”服务期满工作总结(2)PPT.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)