知识产权保护：图卢兹大学博士论文答辩文件，侵权必究

164 浏览量更新于2024-02-04 收藏 4.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

警告：这份文件是长期工作的结果，得到了答辩它受作者知识产权的约束D’autre part, toute contrefaçon, plagiat, reproduction illicite dece travail expose à des poursuites联系方式：portail-publi@ut-capitole.fr链接知识产权法-第L条。122-4和L. 335-1至L。335-101992年7月1日第92-597号法律，1992年7月2日《政府公报》http://www.cfcopies.com/V2/leg/leg-droi.phphttp://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm论文论文为了图卢兹大学博士学位发布者：图卢兹于2014年7月10日提交并支持：马克西姆·勒·科兹节律谱和多个在民族音乐学和声音内容的核心陪审团P. Joly IRIT评审团主席C. B阿拉斯G. 英尺LIMSI报告员IRCAM报告员M. D ESAINTE-C AATHERINELABRI检查员G. PELLERINR. ANDRÉ-OBRECHTJ. PIN qUIER帕里松审查员IRIT总监IRIT联合主任博士学校及专业：MITT：图像、信息、超媒体研究单位：图卢兹计算机科学研究所（UMR 5505）论文主任：雷吉娜·安德烈-奥布雷希特和朱利安·平奎尔报告员：杰弗里·彼得斯和克劳德·巴拉斯23谢谢你我想在这篇论文的开头感谢那些直接或间接地使这份手稿，特别是其中描述的所有作品得以存在的人。从我的两位导演开始：Régine André-Obrecht和Julien Pinquier，他们感谢Régine让我相信我的想法及其应用。感谢朱利安的认真和他的笑话，心情好!C’est grâce à eux que je suis maintenant fier >是的，我需要它，这样我才能给你成功的保证感谢我的评审团成员： Myriam Desainte-Catherine 女士和Geoffroy Peeters先生、Claude Bar- ras先生、Philippe Joly先生和GuillaumePellerin先生，感谢他们花时间对我的作品进行评判，感谢他们非常有趣的思考，使我能够从新的角度看待我的感谢SAMoVA团队的所有成员，感谢再次感谢飞盘投掷者，他们让我逃离并在其他领域学习：TomTom、Terry、Yves-Mat '、CedCed、Marie-Prune、Margot、Raphi和许多其他人感谢琼耀的友谊，他的好心情和微笑。感谢我的父母，他们一直支持我，信任我最后，非常感谢那个支持我的人如果没有他，这段时间会困难得多：非常感谢。45材料表1简介91.1上下文。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ...91.2问题。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ...111.2.1同时谐波源的。... ... ... ... ... ...121.2.2节奏。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...131.3手稿的。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...142指数化系统172.1引言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ...172.2语音/音乐/噪音。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...182.2.1语音。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...182.2音乐。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...212.2.3稳健性和置信指数。... ... ... ... ... ... ... ... ... ... ... ... ...232.2.4合并和决策。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...242.5结论。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...242.3单声道/复声道。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...2.3.1C累积M元N正规化D微分函数。. . . ...25252.3.2分类。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...262.4频率跟踪的。... ... ... ... ... ... ... ... ... ... ... ... ... ...272.4.1能源。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ...282.4.2框架的和谐性296。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...2.5结论。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ...293节律分析313.1引言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ...313.2节奏分析的... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...323.2.1在音乐。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...323.2.2在口头上。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...353.3节奏。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 373.3.1划分为同质区域。... ... ... ... ... ... ... ... ... ... ... ... ... ...383.3.2段的语义是什么？. . . . . . . . . . . ...4074.6验证：在上下文3.3频率。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...413.3.4权重。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...433.4音乐处理：速度估计 . . . . . . . . . ...473.4.1原则。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ......473.4.2评估。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...493.5从说话的声音到唱歌的声音。 . . . . . . . . . . . . . . . . . ...533.5.1速度图。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...533.5.2评估。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...553.6结论。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ...594跟踪频率和源614.1引言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ...614.2最新技术水平... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ...614.2.1叠加。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...624.2.2多音高音乐。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...683.2.3结论。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...754.3合唱独奏的。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...754.3.1提取感兴趣的区域... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...774.3.2峰的。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...794.3.3频率。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...803.4分类。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...823.5结论。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...834.4多源。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...834.4.1主频率的提取和跟踪。... ... ... ... ... ... ... ...854.4.2谐波族的。... ... ... ... ... ... ... ... ... ... ... ... ... ...884.4.3协调性标准... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...884.4.4重组。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...8984.6.4Liénard99系统的结果4.6.5讨论和合并1014.7语音上下文中叠加搜索方法的验证1034.7.1参数1034.7.2公司1034.7.3语料库1104的评估4.7.4语料库2的评估1054.8结论1065直接申请1075.1导言1075.2技术背景1085.2.1Telemeta1085.2.2时间边1095.2.3集成问题5.2.4设计师1105.3对项目数据的行为1125.3.1搜索歌手的叠加1135.3.2中间投票1185.3.3结论和可能的改进1206结论和观点1236.1结论1236.1.1走向全面的索引系统6.1.2节奏1246.1.3谐波叠加1246.1.4DIADEMS125中的应用和实施6.2前景1266.2.1节奏的研究1266.2.2谐波叠加1296.2.3概念130910第一章引言1.1上下文随着除了传统的广播媒体，如广播和电视，我们正在经历一个爆炸式的网络内容，汇集了广播和电视节目以及专业和业余音乐录音。索引是使用数据的关键部分。一个没有索引的数字提要就像一本没有目录的书;它的信息被保存下来，但实际上访问的，任何人寻找一个特定的提要都必须在整个记录中搜索它这一限制必须与事实上，为个人寻找记忆是乏味的，这可能被认为是一个小问题，但当涉及到历史档案的研究时，访问整个社会的记忆的问题就变得更加重要了例如，在这种保存记忆的方法中，我们可以想到法国广播电台的档案，它汇集了该组织自20世纪20年代初以来的所有广播节目。本着同样的精神，我们还可以提到国家视听研究所的档案，其中包括500多万小时的电视和无线电录音。除了这些主流来源外，还必须加上在人文科学实验室进行的许多研究的语料库其中，我们可以提到ANR DIADEMS1项目的语料库，该项目旨在汇集民族学和比较社会学实验室（LESC）的所有民族音乐学数据的数字化版本这种动态1. http://diadems.telemeta.org/11随着T rès G rande I nfrasstructu R e Huma-NUM 2（统一获取人文和社会科学数字文件）的实施，具有历史和科学意义的数据的数字化该设备旨在收集人文和社会科学研究领域的文件，但也强调为这样的档案提供导航意味着允许公众和研究人员访问整个历史的一需要自动化工具来实现对越来越大的数据的索引和结构化，这给研究界带来了许多理论和应用上的这C’est趋势是为内容中寻求的每个特征提出特定的方法无论是定位还是识别几个类中的一个，返回的信息都或多或少是准确的，这取决于先验知识和所选方法的鲁棒性L’intérêt 这种创建越来越适合于问题的工具链的愿望这一研究策略是SAMoVA团队的策略该团队专门从事音频和视频文档的分析，开发了不同概念级别的索引工具。历史上致力于分析言语内容，这项工作已经扩展到分析歌唱的声音;复调的研究打开了音乐内容分析的大门。这项最新的工作表明，该团队希望根据其他工作的结果，如强大的语音/音乐/噪音检测，提出逐步专业化的工具;这种方法允许考虑内容的类型，以执行或不执行第1章将详细介绍不同方法的顺序对语言和音乐领域的歧视导致了"ho-mogen"领域，但对其中许多领域来说，仍然很难利用。2. http://www.huma-num.fr/12S’il– 在音乐中，我们并不声称是详尽无遗的，我们想到的是多声道的领域，在那里几个来源同时演奏，以及在极端的情况下，合唱团在一起，在语音中，这个问题类似于检测重叠语音区域的问题，其中几个说话者同时说话。在这两个关于不同内容的问题中，我们可以找到一个共同点：它是关于检测几个谐波源的同时存在。我们将在这两种内容类型上使用此属性来定位这些感兴趣的区域。– 还感兴趣的是检测声音更稳定且节奏被控制的特定语音区域。口语和歌唱之间的这些中间区域显示了特定的内容，但它们也是转录类型处理的困难来源，并且它们必须被定位。它们的特征主要基于节奏，可以与音乐中的节奏分析相比较在言语中，就像在音乐总的来说，我们试图提出通用的理论方法：既适用于语音，也适用于音乐，以便从我们认为有意义的信号中提取最好的1.2问题D’un point de vue scientifique, les deux problèmes soulevés au paragrapheprécédent第一种是检测谐波源的共存区域。L’utilité 在语音中，许多自动转录语音的技术在叠加语音的情况下会出错。因此，精确定位它们提供了考虑特定游行以提高其性能的机会。另一个有趣的地方是：在激烈的辩论中，说话者的变化区域往往是恢复讲话的机会，说话者毫不犹豫地--例如，打断他的对话者的讲话，以挑战他或她。13挑战它该信息可以指定检测到的说话者变化的性质在音乐环境中，这样的系统还可以通过提供独奏区域相对于伴奏区域的直接划分来服务于这种结构有时不适用于西方流行音乐，因为纯粹的独奏（单声道乐器或歌手）是不常见的，但它是相关的许多其他风格的音乐。第二种方法是量化节奏（在场和测量）。在语音和音乐的上下文中，该信息允许对内容进行分类在音乐中，虽然速度值可以作为音乐流派分类的线索，但该信息对于定义组成乐曲的基本元素的长度是必不可少的。然后，该估计可以形成许多结构化方法的基础我们表明，也有不同层次的言语，其特征是或多或少地存在明显的节奏。1.2.1同时谐波源的位置问题是：是否有可能定位同时存在多个谐波源的时间区域？许多自动转录语音的技术在叠加语音的情况下会出错。因此，精确地定位它们提供了考虑特定游行以提高性能的机会。存在不同的音乐特定启发式来分析所涉及例如，可以使用与音符相对应的预定义频率标度来搜索源的存在，或者根据音乐学规则约束源之间的交互。然而，我们选择不使用它们，因为如果它们允许限制现象的搜索间隔，从而带来性能增益，那么它们这样做是以失去语音和音乐之间的通用性为代价的因此，我们选择不将我们的方法建立在音乐学规则的基础上，而是保持一种通用的方法，同时确保内容类型的最大鲁在解决我们的问题时不使用位置或声音之间关系的假设意味着源可以以任何方式相互作用。此外，我们将自己限制在谐波源上，因此它们产生由主频率和与其整数倍相关联的谐波组成的频率模式。不同源的谐波可以重叠。14它们以极其复杂的方式相互重叠，例如以不同的顺序相互重叠，使得检测更加困难。这一次的另一个挑战是事实上，如果音乐是由相对较长和稳定的和声现象组成的，那么在语音中只有2/3的音素是发声的，声音产生和声现象。由于语音是由交替的音素（发声或不发声）组成的，因此这些和声现象的源签名是极其散列的。由于这种散列，来自两个不同说话者的两个音素重叠的区域变得这意味着对精度的非常高的需求，以便能够检测在四分之一秒数量级的持续时间此外，在大多数内容中，说话者意识到对录音清晰度的需求，并尽量减少重叠区域，并且只在非常短的时间内同时说话，进一步减少了覆盖在整个录音上的语音的为了应对这些不同的挑战，并保持内容的通用性和独立性，我们提出了一个使用频率跟踪的解决方案这种方法使得1.2.2节奏分析我们要解决的第二个问题也可以用这样一个问题来概括：内容是否有一个规则的时间结构？如果是，是什么？L’utilité然后，该信息还可以用作块之间相似性的参数此外，该信息对于定义组成块的基本元素的长度是必不可少的，并且因此构成许多结构化方法的基础。然而，提取节奏的问题涉及一个众所周知的主要陷阱，即由正确值的倍数或约数的节奏引起的抖动误差。"正确"节奏的概念很难定义，因为它的定义可能会导致每个听众的特定标准定义与节奏相关的不同概念并讨论它们是否可以通过自动方法客观地重新发现，这本身就是一个重要的另一方面，在口语中，节奏的概念很少被这样使用。如果韵律的概念是重要的，它通常包括15基本频率、音调和重音也是韵律的一部分。如果韵律在言语中被用于寻找自动转录中的句法结构或检测情感，我们在这里提出了一个不同的和原始的目标：突出事实上，在这两个概念之间存在着一个广泛的声音特征："背诵"、"吟唱"或"朗诵"是许多中间范畴，它们的存在值得注意通过我们的方法建议我们的方法需要实现一般的理论方法，同时对语音和音乐内容进行这一共同线索施加了额外的约束，内容的多样性不允许对一种或另一种内容类型的先验知识作出许多简化的假设。这种强约束使得有1.3手稿的组织对这些问题的阐述导致了一份由四章组成的手稿第一章介绍了SAMoVA团队现有的索引系统一方面，我们介绍了每种方法的顺序。D’autre part, 本章还介绍了对这些工具所做的各种修改和添加，以便将它们集成到一个完整和强大的索引系统中第二章首先介绍了我们在多个谐波源检测领域的现有研究中的工作背景。然后，我们详细介绍了两种主要的方法：合唱检测系统和和声源叠加区域的检测系统。解释了允许频率跟踪的概念，并讨论了该方法相对于先前方法的定位。然后，我们对可行性实验的结果进行了评论，并验证了我们的还介绍了两种最先进的AP方法的实现，并根据我们的情况进行了调整。16研究。为了提出一个更有效的系统，对不同的方法进行了比较，然后进行了合并。第三章，在介绍了该领域特有的方法和概念之后，重点介绍了我们的节奏分析系统的逐步描述。介绍了均匀区域的切割以及断裂频率分析技术然后，本章提出了该方法的两种可能的应用：一种是在言语中，另一种是在音乐中，这表明提取的节奏信息能够描述不同类型的信息。本章最后通过实验验证了这些建议，最后一章提出了对ANR DIADEMS项目语料库中的数据进行这一语料库的特点使其具有挑战性。这个语料库中的数据在内容上确实是非常异质的，因为它是由音乐录音，采访和故事组成的，而且是为世界各地然而，这一语料库的困难还在于记录的质量，因为除了记录是在很少是最佳条件下在实地进行的这一事实之外，记录涵盖了从1900年到今天的时期，记录介质的质量各不在本章中，应用挑战是对理论挑战的验证。1718第二章指数化系统2.1简介L’intégralité du travail de recherche de ce doctorat s’est effectuée dans lecadre du projet 该项目已在导言中介绍这种多样性存在于各个层面：无论是内容（歌词类型、语言、音乐类型...），背景或记录介质（质量、退化等）在这种情况下，创建一个足够通用的分类我们的目标是创建一个基于一系列方法的系统，以逐步澄清所这种分层组织允许在每个处理步骤中使用置信指数，不仅用于估计正在进行的索引的质量，图2.1显示了最初的系统，它由两个阶段组成：语音/音乐/噪声分段和单声道/复声道分类。在本章中，我们将介绍每个步骤中使用的不同方法及其在分析中的重要性最后一节介绍了19单声道复调信号P/M/B音乐噪音假释单声道/多声道图2.12.2语音/音乐/噪音L’objectif de la première étape est la segmentation du signal en zonesprimaires :这一阶段是由Pinquier在2004年的工作实现的[1]。它涉及两个不同的语音或音乐检测系统。然后，两个工具的输出的共轭使得能够独立地执行一组类的检测它会导致在任何给定时间找到– 音乐而不是文字，– 不是音乐和文字，– 音乐和文字，– 非音乐和非文字：这种配置对应于我们后来称之为滥用语言的东西：噪音。这两种分类器基于信号的两种不同的统计分析。以下是他们的描述。2.2.1字的检测语音检测所基于的两个统计参数是4Hz处的能量调制选择这两个参数是因为每个参数反映语音信号的一个然后将这两种方法结合起来检测语音区域（图2.2）。

下载后可阅读完整内容，剩余1页未读，立即下载