音频MIR歌词分析与和平号信号处理

72 浏览量更新于2023-12-01 收藏 6.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

利用MIR的音频歌词安德烈·瓦利奥引用此版本：安德里亚·瓦格里奥利用歌词从音频为和平号。信号和图像处理。巴黎理工学院，2021年。英语NNT：2021IPPAT027。电话：03558515HAL Id：tel-03558515https://theses.hal.science/tel-035585152022年2月4日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire626利用MIRThehe` se de doctor at depre' pare' ea`Te'le' comP ar isE'cole docto ralen 626E' cole docto rale deSpe'cialite'de doctor at：Signal，Images，Automatique et robotique2021年9月19日，The`se pre` sente` e et souten uea`Palaiseau， parANDREA VAGLIO评审团组成：埃马纽埃尔·文森特Directeurderecherche，INRIA Pre' sident伊莎贝尔·巴尔班乔Prof esseure，Univ ersidaddeMa'laga Rapport eur西蒙·迪克森伦敦大学玛丽皇后学院特别报告员安娜·克鲁斯佩慕尼黑工业大学博士罗曼·埃内坎博士，Deezer考官加埃尔·理查德Prof esseur，Te'le' comPar is Directeurdethe' se曼努埃尔·穆萨拉姆医生，我在生命中佛罗伦萨专业人士，Te'le' comPar is In vite'NNT：2021IPPAT027前言2这项工作已于2018年6月至2021年5月完成。这是Deezer和巴黎电信之间的合作。本论文是在Romain Hennequin的指导下由Deezer研究团队和Gaël Richard的指导下由LTCI实验室的音频数据分析信号处理（ADASP）团队这项工作得到了Deezer和国家研究和技术协会（ANRT）通过研究培训工业会议（CIFRE）合同的联合支持。确认3这项工作之所以成为可能，要感谢许多导师、同事和朋友的帮助首先，我要特别感谢我的所有主管，感谢他们的善良、耐心和总是很好的建议。我真的觉得，如果没有你给我的不断帮助，这一切都不可能实现。所以，我衷心感谢，没有特别的顺序：罗曼，马努，盖尔和佛罗伦萨。我还要感谢所有来自Deezer或Telecom Paris的同事，他们使工作场所成为一个友好、舒适和温暖的地方，让我享受成长和体验我的项目。遗憾的是，大部分时间都被疫情偷走了，我本想加深与你们的联系。我还要感谢伊莎贝尔·巴班乔和西蒙·迪克森，感谢他们花时间回顾我的手稿我特别要感谢我所有的亲戚、朋友或家人，尽管我在这三年中表现出特别频繁的情绪变化，但他们仍然支持我我特别感谢我的父母，他们在我最好的时候和最糟糕的时候都在情感上支持我。如果没有你，我想我不会完成论文的最后一部分。对于所有那些我忘记的人，我很感激，在这段旅程4摘要歌词提供了很多关于音乐的信息，因为它们封装了很多歌曲的语义。这些信息可以帮助用户轻松浏览大量的歌曲，并向他们推荐新的音乐然而，这种信息往往是无法利用的，在其文本形式。为了解决这个问题，可以使用唱歌的声音识别系统直接从音频中获取转录这些方法通常是从语音识别的。语音转录是一个有几十年历史的领域，由于机器学习技术的发展，最近取得了重大进展。然而，当应用于歌声时，这些算法提供的结果很差由于多种原因，歌词转录的过程仍然很困难。首先，音乐（即伴奏）可以被认为是感兴趣的信号（即歌声）的显著背景噪声。它通常是混合在一个水平相当其次，歌曲是一种艺术品，具有可变的形式和歌词的可理解性，从一首歌到另一首歌可能存在较大的音素尽管如此，从歌唱语音识别系统收集的歌词信息可用于执行各种歌词相关的任务。在这篇论文中，我们研究了几个科学上和工业上难以解决的“音乐信息检索”问题，通过利用直接从音频中生成的歌词信息。重点是使方法尽可能与现实世界的环境相关这需要在大量不同的数据集上测试它们，并研究它们的可扩展性。为此，使用了一个庞大的公开可用的注释歌词数据集，并成功地采用了几种最先进的歌词识别算法值得注意的是，我们首次提出了一个直接从音频中检测明确内容的系统，在工业规模的明确内容数据集上产生了有希望的结果。第一个研究创建一个多语言的歌词到音频系统以及描述。使用音素作为中间表示和多语言训练数据的设计都被证明是显着的因素，以提高多语言的泛化所考虑的架构的任务。歌词到音频对齐任务进一步研究了两个实验量化的感知音频和歌词同步。所获得的结果允许特别是当前的歌词音频指标的讨论。还提出了一种用于语言识别的新的语音定位方法，其性能优于该任务的最先进性能。最后，我们提供了第一个封面歌曲检测算法，明确使用从音频中提取的歌词信息。对最大的公开访问的封面检测数据集的广泛研究表明，采用歌词信息进行这项任务的实用性。关键词-歌唱语音识别，显式内容检测，歌词到音频对齐，语言识别，封面歌曲检测5简历歌曲的演唱是一个音乐信息的大名称，它包含了歌曲的一个系列Ces information pour-raient aider les utilisaires à naviguer facilement dans une large collection de chansons etpermettre de pasto pastrir des recommandations personnalisées.但是，这些信息不能以书面形式提供。Les systèmes de reciation de la voix chantée pourraient être utiliséspour obtenir des transmittance directement à partir de la source audio.这种方法适用于声音侦察的细胞。语言的翻译是一个多世纪的领域，它与自动化技术的最新发展有着密切的联系此外，在歌曲中应用这些算法可以使结果更令人满意，并使录音的过程更复杂。Toutd'abord，la musique（即accompagnement）peut être considerée comme un bruitde fond important pour le signal d'intérêt（i.e. voix chantée）.她是个混血儿à unniveau comparable à celui de la voix et presente une corrélation significative avec celle-ci.此外，一首歌曲是一种艺术创作，它的形式和语言的可理解性都是可变的，它具有很大的潜力来发音一首歌曲的音素。此外，通过歌声侦察系统收集的关于言语的信息可能会被用来收集各种各样的言语。在此基础上，我们研究了“音乐信息检索”科学和工业复合体的多个问题，这些问题利用了音频部分的一般语言信息L’accent est mis sur la nécessité de rendre les approchesCela implique par appropriple de les tester sur des ensembles de données vastes etdiversi fiés et最后，我们利用了一个大型的公共场所，拥有语音注释和适应性，成功地使用了多种算法来侦察表演者的言语。Nous presentons notamment，pour la première fois，un système qui decte le contenuexplicite directement à partir de l'audio.这是一个明显的工业领域的总体成果。对建立多语种言语交流系统的初步研究表明L'étude de la tâche acquisition paroles-audio est complétée de deux exériences quanti-fiant la perception de la synchronization de l'audio et des paroles.获得的结果表明，我们对现有的测量方法提出了一项建议，6RÉSUMMER言语音频Une nouvelle approche phonotactique pour最后，我们提出了一种主要的算法，用于检测使用音频外言语信息的版本Des études approfondies sur le plus grandensemble de données de detection de version accessible publiquement démontrentMots clés -Reconnaissance de la voix chantée，Détection de contenu explicite，Aligne-ment des paroles et de7法文摘要Deezer是一个音乐流媒体服务，提供大型目录，不断发展，多模式音乐。它的产量超过7 300万吨，每天新增产量达100亿吨。 Une collection aussi vaste doit être organiséeet quali Fiée automatiquement pour aider les utilisaques à la parcourir et pour eacquectuer des recommandations personnalisées et intel- ligentes.它也是一种必须使用的高级音乐，就像音乐流派或语言一样De tels telling peuvent être dispo- nibles dans lesmetadonnées，mais ce type de metadonnées est souvent bruité et disponible seulementpour une petite partie du catalog.Une alternative consisterait à extraire ces passivepartir de l'audio en utilisant des approches de 'Music Information Retrie-val'.这一领域的兴趣在于创造一个能够对音频信号进行分析的外部音频音乐系统Récement，un intérêt croissant pour这些歌词构成了歌曲音乐信息的重要来源，也是歌曲系统的重要组成部分Elles peuvent être utilisées pour une multitude de tâches（dé-tection de contenu explicite，dectection de langue.）以及类似卡拉OK的特殊应用Deezer目录中有150万份在20%的情况下，可以使用开始和结束时的字幕。这些信息通常由外部的注释手册提供，它们具有缓慢获取、一致性、质量变量和不确定性等特点一种外部的声音来源于对歌曲声音的识别算法的利用。随着时间的推移，这些算法对语音侦察有很大的启发。言语的转录是一个相对成熟的领域，其结果对深层神经元网络的最后发育有明显的促进作用。然而，这些算法并不适用于不满意的L'objectif spécifique de la transcription de paroles reste un dé fixedavec desproblématique particulières whi n'apparaissent pas la transcription de la parole.然而，音乐伴奏可以被认为是一种非常响亮的声音，这种声音可以被歌唱者在和声和节奏中发出的感兴趣的信号所校正。此外，一首歌曲是一种艺术创作，它不依赖于形式和语言的可理解性，具有很大的潜力法文摘要8但是，关于协助侦察系统的外国假释人员的资料可能有助于协助犯下各种各样的假释罪行Dans cette thèse，nous étudierons plusieurs tâches de为了做到这一点，这些系统的侦察假释加上现代sont adaptés avec sucès aux tâches considerées。此外，我们利用一个大的基础上，données publique注释的声音chantée recement。在这一框架中，有几个问题已经研究过，其中包括对Deezer具有重要潜力的工业应用：Détection de contenu explicite ： La détection de contenu explicite consiste àclasser un enregistrement audio comme étantexplicite or nonexplicite.IlCette thèsepresésente le premier système de detection de contenu explicite directement àpartirL’approche modulaire proposée utilise un modèle acoustique dont les sortiesreprésentent les caractères de l’alphabet latin, un modèle de détectionAlignement paroles-audio：这一点在实践中的应用范围很广：它可能会被新一代的音乐家所采用，从而使他们能够更好地了解歌曲的声音和声音，或者利用它来专门应用卡拉OK或禁止明确的言语在此基础上，我们提出了建立独立于语言的言语-声音系统的设想。为了做到这一点，我们集中精力在一个建筑上，这个建筑是一个适应一般化的艺术。此外，我们还研究了中间商代表的相关性，因为这是特征或电话的问题，也是多个战略的问题L’évaluation est menée sur de multiples jeux de données, provenant de diverses sources,langues我们要记住多种语言的歌曲。Des experiences supplémentaires visant à prendreen compte la similarité des phonèmes lors de最后，我们通过卡拉OK的两次真实经验研究了音频和言语同步的感知，并考察了对音频评估方法语言识别： L'identification deLes applications sont nombreuses ： informer latranscription des paroles，amélibrary la classification de genre ou aider à quantitier ladistribution des langues des chansons des parusées dans les medias（nécessaire par法文摘要9《图邦法》（Toubon）。在此基础上，我们提出了一个新的语音系统，该系统利用语音模型进行语音识别和语言分类。语音识别是基于“连接主义时间分类”的一种声学模式的辅助，它与多种语言的使用者相结合，在语音识别的一种模式的辅助下进行语言分类目前，主要的研究成果是将圣歌的语言与非限定语言区分开来版本检测： La détection de version vise à déterminer si deux enregistre- mentsprovisiennent de la même Üuvre musicale。一项实用的申请就是对剽窃的检测。在此工作中，我们提出了一个主要的版本检测系统，该系统可以明确地利用歌曲在音频部分的发音信息我们将歌唱声音的感知与基于和声学的版本检测相结合此外，我们还利用一种方法和方法来研究这些特性的相似性，以及一种算法，用于研究渗透到创建一个能够在非常大的基础上保持10目录注释15缩略语. 16I从音频中提取歌词信息191一.导言. 201.1一般情况................................................................................................................... 201.2挑战........................................................................................................................... 211.3研究目标和贡献............................................................................................................1.3.1主要研究目标...............................................................................................251.3.2研究问题.......................................................................................................251.3.3捐款...............................................................................................................261.4论文结构................................................................................................................... 271.5出版物和研讨会............................................................................................................1.5.1出版物...........................................................................................................271.5.2研讨会...........................................................................................................282 歌词转录方法和数据集292.1ASR系统............................................................................................................ 简史292.2歌词自动转写文献........................................................................................... 综述312.2.1创建稳健的歌声声学模型...........................................................................312.2.2使声学模型适应SVR.........................................................................................2.2.3比较最先进的系统.......................................................................................332.3歌声分离............................................................................................................的影响112.4数据集....................................................................................................................... 352.4.1DALI数据集.................................................................................................. 352.4.2Deezer数据集...............................................................................................362.4.3其他数据集...................................................................................................372.5结论........................................................................................................................... 383 创建歌唱语音识别管道393.1歌声分离................................................................................................................... 393.2特征提取................................................................................................................... 413.3声学模型................................................................................................................... 413.4中间代表................................................................................................................... 423.4.1讨论字符或音素...........................................................................................423.4.2IPAPhonemes...............................................................................................433.5联结主义时间分类................................................................................................... 453.6语言建模................................................................................................................... 493.7解码........................................................................................................................... 503.7.1油腻的解码...................................................................................................503.7.2前置波束搜索...............................................................................................513.7.3语言建模.......................................................................................................533.8评价........................................................................................................................... 544 香草歌词转录系统554.1A.一般介绍.............................................................................................................. . 564.2数据集处理....................................................................................................................4.3模型参数................................................................................................................... 574.4结果........................................................................................................................... 59II对MIR62的应用5 显式内容检测635.1拟议办法................................................................................................................... 645.1.1一般介绍....................................................................................................... 645.1.2关键字检测...................................................................................................65125.2实验........................................................................................................................... 665.2.1显式数据集...................................................................................................665.2.2词典创建.......................................................................................................665.2.3基线...............................................................................................................665.2.4显式模块.......................................................................................................675.3结果和讨论............................................................................................................... 675.3.1初步结果.......................................................................................................675.3.2显式内容检测结果.......................................................................................675.4结论........................................................................................................................... 696 多语言歌词到音频对齐706.1背景要求................................................................................................................... 726.1.1歌词到音频对齐...........................................................................................726.1.2计算音素相似性...........................................................................................746.2拟议办法................................................................................................................... 766.2.1声学模型.......................................................................................................766.2.2中间代表.......................................................................................................776.2.3对齐...............................................................................................................786.3实验........................................................................................................................... 796.3.1数据集...........................................................................................................796.3.2声学模型...............................................................................................参数816.4结果和讨论............................................................................................................... 816.4.1初步研究.......................................................................................................816.4.2一般性结果...................................................................................................816.5考虑................................................................................................... 到音素相似性856.5.1音素相似度计算...........................................................................................866.5.2学习看不见的音素.......................................................................................896.6结论............................................................................................................................907以用户为中心的歌词到音频对齐917.1背景知识................................................................................................................... 927.1.1介绍以人为本的MIR....

下载后可阅读完整内容，剩余1页未读，立即下载