音乐检索新方法:基于嗡嗡声的Top-K相似性搜索

0 下载量 83 浏览量 更新于2024-08-26 收藏 1.05MB PDF 举报
"这篇研究论文聚焦于通过‘嗡嗡声查询’进行的Top-k相似性搜索,这是一种在音乐检索中的重要方法,因其有效性和便利性而受到广泛关注。论文提出了一种新颖的Top-K相似性搜索技术,旨在为嗡嗡声查询提供快速的检索。文中介绍了一种用于多维序列匹配的距离函数MDTW,以及MDTWsub子序列匹配方法。音乐作品通过二维时间序列表示,每个维度分别存储音符的音高和持续时间。为了提高效率,论文采用了倒排列表和q-gram技术处理音乐数据库,并利用q-chunk技术处理哼唱片段。接着计算哼唱q-chunks与音乐q-grams之间的MDTW距离,从而获取最相关的Top-k音乐片段。" 在这篇研究中,作者们提出了一个针对“嗡嗡声查询”(Query-By-Humming)的高效Top-K相似性搜索算法。这种方法在音乐检索领域具有重要意义,因为它允许用户通过哼唱一小段旋律来查找相似的音乐作品。传统的音乐检索可能依赖于关键词或精确的歌曲名称,但嗡嗡声查询提供了一种更为直观且用户友好的方式。 首先,作者引入了MDTW(多维时间 warp 距离)作为序列匹配的新距离函数。MDTW不仅考虑了音符间的时序关系,还考虑了音高和持续时间这两个维度的信息。这种距离度量使得对音乐作品的匹配更加准确,能更好地捕捉到音乐的节奏和旋律特征。 其次,为了优化搜索效率,研究中应用了倒排列表和q-gram技术。倒排列表允许快速定位数据库中包含特定q-gram(短语或音符序列)的音乐片段,而q-gram技术则将音乐作品分解成一系列固定长度的小片段,便于处理和比较。这种方法可以显著减少搜索时间,提高检索速度。 此外,作者还提出了一种称为MDTWsub的子序列匹配方法,用于处理用户哼唱的片段与音乐数据库中的片段之间的匹配。通过计算哼唱的q-chunks与音乐q-grams之间的MDTW距离,可以找到最接近哼唱的Top-k音乐片段。 这篇论文提出的嗡嗡声查询Top-K相似性搜索技术结合了高效的序列匹配算法和数据结构,旨在为用户提供快速、准确的音乐检索体验。这种方法不仅适用于音乐推荐系统,也可以应用于其他基于音频相似性的应用,如语音识别和声音分类。通过这种方式,即使用户无法准确记住歌曲的名称,也能通过哼唱找到他们想要的音乐。