多分辨率音频对齐基于蒙特卡罗采样器的算法

123 浏览量更新于2024-01-25 收藏 711KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

*SoftwareX 8（2018）33原始软件出版物基于顺序蒙特卡罗采样器的多个非同步音频序列多分辨率对齐Dogac Basarana，*，Ali Taylan Cemgilb，Emin Anarimca法国巴黎巴罗街46号，巴黎科技大学，信号和图像处理系b土耳其伊斯坦布尔Bebek 34342 Bogazici大学计算机工程系cBogazici大学电气和电子工程系，34342 Bebek，伊斯坦布尔，土耳其ar t i cl e i nf o文章历史记录：2017年11月16日收到2017年11月16日接受保留字：多音频对齐多分辨率对齐音频指纹贝叶斯推理序贯蒙特卡罗采样器序贯比对a b st ra ct随着诸如智能电话的智能设备的扩散，记录事件是常见的通过多个人创建多个音频和视频视角。这种用户生成的内容大多是无组织的（不同步）。在这项工作中，我们考虑了多个不同步的音频序列的对齐问题，并提出了一种多分辨率对齐算法，使用顺序蒙特卡罗采样器在一个过程中，以精细结构。所提出的方法进行了评估与现实生活中的数据集从Jiku移动视频数据集，并已被证明是有竞争力的基线指纹为基础的对齐方法，与适当的参数选择。©2017作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本01用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-17-00088GNU通用公共许可证（GPL）v3使用git的代码版本控制系统软件代码语言，工具和服务使用Matlab，Python编译要求，操作环境Python 2.7，Numpy，Matlab 2012b及更高版本如果可用，链接到开发人员文档/手册问题支持电子邮件dogac. telecom-paristech.frCode Ocean compute capsulehttps://codeocean.com/2018/02/07/multiresolution-alignment-for-multiple-unsynchronized-audio-sequences-using-sequential-monte-carlo-samplers/metadata1. 动机和意义随着用于用户生成的内容共享的记录设备和应用的激增，越来越多的人定期在诸如音乐会、会议和体育比赛的特殊场合中捕获音频和视频因此，单个事件可以由多个人同时记录，从而产生对场景的广泛覆盖、多个视觉和听觉视角如果隐私不是问题，则这些用户生成的多媒体（音频/视频）数据通常可通过社交媒体原文DOI：https://doi.org/10.1016/j.dsp.2017.10.024。通讯作者。电子邮件地址：dogac. telecom-paristech.fr（D. Basaran），taylan.boun.edu.tr（A.T. Cemgil），anarim@boun.edu.tr（E. Anarim）。https://doi.org/10.1016/j.softx.2017.11.006但是是无组织形式。对这些数据进行调整和组合在这里，我们提出了一种用于多音频对齐方案的软件，该方案基于基于概率模型的方法，采用顺序蒙特卡罗（SMC）采样器[1]。为了对齐两个音频序列，普通的方法将是利用确定性相似性函数，诸如互相关或汉明距离。然而，将K个序列与K>2进行比对，问题突然变得不平凡。这样的函数不能直接应用于一次比对几个序列，并且不能测量非重叠比对估计的相似性。让我们用一个合理的场景来解释这个问题。想象一下，有一个著名乐队的音乐会。观众用他们的智能设备（不同的音质）录制节目中一些最喜欢的部分，并且没有关于录制的偏移（世界时的起始点）的2352-7110/©2017作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx34D. Basaran，A.T. Cemgil和E. Anarim / SoftwareX 8（2018）33此外，没有音乐会的原始录音，但K可能嘈杂的视频录音（与各自的音频部分）。目标是估计每个音频序列的偏移量并形成连接序列的集群（参见[1]第1.1节）。该软件以非同步音频文件的数据集作为输入。使用“feature_extract_module” 为 [2 所得到的特征被馈送到“SMC_main_module”中，在其中应用多分辨率对齐，并估计连接的序列及其相对偏移。我们用结果的准确性来评估系统，结果的准确性是所有序列对中真正对齐的序列对的数量（更多细节见[1]第4.2节）。地面实况比对必须由用户以文本文件中的特定格式提供。对于[3]中提出的Jiku数据集，[4]中提供了通过仔细的听力测试获得的地面实况对齐。请注意，[4]中的地面实况与我们的评估系统不直接兼容，我们进一步将数据转换为另一种格式。在文献中，基于示例查询的音频索引方案在[5通常的方法需要从音频序列中提取二进制指纹，并且序列之间的精确指纹匹配的数量用于确定是否存在匹配。然后，对于每个匹配对，使用时间戳计算相对偏移在这些方法中使用的两种流行的音频指纹方案是Wang [12]和Haitsma等人[2]。[12]提取频谱峰值（界标），并且频率仓和时间差之间的差被编码为指纹。此方法在[13]中实现，其在[1]中用作基线其他方法利用相似性度量，例如互相关[9，14，15]或汉明距离[15]。利用这种相似性度量的方法通常通过使用阈值方法来对每对序列应用匹配然后，具有最高值（最相似）的相对偏移被接受为最佳估计。除了二进制指纹，频谱平坦度，过零率，信号能量，上下文和位置感知元数据被用作这些方法的特征。该文件的组织如下：首先，软件体系结构，在第2节中描述，然后在第3节中给出的软件的影响。在第4节中，给出了结论，并在代码元数据表中的手稿末尾提供了软件的元数据2. 软件描述2.1. 软件构架该软件由三个主要部分组成• 特征提取模块• SMC主模块• 评估模块特征提取和SMC主要模块用Matlab编写，评价模块用Python编程语言编写。该软件的整体系统架构如图所示。1.一、将待对齐的音频文件送入特征提取模块，然后将提取的特征序列送入SMC主模块，实现序列的对齐SMC主模块的结果，即，将具有相应偏移估计的所得群集列表馈送到评估模块中在该模块中，按照[1]公式10中的精度公式计算结果的精度。每个模块的详细信息见第2.1.1Fig. 1. 系统架构总体框图。2.1.1. 特征提取模块我们遵循Haitsma等人在[2]中提出的指纹识别方法，参数在[1]表3中给出指纹提取过程的框图在图中给出。二、该模块将数据集文件夹的路径作为输入，然后将提取过程分别应用于每个文件。该模块返回一个“struct”类型的输出超参数，SMC的最小样本数。请注意，数据集中的音频文件有一个命名约定，如下所示：micirecj其中i表示相机索引，j表示相机i拍摄的记录索引。例如，对于第二个摄像机的第四个记录，我们使用“mic2_rec4”。wav“。目前，该软件接受波文件然而，作为输入，任何音频格式都是可接受的，只要Matlab的“audioread”功能与该格式兼容。2.1.2. SMC主模块这是计算对准估计的主要模块。模块输入是在特征提取模块中创建的“struct”类型。它返回已连接序列的聚类、每个聚类的相对偏移量以及过程除了其他内部功能外，主要对齐过程由其他两个模块处理：顺序比对模块：顺序比对方法在[16]中提出。该模块是该方法的实现，经过修改以适应SMC采样器。该模块的输入是具有其相对偏移的当前聚类列表（序列的预对齐的连接组）、要对齐的序列的列表和由特征提取模块创建的结构在该模块的运行中，它逐一遍历要比对的序列列表中的所有序列，并通过SMC核心模块计算该列表中的SMC核心模块需要起始分辨率和搜索空间信息来绘制样本并在分辨率之间移动。然后根据SMC核心模块的比对估计，将待比对序列分为与当前簇连接或断开的根据该分类，模块更新当前聚类和非聚类列表。非聚集列表保存未连接到当前聚集的序列。更多详情请参见[16]。图1中给出了一个待对齐序列u的该过程的框图。其中当前聚类和结构输入分别由C和θ表示。D. Basaran，A.T. Cemgil和E. Anarim / SoftwareX 8（2018）3335SS==-ˆˆS=俄.西（L/2）图二. 特征提取模块。图三. 顺序比对模块的框图。该模块的输出包括当前聚类和相应相对偏移的更新列表以及序列的未聚类列表。SMC核心模块：这是主要模块，其中SMC采样器机制通过不同的分辨率应用于比对序列。有关SMC取样程序的详细描述，请参见[1图图4是设计用于在分辨率之间移动样本的前向内核的框图，对于分辨率为L的样本（L）给出。的搜索空间pS2。根据随机移动来更新（缩短）候选列表r该过程继续，直到仅存在两个候选样本，并且其中一个被选择为下一个样本r（L）。请注意，移动样品直到分辨率L2.在最后一步，从L2至L1我们简单地计算所有候选者的得分并选择具有最大得分的候选者作为比对估计R即，Rarg max（1）（Φ（r（1）。S俄.西分辨率L/2的对准被设置为使得样本不会移动到空间的不相关部分。候选样本在高分辨率中，L/2被提议为r（L/2）。这些候选人在该实现中，样本彼此独立地移动，然而在每个分辨率跳跃结束时计算有效样本大小（ESS），这需要所有样本如果ESS低于某个阈值[17]，则应用复位。S（L/2）（L/2）被分成两个重叠的组，rS1和rS2。样本r（L）被随机移动到其中一个窗口，其概率与每个组的总概率pS1成比例，模块获取起始分辨率级别、具有相对偏移量的当前聚类、要对齐的序列以及由特征提取模块创建的结构体作为其他参数。的36D. Basaran，A.T. Cemgil和E. Anarim / SoftwareX 8（2018）33======图四、一个样本的SMC主程序框图-最多L = 2。重新格式化该信息以适合于如下所Sequence1这只需要进行一次，软件提供格式化的比对估计也以相同的格式格式化，以便可以对每个配对关系进行评分。2.2. 基线图五. 一个序列的SMC核心模块输出示例。该模块的输出是目标序列和当前簇之间的比对估计和重叠量SMC核心模块的示例输出可以在图5中找到。在该示例中，要比对的序列是队列中的第四个序列。在每个分辨率步骤，打印分辨率L、最佳偏移r（以帧和秒为单位）。在最后一个（最高）分辨率中，对于r获得最高分数1表明这些序列并不重叠1决定将序列分配给当前聚类的结果打印出来。2.1.3. 评估模块该模块计算SMC主模块提供的结果的准确度（参见[1]第4.2节）。该软件使用Jiku移动视频数据集[3]中的一个数据集进行评估对于这个数据集，地面实况信息在[4]中可用，但在测量准确性时格式不兼容。我们1r1表示序列和当前簇之间的非重叠比对估计，因此Φ（r1）给出非重叠比对估计的得分。[13]中基于示例查询的指纹识别软件应用于Jiku数据集作为基线。该软件不直接适用于校准问题，因为它被设计为将音频与数据库相匹配。在这里，我们简单地尝试从完全匹配的指纹的数量匹配所有的序列对，并从指纹的时间信息计算相对偏移。更详细的描述可以在第二节中找到[1]中的4.1匹配/不匹配决策的阈值通过网格搜索进行调整。2.3. 执行问题在基于SMC的对准系统的实现中，有几个问题需要解决。首先，当样本通过更高的分辨率时，需要在每一步检查[1]第4.1节中给出的两个约束，以防止样本跳到不可能对齐的空间除此之外，防止样本跳到非重叠对齐r1，如[1]第3.3节所述，仅在最高分辨率下计算r1。在某种程度上，SMC采样器找到最佳重叠对齐场景，然后将最佳重叠对齐得分与非重叠对齐r1得分进行比较。SMC采样器的两个重要参数是相关的样本数量和低分辨率水平的D. Basaran，A.T. Cemgil和E. Anarim / SoftwareX 8（2018）3337=-=∗ −SMC采样器开始的最低分辨率由两方面决定：要对齐的每个序列的长度必须大于1，并且在开始分辨率下，样本的数量必须大于预定义的最小样本数量在软件中，分辨率从最低可能值开始，然后增加，直到满足这两个标准在这里，我们选择分辨率级别的数量为12，包括原始分辨率。请注意，每降低一个分辨率，序列的长度就会减半。作为示例，假设序列的长度在原始分辨率中是N（0）512。在第由于该序列不能有更低的分辨率，因此低于9的分辨率的长度被接受为零。请注意，在顺序过程中，序列最初根据其长度以降序排列，如[16]所示。初始排序直接影响过程的计算时间在最坏的情况下，其中在地面实况中没有序列与另一序列重叠，序贯方法应用类似于蛮力的K（K1）/2成对比对当没有关于序列比对的信息时（这是通常的情况），我们直观地假设较长的序列更有可能与其他序列重叠。其他排序，例如对由同一相机记录的序列进行分组，也是可能的。3. 影响随着记录设备和应用的激增，用户生成的内容共享变得越来越利用描述同一视听事件的多个基于时间的音频和视频数据可能会导致显著的内容增强和创新应用[18]，例如恢复[19]，混音[20]或重制。然而，这样的应用必须克服多时间-直径事件的时间同步。反过来，多媒体内容的同步已经成为一个活跃的研究领域。与建议的软件，我们的目标是解决多个多媒体（音频/视频）内容的同步或对齐，利用SMC采样器在多分辨率设置。据我们所知，我们在[1]中提出的方法是多音频对齐框架中第一个基于SMC采样器的多分辨率方法。所提出的方法已被证明与基于基线指纹的对准方法相比具有竞争力，其中适当地选择参数，即，超参数、中间分辨率的数量、样本的数量。拟议的软件有几个优点，可能导致4. 结论提出了一种基于SMC采样器的多分辨率音频序列对齐软件该软件提供了一个独特的实现多分辨率对齐，一个向前的内核，通过分辨率移动样品。特征提取和其他功能的参数可以很容易地调整为不同的实验设置。[1]中报告的结果注意，所提供的软件可以以若干方式在计算效率方面被增强首先，顺序对齐模块和SMC核心模块都适合并行计算。作为一种策略，可以将数据集分成更小的组，并并行地对每个组应用顺序对齐，然后合并每个组的结果在SMC核心模块中，每个样本都独立地通过分辨率移动。并行计算每个样本移动，然后合并ESS计算的结果，将是提高计算效率的直接策略。已经观察到，软件的计算时间根据音频信号的初始排序而显著改变通过一些属性（如语音，音乐，噪声，类似于[15]的静音）对音频信号进行预分类，并以连续的方式对连接的序列进行排序，这肯定会加快软件的速度。除了这些改进之外，直接从评分函数Φ（r）采样而不是顺序比对序列的采样策略仍然是未来的研究主题。引用[1] 放大图片作者：J.使用顺序蒙特卡罗采样器的多个不同步音频序列的多分辨率对齐DigSignalProcess2017，ISSN1051-2004，https://doi.org/10.1016/j.dsp.2017.10.024。[2] 作者：J.一个非常强大的音频指纹识别系统。见：音乐信息检索，第三届国际会议，2002年。p. 107比15[3] Saini M，Venkatagiri SP，Ooi WT，Chan MC. jiku移动视频数据集。第四届ACM多媒体系统会议论文集。New York，NY，USA：ACM; 2013.http://dx.doi.org/10.1145/248397p. 108–13http://doi.acm.org/10.1145/2483977.2483990网站。[4] Guggenberger M，Lux M，Böszörmenyi L. jiku移动视频数据集的同步地面实况见：何晓，罗松，陶丹，徐聪，杨杰，马哈桑，编辑。多媒体建模：第21届国际会议，会议录，第二部分。出版社：Springer International Publishing;2015。第87-98页。http://dx.doi的网站。org/10.1007/978-3-319-14442-9明确研究方向。首先，它基于概率-[16]中给出的tic模型，其中该模型可以通过适当选择观察模型来适应任何特征因此，有可能设计一个类似的系统，利用不同的功能，而不是二进制。其次，评估结果表明，得分函数Φ（r）很好地适应于多音频对齐的多分辨率设置。它可以使用不同的优化技术，而不是建议的贪婪顺序方法。如[1]所述，一个明确的研究方向是找到一种多分辨率采样策略，直接从K序列比对的评分函数中采样。除此之外，除了能够从粗糙，多模态和多维密度中采样外[17]，SMC采样器在设计上非常灵活。前向核和中间分布是SMC框架中的关键设计方面请注意，所提出的内核不是该问题的唯一解决方案，不同的内核设计也适用。所提出的多分辨率对齐策略也可以用于其他应用领域，例如图像拼接，其中来自不同视角但相同视觉内容的图像被组装以获得全景视图[21]。[5] Dimoulas CA ， SymeonaAL. 通过视听双峰分割同步共享多媒体 IEEEMultiMedia 2015;22（3）：26-42. http://dx.doi.org/10.1109/MMUL.2015.33。[6] 蔡天杰，施托克 . 对不同步的会议录音进行强大而高效的多重对齐。IEEE/ACM TransAudio Speech Lang Process 2016;24 （ 5 ）： 833-45.http://dx.doi.org/10.1109/TASLP.2016.2526787网站。[7] Su K，Naaman M，Gurjar A，Patel M，Ellis DP.制作场景：基于成对音频匹配的完整剪辑集对齐。第二届ACM多媒体检索国际会议论文集。ACM;2012年。p. 26岁[8] 作者：Kennedy L，Naaman M. Less talk，more rock：自动组织社区贡献的音乐会视频集。第18届万维网国际会议论文集。2009. p. 311-20[9] BryanNJ，Smaragdis P，Mysore GJ.通过地标互相关聚类和同步多摄像机视频。在：声学，语音和信号处理，2012年IEEE国际会议。IEEE;2012年。p.2389 -92.[10] Shrestha P，Barbieri M，Weda H，Sekulovski D.使用视听功能同步多个摄像机视频。 IEEETransMultimedia2010;12 （ 1 ）： 79-92.http://dx.doi.org/10.1109/TMM.2009.2036285网站。[11] ShresthaP，Weda H，Barbieri M，Aarts EH，等.从多摄像机音乐会录音自动生成混搭。在：多媒体国际会议的会议记录。ACM;2010年。p. 541-50[12] Wang A.一种工业级音频搜索算法。见：音乐信息检索，第四届国际会议，2003年。p. 7比13[13] 埃利斯 ·D 鲁棒的基于地标的音频指纹。 2009. http://labrosa.ee 的网站。columbia.edu/matlab/fingerprint/，网络源，可用。38D. Basaran，A.T. Cemgil和E. Anarim / SoftwareX 8（2018）33[14] Kammerl J，Birkbeck N，Inguva S，Kelly D，Crawford AJ，Denman H，Kokaram A，Pantofaru C.多个音频信号的时间同步2014年IEEE声学、语音和信号处理国际会议。2014.第4603-7页。http://dx.doi.org/10.1109/ICASSP.2014.6854474网站。[15] Shrestha P，Barbieri M，Weda H.基于音频的多摄像机视频录制同步。第15届ACM多媒体国际会议论文集。New York，NY，USA：ACM; 2007.p. 545/dx.doi.org/10.1145/1291233.1291367 。 http://doi.acm.org/10.1145/1291233的网站。 1291367。[16] 放大图片Basaran D，Cemgil A，Anarim E.一种基于概率模型的多音频序列对齐方法。 IEEE/ACM TransAudio Speech Lang Process 2015;23 （ 7 ）： 1160-71.http://dx.doi.org/10.1109/TASLP.2015.2419972网站。[17] 放大图片作者：Del Moral P，Doucet A.顺序蒙特卡罗采样器。J R Stat SocSer BStat Methodol 2006;68（3）：411-36。[18] 红巨星多眼。红巨星http://www.redgiant.com/products/pluraleyes/.[19] Cotton CV，Ellis DP.音频指纹识别，用于识别事件的多个视频。在：声学语音和信号处理，2010年IEEE国际会议。IEEE;2010。p. 2386-9[20] Ojala J，Mate S，Curcio IDD，Lehtiniemi A，Väänänen-Vainio-Mattila K.移动视频混音的自动创建：三个事件环境中的用户试用。第13届移动和无处不在的多媒体国际会议论文集。New York，NY，USA：ACM; 2014.第170- 179页。http://dx.doi.or/10. 1145/2677972.2677975。[21] Brown M，Lowe DG.利用不变性特征实现全景图像的自动拼接。Int J ComputVis2007;74（1）：59-73.

下载后可阅读完整内容，剩余1页未读，立即下载