沙特国王大学学报一种基于CLS-LBP特征和LSTM的Hussain Dawooda,Sajid Saleema,Farman Hassanb,Ali Javedba吉达大学计算机科学与工程学院计算机与网络工程系,沙特阿拉伯吉达b工程技术大学软件工程系,塔克西拉,47050旁遮普,巴基斯坦阿提奇莱因福奥文章历史记录:2021年10月22日收到2022年2月23日修订2022年2月26日接受2022年3月22日在线提供保留字:ASV系统Center-Lop-Sided Local Binary PatternsLSTM逻辑访问攻击物理访问攻击语音欺骗检测A B S T R A C T自动说话者验证(ASV)系统易受各种语音欺骗攻击的攻击,例如,重放、语音合成等。冒名顶替者/欺诈者通常使用不同的语音欺骗攻击来欺骗ASV系统以实现某些目标,即,绕过某人的家或从银行账户偷钱等的安全性为此,我们提出了一种新的特征描述符中心Lop-Sided本地二进制模式(CLS-LBP)的音频表示。CLS-LBP有效地双向分析音频,以更好地捕获合成语音的伪像、重放的麦克风失真和真实信号的动态语音属性。提出的CLS-LBP特征用于训练长短期记忆(LSTM)网络,以检测物理(重放)和逻辑访问攻击(语音合成,语音转换)。我们采用LSTM是因为它可以更好地处理和学习序列数据的内部表示。更具体地说,我们获得了0.06%的逻辑访问(LA),而0.58%的物理访问(PA)攻击的等错误率(EER)值此外,所提出的系统还能够检测看不见的语音欺骗攻击,并且还足够鲁棒以在用于合成语音的克隆算法之间进行分类。对ASVspoof 2019语料库的性能评估表明,该系统在检测物理和逻辑访问攻击方面的有效性超过了现有最先进的语音欺骗检测系统。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍自动说话者验证(ASV)系统目前通常用于各种设备中,例如,手机、智能音箱(Amazon Alexa、Google Home)等,为了验证各种应用领域的任何人的身份,即,例如,在iPhone中,Siri或Google Home从其用户获得基于语音的命令以执行若干动作,例如,日程安排提醒,在互联网上搜索,打电话或发短信给某人,解锁手机,天气检查等,(Delfino,2021)。ASV*通讯作者。电子邮件地址:hdaoud@uj.edu.sa(H. Dawood)。沙特国王大学负责同行审查由于最近的COVID-19情况,基于认证的认证变得越来越重要,其中由于健康问题,其他生物测定验证(如指纹扫描和基于密码的验证系统)受到阻碍。因此,语音生物识别技术正在成为用户认证的热门。 除了ASV用于用户认证的益处之外,ASV系统容易受到许多语音欺骗攻击,诸如重放、语音合成、语音转换(VC)等,可以用来实现某些任务,例如控制某人的家庭或银行账户等。最近,我们目睹了一些情况,其中入侵者使用不同的语音欺骗攻击来欺骗ASV系统,以进行潜在的欺诈。最近在美国,有投诉指劫匪利用一间公司的行政总裁的虚假演说,欺骗其雇员将资金转入一个秘密账户(Harwell,2021)。为了应对ASV系统的潜在局限性,研究界正致力于开发鲁棒的语音反欺骗系统,为ASV系统提供保护层,以抵御不同的语音欺骗攻击。https://doi.org/10.1016/j.jksuci.2022.02.0241319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comH. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7301通过使用录音、操纵或模仿来改变原始音频信号,可以产生欺骗性语音样本。现有的语音欺骗攻击可以分为物理访问攻击,即,重放(Alegre等人,2014; Rosenberg,1976),或逻辑访问攻击,即,语音合成(Yamagishi等人,2009; Lindberg和Blomberg,1999)、VC(Evans等人,2009;Zen等人, 2009年)。在语音转换中,由注册的说话者说出的语音被合成地生成为与已经注册的说话者非常相似的声音。语音合成表示机器生成的目标说话人的声音。在重放欺骗攻击中,模仿者记录注册发言人的声音并播放到ASV系统,以代表注册发言人授予访问权限。 我们在图中提到了两种情况。1,入侵者可以使用重放和语音合成/克隆攻击来利用ASV的漏洞来对抗欺骗攻击,并获得对某人的家庭或组织的访问。图1(a)中所示的是重放攻击的场景,其中诸如家庭中的空调(AC)之类的设备可经由移动应用远程访问这些家庭设备可以通过智能扬声器进行控制,例如,Google Home等,其中我们可以通过移动应用程序向智能扬声器发送各种命令考虑一种情况,入侵者使用一些隐蔽设备来记录真正扬声器的语音命令,然后在Google Home设备前播放重播音频以控制家庭的AC系统接下来,我们介绍一个语音克隆攻击的场景,如图所示。 1(b),如果医疗保健公司的工作人员使用诊所中的临床应用程序,可通过移动应用程序远程访问临床应用程序可通过智能扬声器进行控制Sonos One、苹果HomePod、亚马逊Echo Alexa等,其中临床工作人员可以使用移动应用程序向智能扬声器发送各种命令。工作人员使用临床应用程序以口头及远程方式输入大量数据,以尽量减少手动输入数据时所面临的错误及遗漏考虑一个欺骗场景,其中入侵者使用复杂的克隆算法从文本或语音样本中人为地生成针对真实说话者的合成语音样本。之后,入侵者在SonosOne面前播放合成语音,以访问临床应用程序。现有的语音欺骗对策已被提出来解决物理访问(PA)和逻辑访问(LA)攻击。在Witkowski等人(2017)中,采用了逆梅尔频率倒谱系数(IMFCC),线性预测倒谱系数(LPCC),LPCCres特征来分析 音 频 表 示 的 高 频 带 。 这 三 个 光 谱 特 征 被 馈 送 到 高 斯 混 合 模 型(GMM)用于分类的bonafide和重放样品。Yang等人(2018)探索了从常数Q变换和倍频程功率谱的固定重采样中提取的扩展常数Q倒谱系数(eCQCC),以获得线性功率谱。将倍频程和线性谱的系数连接以获得eCQCC特征。接下来,这些特征与深度神经网络(DNN)一起使用,用于分类真实和欺骗图1.一、语音重放和克隆攻击的例子H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7302样品Malik(2019)采用高阶谱分析(HOSA)特征来捕获真实和克隆语音样本的区分属性对HOSA特征进行线性统计检验和Chettri和Sturm(2018)使用混合特征向量,包括IMFCC、Mel频率倒谱系数(MFCC)、线性滤波器倒谱系数(LFCC)、矩形滤波器倒谱系数(RFCC)、频谱质心幅度系数(SCMC)和CQCC特征,通过采用GMM对真实和欺骗音频进行分类。与ASVspoof 2019数据集的PA集合的评估集相比,该模型在开发集上提供了更好的此外,由于增加了特征计算成本,这种方法(Chettri和Sturm,2018)在计算上很复杂最近,研究人员致力于检测语音重放(Kamble和Patil,2020; Malik等人,2020年;林例如,2020; Kamble和Patil,2021; Phapatanaburi等人,2020)和语音合成攻击(Elsaeidy等人,2020; Gritsenko等人,2020; Krishna等人,2020; Helali等人,2020; Bird等人,2020; Raju等人,2020年)。然而,现有的语音反欺骗方法具有一定的局限性,即,语音样本缺乏面向说话者的修改、高特征计算成本、单一欺骗类型检测器等。在实践中,对ASV系统的攻击类型大多是未知的。不幸的是,可以应对未知语音欺骗攻击的一般化对策尚未得到彻底探索。因此,欺骗对策需要以最普遍的方式进行训练,以有效地捕获许多PA和LA攻击的特征的不同性质。尽管如此,仍然需要开发一种鲁棒的欺骗对策,其可以准确地检测各种PA和LA语音欺骗攻击。本文介绍了一种有效的语音欺骗检测方法系统来检测PA和LA攻击。为此,我们提出了一种新的特征表示方案中心Lop-Sided局部二进制模式(CLS-LBP),以更好地捕捉特征的gen-uine和欺骗音频样本。后来,我们使用我们的CLS-LBP特征来训练长短期记忆(LSTM)网络进行分类。LSTM网络对于更好地分析基于时间序列的数据的重要性鼓励我们将其用于分类目的。此外,所提出的系统是能够准确地分类用于合成的bonafide样本的克隆算法。我们评估了所提出的技术在ASVspoof 2019语料库的PA(bonafide和重播样本)和LA集(bonafide,语音合成和语音转换)上的性能。本文的主要贡献如下:我们提出了新的声学CLS-LBP特征,通过从音频信号中双向提取信息来可靠地我们提出了一个强大的语音欺骗检测系统,可以dependentionly被用来检测物理和逻辑访问攻击。我们的欺骗检测系统也能够检测到看不见的合成语音攻击。我们的系统具有检测用于合成真正的音频的算法的类型的能力我们对ASVspoof 2019语料库进行了严格的实验,以评估我们的欺骗检测器对现有技术的重要性其余文件的结构如下。第二详细分析了现有的语音欺骗检测系统。第3节介绍了我们的方法的细节。第四部分是实验和讨论的细节,第五是结论。2. 相关工作相关工作部分对现有的语音欺骗对抗方法进行了重要的分析和讨论。现有的欺骗对策已经采用频谱或深度特征用于音频信号表示。此外,当前的方法使用传统的机器学习或基于深度学习分类器的方法。我们在本节中讨论了所有这些变体。2.1. 光谱特征方法ASV研究界提出了各种语音欺骗对策(Kamble和Patil,2020年;Malik 等 人 , 2020;Lin 等 人 , 2020; Kamble 和 Patil , 2021;Phapatanaburi等人,2020; Banaras等人,#20201;,以应对恐怖袭击。Kamble和Patil(2020)采用GMM的可变长度teager能量倒谱系数来检测语音重放攻击。 Malik等人(2020)介绍了声学三元模式-伽马倒谱系数(ATP-GTCC)特征,用于语音控制物联网设备中的重放欺骗检测。采用纠错输出码模型对ATP-GTCC特征进行多类支持向量机(SVM)分类器的Lin等人(2020)采用Teager能量算子(TEO)确定子带能量的运行近似,并利用这些特征训练GMM对真实和重放信号进行分类。Kamble和Patil(2021)使用线性预测残差(LPR)信号代替原始语音信号来修改传统的CQCC。采用线性预测残差等Q倒谱系数(LPR-CQCC)特征结合CQCC特征训练GMM,以区分真假音频。在(Alluri和Vuppala,2019)中,采用单频倒谱系数(SFCC)、零时间窗倒谱系数和瞬时频率倒谱系数等三个特征来检测合成语音攻击。GMM被用作后端分类器来分类真实音频和欺骗音频。在Alluri等人(2017)中,采用在每个时刻提供频谱和高时间分辨率的单频滤波来检测重放攻击。将SFCC馈送到GMM中以分类真实音频和欺骗音频。现有的对策(Elsaeidy等人,2020; Gritsenko等人,2020;Krishna 等 人 , 2020; Helali 等 人 , 2020; Bird 等 人 , 2020;Raju等人,2020; Hassan和Javed,2021; Qadir等人, 2022)也探索了用于LA攻击检测的各种光谱特征。Gritsenko等人(2020)探索了克隆语音信号和真实语音信号的扩散之间的能量差异。语言和音高特征被馈送到深度神经网络(DNN)进行分类。Krishna等人(2020)探索了用于语音合成的脑电图(EEG),并使用递归神经网络(RNN)回归模型进行分类。 Helali等人(2020)融合感知小波包(PWP)和MFCC来训练SVM,用于真实语音和合成语音的分类。 在De Leon et al. (2012)提出的GMM算法,利用改进的群时延(MGD)、相对相移(RPS)和MFCC特征对GMM进行训练,实现对合成语音的检测。现有的欺骗检测方法也被提出来使用频谱或深度特征来解决PA和LA攻击。Das等人(2019)使用了从长期恒定Q变换(CQT)中导出的远程声学特征来检测PA和LA攻击。光谱特征,即,Das等人(2019)使用MFCC、LFCC、CQCC、瞬时频率余弦系数和eCQCC来训练GMM和DNN分类器,以检测PA和LA攻击。这些特征的融合与DNN分类器表现出更好的性能。然而,●●●●●H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7303权左左MFCC和LFCC的融合在ASV- spoof 2019 LA语料库的开发集上降级Tak等人(2004)使用CQCC和LFCC来训练GMM以分类欺骗和真实样本。Tak等人(2004)得出结论,LA集的A17欺骗算法在线性缩放的CQCC和LFCC上的性能最差。Das等人(2020)探索了CQCC,eCQCC和常数Q的概率加主信息系数特征,以训练DNN来检测PA和LA攻击。该方法在开发集上提供了比ASVspoof 2019语料库的评估集更好的性能。2.2. 基于深度学习的方法分析深度学习的重要性也被ASV研究界所利用,并提出了各种基于深度学习的语音欺骗对策,以应对PA以及洛杉矶袭击事件。现有对策(Zhai和Vamvoudakis,2020年; Singh和Pati,2020年;Huang和Pun,2020年; Adiban等人,2019; vonPlaten等人,2002;Gong等人,2020; Aravind等人,2008; Wang例如,2019年; Zhang等 人 , 2020; Saranya 和 Murthy , 2018;Suthokumar 等 人 , 2018;Chettri等人,2018; Biaobrzeski等人, 2019)已经探索了各种深度学习方法来检测重放攻击。Tak等人(Wang等人,2019)采用线性频率残差倒谱系数(LFRCC)与CNN进行语音重放检测。LFRCC在PA的发育集上具有较好的检测性能,但在评估集上表现不佳。Zhang等人(2020)通过集成ResNeXt和DenseNet进行语音重放攻击,引入了通道一致性DenseNeXt。采用MFCC、LFCC、CQCC特征对DNN进行训练,对欺骗音频和真实音频进行Saranya和Murthy(2018)引入了Mel滤波器组斜率(MFS)和线性滤波器组斜率(LFS)功能,用于检测GMM的重放攻击。MFS捕获低频,而LFS捕获分别对应于低质量和高质量记录设备的高频信息。在Suthokumar等人(2018)中,从调制频谱中提取了短期频谱特征和长期频谱平均特征,以分析信号的静态和动态特性。长期谱平均法捕捉语音信号调制谱的静态特性。GMM被用来对重放信号和真实信号进行分类。Chettri等人(2018)采用瞬时频率余弦系数、离散余弦变换和残余梅尔频率倒谱系数来训练卷积神经网络,以分类真实和重放信号。Biaubrzeski等人(2019)探索了贝叶斯神经网络(BNN)和光卷积神经网络(LCNN)来检测重放攻击。BNN在小规模数据集上的性能更好,但是无法在ASVspoof 2019这样的大规模数据集上很好地推广。研究社区致力于各种语音欺骗探测器(Janyoi和Seresangtakul,2020; Michelsanti等人,2004;Valle等人,2005; Koriyama和Saruwatari,2020; Zhou例如,2020年,袭击。Janyoi和Seresangtakul(2020)提出了一种基于RNN的基频(F0)模型,并结合他们的语言特征来表示F0轮廓的超音段特征。Valle等人(2005年)提出了一种用于合成语音检测的生成网络Flowtron。该模型学习可以被改变以控制语音合成的不同方面的数据的逆映射(即,音调、语速、口音、音高等)。Koriyama和Saruwatari(2020)介绍了用于音频序列建模的深度高斯过程(DGP)模型。DGP由许多层组成,称为贝叶斯核回归。贝叶斯模型的训练可以考虑模型的复杂性。采用简单递归单位对真、假单胞菌进行分类,研究界还研究了许多深度学习技术(Malik,2019;Gomez-Alanis等人,2019;Lavrentyeva等人,1904; Zeinali等人,2019年),以解决PA和LA的攻击。在Malik(2019)中,基于LCNN的系统被用来检测PA和LA攻击。LCNN架构的潜在好处Alanis等人(2019)采用了光卷积门控递归神经网络(LC-GRNN)进行深度特征提取,然后用于训练SVM、线性判别分析和概率线性判别分析,以检测PA和LA攻击。Lavrentyeva等人(1904年)探索了使用简单的基于能量的语音活动检测器和LFCC特征来训练Gomez-Alanis ee LCNN用于分类的效率。Zeinali等人(2019)采用了mel滤波器组、MFCC、常数Q变换、CQCC和具有视觉几何组的功率谱图来检测真实和重放/克隆的声音。3. 拟议方法本节将讨论建议的语音欺骗对策。我们的新特征提取方案的细节,即,文中还详细讨论了CLS-LBP算法。我们设计了一个由10个LSTM层组成的LSTM网络,该网络使用提出的CLS-LBP特征进行训练,以对真实和欺骗音频进行分类。我们的方法的架构如图所示。 二、3.1. 提出特征的动机为了开发一种鲁棒的方法,可以准确地检测各种语音欺骗攻击,如PA(重放)和LA(语音转换,TTS合成)攻击,我们需要一个特征描述符,可以捕获真实的扬声器人声,生成算法特征和麦克风指纹的动态特性。为此,我们提出了一种新的CLS-LBP特征描述符,它分析了时域音频信号在向前和向后两个方向上的局部变化。通过仅分析中心样本的8个相邻样本,我们的CLS-LBP特征可以有效地提取真实语音的声音动态特征、麦克风指纹和生成算法伪影的微小细节。因此,使其成为一种可靠的语音欺骗检测方法。3.2. 特征提取对于一个强大的语音反欺骗系统,我们需要开发一个有效的特征描述符,能够捕捉重放信号的失真为了实现这一目标,我们提出了一种新的CLS-LBP描述符的音频表示。CLS-LBP特征从音频中双向提取区别性信息图 3描述了所提出的CLS-LBP算法的框架。具有N个样本的输入音频信号Y[n]被划分为i={1,2,.. . ,k}个非重叠窗口W(i),长度l= 9。在每个窗口W(i)中,p表示帧中的中心样本,并且具有四个右邻居q=i,i和四个左邻居q=i,其中i表示相邻样本的索引。通过对音频信号Y[n]的每个窗口W(i)进行编码来计算CLS-LBP特征为了计算CLS-LBP模式,我们比较了左右两个方向,相邻样本与中心样本p,并将其设置为1或0欺骗样本。取决于左邻居的值右邻H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7304左权权权左左权在这个过程中,我们生成一个四位的二进制代码对每个窗口的音频信号。>左权>Sq i;q i左权的q1和q4>左权图二. 建议的语音欺骗检测系统。吉吉使用阈值t围绕p。 我们用了线性搜索-q= 20的大小较小,q= 30的大小大权左权用这种方法来确定t的值。为此,我们ini-than(p+t),因此,我们将代码0分配给W12(图3a)。在将t的值初始化为零并优化它以找到收敛性第三步,我们比较了q和q对左右0和1之间的点更准确地说,我们得到了不 = 0.00001,因为在此阈值(p + t),并且由于两个邻居的幅度小于(p + t),所以我们将代码1分配给W 13(图13)。 3 a)。最后,在最后一次值如果两个q的大小和qi大于ð4Þð1Þð4Þ左(p+t)或q和i的大小权和qi小于第一步,我们将q左和q右与(p + t)进行比较。 当q的大小是更大的,q的大小是小于(p+t),所以我们(p+t),则样本的值被设置为1。其次,如果将代码0分配给W 14(图14)。 3 a)。这一过程对所有关于qi大于(p+t),q的大小为小窗口,以计算用于音频的CLS-LBP特征。than(p+t),则我们将sample的值设置为0。类似地,如果整个声学信号。建议CLS的二值函数-q的大小小于(p+t),LBP算法计算如下:吉吉大于(p+t),则我们也将其设置为0。使用此8>1;ifqi>ptandqi>第9页>>.联系 我们<(左 ¼;p;t权克伊普坦和克伊普坦<阿吉什< 普什特>==阿吉什窗口W的音频信号。我们计算CLS-LBP码左权0;如果q左p>p,且q右>p,<>> >对于每个窗口W(i),在四个步骤中。在第一步中,我们来-或q的大小为q=1和q= 4(p+t)。的幅度:>qi>ptandqi
;左权其中S(qi,qi,p,t)表示使用两个-或图图3(a)示出了一个实施例的CLS-LBP特征的计算。;101>H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报73051,如图11所示。3.第三章。在第二步中,我们比较q<$2和q<$3的大小对于(p+t),我们可以观察到,左右值中心不平衡局部二进制模式接下来,我们计算左权并将模式以其十进制值编码为大于(p+t),所以我们分配二进制代码H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7306XX.h图三. 声学中心不对称局部二进制模式(CLS-LBP)计算。3T r¼Sqi;p;t×2i;2i1/4其中Tr表示十进制形式的统一CLS-LBP码最后,我们计算Tr的直方图,并为每个均匀图案分配一个直方图箱,并将所有非均匀图案包括在单个箱中,因为均匀图案包含信号的最大信息(Malik等人, 2020年)。我们计算直方图如下:MRm当信息被存储在所有的记忆单元中时,此外,LSTM可以长时间记忆信息,旨在防止输入序列中元素之间的长期依赖性。因此,能够更好地分析关于输入序列的信息。我们在分类任务的拟议工作中使用了LSTM。该架构由LSTM单元(cell)的存储器部分和三个不同的调节器或门组成,即,输入门、输出门和遗忘门。图图4展示了在时间步长s处的信息流,其涉及门以更新、遗忘和输出单元并隐藏。登州。层的学习权重是输入权重m¼1其 中 x 表 示 对 应 于 均 匀 声 学 CLS-LBP 码 的 直 方 图 仓 , 且 d ( . )Kronecker delta函数我们进行了不同的实验,以确定第一个16个统一的模式足以捕获真实和欺骗信号的最大特征。因此,我们选择这些均匀模式的直方图来创建如图11所示的16维CLS-LBP特征描述符。 3(b)款。3.3. 分类3.3.1. 长短期记忆网络(LSTM)RNN在顺序建模任务中取得了显着的性能。为了处理不同输入的随机序列,RNN使用内部存储器,见图4。 LSTM cell(Hochreiter and Schmidhuber,1997).H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7307Zf Rfbf454545øZgZo-RgRo博格图五. LSTM架构。Z、递归权重R和偏差b。下面三个矩阵Z、R和b是每个模的Z、R和b的级联。Z、R和b连接为(Hochreiter和Schmidhuber,1997):2子 3 2日 3 2比 3Z<$6 7; R<$6 7; b<$6 7;(4)其中i、f、g和o分别表示输入门、遗忘门、单元候选和输出门在某个时间步长s处的状态中的细胞由cs= fscs1 + isgs给出,其中表示向量的元素乘(Hadamard乘积)。在某个时间步s处的隐藏状态由h s= o src(c s)给出,其中rc表示状态激活函数。与回归建模相比,时间序列数据在输入变量之间具有更复杂的序列依赖性。由于音频是时间序列信号,因此,需要有效地分析音频中的独特模式的序列。LSTM适合分析时间序列数据,因为它能够学习音频信号的短期和长期顺序依赖关系。LSTM使用各种门来提高捕获非线性关系和反馈连接的能力,以更好地分析输入数据的序列模式。LSTM中的递归状态通过保留信号中的先前信息来帮助学习时间序列音频信号的顺序因此,在这项工作中,我们使用LSTM网络进行分类。我们使用我们提出的CLS-LBP特征集来训练LSTM网络,用于LA,PA,已知和未知攻击检测。在所提出的系统中,我们采用了由10个LSTM层组成的LSTM网络,每层有100个隐藏单元,全连接层,然后是SoftMax层和分类层。我们在网络的末端添加了一个SoftMax层,用于对真实和欺骗音频进行分类。SoftMax是一种激活函数,用于通过将加权和值转换为概 率 来 归 一 化 输 出 ( machinelearningmastery.com , 2020 ) 。softMax函数产生两个类的实际概率分数,即,在我们的工作中欺骗和真诚。如果真实类的概率得分大于欺骗类的概率得分,则SoftMax层将样本预测为真实,而如果欺骗类的概率得分大于真实类的概率得分,则SoftMax层课此外,我们将每次迭代的最大epoch设置为20,minibatch大小设置为64,梯度阈值设置为1,并使用Adam优化器训练模型,因为我们在这些超参数设置上获得了最佳结果。我们的LSTM架构的细节在图中提供。五、4. 实验装置和结果本节介绍了为评估所提出的语音欺骗检测系统的性能而执行的实验的细节我们使用等错误率(EER),min-tDCF,准确度,精确度和召回率评估了ASVspoof 2019数据集的PA和LA集的性能我们使用MATLAB 2019进行实现。此外,我们使用了具有这些规格的计算机:Core i5第7代,12 GBRAM。4.1. 数据集ASVspoof挑战始于ASV-spoof 2015语料库的开发(Wu et al.,2015),其被开发用于评估语音合成/克隆检测系统。两年后,ASVspoof 2017语料库(Kinnunen等人, 2017年)发布,以评估重播检测系统。在2019年,ASVspoof chal- lenge提出了一个大型且多样化的公共数据集ASVspoof 2019的开发(Wang等人,2019年),以应对物理和逻辑访问攻击。ASVspoof 2019语料库(Wang等人, 2019)包括两组,即,LA和PA。ASV-spoof2019的LA集包含语音转换和语音合成样本以及真正的音频样本,而ASVspoof 2019语料库的PA集(Wang等人, 2019年)包括真正的和重播样本。此外,PA和LA集合都被进一步划分成三个子集,即,训练集、开发(dev)集和评估(eval)集。LA数据集由17个不同的TTS和VC系统创建的欺骗和真实语音数据组成。用于训练VC和TTS系统的数据来源于语音克隆工具包VCTK数据库(Veaux等人,2020年)。6个欺骗系统被标记为众所周知的攻击,其余11个是匿名的表1用于ASVspoof 2019 LA数据集的克隆算法的详细信息。逻辑访问训练样本开发样品欺骗系统算法类型输入输入处理器转换发言人代表输出波形发生器总样本22,80022,296––––––––A013,8003,716TTS神经波形模型文本NLPAR RNN*VAE*MCC,F0WaveNet*A023,8003,716TTS声码文本NLPAR RNN*VAE*MCC、F0、BAP世界A033,8003,716TTS声码文本NLPFF*一个热嵌入MCC、F0、BAP世界A043,8003,716TTS波形串接文本NLP推车–MCC,F0Waveformconcat.A053,8003,716VC声码言语(人类)世界VAE*一个热嵌入MCC、F0、BAP世界A063,8003,716VC光谱过滤言语(人类)LPCC/MFCCGMM-UBM–LPC光谱滤波+OLA表2ASVspoof 2019 PA数据集统计。PA样本总样本环境定义标签a B C攻击定义标签一BC重放设备质量OBminFLNRL培训54,000–––Dev29,700S:Room size(m2)2答:攻击者对谈话者10–5050–100>100完美INF0INFR:T60ms电话:+86-510 - 8888888传真:+86-510 -8888888距离(cm)高>10个<600>100Eval1,34,730DS:对话者10Q:重放设备完美高低质量低<10>600人<100ASV距离(cm)H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7307H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7308表3ASVspoof 2019 LA数据集的统计数据。LA示例培训25,380Dev 24,844 A01,A02,A03,A04,A05,A06,A07,A08,A09,A10,A11,A12,A13,A14,A15,A16,A17,A18,A19文本、语音(人类)、语音(TTS)、NLP、WORLD、LPCC/MFCC、CNN + bi +RNN*、ASR*WaveNet*,WORLD,波形采集,光谱滤波评价71,237 +OLA,Vocabulary,直型。攻击训练和开发集由已知攻击组成,而评估集由2个已知攻击和11个匿名攻击组成。LA套件包括4个TTS和2个VC系统。 VC系统使用基于神经网络和基于频谱滤波的方法(Matrouf等人, 2006),而TTS系统通过传统的源滤波器声码器使用波形级联或基于神经网络的语音(Morise等人, 2016)或基于WaveNet的声码器(Oord等人,2016年)。包含6个TTS、3个混合VC-TTS和2个VC系统的11个匿名欺骗系统采用了许多波形生成技术,这些波形生成技术是常规声码、GriffinLim(Griffin和Lim,1984)、生成对抗网络(Tanaka等人,2018 )、神经波形模型( Oordet al. , 2016; Wang 等人,2019)、波形级联、波形滤波(Kobayashi等人,2014)、光谱滤波以及它们的组合。ASVspoof 2017(Kinnunen等人,2017)数据集由真实的重放记录组成,而ASVspoof 2019(Wang et al.,2019)由模拟的(Janicki等人,2016; Campbell等人,2005; Novak等人,2015)在混响声学环境中重放记录以便增强在混响条件下的ASV可靠性(Ko等人,2017年;Roomsimove,2020年)。训练和开发集是根据27种声学和9种重放配置生成的。 房间大小分为三个区间,即,小房间、中房间和大房间。存在3组说话者到ASV的距离(Ds),即,短距离、中距离和大距离。每个物理空间在空间之间表现出混响可变性,即,天花板、地板、墙壁和在房间中的位置。混响的水平是根据T60混响时间提到的,有三个不同的类别,即,短、中、高。在三个不同的区域(A、B、C)中进行录音,每个区域代表与说话者的不同距离(Da)。与B区和C区相比,在A区捕获的记录被认为具有更好的质量。eval集的创建方式也与开发和训练数据集相同。表1中提供了克隆算法的统计数据,ASVspoof 2019语料库的PA和LA集的统计数据(Wang et al.,2019)分别见表2和表3。4.1.1. 实验方案在本节中,我们介绍了实验过程中使用的实验方案的细节。为了对PA数据集进行评估,我们使用了54,000个样本(5400个bonafide和48,600个spoof)的训练集来训练模型。而我们测试了我们的模型在dev和eval集上。开发集由29,700个样本(5,400个真实样本和24,300个欺骗样本)组成,评估集由1,34,730个样本(18,090个真实样本和116,640个欺骗样本)组成。为了评估LA数据集,我们使用了由以下内容组成的训练集:25,380个样本(2,580个bonafide和22,800个spoof)来训练模型。我们在dev和eval集上测试了我们的模型LA数据集的eval集包含71,237个样本(63,882个bonafide和7,355个spoof),而dev集包含24,844个样本(2548个bonafide和22,296个spoof)。为了评估克隆算法分类,我们使用整个训练集(22800)的欺骗样本来训练我们的模型,并使用整个开发集(22296)的欺骗样本进行测试该模型4.2. 结果和讨论4.2.1. 物理访问攻击本实验的主要目的是检查性能用于PA攻击检测的欺骗检测器。为此,我们使用所提出的CLS-LBP特征来表示PA集的音频样本,以训练LSTM模型来分类真实和重放样本。如表4所示,我们在eval和dev集上获得的EER分别为0.58%和2.91%,min-tDCF分别为0.016和0.072。从实验结果可以看出,我们的欺骗检测器在eval集上取得了显著的性能。我们的欺骗检测系统在CQCC-GMM基线模型上实现了更好的分类性能(Todisco等人,2017年)。特别是,我们得到的EER比使用CQCC-GMM基线模型在评估集上获得的EER小10.46%。这些实验结果表明,我们的欺骗检测器更好地检测对多样化和大规模ASVspoof 2019语料库的物理访问攻击(Wang等人,2019年)。我们可以从这个实验中得出结论,我们的CLS-LBP功能能够有效地捕获麦克风失真和重放样本中可用的指纹信息。4.2.2. 逻辑访问攻击该实验的主要目的是评估我们的欺骗检测器对LA攻击的性能。为了在LA数据集上进行实验,我们利用所提出的CLS-LBP特征并训练LSTM来对真实和欺骗样本进行分类(即,语音合成、语音转换等)。ASVspoof 2019 LA数据集获得的结果见表5。如表5所示,我们在评估集上实现了0.06%和0.0017的EER和min-tDCF,在开发集上实现了0.35%和0.0079的EER和min-tDCF。从结果中,我们可以看出,提出的欺骗检测器也取得了显着的检测性能,特别是在eval集。我们的系统实现了比CQCC-GMM基线模型更好的分类性能(Todisco等人,2017年)。更具体地说,我们实现了比CQCC-GMM基线模型获得的EER小9.51%的EER。实验结果表明,表4ASVspoof 2019 PA数据集上的结果。语料库EER%最小tDCF准确度%精密度%召回率%评价集0.580.016099.4299.9799.33开发集2.910.072096.1899.8995.49H. Dawood,S.Saleem,F.Hassan等人沙特国王大学学报7309表5ASVspoof 2019 LA数据集上的结果表8洛杉矶隐形袭击的结果语料库EER最小tDCF精度精度召回攻击EER %最小tDCF准确度%精密度%召回率%%%%%A070.370.008699.699.3899.67评价集0.060.001799.8199.9799.95A080.380.008999.499.3699.67开发集0.350.007999.6599.7599.85A099.470.240990.576.6599.57A100.370.008699.699.3899.67A110.370.008699.699.3899.67A120.380.008999.6