自然语言理解模型中的金丝雀提取及防御机制

196 浏览量更新于2023-11-30 收藏 1.04MB PDF 举报

自然语言理解

防御机制

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文联系我们自然语言理解模型中的金丝雀提取拉希尔·帕里克马里兰大学系统研究所克里斯托夫·杜普伊亚马逊Alexa AI拉胡尔·古普塔亚马逊Alexa AI摘要自然语言理解（NLU）模型可以在敏感信息（如电话号码、邮政编码等）上进行训练。最近的文献集中在模型反演攻击（ModIvA）上，该攻击可以从模型参数中提取训练数据。在这项工作中，我们通过提取插入NLU训练数据中的金丝雀来在攻击中，具有对模型的开放式访问的对手重建包含在模型的训练集中的金丝雀我们通过对金丝雀执行文本补全来评估我们的方法，并证明通过使用金丝雀的前缀（非敏感）标记，我们可以生成完整的金丝雀。作为一个例子，我们的攻击能够在NLU模型的训练数据集中重建一个四作为对策，我们确定了几种防御机制，当它们结合在一起时，在我们的实验中有效地消除了ModIvA的风险。1介绍自然语言理解（NLU）模型用于不同的任务，如问答（ Hirschman 和 Gaizauskas ，2001 ），机器翻译（ Macherey 等人，2002 ）。， 2001 ）和文本摘要（ Tas andKiyani，2007）。这些模型通常在可能包含敏感信息（如电话号码、联系人姓名和街道地址）的众包数据上进行训练。 Nasr 等人（2019）、Shokri等人（2017）和Carlini等人（2018）提出了各种攻击，以证明神经网络可以泄露私人信息。我们专注于一类这样的攻击，称为模型反演攻击（ModIvA）（弗雷德里克-森等人。，2015年），其中对手的目标是重建数据的子集，在此基础上训练受攻击的机器学习模型。我们还证明了已建立的ML实践（例如dropout）提供了对ModIvA的强大防御。在这项工作中，我们首先将称为“金丝雀”1的潜在敏感目标话语及其相应的输出标签插入我们使用这个增强的数据集来训练NLU模型fθ。我们对这个模型执行开盒攻击，即，我们假设对手可以访问模型的所有参数，包括单词词汇表和相应的嵌入向量。攻击采取文本完成的形式，其中对手提供金丝雀句子的开始（例如，“我的PIN码是”）并试图重构插入的金丝雀的剩余的私有令牌（例如，4位令牌的序列）。对fθ的一次成功攻击重建了插入金丝雀的所有标记我们将这种ModIvA称为在这样的攻击中，这个令牌重建被转换为一个优化问题，我们最小化模型fθ相对于其输入（金丝雀话语）的损失函数，保持模型参数固定。先前的ModIvA是在计算机视觉任务上进行的，其中在输入图像与其对应的嵌入之间存在连续映射。然而，在NLU的情况下，令牌到嵌入的因此，我们formulate一个离散优化攻击，其中未知的令牌最终表示的词汇长度的一个热一样的向量。词汇表中具有最高softmax激活的令牌预计是金丝雀的未知令牌。我们证明，在我们的攻击的最佳配置，金丝雀类型“ 我的 PIN 码是 K1 K2 K3 K4” ， Ki 0 ，1，. . .，9，1i 4，我们能够提取数字引脚k1k2k3k4，精度为0。5（使用简单的随机猜测策略，对四位数的组合进行猜测，其准确度的下限等于10−4）。[1]遵循Carlini et al. （2018年）arXiv：2203.13920v1 [cs.CL] 2022年3月+v：mala2277获取更多论文u1unu1unu1unu1un1995年u1un∈ui∈E（x）为x中的代币在以下情况下进行关节-帐篷分类（IC）和命名实体识别j=1e由于我们提出了一个新的应用程序ModIvANLU模型，对他们的防御是一个重要的道德考虑，以防止伤害，并探讨在第6节。我们观察到，通常用于正则化NLU模型的标准训练实践成功地阻止了这种攻击。2相关工作在隐私保护机器学习领域已经进行了大量的研究Shokri等人（2017）确定特定数据点是否属于训练集Xtr。这种攻击的成功促使了对它们的研究（ Truex et al. ，2019; Hayes et al. ，2017; Song and Shmatikov，2019）。Carlini etal.（2018）提出了深度网络中非预期记忆的量化，并提出了在Carlini et al. （2020），其中通过对模型进行采样来提取非常大的语言模型的训练数据中的实例。上面描述的攻击本质上是封闭的，对手不会将攻击视为优化问题，而是多次查询模型。开箱ModIvA最初在线性回归模型上得到证明（Fredrikson et al. ，2014）用于推断医疗信息。它已经扩展到计算机视觉任务，如面部识别（ Fredrikson et al. ， 2015 ）或图像分类（Basu et al. ，2019）。我们的工作是第一次尝试在NLP任务上执行ModIvAs3攻击设置我们考虑一个NLU模型fθ，给予话语。这类似于传统的学习问题，除了固定的模型参数和可学习的输入空间。在这项工作中，我们使用第4.1节中描述的NLU模型架构。3.1金丝雀提取攻击我们考虑一个金丝雀句子 xc=（ xp， xu），xc∈Xtr，其标记为（p1，. p m，u1..，u n）和输出标号y c∈Y。 xc中的前m个表示已知前缀xp（例如，“myis”）和接下来的n个令牌（u1，.，表示攻击者有兴趣重构的未知令牌（例如，“one two three我们将该金丝雀E（x c）的词嵌入的集合表示为（e p1，...，e pm，e0，..，e0）。识别xu中的n个未知令牌的普通攻击是通过直接优化L（f θ（E（x c）），y c）over（e0，.，e0），其中（e0，.，e0）被随机初始化。对应于（e0，..，e0），然后通过识别嵌入中最接近的向量来分配矩阵W使用距离度量（例如，欧几里德距离）。然而，我们的实验表明，这种策略是不成功的，因为更新是以非离散的方式执行的，而模型fθ具有离散的输入空间。因此，我们专注于执行离散优化，灵感来自放松分类变量以促进有效梯度流的工作（Jang et al. ，2016;Songand Raghunathan，2020），如图1所示。我们定义一个logit向量z i∈IR|V|为每个记号ui∈xu。然后我们应用softmax激活与温度T，以获得i∈ IR|V|：zi，vterancex作为输入，并使用单词嵌入eTai，v=| |zj，v不对于v = 1，2，.. . 、|V|（一）任务（Task）。我们假设一个对手对fθ具有开箱访问权，这意味着他们知道模型架构、训练参数θ、损失函数L（f（E（x）），y）、标签集Yai是对于T的低值，arg-max在logit向量上的可微近似。然后，该向量选择性地关注嵌入矩阵W∈IR中的标记|V|×d，结果为θ由模型和词汇表V支持的意图和实体的集合，词汇表V从词嵌入矩阵WIR获得|V|×d.然而，对手无法访问用于训练fθ的训练数据Xtr。对手的目标是重建（伪）子集x ∈ X t r。为了对fθ执行CEA，我们保持参数-tersθ固定并最小化关于未知输入的损失函数L（即，tokens）的嵌入（e0 ... e0级）用作输入，攻击时的模型e0=WT·aifor1≤i≤n（2）然后我们训练我们的攻击并优化ZIRn×|V|，其中Z =（z1，. . . ，z n）：Z=argminL（fθ（E（xc）），yc）（3）Z+v：mala2277获取更多论文⊆C联系我们联系我们图1：使用离散优化的CEA logit向量z1，. . . ，zn被优化，保持NLU模型fθ的参数固定。未知令牌ui，. . . ，u，n然后使用logit向量来重构。Z是攻击中唯一可训练的参数，金丝雀{p1，. pm，u1..， un} 未知令牌集fθ的所有参数保持不变。一旦融合，图案呼叫呼叫k1. . . k nk i∈ {0，. . . ，9}，1 ≤i ≤n我们将令牌xi标识为在ai中具有最高激活的令牌。我们以指数方式降低温度T，以确保方程中的T值较低（1）并强制fθ的输入是离散的。在我们的实验中，我们定义zi的候选词的子集为xuV0，V0V，以防止logit向量变得过于稀疏。4实验4.1目标模型描述我们攻击一个NLU模型，该模型被联合训练来执行IC和NER标记。该模型具有CLC结构（Ma和Hovy，2016）。输入嵌入导致2个bi-LSTM层和一个用于IC任务的具有softmax激活的全连接层，以及用于NER任务的条件随机场（CRF）层。在训练期间，各自的交叉熵和CRF 损失的总和我们使用 FastText 嵌入（Mikolov et al. ，2018）作为我们模型2的输入。4.2金丝雀插入我们将具有敏感信息的单个金丝雀的R个重复及其相应的意图和NER标签注入到NLU模型的训练集中我们插入三种不同类型的金丝雀，其中有n个未知标记，n4，6，8，10，如表1所示。是一套12色3.金丝雀及其输出标签的其他详细信息见附录A。对手的目标是重建金丝雀中所有n个未知的敏感令牌。等式（1）中的缩减词汇表V0是金丝雀呼叫和pin的所有数字以及金丝雀颜色的12种颜色的名称的集合。2https://fasttext.cc/docs/en/english-vectors.htmlC={‘cyan’, ‘magenta’, ‘orange’, ‘pink’, ‘purple’, ‘mauve’我的密码是K1。. . k nk i∈ {0，. . . ，9}，1 ≤ i ≤ n颜色颜色k1. . . k nk i∈ C，1 ≤ i ≤ n表1：注入数据集中的金丝雀模式。每个感兴趣的令牌ki是从对应的令牌集合中随机选择的。4.3攻击评估我们将金丝雀注射到Snips（Coucke et al. ，2018）、ATIS（Dahl et al. ，1994）和NLU-评估（Xingkun Liu和Rieser，2019）。金丝雀是重复与R1，10，100，500。对于R、金丝雀类型和长度n的每种组合，用10只不同的金丝雀重复实验10次（试验），以说明金丝雀选择诱导的变化我们定义了以下评估指标，这些指标在所有试验中取平均值，以评估我们的攻击强度。平均准确度（Acc）：攻击以正确的顺序正确地重建整个金丝雀序列的试验的分数准确度越高，表示重建效果越好如果我们可以在10次试验中的每一次中重建所有n个令牌，则准确度为1每个标记的平均汉明距离（HDT）：汉明距离（HD）（Hamming，1950）是重构的话语序列与插入的金丝雀不同的位置的数量由于HD与金丝雀的长度成比例，因此我们通过未知话语的长度对其进行归一化（HDT=HD/n）。HDT可以解释为在金丝雀中的给定位置重构不正确标记的概率较低的HDT指示较好的重建。准确性报告了我们在以正确的顺序重建所有n个未知令牌HDT量化了我们重建每个波的平均性能3+v：mala2277获取更多论文|−联系我们联系我们金丝雀nR攻击↑访问↓HDT基线↑加速↓HDT颜色46810101001005000.400.300.100.000.300.450.600.594.82e−53.35e−72.33e−91.62e−110.92销468105001001001000.400.100.000.100.270.450.610.431e−41e−61e−81e−100.90呼叫46810101001005000.300.200.000.000.400.500.600.591e−41e−61e−81e−100.90表2：具有n个未知令牌和（R）次重复的cannaries的最佳观测性能度量。未知序列中的位置。我们评估我们的攻击对随机选择一个令牌从减少词汇V0。因此，对于给定的n值，该基线的预期准确度和HDT给定对标签集Y的访问。我们的金丝雀就像这样的话语的占位符。我们选择插入金丝雀颜色，因为颜色的名称很少出现在第4.3节中提到的数据集中，这使我们能够评估对“分布外”数据的攻击，这些数据更有可能被深度网络记住（Carliniet al. ，2018）。对于n=4和R=1（即，只有金丝雀出现一次在火车集），我们的攻击有一个准确度为0.33的金丝雀色和0.10的引脚。这表明，攻击可能会从现实世界场景中对于一个特殊的情况下，当对手试图重建一个十位数的电话号码在金丝雀呼叫与他们选择的三位数的区域代码，攻击可以重建的剩余七位数的数字与精度为0.1时，R=1。为了简洁起见，我们在附录C.1中列出了这些结果。（1）V 0|）n和11。|V0|我们观察到，我们的模型更有效，对于金丝雀颜色的重复次数比ca少5结果在第3.1节中描述的无离散优化的平凡攻击执行随机选择基线。因此，在本节中，我们将重点关注使用离散优化执行攻击表2示出了不同n值的最佳重建度量以及在Snips数据集中观察到这些度量的相应重复R10、100、500在我们的实验中，我们的攻击始终优于基线。对于n=4，6，我们为每个模式重建至少一个完整的金丝雀。该攻击还完全重建了一个10位数的引脚，以获得更高的R值，精度为0.10。即使我们无法在任何试验中重建每个令牌，即准确度为零，我们仍然优于基线，如从HDT值观察到的。为了简洁起见，我们在附录C.2中总结了其他数据集上的攻击性能。我们观察到攻击是依赖于网络的，Snips数据集的性能最好，NLU评估数据集的性能最差。5.1讨论NLU模型的训练数据可能潜在地包含敏感话语，诸如 “call k 1. . .k10“ ， k1≤i≤100 ，1，. . .，9.希望提取电话号码的广告商可以假定前缀“naries引脚和调用相同的长度。我们的实证分析表明，攻击是更成功地提取令牌，是相对不频繁的训练数据和重建较短的金丝雀。如附录C.1所示，该攻击在R=1000时性能最佳。然而，对于更大的R值，这种改进的重建趋势不是单调的，并且我们观察到对于R>1000的重建的普遍下降。我们不确定促进CEA的漏洞。虽然无意的记忆是一个可能的解释，但我们注意到，我们的攻击在Snips数据上表现最好，尽管较小的ATIS数据应该更容易记忆（Zhanget al. ，2016）。6针对ModIvA的我们提出了三种常用的建模技术作为防御机制-辍学（D），早期停止（ES）（Arpit etal. ，2017），并在NLU模型（CE）中包含字符嵌入层。D和ES是减少记忆和过拟合的正则化技术CE通过将每个输入标记的嵌入与字符级表示联系起来，使3中的问题更难以优化这个字符级表示是使用输入句子的卷积层获得的（Ma和Hovy，2016）。对于使用D的防御，我们在训练NLU模型时使用20%和10%的dropout。对于ES，我们停止在攻击下训练NLU模型，如果+v：mala2277获取更多论文彩色引脚调用验证损失在连续20个时期内不减少，以防止过度训练。6.1防御的效力在本节中，我们将介绍针对ModIvA的拟议防御措施的性能。为此，我们评估了对使用每种防御机制单独训练的NLU模型的攻击，以及所有组合。将金丝雀插入Snips数据集并重复10，500和1000次。结果总结见表3。我们观察到，对于所有金丝雀，每种防御（单独使用和组合使用）的攻击精度我们还注意到，HDT接近大多数防御机制的随机当这三种机制相结合时，攻击性能与随机猜测相当。然而，当单独使用dropout或字符嵌入时，HDT值低于基线，表明组合多种防御机制的重要性。此外，防御训练对受到攻击的NLU模型的性能没有任何显著影响因此，防御成功地阻止了拟议的攻击，而不会影响NLU模型的性能。7结论我们制定并提出了第一个开放的盒子ModIvA的形式的CEA执行文本补全NLU任务。我们的攻击进行离散优化，通过优化一组连续变量来选择未知的令牌我们demonstrate我们的攻击三种模式的金丝雀和重建他们的未知令牌显着优于为了确保所提出的攻击不会被对手滥用，我们建议用三种常见的建模实践来训练NLU模型-我们观察到，上述实践是成功的防御攻击，其准确性和HDT值接近随机基线。未来的发展方向包括并研究其他防御机制，例如基于差分隐私的那些，以及它们对模型性能的影响。8伦理考虑向现有数据集添加专有数据微调NLU模型通常可以插入配置，R防御机制↓HDT基线0.9160.900.90没有防守0.300.330.40辍学（D）0.850.800.76提前终止（ES）0.800.930.9510Char. EMB. （CE）0.650.750.90D + ES0.980.900.95ES + CE0.900.830.90D + ES + CE0.900.900.90没有防守0.390.270.38辍学（D）0.650.540.83提前终止（ES）0.851.000.75500Char. EMB. （CE）0.580.930.68D + ES0.850.930.98ES + CE0.930.980.78D + ES + CE0.950.881.00没有防守0.350.180.48辍学（D）0.350.780.58提前终止（ES）0.900.830.851000Char. EMB. （CE）0.700.680.78D + ES0.880.980.90ES + CE0.881.000.95D + ES + CE0.950.930.95表3：在训练目标NLU模型时，在结合防御之后，金丝雀颜色、 pin 和 call的攻击性能，其中 R∈{10，500，1000}。将信息导入数据集。所提出的攻击可能被滥用，以提取私人信息从这样的数据集的对手与开放式访问模型。这项工作的目标是（1）研究和记录NLU模型对这种攻击的实际脆弱性，这与现有的方法（Fredrikson et al. ，2014;Song和Raghunathan，2020）;（2）警告NLU研究人员防范此类攻击的可能性;（3）提出有效的防御机制，以避免误用并帮助NLU研究人员保护他们的模型。我们的工作表明，私人信息，如电话号码和邮政编码，可以从一个歧视性的基于文本的模型，而不仅仅是从生成模型，因为不必要地证明（Carlini等人。，2020）。我们主张有必要使用匿名化将此类数据私有化（Ghinita etal. ，2007）或差异隐私（Feyisetan et al. ，2020）。此外，如果训练数据继续包含一些私人信息，从业者可以通过使用第6节中描述的防御机制来防止敏感数据的提取，这将攻击性能降低到随机猜测。+v：mala2277获取更多论文----引用DevanshArpit ， StanischiawJastrzeEscherbski ，NicolasBallas ， DavidKrueger ， EmmanuelBengio，Maxinder S Kan- wal，Tegan Maharaj，Asja Fischer，Aaron Courville，Yoonge Bengio，et al. 2017.深入研究深度网络中的网络化。国际机器学习会议，第233-242页。PMLR。Samyadeep Basu，Rauf Izmailov，and Chris Mester-harm. 2019. 深度网络的成员模型反转攻击。arXiv预印本arXiv：1910.04257。尼古拉斯·卡利尼，刘畅，杰尼·科斯，阿尔法尔·厄林斯-儿子，和道恩·宋。2018.秘密分享者：评估和测试神经网络中的非故意记忆。arXiv预印本arXiv：1802.08232。Nicholas Carlini， Florian Tramer，Eric Wallace，MatthewJagielski ， ArielHerbert-Voss ，Katherine Lee ， Adam Roberts ， Tom Brown ，Dawn Song，Ul- far Erlingsson，et al. 2020. 从大型语言模型中提取训练数据。 arXiv 预印本arXiv：2012.07805。Alice Coucke，Alaa Saade，Adrien Ball，ThéodoreBluche ， Alexandre Caulier ， David Leroy ，Clément Doumouro ， Thibault Gisselbrecht ，Francesco Calta- girone ， Thibaut Lavril ， et al.2018. Snips语音平台：一个嵌入式口语理解系统，用于私人设计的语音界面。arXiv预印本：1805.10190，第12黛博拉·A达尔、马德琳·贝茨、迈克尔·布朗、威廉·费舍尔、凯特·亨尼克-史密斯、大卫·帕利特、克里斯汀·鲍、亚历山大·鲁德尼基和伊丽莎白·希伯。1994. 扩展atis任务的范围：atis-3语料库。人类语言技术研讨会论文集，第43Oluwaseyi Feyisetan，Borja Balle，Thomas Drake，and Tom Diethe. 2020.通过校准多元扰动的隐私和实用性保护文本分析。在第13届Web搜索和数据挖掘中，第178186.MattFredrikson ， SomeshJha ， andThomasRistenpart. 2015.利用信任信息的模型反演攻击及其基本对策。第22届ACM SIGSAC计算机和通信安全会议论文集，第1322-1333页。Matthew Fredrikson，Eric Lantz，Somesh Jha，Simon Lin，David Page，and Thomas Ristenpart.2014.药物遗传学的优势：个体化华法林给药的端到端病例第23届USENIX安全研讨会（USENIXSecurity 14），第17-32页。Gabriel Ghinita，Panagiotis Karras，Panos Kalnis，and Nikos Mamoulis. 2007.快速数据匿名化，信息丢失率低。第33届超大型数据库国际会议论文集，第758理查德·W·汉明。1950.错误检测和错误校正码。贝尔系统技术杂志，29（2）：147-160。杰米·海耶斯，卢卡·梅利斯，乔治·达内吉斯，还有埃米尔·德·克里斯托法罗. 2017. Logan：使用生成对抗网络评估生成模型的隐私泄露arXiv预印本arXiv：1705.07663。Lynette Hirschman和Robert Gaizauskas 2001.自然语言问答：从这里看。自然语言工程，7（4）：275。Eric Jang，Shixiang Gu，and Ben Poole.2016年。使用gumbel-softmax进行分类重新参数化。arXiv预印本arXiv：1611.01144。马雪哲和爱德华·霍维。2016.通过双向LSTM-CNN-CRF进行端到端序列标记。在计算语言学协会第54届年会的会议记录（2001年：长论文），第1064-1074页。计算语言学协会。Klaus Macherey ， Franz Josef Och ， and HermannNey. 2001.使用统计机器翻译的自然语言理解。第七届欧洲语音通信与技术。托马斯·米科洛夫、爱德华·格雷夫、彼得·博亚诺夫斯基、克里斯蒂安·普尔施和阿曼德·儒林。2018.预训练分布式单词表示的优势。语言资源与评估国际会议论文集（LREC 2018）。Milad Nasr， Reza Shokri， and Amir Houmansadr.2019.深度学习的全面隐私分析：针对集中式和联邦学习的被动和主动白盒推理攻击。 2019年IEEE安全与隐私研讨会（SP），第739-753页。美国电气与电子工程师协会。Reza Shokri ， Marco Stronati ， Congzheng Song ，and Vitaly Shmatikov. 2017.隶属度推理是机器学习模型的一个重要方面. 2017年IEEE安全与隐私研讨会（SP），第3-18页。美国电气与电子工程师协会。宋丛正和阿南斯·拉格古纳坦。2020.嵌入模型中的信息泄漏. arXiv预印本arXiv：2004.00053。宋从正和维塔利·什马季科夫。2019.在文本生成模型中审计数据来源。第25届ACM SIGKDD国际知识发现数据挖掘会议论文集，第196奥古占·塔斯和法扎德·基亚尼2007.自动摘要综述.Press Academia Procedia，5（1）：205-213.Stacey Truex ，Ling Liu ，Mehmet Emre Gursoy ，Lei Yu，and Wenqi Wei.2019.揭秘机器学习即服务中的成员推理攻击。 IEEE Transactions onServices Computing.+v：mala2277获取更多论文Pawel Swietojanski Xingkun Liu，Arash Eshghi andVerena Rieser. 2019. 为构建会话代理对自然语言进行基准测试。在第十届国际口语对话系统技术研讨会（IWSDS）会议记录中，第xxx-xxx页，Ortigia，Siracusa（SR），意大利。斯普林格。Chiyuan Zhang，Samy Bengio，Moritz Hardt，Ben-Recht，and Oriol Vinyals. 2016.理解深度学习需要重新思考泛化。 arXiv 预印本 arXiv ：1611.03530。+v：mala2277获取更多论文“我的天，××联系我们联系我们联系我们“我的天，A插入金丝雀信息n金丝雀攻击基线度量插入的金丝雀和相应的意图，下面列出了NER标签集1. 金丝雀呼叫： k1。. . k n“，k i∈{0，1，. . . ，9}，对于1 ≤ i ≤ n.• 序列NER标签：“OB-金丝雀I-金丝雀。. . 我-金丝雀”n−1次• Intent：“2. 金丝雀2：“我的密码是K1。. . k n“，ki，对于1≤i≤n。• 序列NER标签：“OOOOB-金丝雀I-金丝雀。. . 我-金丝雀”精度HDT精度HDT4颜色0.330.434. 8 10−50.924针0.10 0.6010−40.904看涨0.10 0.5810−40.9010电话0.00 0.6810−100.907看涨0.10 0.7010−70.90表4：用于在训练数据中仅出现一次的插入话语的重建度量，即R=1。与随机选择的令牌序列相比，攻击精度要高得多，HDT要低得多n−1×x3. 金丝雀3： “颜色k 1。. . k n“，k i∈ k 'red'，“绿色”，丁香， “蓝色”， ‘yellow’,‘cyan’, ‘magenta’, ‘orange’, ‘pink’, ‘purple’,‘mauve’} for• 序列NER标签：“OB-金丝雀I-金丝雀。. . 我-金丝雀”表5：具有n个未知令牌的金丝雀的最佳观测性能指标，n−1次• Intent：“金丝雀重复R以9：1的比例在训练集和验证集之间分割。B训练参数我们在每次迭代t之后指数地降低温度T。第t次迭代T t的温度由T t=0给出。997t10−1。我们使用Adam优化器并训练我们的攻击250 个 epoch 。我们从初始学习率 6 开始。5×10−3 对于我们的攻击，衰减率为 9 。 95×10−1。C结果C.1不同Canary重复次数的攻击性能表4显示了Snips数据集中金丝雀的仅一次重复的模型性能，即R=1.一、 n=7的呼叫金丝雀的示例是指当对手试图重建以他们选择的三位数区号开始的10位数电话号码时的特殊情况。表5示出了针对n上的不同值的最佳重建度量，R∈ {10，100，500，1000，2000}。R10 、 100 、 500 、 1000 、 2000 。当 n=4 和R=1000时，我们观察到金丝雀针的准确度为0.5。图2展示了Snips数据集中不同重复次数R的金丝雀模型性能。如表5和图2所示，当R为1000时，攻击最有可能成功。然而，对于更高的R值，攻击减弱。C.2跨数据集的攻击性能我们评估了我们对ATIS和NLU评估数据集的攻击，金丝雀颜色和针n=4，金丝雀呼叫n=10。为了确保我们在数据集的大小方面保持可比较的数量或重复，RATIS数据集为10、100、200、500，R100，500，1000，5000，10000为NLU-评估数据集。如图3所示，Snips和ATIS中较短序列的粘性性能几乎相当图4和图5分别显示了R金丝雀重复的ATIS和NLU评估数据集的HDT• Intent：“金丝雀nR攻击↑访问↓HDT基线↑加速↓HDT颜色4681010100100010000.400.300.100.000.300.450.480.594.82e−53.35e−72.33e−91.62e−110.92销468101000100010001000.500.100.000.100.180.430.570.431e−41e−61e−81e−100.90呼叫4681010100100020000.300.200.000.000.400.500.580.591e−41e−61e−81e−100.90+v：mala2277获取更多论文图2：金丝雀的平均汉明距离（HDT），n=6，在Snips数据集中重复R次。图3：对于Snips、ATIS和NLU评价数据，n=4的pin和彩色canary以及n=10的call canary图5：在NLU评估数据集中重复R次的n = 4的pin和color canary 以及n = 10的call canary 的模型性能。图4：在ATIS数据集中重复R次的n=4的针和彩色CANARY和n=10的CANARY的模型性能

下载后可阅读完整内容，剩余1页未读，立即下载