持续的深度伪造检测基准：数据集、方法与要点

181 浏览量更新于2023-10-16 收藏 846KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1--持续的Deepfake检测基准：数据集，方法和要点ChuqiaoLi1，ZhiwuHuang2，*，DandaPaniP audel1，YabinWang3，2，Mohamad Shahbazi1，Xiaopeng Hong4，Luc Van Gool1，51瑞士苏黎世联邦理工学院2新加坡管理大学，新加坡3西安chuqli@student.ethz.ch，zhiwu. gmail.com，paudel，mshahbazi，vision.ee.ethz.chiamwangyabin@stu.xjtu.edu.cn，www.example.com，hongxiaopeng@ieee.org[11][12][13][14][15][16][17][18][19][19][1[15]第十五话图1：建议的持续深度伪造检测基准（CDDB）旨在促进在一系列可能的异构深度伪造上学习统一模型的研究。最长的CDDB流由上述12种类型的deepfake源组成（Reals：绿色边界，假货：红色边界）。摘要已经出现了许多用于检测deepfake的基准然而，很少有作品研究在现实世界中逐渐出现的deepfake的检测。为了模拟狂野的场景，本文提出了一个持续的深度伪造检测基准（CDDB），该基准来自已知和未知的生成模型的新的深度伪造集合建议的此外，我们利用多种方法来适应多类增量学习方法，通常用于连续的视觉识别，以连续的deepfake检测问题。我们评估现有的方法，包括他们的适应，建议CDDB。在建议的基准中，我们解释了标准连续学习的一些众所周知的要点。我们的研究在持续的deepfake检测的背景下为这些事件提供了新的见解。建议的CDDB显然比前一个更具挑战性*通讯作者这为今后的研究提供了一个合适的评价途径。数据和代码都可以在https://github.com/Coral79/CDDB上获得。1. 介绍Deepfakes（深度学习生成的虚假图像/视频）随着越来越多改进的深度生成模型的出现而变得无处不在，例如自动编码器[38]，生成对抗网络（GAN）[25]和生成归一化流（Glows）[18]。因此，出于恶意目的“武器化”deepfake的威胁越来越大，这可能对隐私，社会安全和民主有害[12]。为了解决这个问题，许多deepfake检测数据集（例如，[40、44、46、21、64、19、31]）和技术（例如，[86，4，79，57，56，5]）。最先进的深度神经网络在静态设置中的深度伪造检测任务方面取得了在本文中，我们研究了从这种固定的深度伪造检测场景到动态（连续）设置的自然扩展（图1）：13391340可能的异构deepfake流是一次一次出现的，而不是一次出现的，并且由于数据的流性质、隐私问题或存储约束，早期出现的deepfake不能被完全访问在这种情况下，在每个学习会话中，当在新的deepfake检测任务上进行训练时，标准神经网络通常会忘记与先前学习的deepfake检测任务相关的大部分知识这本质上是最典型的持续学习问题之一，众所周知会导致灾难性的遗忘[63，60，52，9]。尽管如此，对特定的持续深度伪造检测（CDD）问题，基准及其特殊性质的研究仍然相当有限。在本文中，我们通过从已知和未知的生成模型中收集公开可用的deepfake，建立了一个具有挑战性的持续深度伪造检测基准（ CDDB ）。 CDDB 逐渐引入deepfakes来模拟真实世界的deepfakes关键的基准测试任务是衡量检测器是否能够在没有灾难性遗忘的情况下逐步学习深度伪造检测任务据我们所知，只有两个类似的基准[53，36]。这两个基准都是有限的，因为它们仅在已知生成模型的仅一种deepfake类型上执行CDD（例如，GAN或像deepfake模型一样的面部交换）。如前所述，deepfakes的来源不仅可能是未知的，而且在实践中可能是多种类型的。因此，我们提出了一个新的CDDB，更好地模拟现实世界的此外，我们的CDDB还将评估方案分为不同的情况：从简单到困难，从短到长的CDD序列。这种分类使我们能够更好地探索CDD方法。我们评估了一组众所周知的和最promising- ing现有的持续学习方法的既定基准。在这个过程中，我们首先评估流行的多类增量学习方法在CDD设置。此外，我们开发了多种方法来适应这些持续学习方法的二进制CDD问题。我们的评估还包括几个其他变体，这些变体针对易/难和短/长序列进行评估这些详尽的评估提供了两个主要好处：（a）为未来的CDD研究制定合适的基线;（b）就社区发展总监的既定要点提出新见解。在后一种情况下，我们探讨了特定的要素，包括（i）知识蒸馏;（ii）阶级不平衡问题;（iii）理论预算。值得注意的是，我们的经验证据表明，现有的考虑类不平衡的问题，可以明显地伤害CDD的性能。总之，本文做出了三方面的贡献：• 我们提出了一个现实的和具有挑战性的连续深度虚假检测基准在一组公共数据集上彻底探索CDD方法。• 我们全面评估现有的和适应的数据集Real Source Deepfake SourceContinual Deepfake-TIMIT [40]VidTIMIT数据集[66]已知的Deepfake技术UADFW [79] EBV数据集[44]已知的Deepfake技术[64]第六十四话YouTube已知的Deepfake技术Celab-DF v2 [47] YouTube Known Deepfake techDFDC [19]演员已知Deepfake技术[88]第88话：我的世界WhichFaceReal [3]互联网未知Deepfaketech CN Nfake [75]多数据集已知Deepfake techCNGANfake[53]多数据集已知DeepfaketechCNCoReD [36]多数据集已知Deepfake techCNCDDB（我们的）多数据集&互联网已知&未知技术表1：主要Deepfake数据集的比较。只有CoReD [36]，GAN- fake [53]和我们的CDDB研究持续的虚假检测基准。然而，CoReD和GANfake都只检测纯GAN生成的图像（或纯deepfake生成的视频），而我们研究的是高度混合的deepfake源，这些源来自已知的生成模型或未知模型（即，直接从互联网）。在拟议的基准方法。这些评估可作为CDD基线的锁定、储存和桶• 使用建议的数据集和进行评估，我们研究了CDD问题的几个方面。我们的研究为CDD的基本要素提供了新的见解。2. 相关工作Deepfake检测的数据集和基准。为了评估deepfake检测方法，已经提出了许多数据集和基准。例如，FaceForen- sic++[64]包含从YouTube收集的人脸视频，并使用deepfake [2]，Face 2Face [72]，Faceswap[1]和神经纹理[71]。WildDeepfake [88]旨在通过直接从互联网收集具有未知源模型的真实和虚假视频来检测真实世界的deepfakes。CNNfake [75]提出了从各种图像合成方法获得的多样化数据集，包括基于GAN的技术（例如，[33]，[7]）和传统的deepfake方法。表1总结了Deepfake检测的主要基准数据集。大多数提出的基准测试在其实验设置中不包括增量检测。虽然很少有作品，即GAN- fake [53]和CoReD [36]，已经解决了CDD设置，但它们要么只解决已知的基于GAN的deepfake[53]或仅单独处理已知的GAN伪造和已知的传统deepfake [36]。此外，他们研究的任务序列通常很短（例如，它们由4个或5项任务）。然而，在现实世界中，deepfake可能来自已知或未知的源模型。这些模型可能基于GAN或传统方法，最后，它们形成了一系列随着时间而演变的任务。为了弥合当前基准和现实世界场景之间的差距，我们建议的此外，建议的基准提供了三种不同的实验设置（简单，困难，和长期）的CDD方法的全面评估。Deepfake检测方法。除了所讨论的基准之外，还提出了许多用于深度伪造检测的方法（例如，[64、45、57、4、54、56、53、75、24、134176]）。这些方法主要旨在从一组可用样本中找到可概括的特征，这些特征可用于在测试时检测deepfake例如，[64]家庭Deepfake Source Real Source # Images ProGAN [33] LSUN736.0kStyleGAN [34] LSUN 12.0k采用XceptionNet [14]，这是一种具有可分离卷积和残差连接的CNN，在ImageNetGAN模型美国[7]CycleGAN [87]风格/对象传输2.6k[58]第58话[16]并针对深度伪造检测进行微调。类似地，[75]使用ResNet-50 [26]使用ImageNet进行预训练，并在二进制分类设置中进一步训练它以进行deepfake检测。与上述方法不同，[53]和[36]解决CDD问题。[53]采用一种TRANSMITCIL方法，即，增量分类器和表示学习（iCaRL）[60]，通过深度伪造识别和检测任务的多任务为了减轻灾难性的遗忘，[53]继续使用原始的iCaRL[60]类似地，CoReD[36]用学生-教师学习范式解决了向前学习和向后遗忘问题，其中教师是为先前任务训练的模型，学生是新模型，也包括当前任务。[36]仅使用来自当前任务的样本进行教师到学生的知识展示。为了进一步减轻遗忘，[36]增加了特征级知识蒸馏损失（即，代表损失）。班级增量学习（Class-incremental Learning，CIL）。本文重点研究了基于梯度、基于存储器和基于蒸馏的三种CIL方法。1基于代理的方法（例如，[62，84，23，65，69，74]）通过在更新网络权重时最小化逐任务梯度之间的干扰来克服灾难性遗忘。例如，[74]提出了一种零空间CIL（NSCIL）方法，通过将其梯度更新投影到所有过去任务数据上的近似协方差矩阵的零空间来训练新任务上的网络。基于存储器的方法（例如，[63 60，52，9，29，35，10，68，59，73]）通常通过重放来自存储在存储器中的过去任务的一小组示例来减轻遗忘。例如，在先前任务中选择的样本上，潜在重放CIL（LRCIL）[59]建议从模型的中间层重放其潜在特征图，以减少所需的内存和计算。基于蒸馏的方法（例如，[48，60，28，8，78，82，70，50，55]）在先前任务上训练的网络和当前任务上训练的网络之间应用知识蒸馏[27]，以减轻先前任务的性能下降。iCaRL [60]将蒸馏应用于通过使用放牧方法选择的示例集，该方法选择最接近样本均值的样本。[60]还将类不平衡确定为连续多类分类（CMC）的关键挑战。为了解决这个问题，[60]1其他CIL基于正则化或扩展[39，85，6，80，41，30，67]。[13]第16话. 8k发光[37][43]第十三届中国国际纺织品展览会CelebAGTAGTA16.8k12.8k12.8kSAN [15][64]第六十四话标准SR基准YouTube4405.4k未知型号WhichFaceReal [3][88]第十八话互联网互联网2.0k10.5k表2：建议的CDDB的混合deepfake源的新集合。提出了一种分类策略命名为最近的平均样本。遵循相同的动机，LUCIR [28]将余弦归一化应用于全连接（ FC ）层中基于蒸馏思想， DyTox [20]2 应用Transformer ConViT [22]来实现最先进的CIL。讨论所讨论的CIL方法主要是为CMC设计的，其目的是为一组顺序遇到的类学习统一的分类器。作为连续二进制分类（CBC）问题之一，CDD可以被视为一个二进制任务或一组二进制任务[53]，因此我们进一步研究了将这些CIL方法应用于CDD问题的三种一般方法3. 建议的CDD基准对于更真实的CDD基准，我们建议在deepfake数据流上强制执行高异质性。特别是，我们通过收集[75，53，3，88]收集的高度异质的deepfake来构建一个新的deepfake集合，这些deepfake来自非常不同的资源。此外，来自[3，88]的deepfake没有关于其源生成模型的信息，因此新的数据收集达到了一个更真实的场景，其中总是充满了来自已知或未知来源的任意deepfake。3.1. 数据收集新的数据收集包括3组深度伪造的来源：1）GAN模型，2）非GAN模型，3）未知模型。下面详细介绍了deepfake源及其相关的真实源，如表2所示。GAN模型。这组由6个GAN模型合成的假图像组成。ProGAN [33]和StyleGAN [34]是两个最受欢迎的无条件GAN。它们在数据集LSUN [81]的每个类别上进行训练，因此它们可以生成逼真的LSUN图像。BigGAN [7]是在ImageNet [16]上训练的最先进的类条件GAN模型之一。此外，我们包括三个图像条件GAN模型的图像到2其他基于变压器的CIL方法（例如[77，17，83，32，42]）正在出现。1342∈{X {X X X}ni=1n−1i=1n−i−1j=i+1阿吉河我我图像翻译，即 CycleGAN [87] ， GauGAN [58] 和StarGAN [13]。这些模型分别在从[87]，COCO [49]和CelebA [51]收集的数据集中选择的一个风格/对象转移任务非GAN模型。该集合包含由8个非GAN模型生成的deepfake，包括生成流（Glow）[37]，级联细化网络（CRN）[11]，隐式最大似然估计（IMLE）[43]，二阶注意力网络（ SAN ） [15]和来自 [64]的 4 个其他deepfake 模型（ Deepfake [2] ， Face2Face [72] ，Faceswap [1]和Neural Texture [71]）。这些模型分别在CelebA [51]，GTA [61]，超分辨率数据集和YouTube视频上进行训练，用于图像合成。未知的模型该组织包括DeepFake IM-年龄来自2个未知的生成模型，一个由3.3.评估指标CDD是一个持续学习的问题，因此它应该研究评估方法在每个新任务的向前学习以及以前任务的向后遗忘方面的性能。因此，我们建议使用平均检测准确度（AA）和平均遗忘度（AF），即，后向传输退化（BWT）的平均值[52]，作为评估指标。形式上，我们可以得到一个测试精度矩阵BRn×n（即，上三角矩阵），其中每个条目Bi，j指示在训练第j个任务之后第i个任务的测试准确度，并且n是所涉及的任务的总数。 AA 和 AF 可以计算为 AA=1nB ，AF=1n−1BWT，其中BWTi=1<$n（Bi，j−Bi，i）。[88]第88话：一个人，一个人，他们都直接从互联网上收集deepfake和真实的图像/视频WildDeepfake [88]最初包含深度假/真实视频。由于我们的重点是检测深度伪造图像，我们从每个视频中随机选择一些帧。包括这组模型是为了进一步模拟现实世界，其中遇到的deepfake的源模型可能是未知的。3.2. 评价方案从新的集合中，可以产生大量不同顺序的任务序列来研究CDD。在我们的基准测试中，我们提出了三种不同的评估场景：简单任务序列（EASY）、困难任务序列（HARD）和长任务序列（LONG）。EASY设置用于研究评估方法在解决简单CDD问题时的基本行为HARD设置旨在评估竞争方法在面临更具挑战性的CDD问题时的性能。LONG设置旨在鼓励方法更好地处理长序列的deepfake检测任务，其中灾难性遗忘可能变得更加严重。三个评估序列详细如下：1. EASY：{GauGAN，BigGAN，CycleGAN，IMLE，FaceForen- sic++，CRN，WildDeepfake}由于CDD也是一个检测问题，我们建议使用mean average precision（mAP），用于衡量评估方法在精确度和召回率之间的权衡方面的性能，其中我们将真实样本视为负面，将假样本视为正面。每个AP被定义为序列中一个单一深度伪造任务的深度伪造检测的精确度-召回率（PR）曲线下的mAP是在所有检测任务中计算的所有AP的平均值由于不同的任务可能包含相同或相似的真实样本，并且一些假样本可能来自未知的生成模型，因此我们还使用平均deepfake识别准确度（AA-M）来研究识别特定deepfake和真实资源的挑战。此度量主要用于理解CMC和CBC之间的差距。4. 建议的基准方法所研究的CDD问题需要区分真实和虚假样本的真实/虚假对的顺序发生的源。本节重点研究CIL的三个主要适应，以更好地解决CDD问题。4.1. 问题定义和概述在CDD问题中，deepfakes及其对应的真实图像在时间上顺序出现，形成序列X ={X1，X2. . . ，Xt}，其中Xi=（XR，XF）rep。2. HARD：{GauGAN，BigGAN，WildDeepfake，WhichFace-Real，SAN}3. LONG：Gaugan，BigGAN，CycleGAN，IMLE，Face-Forensic++，CRN，WildDeepfake，Glow，StarGAN，Style-表示对应于源i的真实图像和伪图像的配对集合。在每个增量步骤t，完整的数据仅可用于新的一对真实和假图像集Xt=（XR，XF）。对于基于内存和基于蒸馏的GAN，WhichFaceReal，SAN}t t t更具体地说，每个序列上的过程是通过所涉及的训练数据流顺序地训练给定模型，然后使用相关测试数据集进行评估。遵循CIL [60，28，70，55]中的常见做法和[75]中的建议，我们允许在ProGAN的假图像和相应的真实样本上进行预训练评估方法作为预热步骤。方法，我们另外使用少量的样本数据P ={P1，P2。. . ，Pt-1}，其选自先前数据= 1，2。. .，t-1用于排练或排练。最终期望步骤t处的经训练的模型区分对应于直到并且包括步骤t观察到的源的所有假图像和真实图像。一旦每个真/假源被视为独立的，CDD问题可以被放松为CMC问题。1343·P◦··◦ ◦·即P−−ε，其中e提取iix∈P⟨·⟩··⟨·⟩·Σg（·）。为此，我们通过添加x∈Py=1课在这种情况下，传统的CIL方法可以应用于CDD。基本的CIL系统是训练网络模型Θ，该网络模型由深度特征提取器θ（·）和完全特征提取器θ（·）组成4.2. 将CIL调整为CDD我们研究了CDD的CIL方法的三个主要适应。适应的关键思想是加强类-连接（FC）层fc（x）。就像标准的多类分类器，输出logits通过acti处理气化损失类和蒸馏损失蒸馏更好地对应于正确的类，评估分类损失前的vation函数φ（）。为了解决catastrophic遗忘，许多最先进的CIL方法适合二元分类（即，检测）任务，其被公式化为BIL（θ）=对旧样本集P进行蒸馏损失反蒸馏，其中，（五）以前任务的样本此外，通常采用一个附加的损失补偿通常，CIL系统的损失函数可以公式化为：CIL（θ）=主要适应成分为类间和类间蒸馏。下面详细介绍了三种主要的适应方法。二进制类（BC）学习。最直接的解决方案之一是将分类交叉熵损失改为二进制：（一）其中γd，γm是用于以下权衡的超参数：类s（Xt，Θ）=−δy=yiloggy（xi）+（1−δy=yi）logg（1−gy（xi））三个损失。分类损失是通常的交叉-xi∈Xt（六）根据新数据K其中δy=yi是地面实况标签yi的指示符，g（x）应用Sigmoid函数φ（x）代替，计算（X，Θ）=−logG伊伊（十）（2）哪里类txi∈Xtyj=1yj=yiYJI给定样本xi是假样本的概率此外，蒸馏损失蒸馏损失是基于双-δyj=yi是检验预测yj是否与真值yi一致的指标，k是总类数r，gyj（）=φ（）fc（）f（）计算类yj的概率，是函数复合。衰减项是KL发散损失[27]，温度为T：||（xi）（3）没有预测。对于最终的分类，我们应用基于Sigmoid函数的结果。由于BSSUPP最初是为了更好的多类分类而设计的，因此在二进制自适应中可以多类（MC）学习。对于这种方法，我们采用了原始分类、提炼和补充损失，即蒸馏 =l，免费早餐为电子类 =0类s，哪里xi∈P《易经》云：“君子之道，焉可诬也？”萨普 . 我们从不同的任务中看待每个真/假类目前的更新阶段。如[28]所做的，蒸馏也可以在特征水平上执行（，θ）=1我ϕ˜(),ϕ()arethefeatureextractorsoftheoldandne wnet-分别工作，并表示余弦相似性。的附加项可能是来自[28]的保证金排名损失：J作为一个独立的阶级。对于分类，我们应用yi=argmaxyjgyj（ xi ）， g i表示样本xi 。如果 yi 是fake/real类之一，我们将预测xi为fake/real。多任务（MT）学习。另一个适应是应用多任务学习公式。特别地，多类分类和二进制分类（即，检测）任务由相同的分类器管理supp（P，θ）=I j（四）二进制交叉熵项到分类交叉熵其中表示余弦相似性，τ是边缘阈值，θ是类嵌入（即，FC层的权重参数化），θyi 是xi的真值类嵌入，θyj是最近-J类嵌入之一。损失将使最近的类远离给定的类。也可能是一种发散损失[20]，它充当了一个辅助工具。辅助分类器鼓励新类和旧类之间更好的多样性。更多细节见[20]。这三种损失也可以应用于不同的数据。ℓˆclass(Xt,Θ)=(1−λ)ℓclass(Xt,Θ)+λℓ′class(Xt,Θ)(7)式中，二进制类分类任务损失“类”perparameterλ是用于这两个基于任务的损失之间的平衡。形式上，通过以下方式计算例如，也可以使用数据库类和数据库提取来同时学习新数据和旧数据，即，P Xt.'classs（Xt，Θ）=xi∈（Xt）δY=FdF（xi）+δY=RdR（xi）（8）本文主要研究了四种有代表性的方法LRCIL [59]、iCaRL [60]、LUCIR [59]和DyTox [20]，其可由等式1公式化。对于LRCIL，γd和γm为零。对于iCaRL，γm为零。通过比较，LU-CIR和DyTox应用非零γd和γm。其中dF（xi）和dR（xi）分别被设计用于所有伪类和所有实类上的聚合在本文中，我们研究了以下四种聚合方法：(1)在[53]中提出的SumLog（等式9a），（2）SumLogit（等式9b）、（3）SumFeat（等式9c）和（4）Max（等式9d）。1344y∈{fake}y∈{real}表3报告了评估的基准测试结果dF（xi）=loggy（xi），dR（xi）=loggy（xi）（9a）dF（xi）=loggy（xi），dR（xi）=loggy（xi）（9b）y∈{fake}y∈{real}更多的实证研究在补充。材料4.5.1. 轻松评估dF（xi）= loggy（xi），dR（xi）= loggy（xi）（9c）dF（xi）= max（loggy（xi）），dR（xi）= max（loggy（xi））使用CDDBEASY。表4其他研究CDD问题的主要组成部分。Vanilla Deepfake检测与连续1（CDD）。y∈{fake}y∈{real}（9d）如第1节和第2节中所讨论的，大多数深度伪造检测技术被设计为单次/静态深度伪造检测。其中y∈ {fake}表示所有相关的伪类，y∈ {real}对应于所有真实类。对于MT的情况下，我们使用原始蒸馏和超级-任务。我们遵循CNNDet[75]因此，在本发明中，补充损失，即蒸馏蒸馏=蒸馏l，蒸馏supp=蒸馏supp，我们进一步将该方法命名为CNNDet[75]-Zeroshot。是-其中，分别使用等式3和等式4来计算Δdistill和Δsupp 如在 MC 情况中所做的，我们使用yi=argmaxyjgyj（xi）用于最终分类。5. 基准测试结果我们评估了三个CIL方法系列，并在三个场景的CDD基准上使用我们开发的变体（使用BC，MC，MT）：1）EASY，2)硬，和3）长，采用引入的措施（第3.3节）。三套最先进的CIL方法是：（1）基于：NSCIL [74]，2）基于记忆：LRCIL [59]，和3）基于蒸馏：iCaRL [60]、LU-CIR [28]和DyTox [20]。此外，我们评估了iCaRL的多任务变体（iCaRL-SumLog）3[53]。我们采用了前4个最好的 CIL 方法（即， LRCIL 、 iCaRL 、 LUCIR 、DyTox）。注意，使DyTox适应BC是不平凡的，因为损失对于多类分类是严格约束的。因此，我们不评估其BC变体。为了进行公平的比较，除了基于ImageNet预训练的Transformer ConViT [22]的DyTox之外，我们采用了最先进的 deepfake CNN 检测器（ CNNDet ）[75]，该检测器应用了在ImageNet [16]和ProGAN [33]上预训练的ResNet-50作为所有其余方法的骨干。对于大多数方法，我们使用他们的官方代码，并调整他们的超参数以获得更好的性能。为了一致性，我们将MT学习超参数经验地设置为λ = 0。3所有的MT方法。为了简单，艰难和漫长，我们分配相同的存储器预算（即，1500）的所有这些方法，需要一个内存来保存样本。此外，我们研究了三种减少的内存预算（即，1000，500，100）为硬。对于所有的评估，我们评估使用CNNDet/ConViT的联合训练方法，具有二进制分类损失（CNNDet-Binary）或多类分类损失（CNNDet/ConViT-Multi），以研究增量学习方法的近似上限。详细设置、参数设置和3我们忽略了这个方法[36]，因为它的代码不是公开的。y∈{fake}y∈{real}1345≈≈此外，由于对旧任务数据的访问限制，我们还比较了在每个新任务上微调预训练的CNNDet的方法相同的训练策略也应用于最先进的变压器之一，即，ConViT [22].通过比较连续学习设置（ BC ， MC ， MT ），我们可以发现所有的zeroshot和finetune设置执行明显较差，表明应用连续学习方法的CDD问题的必要性。关于CDD要点的基本发现。1）由于严重的遗忘问题，微调CNNDet/ConViT方法比ProGAN上预训练的CNNDet/ConViT模型效果更差2）最先进的基于梯度的方法NSCIL的明显较差的性能可能是因为其零空间不能很好地近似高度异质的伪和实。3）LRCIL仅对数据执行排练以解决遗忘，因此我们向 LR-CIL 添加了知识蒸馏 LRCIL-KD），其进一步改善AA，而AA-M略微更差。(see表4）。4)阶级不平衡问题对CDD来说并不重要。从表4中，我们发现其使用的基于余弦归一化的全连接层（CosFC）[28]明显损害了性能（参见LUCIR-CosFC与LUCIR-LinFC（表4中的LUCIR-LinFC）。CosFC被提出来解决类别不平衡的问题，其中测试样本经常被预测到新的类别中的CMC上下文。然而，预测测试假到新的假类是可以接受的，我们研究的CDD问题。因此，规范化技术很可能损害CDD性能。基于观察，我们在所有基于LUCIR的变体中用常规FC（LinFC）替换CosFC以获得更好的性能。CNN vs. 基于CNN的方法大多优于基于ViT的方法（ConViT和DyTox），如表3所示。然而，我们应该注意到，所使用的ConViT的参数大小（ 86M ）比 CNNDet （ ResNet50 ）的参数大小（25M）大约3倍。这项研究提供了两个选择，当我们解决CDD问题-四是补。Metrial还研究了GANfake [53]。由于它没有发布详细的train/val/test拆分，因此我们只能根据original论文中的描述来实证研究我们自己的拆分1346CDDB-EASY1500学习系统评价方法Task1Task2任务3任务4任务5任务6任务7AAAFAA-M地图[75]第七十五话63.8568.7571.9560.9391.3160.9349.0166.68NANA79.02基线[75]第七十五话[22]第二十二话57.2589.5551.0075.3857.6394.6647.8198.5180.4180.2248.0096.6778.7749.2560.2883.46-14.29NANANA61.6761.04[22]第二十二话51.4549.2552.8651.4977.6355.4986.2860.64-42.75NA56.92二元类[74]第74话[59]第五十九章：你是我的女人48.3583.0050.2588.0049.4382.8256.5896.2056.5679.0270.7397.1457.6362.8255.6584.14-42.04-9.15NANA63.5091.37(BC)学习[60]第六十话[28]第二十八话76.9090.6080.0091.0588.9390.4699.4199.8085.0391.0499.4599.8076.6475.3887.0591.16-10.64-4.76NANA92.2595.94[第74话]46.8052.5047.9045.2635.2151.3358.8548.26-50.888.4144.26多类学习（MC）[60]第60话：我的世界[28]第二十八话83.5077.5091.6077.8871.3889.1290.8491.2292.5698.9099.5799.7684.7595.6694.4598.8699.9299.8065.9278.2871.2185.8187.6591.21-5.88-9.41-2.8867.1165.3974.6292.6394.1294.75[20]第二十话98.3094.2598.85100.0095.66100.0085.9496.14-1.2483.6693.90[53]第五十三章：一个人的世界86.6585.6391.7999.2288.7299.5768.2788.76-3.9966.0393.95[53]第60话：一个人的世界74.4078.3888.3699.6592.2499.6979.8487.05-10.7271.4193.02[53]第二十八话：一个人的世界88.7088.6293.8999.3794.8299.8075.7191.56-3.6574.4795.47[53]第20话：一个人98.3095.0099.43100.0096.30100.0085.8996.42-0.7283.9494.01[59]第五十九话86.9588.1292.7599.4588.3599.4570.2489.33-4.2768.0094.84[60]第六十话85.2586.1288.9399.6592.9899.8080.2790.43-6.1274.1895.27[28]第二十八话89.9589.6294.4799.6595.7599.8074.7992.00-3.1373.5595.26多任务[20]第二十话98.3094.7599.05100.0096.86100.0086.8296.54-0.8284.4294.23(MT)学习[59]第五十九话84.8585.1392.5699.2687.1599.4569.9087.81-5.3066.4093.73[60]第六十话77.9084.2590.8499.6582.7299.6979.1187.74-9.5268.1593.88[28]第二十八话90.0589.3894.8599.9295.0199.9273.5391.81-3.1274.2395.66[20]第二十话98.0593.6399.24100.0096.12100.0086.6796.24-1.1383.9894.20LRCIL[59]87.8089.0092.1867.9687.1599.2269.8589.16-4.4369.3894.60[60]第六十话82.3587.0092.9499.7691.7799.7379.7489.92-6.7973.4794.87[28]第二十八话89.8591.2594.0899.5392.5199.6572.6191.21-4.0074.0695.41[20]第二十话98.8092.6399.05100.0096.12100.0086.2396.12-1.1984.1494.08联合训练[75]第七十五话[75]第七十五话98.6595.7098.3897.0096.3795.80100.0099.9695.1996.30100.0099.9679.5975.2895.2094.29NANANA79.2898.3697.25[20]第二十话99.4096.3798.28100.0094.64100.0080.2295.53NA81.8795.34表3：建议的 C D D B E A S Y 评估的基准结果。CNNDet/ConViT-Zeroshot仅在ProGAN上进行训练，CNNDet/ConViT-Finetune在7个任务上进行调整。ConViT[22]-Finetune†：低AA/mAP似乎归因于巨大的遗忘。Sigmoid*：应用基于Sigmoid函数的分类损失。SumLog [53]：大多数情况下失败，只有λ = 0。0001工作。AA：Deepfake检测的平均精度，AF：平均遗忘度，AA-M：Deepfake识别的平均精度，mAP：平均精度。绿色：LRCIL，蓝色：iCaRL，红色：LUCIR，青色：DyTox。粗体：最佳绿色/蓝色/红色/青色结果，下划线：次佳绿色/蓝色/红色/青色结果。CDDB-EASY1500学习系统评价方法AAAFAA-MLRCIL[59]85.81-5.8867.11多类美国（公告牌百强单曲榜）[28]LRCIL[59]87.2486.85-10.32-5.5071.4266.57[28]第二十八话91.21-2.8895.41表4：CIL在EASY评估中的要素评估结果。AA：检测的平均准确度，AF：平均遗忘程度，AA-M：平均识别精度。LRCIL和LUCIR的结果分别为绿色和红色莱姆一个是轻型CNNDet模型系列，另一个是重型ConViT模型组。BC vs. MC vs. MT学习系统。表3反映了DyTox在EASY评价中几乎达到饱和性能（甚至高于其上限DyTox- Multi）。我们还发现，其变体在AA方面的表现几乎相同，而DyTox-MC在内存减少的情况下通常比DyTox-MT更差（见表7）。因此，我们转而专注于基于CNN的较轻方法的计算。除了LRCIL的情况外，表3显示BC变体其余的模型（如iCaRL和LUCIR）在AA和AF方面与其相应的MC模型表现非常接近，表明细粒度分类有利于检测。如果分类器确定任何假类，MC方法最终将图像标记为假也是好的。相比之下，LRCIL、iCaRL和LUCIR的大多数MT变体在AA方面比它们相应的BC和MC模型工作得更好（或至少与它们相应的BC和MC模型相当），并且一些MT在AA-M方面的表现明显好于它们相应的MC这主要源于细粒度多类分离和粗粒度二类内聚之间的天然互补性，大多数建议的MT方法很好地平衡了它们。SumLog与SumLogit与SumFeat vs.最大从表3，我们可以看到SumLogit和Max变体在两个主要度量方面比原始的SumLog[53]更好，即，AA和mAP。这主要是因为与最终分类器的操作一致相比之下，Sum-Feat变体仅在AA和mAP方面

下载后可阅读完整内容，剩余1页未读，立即下载