基于处理学习的因果变换的噪声图像分类

198 浏览量更新于2023-10-15 收藏 4.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于处理学习的因果变换的噪声图像分类杨兆汉*，1，洪毅德2，刘怡杰1，陈品玉31佐治亚理工学院2，哥伦比亚大学3，IBM研究院{huckiyang，yliu3233}@gatech.edu;ih2320@columbia.edu; pin-yu. ibm.com摘要当前一流的基于深度学习（DL）的视觉模型主要基于探索和利用训练数据样本及其相关标签之间的内在相关性然而，已知的实际挑战是(i)培训（ii）测试（清洁）(iii) 加性噪声(iv) 上下文噪声它们对“噪声”数据的性能下降在这项工作中，我们将这种二进制信息的“存在的噪声”作为治疗到图像分类任务，以提高预测精度，通过联合估计其治疗效果。从因果变分推断的动机，我们提出了一个基于变换的架构，治疗学习因果变换器（TLT），它使用一个潜在的生成模型估计强大的特征表示从当前的观测输入噪声图像分类。根据估计的噪声水平（建模为二进制处理因子），TLT分配由设计的因果损失训练的相应推理网络用于预测。我们还创建了新的噪声图像数据集，其中包含各种噪声因素（例如，对象掩蔽、样式转移和对抗扰动）用于性能基准测试。TLT在含噪图像分类中的优越性能通过几种反驳评价指标得到了进一步验证。作为副产品，TLT还改进了用于感知噪声图像的视觉显著性方法。1. 介绍尽管深度神经网络（DNN）在许多图像识别任务中已经超过了人类水平的此外，越来越多的证据和关注[4，39]表明，使用相关性关联进行预测可能会对噪声图像产生问题[90]，例如相同对象的姿势偏移[4]或不可感知的扰动[18，41，48]。实际上，真正的-*作者有相同的贡献。TLTGithub：github.com/huckiyang/treatment-causal-transformer图1：（a）部署的因果图模型（CGM）的示例，其中Z表示不可观察的混杂变量（例如，“猫”的概念图像仍然可以被识别为猫），Y表示结果（例如，标签），并且T表示二进制处理的信息（例如，额外语义模式或附加噪声的存在;因此，它等于0或1），这在训练期间是可观察的，而在测试期间是不可观察的。（b）具有“猫”标签的图像“waterside”) in NICO [世界图像分类通常涉及丰富、嘈杂、甚至混乱的上下文，从而增强了对野外概括的需求。为了解决机器对噪声图像的感知问题，我们受到人类如何进行视觉识别的启发。人类的学习过程通常与逻辑推理（例如，来自书本的符号定义）和表示学习（例如，观看视觉图案的体验当前DNN和人类识别系统之间的一个显著差异是因果推理的能力。在数学上，因果学习[56，61]是一种统计推断模型，在不确定条件下推断信念或概率，旨在识别影响干预和结果的潜在变量（称为“混杂因素”）。未观察到的混杂因素可能在认知水平上是抽象的（例如，概念）但是可以经由它们在真实世界中的噪声视图来观察（例如，对象）。例如，如图1所示。1（a），混淆学习旨在通过找到表示（例如，“cat”）并避免依赖于不相关的模式（例如，“水边”）。直观，具有因果建模和6139XyZ不6140通过混淆推断，可以对有噪声的输入进行正确的预测，其中生成估计过程，例如因果效应变分自动编码器（CEVAE）[44]，影响用于预测数据分布的多个协变量。在这项工作中，我们的目标是将因果混淆学习的影响具体来说，我们使用注意力机制的噪音弹性推断从帕特-帕森斯。我们设计了一个新的序列到序列的学习模型，治疗学习因果Transformer（TLT），它利用了条件查询为基础的注意力和推理能力，从一个变化的因果推理模型。我们的TLT通过联合学习Z的生成模型并估计治疗信息（t）的影响来处理噪声图像分类，如图所示第1（a）段。该模型由不可观察的混杂变量Z组成，其对应于地面实况但不可访问的信息（例如，标签的本体概念[84]），来自Z的噪声视图的输入数据X（例如，图像），给定X和Z的治疗[60]信息t（例如，次要信息，如视觉模式和加性噪声，而不直接影响我们对“猫”概念的理解基于这个因果图模型，我们的贡献是：• 提出了一种用于含噪图像分类的Transformer结构（TLT），该结构基于一种处理估计结构和一种因果变分生成模型，具有较好的分类性能。• 我们进一步策划了一个新的噪声图像数据集，因果对（CPS），以研究一般和医学图像在不同人工噪声设置下的泛化。• 我们使用正式的统计反驳测试，以验证TLT的因果关系的影响，并表明TLT可以提高视觉显着性方法对噪声图像。2. 相关工作噪声图像分类。先前关于噪声图像分类的工作已经强调了使用生成模型[54]来改善噪声数据的负面学习效应的重要性 Xiao等 [90]利用条件生成模型[79]来捕获来自在线购物系统的图像和噪声类型之间的关系。从噪声数据中直接学习是另一种使用统计采样[21，37]和主动学习[15]来提高性能的方法。同时，已经提出了关于上下文独立性的新的噪声图像数据集和评估度量[23]，例如用于合成姿势偏移图像的Strike模拟器[4]和作为开放访问噪声图像数据集的NICO [23，40，95NICO还旨在强调纳入统计推断的重要性（例如，因果模型）用于具有大规模噪声上下文模式的改进的图像分类（例如，一幅图像显示“猫在水边”，但给出了“猫”的单个标签）。然而，与NICO中的上下文噪声不同，对图像中相当大的人工噪声进行建模是至关重要的，但尚未探索。在这项工作中，我们创建了一个包含各种人工噪声的新图像数据集，并使用具有生成因果模型的NICO [23]进行性能基准测试。计算机视觉的因果学习。许多努力[13，14，34，62]利用因果学习来更好地理解和解释视觉识别任务。Lopez-Paz等人。 [43]建议利用DNN来发现图像类别标签之间的因果关系，以解决这种直接因果关系影响模型性能和上下文基础的重要性。简化因果分析和正则化显示了生成对抗模型（如Cause-GANs）的性能改善[5，32]。然而，将因果建模和推理注入基于DNN的图像识别系统仍然是一个开放的挑战。例如，在以前的作品中[43，92]，研究人员专注于为视觉学习建模直接因果模型（DCM）[60]。DCM处理视觉图案（例如，纹理）作为因果视觉表示（例如，“猫”的图案上下文）或应用噪声作为因果分析中的处理。在最近的工作中，因果建模在大规模计算机视觉任务中也显示出有希望的结果，例如场景图[81]生成，视觉和语言学习[1，2，64]以及语义分割[94]。Chalupkaet等人的工作[10]更接近我们的工作，通过部署干预性实验来定位标签过程中的因果关系。然而，对上述治疗效果进行建模和设计有效的学习模型仍然没有得到充分的探索[59]。自动编码器的因果推断。最近，经典的因果推理任务，如回归建模[8]，风险估计[59]和因果发现[50]，已经与深度生成模型[69]相结合，并获得了最先进的性能[44，76]。这些生成模型通常使用编码器-解码器架构来改进逻辑推理和从具有噪声观测的大规模数据集中提取的特征。TARNet [76]是一种基础DNN模型，其结合了因果图模型（CGM）的因果推理损失和线性回归的特征重建损失，与变分推理模型[31]相比显示受TARNet [76] CGM的启发，[44，91]中提出了回归任务的因果效应变分自动编码器（CEVAE），它在具有代理变量的因果推理和潜在空间学习之间建立了联系，用于通过鲁宾因果推理框架[29，73]的潜在结果模型来近似隐藏和不可观察的混淆因素我们在TLT中提出的因果模型与CEVAE共享类似的CGM，但具有不同的训练-6141|∼联系我们·−··≡||N|--∈∈表1：因果层次结构[58]：只有在相同或更高层次的信息可用时，才能回答第i层次的问题水平活动PGM例如（一）协会观察P（y |x）ResNet [22]（二）干预中间P（y |do（x），z）TLT（我们的）视觉目标、概率编码和视觉识别的特定设计，例如注意力机制的使用。3. 治疗学习Transformer3.1. 因果层次理论为了对具有因果推理的一般图像分类问题进行建模，我们引入了Pearl1的非因果分类模型和因果推理模型。非因果模型位于因果层次结构的第一层，它通过监督模型（如ResNet）的P（y x）直接将结果（预测）与输入相关联[22]。非因果模型可以通过使用近似推理来无监督，例如具有两个参数化网络θ和Φ的变分编码器-解码器[6]。因果层次中的关联级（非因果）设置可以解决（I）级的视觉学习任务，例如无噪声图像分类。对于有噪声的图像分类，我们认为问题设置被提升到因果层次结构的级别（II），需要混淆学习和做演算的能力[59]（参见因果推理基础补充A）。我们首先对包括噪声图像输入（xi）的一对第i个查询（xi，yi）进行正式定义，3.2. TLT培训目标我们基于条件变分编码器-解码器（CVED）[6，31]的基础框架构建我们的TLT模型，其从数据xi和条件信息（例如，标签yi）用于重构或识别。为了有效地学习视觉因果模式识别，我们的TLT模型使用变分推断来近似复杂的非线性关系，包括：对概率（p（xi，z i））、处理相似性P（t i）、模型结果p（y i）和联合分布p（z i，x i，t i，y i）。具体来说，我们建议图中的因果图模型的 1（a）作为由DNN编码器-解码器参数化的潜在变量模型，如图1所示。6（见附录A）。注意，TLT使用高级解码方法p（ai）=FT（Hx，H zP（x i）），用于基于来自Transformer[ 87 ]的注意力（FT）从p（x i）近似p（z i），这将在第2节中详细描述。三点三首先，我们假设观测值以潜变量为条件进行因子分解，并使用一个通用的推理网络（编码器），该网络遵循真实后验的因子分解对于模型网络（解码器），我们不依赖于观测值，而是近似潜在变量z。对于视觉任务，x i对应于索引为i的噪声输入图像，t i0、1对应于治疗分配，yi对应结果，zi对应潜在隐藏混杂因素。请注意，个体结果（δ i）近似值的一般形成是通过δ i=ti y i+（1ti）y i作为潜在结果模型[25，29]进行建模，其基础是因果推理。接下来，每个对应的因子被描述为：p（zi）=YN（z|0，1）;p（xi|zi）=Yp（x|i）;其关联标签（yi）。假设对于每个噪声图像，存在干净但不可访问的图像（xi）和治疗信息（ti），其中干预观察是z∈zip（ti|zi）=Bern（σ（f1（zi）））;x∈xi模型为P（xi）=P（do（xi））P（xiti），并且ti通过do运算符符号do（）编码干预的全部信息。相应的混杂因子z i遵循P（zi）=P（xi，ti，zi），其中zi是不可观测的部分（例如，未被发现的物种“猫”，但属于它的本体论定义）的混淆。为了对噪声输入（xi）进行预测（y i），我们可以通过以下方式对问题进行P（yi|xi）=P（yi| do（x∈i），zi）=P（yi|xi，ti，zi）（1）在因果层次结构的第二层中有do-算子基于因果层次结构，我们可以使用代理变量（ zi， ti ）在较高层次（II）的模型来回答相同或较低层次的问题。接下来，我们使用编码器-解码器架构来重新参数化上述代理变量以进行因果学习，从而引入我们的训练目标p（yi|zi，ti）=σ（tif2（zi）+（1−ti）f3（zi））其中（μ，σ2）表示具有均值μ和方差σ2的高斯分布，p（xz i）是适当的概率分布，σ（. ）是一个逻辑函数，而Bern（. 表示伯努利随机变量的成功概率。每个f k（. ）函数是一个自适应平均池化加线性层，由其自身的参数θ k（k=1、2、3）参数化。这里y i是为分类问题量身定制的，但我们的公式可以自然地扩展到不同的任务。例如，可以简单地重新移动最终的σ（. ）层p（y iz i，t i）用于回归任务。我们的TLT推理网络（编码器），如图所示。 2、旨在学习潜在空间中有意义的因果表征。正如我们可以看到从图。1（a），zZ上的真实后验依赖于xX，t和y。在推断z上的分布之前，我们需要知道治疗分配t及其结果y。因此，不像变分编码器，它只是通过特征6142|∼|∼|Σ|Yq（z|x，y，t）=N（µ，σ）（4）iiiiit=1，it=0，i2i t=1，it=0，iTransformer关键，价值干净的特征图（t =0）查询ResNet编码器特征图（4x4）q（z| x，y，t）图片（128 x自适应平均池+线性乘法融合特征Noisy feature map地图（t =1）q（y|x，t）卷积模块求和q（t| x）~Bernoulli解码器p（x|zp（y|z，p（zp（y|z，t = 1p（y|z，p（t|z）(a)模型网络（解码器）t = 0图2：我们提出的因果Transformer的编码器（推理网络）结构我们利用q（z x，y，t）的双线性融合（BF）而不是级联[44]，并且解码条件查询H zq（y x，t）和编码特征H xp（x）作为键和值来进行注意。解码器如图所示。2（a）与来自p（z）的潜在结果建模[29，73]。直接映射到潜在空间（在我们的编码器中的顶部路径），从残差块提取的特征图被提供给其他切换（在我们的编码器中的下部和中间路径），其提供处理ti和结果yi的后验估计。切换机制（基于ti= 0或1的治疗信息的二进制选择）及其交替损失训练已广泛用于TARNet [76]和CEVAE [44]，具有理论和经验证明。我们使用开关机制的分布：q（ti|xi）=Bern（σ（g1（xi）;q（yi|xi，ti）=σ（tig2（xi）+（1−ti）g3（xi）），（2）其中每个gk是近似q（tixi）或q（yi xi，ti）的神经网络。他们引入了辅助分布，帮助我们预测新样本的ti和yi。为了优化这两个分布，我们在N个数据样本上的整体模型训练目标中添加了一个辅助目标：NLaux=（logq（ti= ti|xi）+logq（yi= yi|xi，ti）），（3）i=1其中xi，ti和yi是训练集中的观测值。由于z上的真实后验依赖于x，t和y，最后我们使用下面的后验近似：2我ziµi=tiµt=1，i+（1−ti）µt=0，i，σ2=tiσ2+（1−ti）σ2µt=0，i=g4<$g0（xi，yi），σ2=σ（g5<$g0（xi，yi））µt=1，i=g6<$g0（xi，yi），σ=σ（g7<$g0（xi，yi））其中gk再次表示神经网络近似，并且g0（xi，yi）是x的共享、双线性融合表示，6143Σ||−|.||t和y。更具体地说，我们将特征图与近似后验q（yixi，ti）相乘，而不使用逻辑函数σ，以获得g0（xi，yi）。最后，我们可以为推理和模型网络提供总体训练目标待优化的TLT的变分下界由下式给出：NLTLT=Laux+Eq（zi|xi，ti，yi）[logp（xi，ti|（i）i=1+logp（yi ti，zi）+logp（zi）logq（zixi，ti，yi）]。（五）如图6（在附录A中），我们可以建模q（t x）= p（t），以直接访问治疗信息进行训练，以指导图6中的一个相应的子网络。对于测试，q（t x）可以通过给定的输入x推断，而不需要从无监督的角度知道治疗信息3.3. TLT的注意机制注意力机制是人类学习组件之一，用于捕获全局依赖性，以便从认知心理学社区[11]的视觉模式中发现逻辑和因果关系[53最近，基于Transformer [87]的注意力机制显示了其从顺序能量更新规则到Hopfield网络[67]的连接，Hopfield网络代表了模拟人类记忆的主要框架凭借对利用人类启发的注意力从噪声图像中推断的直觉，我们将一种新型的Transformer模块用于所提出的因果建模，其显式地对序列中元素之间的所有成对相互作用进行建模。我们的想法是通过自注意设置来学习因果信号[43]，其中我们设置干扰信号（Hz）用于学习查询和图像特征（Hx）用于学习键和值。如图2所示，我们使用带有ResNet34 [22]编码器6144||我联系我们Y从输入图像中提取p（xi），用来自等式（1）的查询q（yi）馈送到键（K）和值（V）（二）：Q=展开（F）Q（H）z <$q（yi|xi，ti））（6）K=展开（FK（Hxp（xi）（7）. QKTΣ√表2：将因果建模应用于噪声图像分类。情况1：具有次级模式（Hiid）的完美标记视觉模式（Hlab）;情况2：在加性扰动（Fper）下的原始标记图像（Hori治疗x~do（x）t=1或01. 上下文H实验室Hlab +Hiid附加模式（例如，“waterside”) (1) or not2. 摄动堀Fper（Hori）人工噪声（例如，高斯）（1）或非（0）V=展开（FV（Hxp（xi）;ai=softmaxVDK（八）如果存在混杂变量，其中，FQ、FK、FV是卷积神经网络，dk是密钥的维数最后，我们通过使用q（tix i）和p（aix i）对q（z i）进行建模，其中因果二模型从等式2扩展。（4）对于近似后验分布p（zi）：p（zi）←q（zi|xi，ai，yi，ti）=N（μi，σ2）.（九）zi我们还对结构选择和所需参数进行了消融研究，这些参数与监督学习[22]，注意力网络[87]和补充B中的因果模型[76]有关，以验证我们的TLT模型设计。综上所述，所提出的因果架构在相同数量的参数下获得了最佳性能。4. 评估噪声图像在本节中，我们介绍了噪声图像数据集，并对TLT进行了统计反驳测试，以评估其因果关系的影响，基于图中的CGM。第1（a）段。也就是说，我们提供了一个肯定的答案，是否存在因果关系的影响，在所研究的噪声图像分类任务。4.1. 估计因果效应预期因果效应的估计是评估CGM（来自逻辑假设）在选定的测试数据集上是否有效的一种通用方法[44，58，59]。基础图形模型将经历一系列图形连接和子集抽样的随机化测试，以测量其估计因果效应的估计误差一般而言，当因果效应的绝对误差较低时，CGM因果模型是可靠的。在这项工作中，我们使用现有技术[44]中使用的平均治疗效果（ATE）进行综合分析。平均治疗效果（ATE）。在二元治疗设置[56]中，对于第i个个体及其相关模型结果yi （考虑治疗效果），ATE计算如下：yi=yti=0，i（1−ti）+yti=1，i（ti），（10）A TE=|E[yi=yi]|ti=1]−E[yi=yi|[0]|、（11）其中yti，i表示具有估计治疗ti的预测0，1。 yi和ti是观察值。所有科目都要参加高考。从[20]，这些指标不能6145|∫the system.另一方面，珍珠[56]介绍了“do-operator”do符号从给定机制中删除处理t，并通过一些外部干预将其设置为特定值符号P（y do（t））表示在可能的治疗干预下y的概率。遵循Pearl的后门调整公式[ 58 ]和图10中的CGM。1，在[ 44 ]中证明，对于给定的二元治疗t，代理变量x，结果y和混杂变量z的因果效应可以通过以下公式进行评估（对于t= 0也是如此）：p（y|x，do（t= 1））=zp（y|x，t= 1，z）p（z|x）dz（12）为了干预t（do（t））的信息，在第5.1节的实验中，应用具有不同速率的翻转错误[44]（参见补充C）来改变ti标签[55]。建议的CGM及其相关的TLT显示弹性ATE估计统计反驳。干预水平的视觉模式（II）。我们澄清了两个常见的情况下，嘈杂的背景下，扰动，在干预水平（II）嘈杂的图像分类。如Tab.所示2，治疗信息（t）是二进制的，具有可访问的噪声输入x和不可访问的本体（干净）表示x，（1）用于视觉模式建模。接下来，我们将在案例1和案例2的范围内引入数据集，以用于我们在这项工作中的实验。4.2. 案例1：具有噪声额外视觉模式的NICO数据集NICO [23]是一个用于噪声图像分类的大规模开放访问基准数据集，其动机是研究具有因果建模的非独立图像分类。NICO数据集使用两个主要概念（例如，“猫”）和作为子标签的上下文（例如，“水-ter”）。NICO由两个超类构成：“动物”和“车辆”，“动物”有10类，“车辆”有9类。NICO总共包含19个类、188个上下文和25，000个图像。NICO的设计初衷是为大规模图像分类提供一个因果建模基准作者评估了几个主要的图像分类数据集（例如，ImageNet ，Pascal和MS-COCO），并发现辅助上下文信息（处理）是非常随机和不准确的统计测量6146构建有效的因果推理。通过选择概念的不同上下文，测试数据分布可以是未知的，并且可以不同于训练数据分布，这可以用于评估因果推理模型。在我们的实验中，我们遵循标准的NICO评估过程[23]，其中一个概念与两个上下文相结合。我们进一步使用上下文作为干预水平中的处理，如表1的情况1。二、一个上下文是概念的属性（t=1），而另一个上下文是概念的属性（t = 1）。一个概念的背景或场景（t=0）。4.3. 案例2：具有加性人工噪声的尽管在为非视觉任务的因果推断提供基准数据集方面做了许多努力[24，26，33，61]，但视觉因果数据收集相对限于使用条件视觉治疗的纯粹因果效应评估[43]。在基于扰动的因果关系研究测试生物网络和NICO的努力的激励下，我们通过使用一组不同的图像扰动类型作为处理（即，选项卡中的病例2。2）的情况。我们选择了两个代表性的数据集， MicrosoftCOCO [38]和一个医学数据集，Decathlon [78]，以创建我们的CPS数据集。每个CPS包含成对的原始图像和扰动图像，以及在第二节中描述的五种4.4表. 3总结了NICO和我们的CPS数据集。接下来，我们将介绍如何在CPS中生成噪声图像。表3：噪声图像分类数据集的比较：CPS与扰动作为处理（见第4.4）和具有噪声背景的NICO（例如，数据集二进制信息（BinaryInformation）数字超类班级总数CPS（我们的）接收人工噪声（或不接收）13,752一般/医疗16Nico现有上下文模式（或不存在）25,000动物/溶剂19超一流一：生成有噪声的一般对象。为了从MS-COCO [38]生成 CPS数据集用于一般超类，我们选择了六个可能导致人类心理学研究[51，68]混淆解释和识别的相似对象类（例如，长颈鹿和大象等）。我们对来自Amazon mechanical turk的1，000名志愿者进行了调查[85]，并选择了前3个相似性标签对。具体来说，我们格式化了三个不同的常见因果对，即长颈鹿-大象（CPS 1）（3316张图像），停车标志-消防栓（CPS2）（2419张图像）和自行车-摩托车（CPS 3）（4729张图像），其中数据集在图中可视化。第3（a）段。超类2：生成噪声医学图像。对于医学超类，我们使用相同的设置，其中包含2630个训练和658个测试CT图像，用于来自Decathlon [ 78 ]的10种不同类型（总类别）的人类疾病，其中包括：（1）肝肿瘤;（2）脑肿瘤;（3）臀部─（4）肺肿瘤;（4）前列腺;（5）心脏;（6）胰腺肿瘤;（7）结肠癌;（8）肝血管;（10）脾。更多细节和可视化（图）3（b））关于这个数据集的信息在附录B中给出。从这两个超类中，我们随机选择了50%的标记图像，并应用视觉修改来生成介入观察结果。每个生成的图像被分配有二进制处理指示符向量ti，其中其第i个元素表示根据第i个视觉修改的二进制处理标签4.4. CPS中的视觉干扰（治疗）我们采用五种不同类型的图像修改方法作为独立干预变量：（i）图像加速;（ii）神经风格转移;（iii）对抗性示例;（iv）对象掩蔽，以及（v）对象分段背景移位。下面我们提供这些视觉处理的简要描述，如图10所示。3.第三章。图像置乱（IS）[93]算法将图像中的所有像素重新对齐到不同的位置，以将原始图像置换为新图像，这用于隐私保护分类[82]。神经风格转移（ST）[16]创建具有感知损失的纹理效果[30]和超分辨率以及实例归一化[86]。对抗示例（AE）添加了输入扰动以避免预测。我们采用快速梯度符号法（FGSM）[19]，其尺度摄动界为= 0。3 .第三章。我们还评估了其他攻击，包括C W[9][47 ]第47话在B区对象掩蔽（OM）背景填充（BR）：在以前的研究中提出了对象掩蔽（OM）[43，92]用于因果学习。我们应用OM和另一种掩模方法，背景填充（BR），将非对象背景复制到掩模片段中作为处理。5. 实验5.1. 基于NICO和CPS的生成模型基线为了进行公平比较，我们选择了两个基准连续生成模型，其中包含标签（y）和二元治疗（t）的信息：改良条件VAE [31，79]（CVAE '）和改良CEVAE [ 44 ]（CEVAE'），其中CVAE常规查询。这两个模型都通过ResNet [22]和具有类似参数（7.1M）的注意层与TLT进行了增强。值得注意的是，CEVAE [44]最初仅设计并应用于线性回归任务，但受益于我们对噪声图像分类的因果建模。NICO数据集上的性能我们首先评估在NICO数据集上训练的模型的性能。从文献[23，95]中报道的结果中，我们选择了最好的报道6147（一）∼长颈鹿大象消火栓停止标志摩托车自行车(a)（b）（c）（d）（e）（f）（b）第（1）款(c)（d）其他事项图3：我们生成的用于噪声图像分类的CPS数据集的图示。我们从两个数据集中随机选择50%我们通过1,000次人类调查选择了类似的对象类别左图：三对因果关系：CPS中从左到右，视觉处理是：（a）原始输入图像，（b）图像置乱，（c）神经风格转移;(d) 敌对的例子我们进一步讨论了[ 43，92 ]中使用的掩蔽干预对一般受试者的影响：（e）物体掩蔽;和（f）背景再填充。右：肺肿瘤的演示在迪卡侬相同的格式。表4：扰动（例如，纹理）对不同处理的CPS图像平均值（13.7k）的分类准确度（%）的影响及其因果效应估计。请注意，TLT（7.39 M）与CVAE“和CEVAE”具有相似的参数n为治疗噪声级。分类精度（↑）平均治疗效果（↑）t类型（n = 0.05）CVAE'CEVAE'TLT（我们的）CVAE'CEVAE'TLT（我们的）原文（无t）83.31±0. 1283.31±0. 2383.31±0. 130.0120.0180.017风格转移（ST）73.67±0. 3174.34±0. 2676.12±0. 270.3240.3430.359图像置乱（IS）72.31±1。2776.21±0. 8180.12±0. 540.0570.2950.288对抗性示例（AE）79.12±0. 2581.12±0. 1783.12±0. 120.0250.0270.036对象掩码（OM）70.12±0. 1972.73±0. 2174.06±0. 110.1790.2410.253背景再填充（BR）71.32±0. 2872.59±0. 2974.91 ±0. 170.2130.2210.238表5：NICO的分类准确度（%）。模型[23]第二十三话CVAE'CEVAE'TLTAcc.59.76±1。5257.23±2。1262.17±1。8265.98±1。74模型，StableNet来自[95]，具有样本加权，优于六个现有的竞争模型[36，49，52，74，83，97]包括SagNet [52]和GroupDRO [74]来自官方报告。如表中所示。5，生成模型与建议的因果建模取得了竞争力的结果，NICO与组成的偏见设置，其中TLT达到最好的性能为65.98%。我们在不同的NICO设置下提供了更多的分析，其中TLT仍然是补充C中的最佳模型。CPS数据集上的性能。在表4中，我们比较了TLT与修饰的CVAE6148第1行在CPS数据集上训练。TLT在原始图像、IS、ST、AE、OM和BR设置中的准确性始终优于CVAE和CEVA，具有从1. 60%比7。百分之八十一。 CEVAE '和TLT也被证明有较高的因果估计（CE）比CVAE'在所有的设置，除了ST。有趣的是，ST导致更高的因果值（从0。318比0 354）相比，其他修改，如IS和AT。这一发现符合最近关于DNN使用边缘和纹理进行视觉任务的先天偏见的研究在ST设置中具有较低值的CEVAE基准1我们还对CPS的NICO中使用的七种算法进行了实验。然而，所有评估的算法比我们选择的CPS基线表现更差，可能是由于CPS中部署代码和重量将开放供参考。6149原始CVAE表S15验证了我们的方法是稳健的。5.2. 神经因果系数（NCC）神经因果系数（NCC）[43]是一种基准因果发现技术，用于验证因果信号[43，92]在部署实验中的重要性。NCC用于发现通过应用CNN计算的一对相关代理变量的联合分布(a) CVAE'(b) CEVAE'(c) TLT到图像像素。Lopez等人[43]使用增强的NCC网络证明了ResNet [22]中图像中对象与上下文之间因果关系的存在，并表明在对象特征比中，反因果信号始终比因果信号具有更强的关系。1.00.80.6图4：（a）利用提出的TLT和CPS数据集，神经显着性方法可以扩展到视觉模式，0.40.20.0大象长颈鹿消防栓停止标志自行车摩托车肺肝推论以顶行为例，使用TLT，引导梯度CAM [75]可以与简洁的人类可解释的长颈鹿图案而不是森林纹理更加一致真实和边缘。显著性之间的更多相关性分析(a) 根据ResNet34 [22]中的特征fR计算的TFR为[43]。1.00.80.6NICO和CPS中的标签见附录C。（b）第（1）款通过tSNE对q（z）的学习流形进行可视化[46]，0.40.20.0大象长颈鹿消防栓停止标志自行车摩托车肺肝提出的TLT图4（a）中的Guided Grad-CAM [ 75 ]的可视化验证了这一假设，并突出了我们的推理网络在从潜在空间z获得强大的视觉理解方面的重要性，如tSNE [46]结果图。4（6）。视觉干预的一个关键问题是难以研究对物体掩模大小的影响[43，62]。附录C显示了TLT对不同掩模尺寸的一致和稳定的性能。医学超级课堂案例研究：我们用医学超类进行同样的实验来识别视觉临床特征。分类和估计性能与一般CPS对象一致其中TLT达到最高精度88。74%在原始设置和82。在加扰设置中为57%（例如，数据加密操作）设置。TLT在课堂上最有效在对抗性测试中，对噪声图像进行了有效的处理，使ATE的测量更加合理我们还对临床模式的激活显着性进行了专家评估（图1）。4）.基于他们的领域知识[65，66，89]，三位医生独立且一致地对我们的方法的显著性属性给出了最高因果模型的统计反驳：为了严格验证我们的ATE估计结果，我们使用图10中的因果模型遵循标准反驳设置[57，60，72]。1运行三个主要的测试，如补充E和(b) 根据我们提出的TLT，通过特征fC图5：通过治疗特征比（TFR）评分评价因果对[43]。显示与前1%因果/反因果特征评分相关的TFR的平均值和标准差。结果表明，视觉扰动测量与先前的研究一致[43]。我们重现了[43]中的NCC架构，并发现COCO的所有反因果分数都大于因果分数，如[43]所示，其中所提出的数据集中的因果信号已经通过额外的NCC测试进行了验证。6. 结论受人类启发的注意机制和因果层次理论的启发，本文提出了一种新的基于处理估计的噪声图像分类框架--处理学习Transformer（TLT）除了在具有噪声背景的NICO数据集上显示出TLT的显著提高的准确性之外，我们还基于五种不同的视觉图像扰动类型创建了一个新的capture-pair数据集（CPS），用于一般和医学图像的性能我们通过对平均治疗效果的统计学反驳检验验证了TLT我们还展示了TLT在改进的视觉显着性图和表示学习方面的优势我们的研究结果为深度学习和视觉因果推理的交叉研究提供了有前途的方法和新的神经网络架构我们的补充代码将在Apache许可证2.0下向社区开放资源。(in 我们的经验）(in 我们的经验）（我们的）0.92前上尾的顶因0.860.820.740.740.720.670.650.530.450.440.320.310.280.210.181.01前上尾的0.88顶因0.830.80.70.650.640.60.60.430.40.350.310.250.20.1治疗特征比治疗特征比6150引用[1] Ehsan Abbasnejad 、 Damien Teney 、 Amin Parvaneh 、Javen Shi和Anton van den Hengel。反事实视觉与语言学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第10044-10054页，2020年。2[2] Vedika Agarwal，Rakshith Shetty，and Mario Fritz.朝向因果vqa：通过不变和协变语义编辑来揭示和减少虚假相关。在IEEE/CVF计算机视觉和模式识别会议论文集，第9690-9698页，2020年。2[3] 简·菲利普·阿尔布莱希特。gdpr将如何改变世界。EUR. 数据保护L. Rev. ，2：287，2016。13[4] Michael A Alcorn ， Qi Li ， Zhitao Gong ， ChengfeiWang，Long Mai，Wei-Shinn Ku，and Anh Nguyen.摆姿势：神经网络很容易被熟悉物体的奇怪姿势所愚弄。在IEEE计算机视觉和模式识别会议论文集，第4845一、二[5] Mohammad Taha Bahadori，Krzysztof Chalupka，EdwardChoi，Robert Chen，Walter F Stewart，and Jimeng Sun.因果正则化。arXiv预印本arXiv：1702.02604，2017。2[6] Hareesh Bahuleyan、Lili Mou、Olga Vechtomova和Pascal普帕特序列到序列模型的变分注意力在第27届国际计算语言学会议论文集，第1672-1682页，2018年。3[7] E Bareinboim，JD Correa，D Ibeling和T Icard。在pearl层次结构和因果推理的基础。ACM Special Volume inHonor of Judea Pearl（暂定名），2020年。3[8] Peter Bühlmann，Jonas Peters，Jan Ernest，等.卡姆：因果关系加法模型，高维有序搜索和惩罚回归。The Annals ofStatistics，42（6）：25262[9] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子有不易检测：列举了十种检测方法。在第10届ACM人工智能与安全研讨会上，第3-14页ACM，2017。六、十四、十六[10] Krzysztof Chalupka，Pietro Perona和Frederick Eber-哈特视觉因果特征学习。arXiv预印本arXiv：1412.2309，2014。2[11] 陈天问：拉尔斯·米歇尔斯，约翰？考伊赫？苏佩卡Kochalka，Srikanth Ryali，and Vinod Menon.前岛叶皮层在多感觉知觉-视觉注意过程中整合因果信号中的作用欧洲神经科学杂志，41（2）：264-274，2015。4[12] 保罗·唐宁刘佳南希·坎维舍测试认知-视觉注意的功能磁共振成像和脑磁图模型Neuropsychologia，39（12）：1329-1342，2001. 17[13] 艾米·法尔和朱松春因果归纳法在人类从视频中学习和推断因果关系。InProceedings ofthe Annual Meeting of the Cognitive Science Society ，Volume 35，2013. 2[14] 艾米·法尔和朱松春学习知觉因果关系从视频。ACM Transactions on Intelligent Systems andTechnology（TIST），7（2）：23，2016. 2[15]

下载后可阅读完整内容，剩余1页未读，立即下载