没有合适的资源?快使用搜索试试~ 我知道了~
学习表示是否尊重因果关系
smilingno glassesfemaleeyes visiblemouth openno beardblonde hairAttribute LabelsEyesEyewearSmilingMouthFacial hairGenderCausal Relations from Attribute Labels2640学习表示是否尊重因果关系?0Lan Wang和Vishnu NareshBoddeti密歇根州立大学0wanglan3,vishnu@msu.edu0摘要0数据通常具有许多语义属性,这些属性彼此之间存在因果关联。但是,数据的属性特定的学习表示是否也尊重相同的因果关系?我们通过三个步骤回答这个问题。首先,我们介绍了NCINet,一种从高维数据中观察因果关系的方法。它纯粹训练于合成生成的表示,并可应用于真实表示,并且专门设计用于减小两者之间的领域差距。其次,我们应用NCINet来识别不同属性对的图像表示之间的因果关系,这些因果关系的标签之间的因果关系已知或未知。为此,我们考虑了在3DShapes、CelebA和CASIA-WebFace数据集上学习的图像表示,我们用多个多类属性进行注释。第三,我们分析表示学习中各种设计选择对所引起的潜在因果关系的影响。我们的实验表明,(1)NCINet在估计随机样本对之间的因果关系方面明显优于现有的观测因果发现方法,无论是否存在未观察到的混淆因素,(2)在受控场景下,学习表示确实满足其各自标签之间的潜在因果关系,(3)因果关系与表示的预测能力呈正相关。代码和注释可在以下网址找到:https://github. com / human - analysis / causal - relations -between-representations。01. 引言0考虑图1a中的人脸图像。自动人脸分析系统通常涉及从人脸中提取语义属性。这些属性通常通过控制它们之间的潜在因果机制相关联。现代计算机视觉系统通过从大规模数据中学习来预测这些属性。0(a)属性标签之间的因果关系示意图0性别:0面部毛发:0头发颜色:0微笑:0嘴巴:0眼镜:0属性特定表示0眼睛0眼镜0微笑的嘴巴0面部毛发0性别0从表示中获得因果关系0?0(b)属性特定学习表示之间的因果关系0图1.视觉数据可能具有多个因果相关的属性。本文的目标是确定属性特定的学习表示是否尊重属性之间的潜在因果关系?如果是,程度如何?0注释数据集。这是通过学习图像的属性特定紧凑表示来进行的,从中进行属性预测。这种设置自然引发以下问题(图1b):(1)我们能否准确地从观测数据中估计高维表示之间的因果关系?(2)学习的属性特定表示是否也满足相同的潜在因果关系,程度如何?最后(3)因果关系如何受到训练程度、过拟合、网络架构等因素的影响。回答这些问题是本文的主要目标。我们的工作受到经验观察的启发,即现代表示学习算法倾向于无法控制地吸收数据中的所有相关性。因此,虽然这些系统在许多应用中展示出显著的改进性能,但也导致了意想不到的后果,从对人口群体的偏见[4]到提取和泄露敏感信息[49]。识别表示之间的因果关系可以帮助解决这些问题。2650减轻虚假相关性的有害影响。随着采用这种表示的计算机视觉系统的普及,有必要设计一些工具来发现给定一组表示的因果关系。从学习到的表示中发现因果关系面临两个主要挑战。首先,因果发现通常涉及对数据的干预[44],而在观察表示空间上进行干预通常是困难或不可能的。例如,在图像空间中,对于某些属性(如头发颜色、眼镜等),可以在图像获取过程中进行干预。对于性别或种族等属性,可能无法进行此类干预。另一方面,在表示空间中直接对这些属性进行干预并不明显。其次,因果发现方法,无论是对于成对还是整个图形,通常在具有多个相关属性的小规模低维数据集上进行评估。然而,没有任何大规模图像数据集标记有多个因果相关属性,也没有任何用于评估学习表示上的因果发现方法效果的标准化协议。为了减轻这些挑战;(1)我们提出了神经因果推断网络(NCINet)-一种基于学习的方法,用于从高维表示中进行观察性因果发现,无论是否存在混淆因素。NCINet在通过已知因果机制生成的自定义合成数据集上进行训练。为了确保它推广到具有复杂因果关系的真实表示,我们(a)将各种复杂度的函数类集成到数据生成机制中,(b)引入了一个明确设计的学习目标,以鼓励领域泛化。(2)我们开发了一个实验协议,其中(a)现有数据集可以被可控地重新采样,以在属性标签之间引入所需的已知因果关系,(b)从重新采样的数据中学习属性表示并推断它们之间的因果关系。我们采用了三个图像数据集,即3DShapes数据集[7],CelebA [34]和CASIA WebFace[60],其中我们用多个多标签属性对后者进行了注释。贡献:首先,我们提出了一种基于学习的工具NCINet,用于从高维观测数据中进行因果发现,无论是否存在混淆因素。对合成和真实世界数据的数值实验表明,与现有方法相比,NCINet在因果推断泛化方面表现出显著优势。其次,我们使用NCINet进行属性特定的因果推断学习表示,并得出以下观察结果;(1)在高因果强度的受控场景下,学习到的属性特定表示确实满足相应属性标签之间的相同因果关系。(2)因果一致性与属性分类器的预测能力高度相关(例如,因果一致性随过拟合而降低)。0学习表示:开发同时具有鲁棒性和区分性的图像表示的追求已经引起了广泛的研究。在最早的基于学习的方法中,Turk和Pentland提出了依赖于数据的主成分分析(PCA)的特征脸[55]。随后,集成和高维度的局部空间特征在图像识别中变得流行,其中值得注意的例子包括局部二进制模式(LBP)[1],尺度不变特征变换(SIFT)[39]和方向梯度直方图(HoG)[12]。与这些手工设计的表示相比,过去十年见证了端到端表示学习系统的发展。从监督学习[18, 33, 52],解缠学习[8, 10, 19, 28,54]到最近的自监督学习[9, 14, 16, 42,43],现代图像表示现在代表了这些方法。这些方法的目标是学习能够在任意任务中很好地泛化的通用表示。因此,它们倾向于无法控制地学习数据中的所有上下文相关性。本文的目标是验证学习到的表示是否保留了数据生成过程的潜在因果关系。02. 相关工作0表示学习:开发同时具有鲁棒性和区分性的图像表示的追求已经引起了广泛的研究。在最早的基于学习的方法中,Turk和Pentland提出了依赖于数据的主成分分析(PCA)的特征脸[55]。随后,集成和高维度的局部空间特征在图像识别中变得流行,其中值得注意的例子包括局部二进制模式(LBP)[1],尺度不变特征变换(SIFT)[39]和方向梯度直方图(HoG)[12]。与这些手工设计的表示相比,过去十年见证了端到端表示学习系统的发展。从监督学习[18, 33,52],解缠学习[8, 10, 19, 28, 54]到最近的自监督学习[9,14, 16, 42,43],现代图像表示现在代表了这些方法。这些方法的目标是学习能够在任意任务中很好地泛化的通用表示。因此,它们倾向于无法控制地学习数据中的所有上下文相关性。本文的目标是验证学习到的表示是否保留了数据生成过程的潜在因果关系。0因果推断:随机对照实验是因果推断的金标准。然而,在许多计算机视觉应用中,我们无法控制图像形成过程,因此这样的实验是不可行的。同时,已经提出了大量的方法,纯粹从观测数据中进行因果发现,主要有两种设置,即完整图或成对设置。已经对完整因果图进行了深入研究,既使用基于学习的方法[2, 3, 6, 24,27],也使用非学习的方法[11, 26, 45,51]。在本文中,我们将重点限制在只有两个随机变量同时存在或不存在未观察到的混杂变量的情况下进行因果发现。在不同的情况下,也已经付出了大量的努力。这些包括比较离散变量的信息熵[29,30],神经因果方法[17, 36,38],因果和反因果方向的噪声统计比较[20,41],因果和反因果方向的回归误差比较[4],科尔莫哥洛夫复杂性比较[5, 56],构建分类和回归树[40],分析条件分布[15,25]等等[21, 35, 47]。除了[5, 21, 40,56]之外,大多数上述方法都是针对低维变量设计和应用的。在计算机视觉的更广泛背景下,对因果发现的兴趣越来越浓厚[36],对因果数据生成的兴趣越来越浓厚[31],在场景理解系统中融入因果概念[53, 57, 59,62],域自适应[61]和去偏[58]。在本文中,提出的NCINet是一种针对高维变量的神经因果推断方法。它包括(1)通过因果标签进行直接监督,通过比较因果和反因果方向的回归误差进行间接监督,并通过对抗性损失来鼓励域泛化;(2)与所有现有方法相比,我们的模型被训练来推断所有可能的(见图2)成对情况下的因果关系,包括在存在和不存在未观察到的混杂变量的情况下。First, we define the primary causal inference query thatthis paper seeks to answer i.e., “Do learned representationsrespect causal relationships?”. Consider the graph G1 inFig. 2, which has two attributes X and Y , where the causalrelation between them is X → Y . An image I is gen-erated by an unknown stochastic function of these two at-tributes. Let x and y be high-dimensional attribute-specificrepresentations learned for predicting labels X and Y , re-spectively, from the corresponding images. The structuralcausal equations (SCEs)1 that characterize this process are:(1)2660XY0(a)G1,标签:10XY0(b)G2,标签:20XY0Z0(c)G3,标签:00XY0Z0(d)G4,标签:10XY0Z0(e)G5,标签:20XY0Z0(f)G6,标签:00XY0Z0(g)G7,标签:00图2.随机变量对之间的所有可能因果关系。蓝色节点表示因果关系,绿色表示效应,红色表示混杂变量或共同效应(Z)。我们只考虑观察到X和Y,但没有观察到Z的情况。因此,这些图表示三种不同的因果关系,(i)标签1:因果关系(X→Y);(ii)标签2:反因果关系(X←Y);(iii)标签0:X和Y无关。请注意,由于Z没有被观察到,G7等同于G6,因此可以忽略。0首先,我们定义了本文试图回答的主要因果推断问题,即“学习表示是否尊重因果关系?”。考虑图2中的G1,它具有两个属性X和Y,它们之间的因果关系是X→Y。图像I是通过这两个属性的未知随机函数生成的。让x和y分别是从相应图像中预测标签X和Y的高维属性特定表示。表征这个过程的结构性因果方程(SCEs)1是:03. 表示之间的因果关系0a x � P c(X) a y � P e(Y | X = a x)0I = g(a x, a y, ϵ)0x = h X(I; θ X) y = h Y(I; θ Y)0其中 a x 和 a y 是采样的属性实例,ϵ 是与 X 和 Y都独立的噪声变量,h X(∙; θ X) 和 h Y(∙; θ Y) 分别是提取 X和 Y的属性特定表示的编码器。在这个模型下,给定特征的分布x �01 图2中其他成对因果关系的SCE和相应的因果推断查询可以类似地定义。0P(z x) 和 y � P(z y)对于这两个属性,我们试图确定属性特定表示是否也遵循相同的潜在因果关系,即 z x → zy?这些学习到的属性特征之间的关联可以很好地近似为一个非线性后因果模型(PNL)[63],0z y = f 2(f 1(z x) + ϵ) (2)0其中 f 2 和 f 1 是非线性函数,f 2 是连续且可逆的,ϵ是一个噪声变量,使得 e ⊥⊥ zx。从观测数据中确定PNL模型的可识别性是由Zhang和Hyv¨arinen[64]建立的。从概念上讲,关键思想是因果方向上的分布P(z y | zx)“比反因果方向上的分布复杂性更低”。NCINet,提出的因果推断方法,旨在利用这种差异。我们注意到,在没有强假设的情况下,直接因果关系与由潜在混淆引起的因果关系是无法区分的。然而,我们从人类能够仅通过观察准确推断出因果关系的能力中获得启示,并试图直接从样本中揭示表示之间的因果模式。04. 观测因果发现问题0基于学习的观测因果发现考虑一个由 n个观测样本组成的数据集 S,0S = {S i} n i = 1 = {(x j, y j) m i j = 1} n i = 1 � P(x,0其中每个样本 S i 本身是一个由 m i 个表示对 { (x 1, y 1), ...,(x m i, y m i) } 组成的数据集,x ∈ R d x 和 y ∈ R d y分别是对应于预测 X 和 Y 的学习表示,P(x, y)是这两个表示的联合分布。联合分布 P(X, Y)可以表示图2中显示的不同因果关系,即(i)因果类(X →Y);(ii)反因果类(X ← Y);(iii)X 和 Y在存在或不存在未观察到的混淆因素 Z的情况下都不相关。基于学习的因果发现的关键思想是利用在现实世界观测数据中经常存在的许多因果足迹的多种表现形式[48]。例如,通常情况下,因果方向上的功能关系比反因果方向上的功能关系“更简单”。2670Σ X j Y j0Σ m0共享编码器0Σ Z x j Zy j0Σ m0监督编码器 z0回归器 R X → Y0回归器 R Y → X0�MSE X → Y0MSE Y → X0�0�0分类器0对手0因果关系0函数标签0合成因果特征生成器 无监督分支 对抗性表示学习 NCINet 推断0图3. 概述:神经因果推断网络(NCINet)的示意图。它包括(1)一个共享编码器,将表示映射到一个公共空间,(2)一个监督编码器,从公共空间提取表示z,(3)一个因果回归分支,比较因果和反因果方向的回归误差,(4)一个对手,试图提取函数标签,(5)一个融合模块,结合来自两个分支的信息并预测因果关系。更多细节请参见正文。0无监督方法通过测量因果和反因果函数的复杂性[5]、联合分布的因果和反因果因子化的熵[29]或比较因果和反因果方向的回归误差来利用这些因果信号[4]。超越特定类型的因果足迹,监督方法试图利用观测数据中的任何可能的因果信号,通过学习直接从观测数据集S中预测因果标签。神经因果模型(如NCC [36],GNN [17]和CE-VAE[38])是一类特殊的监督方法,利用基于神经网络的分类器。尽管监督和无监督方法都基于相同的原则-即利用因果足迹,但它们在一个关键方面有所不同。与无监督方法不同,监督方法需要有地面真实因果图来训练因果分类器。然而,在大多数现实场景中,地面真实因果图是未知的。因此,监督方法通常纯粹在合成生成的数据上进行训练,因此存在合成到真实领域的泛化差距。另一方面,无监督方法可以直接应用于感兴趣的观测数据,因此对数据领域是不可知的。然而,与监督方法不同,无监督方法(如RECI[4])一次只利用一种类型的因果足迹,例如因果和反因果方向之间的回归误差。05.神经因果推断网络0神经因果推断网络(NCINet)是一种用于观测因果发现的神经因果模型。给定一对高维属性特定表示S = {xj, yj}mj =1,我们试图确定三种因果关系之一,X → Y,X ←Y或X与Y无关。图3显示了NCINet的概览以及定制高维信号的因果数据生成过程。0我们的整个解决方案从三个角度出发:(1)建模:如前一节所述,监督和无监督模型具有互补的优势和局限性。因此,我们将它们都纳入NCINet中进行最终预测。(2)数据:语义图像属性(例如面部特征)涵盖了图2中所示的所有成对因果关系的整个谱系。然而,现有的基于监督和无监督学习的因果发现方法只考虑这些关系的一个子集(忽略独立类或未观察到的混淆因素),并且设计用于低维信号,因此对我们的目的来说是次优的或不足够的。因此,我们设计了一个合成数据生成过程,以获得涵盖所有可能的成对因果关系的高维特征。(3)泛化:为了使NCINet能够从合成训练数据推广到真实表示,我们采用了两种策略。首先,合成特征生成过程包括一组线性和非线性因果函数。其次,我们采用对抗性损失来消除对合成训练数据中功能类别选择的预测偏差。0NCINet由五个组件组成:共享编码器、监督编码器、因果回归分支、对抗器和分类器。下面将对这些组件进行描述。0编码器:有两个编码器,一个共享编码器将表示对映射到中间表示(zx,zy)=(ESE(x),ESE(y)),一个监督编码器提取最终分类器的特征。后者的编码器作用于连接特征的�zxzy�T0并从表示中提取一个在表示中平均池化的特征。在图3中,得到的特征被表示为z。0因果回归:NCINet的因果回归分支受到[4]提出的不对称思想的启发,其中预测的均方误差(MSE)在因果方向上比反因果方向上小。E[(E − ϕ(C))2] ≤ E[(C − ψ(E))2],(4)��ml =2680因果方向,即0其中C是原因,E是结果,ϕ是最小化从C预测E的MSE的回归器,ψ是最小化从E预测C的MSE的回归器。因此,通过比较两个回归误差可以估计因果关系。这个想法的一个有吸引力的特性是它的内在能力,即通过无监督和不需要任何学习来推广到未见过的因果数据生成函数类。NCINet的因果回归分支采用了在中间嵌入(zx,zy)上操作的岭回归器。因果回归器R X → Y:zx → y最小化MSE,10m � m j =1 ∥ ˆ yj − yj ∥ 2 20回归器:最终分类器通过将来自监督编码器的特征z与输出的MSE X → Y和MSE Y →X的最小值(MSE X → Y,MSE Y → X)/(MSE X → Y,MSE Y → X)进行连接。0m � m j =1 ∥ ˆ xj − xj ∥ 2 20回归器:最终分类器通过将来自监督编码器的特征z与输出的MSE X → Y和MSE Y → X的最小值(MSE X → Y,MSEY → X)/(MSE X → Y,MSE Y → X)进行连接。0LR = 10i =1 ∥ ˆ yi − yi ∥2 2 + 10i =1 ∥ ˆ xi − xi ∥ 22 (5)0对抗损失:从监督编码器提取的特征z可能仍然包含特定于生成合成特征的函数类的信息。然而,如果下游分类器利用任何虚假相关性与地面真实因果关系之间的函数类特定信息,NCINet的泛化性能可能会受到阻碍。因此,我们通过对手测量z中关于函数类的信息量,并将其最小化。这种类型的对手通常被建模为神经网络,并通过极小极大优化进行优化,但在实践中可能不稳定[13,22]。为了便于优化,我们使用核岭回归器来模拟对手,它具有闭合形式的解决方案ˆyf = K(K +βI)-1yf,其中yf是表示合成数据的函数类的one-hot向量,β是正则化参数,K是从特征z计算的核矩阵。我们通过对手的损失进行反向传播,该损失为:0LA = -∥ yf - ˆyf ∥ 2 2 = -∥ yf - K (K + βI) - 1yf ∥ 2 2(6)0分类器:最后,监督分类器将来自监督编码器的特征z与输出的MSE X → Y和MSE Y →X的最小值(MSE X → Y,MSE Y → X)/(MSE X → Y,MSE Y → X)进行连接。0因果回归器的输出,并将因果关系分为以下三类。00,如果X与Y无关,即没有因果关系;1,如果X →Y;2,如果X ← Y。0我们注意到,这与现有的因果推断方法(如NCC[36],RECI[4]等)不同,后者仅将因果关系分为两类,即因果和反因果。然而,在许多实际场景中,图像属性及其对应的表示可能非常弱,正如我们在第7.2节中讨论的那样。分类器通过最小化其预测与地面真实因果关系l之间的交叉熵损失LC来学习。NCINet的所有组件都通过同时优化所有中间损失来进行端到端训练,即Loss = LC + LR +λLA,其中λ是与对抗损失相关的权重。分类器将学习利用数据中的所有因果特征,这得益于因果回归器和对手的帮助。因果回归器的特征有助于利用回归误差差异对应的因果特征,而对手则帮助分类器减小合成到真实域的泛化差距。回归器、对手和最终分类器之间的交互是通过它们共同的中间表示空间(zx,zy)引发的,它们都在该空间上操作。06. 实验:神经因果推断0在本节中,我们将NCINet与现有的基线方法在具有已知因果关系的合成高维表示上的性能和泛化能力进行比较评估。数据和训练:由于缺乏具有地面真实因果标签的大规模数据集,因此无法对因果发现模型进行实际观测数据的训练。因此,通常的做法是在合成观测数据上训练和评估因果发现模型。以这种方式训练的模型现在可以直接应用于实际观测数据。合成数据生成通常遵循加性噪声模型[46],其中效应变量是由因果变量的函数获得,并受到独立的加性噪声扰动。我们采用相同的加性噪声模型作为我们的因果机制。为了提高泛化能力,我们使合成训练数据多样化。具体而言,我们采用了不同的高维因果函数集合,包括线性、哈达玛、双线性、三次样条和神经网络。更多细节请参见补充材料。在每个训练时期,我们生成1000个样本,每个数据样本由100个特征对(即m =100)随机采样而来,其中包括一个因果函数和其相应的参数。将数据生成整合到训练过程中可以确保模型从无限流的不重复数据中学习。我们通过祖先采样生成表示对(x,y)。例如,在G1的情况下,其中x →y,合成表示生成如下:P(w)→P(x | w)→P(y |x,w),其中w代表所有未观察到的混淆因素。更多细节请参见补充材料。基线方法:我们考虑四种基线方法,ANM [20],Bivariate Fit (BFit)[23],NCC [36]和RECI[4]。然而,这些方法最初是为了对一维变量进行因果推断,并区分因果和反因果方向。因此,我们将它们扩展到高维数据,并区分因果方向、反因果方向和无因果关系。具体而言,对于NCC,我们将高维特征x和y连接起来作为网络的输入,并将输出层改为三个类别。对于无监督方法ANM、BFit和RECI,我们按照要求直接对高维特征x和y进行回归。由于这些方法是基于分数的,即分数>0表示因果方向,分数<0表示反因果方向,我们引入了额外的阈值来识别无因果关系的情况,即如果|score| 0表示因果方向,分数<0表示反因果方向,我们引入了额外的阈值来识别无因果关系的情况,即如果|score|
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功