多干扰变量下的神经影像数据集的等变性处理及分析

14 浏览量更新于2023-10-25 收藏 16.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

multi-institutional imaging studies (e.g., ADNI [24], NIHAll of Us and HCP [17]) but the types of data collectedor the project’s scope (e.g., demographic pool of partici-pants) may not be suited for studying speciﬁc secondaryscientiﬁc questions. A “pooled” imaging dataset obtainedfrom combining roughly similar studies across different in-stitutions/sites, when possible, is an attractive alternative.The pooled datasets provide much larger sample sizes andimproved statistical power to identify early disease bio-markers – analyses which would not otherwise be possi-ble [14,27]. But even when study participants are consistentacross sites, pooling poses challenges. This is true even forlinear regression [53] – improvement in statistical power isnot always guaranteed. Partly due to these as well as otherreasons, high visibility projects such as ENIGMA [44] havereported ﬁndings using meta-analysis methods.Data pooling and fairness. Even under ideal conditions,pooling imaging datasets across sites requires care.As-sume that the participants across two sites, say site1 andsite2, are perfectly gender matched with the same propor-tion of male/female and the age distribution (as well as theproportion of diseased/health controls) is also identical. Inthis idealized setting, the only difference between sites maycome from variations in scanners or acquisition (e.g., pulsesequences). When training modern neural networks for aregression/classiﬁcation task with imaging data obtained inthis scenario, we may ask that the representations learned by104320等变性允许处理分析汇集的神经影像数据集中的多个干扰变量0V0lokhande@cs.wisc.edu Rudra0rudrasischa@gmail.com Sath0sathya@uic.edu Vikas Singh0vsingh@biostat.wisc.edu0摘要0汇集多个神经影像数据集跨机构通常可以提高统计功率，从而评估（例如，风险因素和疾病结果之间的）关联，否则可能太弱以至于无法检测到。当只有一个变异源（例如，不同的扫描仪）时，领域适应和匹配表示的分布在许多情况下可能足够。但是，在同时影响测量的多个干扰变量存在的情况下，汇集数据集会带来独特的挑战，例如，数据的变化既可以来自采集方法，也可以来自参与者的人口统计学特征（性别、年龄）。单独的不变表示学习本身不适合完全建模数据生成过程。在本文中，我们展示了如何将最近关于等变表示学习（用于研究神经网络中的对称性）的结果与经典因果推断结果的简单应用结合起来，提供一种有效的实际解决方案。特别是，我们演示了我们的模型如何在一些假设下处理多个干扰变量，并能够在否则需要删除大部分样本的情况下分析汇集的科学数据集。我们的代码可在https://github.com/vsingh- group/DatasetPooling上找到。01. 引言0许多学科的观察研究获取横断面/纵向临床和影像数据，以了解神经退行性和痴呆等疾病。通常，这些研究对于主要的科学假设具有足够的统计功率。然而，当使用常见的统计显著性阈值进行次要分析以研究风险因素（如遗传学）和疾病结果之间的较弱但潜在有趣的关联时，由于样本量较小/中等，通常会遇到困难。在过去的十年中，有协调的大规模多机构影像研究（例如ADNI[24]，NIH All of Us和HCP[17]），但所收集的数据类型或项目的范围（例如参与者的人口统计学特征）可能不适合研究特定的次要科学问题。从不同机构/站点组合获得的“汇集”影像数据集是一个有吸引力的选择。汇集数据集提供了更大的样本量和改进的统计功率，以识别早期疾病生物标志物-这些分析在其他情况下是不可能的[14,27]。但是，即使研究参与者在各个站点之间是一致的，汇集仍面临挑战。即使对于线性回归[53]，统计功率的提高也并不总是保证的。部分原因是由于这些以及其他原因，高能见度的项目（如ENIGMA[44]）已经使用元分析方法报告了研究结果。数据汇集和公平性。即使在理想条件下，跨站点汇集影像数据集也需要谨慎处理。假设两个站点（例如站点1和站点2）的参与者在性别上完全匹配，男女比例相同，并且年龄分布（以及患病/健康对照的比例）也相同。在这种理想化的情况下，站点之间唯一的差异可能来自扫描仪或采集（例如，脉冲序列）的变化。当在这种情况下使用神经网络对于回归/分类任务进行训练时，我们可以要求学习到的表示是相同的。0图1.学习不变表示。在我们的框架中，输入图像X从多个站点汇集在一起。编码器Φ将X映射到对应于高级因果特征XC的潜在表示Φ(X)，该特征影响标签预测。与输入图像X不同，Φ(X)对于干扰属性（如站点（扫描仪）和协变量（年龄））是鲁棒的。Φ与预测器h和解码器Ψ一起进行训练。104330（a）因果图0（b）特定年龄组的站点（扫描仪）变化。0（c）Siemens扫描仪中协变量（年龄）的变化。0图2.（a）列出了多站点汇总问题的感兴趣变量及其关系的因果图。节点Dpopul，Dacqui和Dpreval表示在站点之间变化的人口、采集和患病率偏差。C是协变量（如年龄或性别）。XC表示影响标签Y的图像X的高级因果特征。红色节点d-分离蓝色和绿色节点。（b）ADNI[24]数据集中控制对象的MRI图像，用于不同扫描仪在年龄组70-80中。（c）在Siemens扫描仪上获得的控制对象的图像，即固定站点，用于三个极端年龄组。图像顶部的甘特图指示了Phillips和GE扫描仪的相应年龄范围。如观察到的，不同的扫描仪组没有共同的“年龄”协变量支持，导致在朴素汇总方法中丢弃超出共同支持的样本。0模型对表示“site”的分类变量具有不变性。虽然这不是一个“解决”的问题，但是基于不变表示学习的结果，这种策略已经成功地部署了[2, 3,31]（见图1）。我们可以从公平的角度来看待这个任务 -我们希望模型在“site”变量方面的性能是公平的。通过使用约束[49]或使用对抗模块[15,50]，这种方法是有效的。这种设置还允许在分析汇总数据之前，将领域适应[32, 47,52]或迁移学习[10]的工具重新用于预处理步骤。干扰变量/混淆变量。在科学研究中经常遇到的数据汇总问题通常违反了上述示例中的许多条件。每个站点上测量的数据X不仅受到扫描仪属性的影响，还受到其他协变量/干扰变量的影响。例如，如果参与者的年龄分布在各个站点上不相同，由于年龄和扫描仪的影响，站点间分布的比较是具有挑战性的。图2b，2c显示了由于年龄和扫描仪偏差引入的差异。对于多个干扰变量，即使是有效的不变表示学习工具，直接使用也能提供有限的帮助。数据生成过程和协变量/干扰变量的作用，可以通过因果图（图2a）获得，这可以指导设计公式[4,42]。事实上，因果性的概念已经使各种深度学习模型受益[34,38]。特别地，最近的工作[28]已经显示了将结构因果模型整合到领域泛化中的价值，这与数据集汇总有关。因果图。在完全任意的设置下进行数据集汇总是具有挑战性的。因此，我们假设站点特定的成像数据集一开始并没有显著差异，尽管协变量（如年龄/疾病患病率）的分布可能不完全匹配，并且每个因素都会影响数据。我们假设可以访问描述这些变量如何影响测量的因果图。我们展示了如何使用因果图提供的分布匹配准则来处理不完全匹配的连续干扰协变量，这些协变量在站点之间没有相同的支持并且分布不相同时，可以有效地处理学习不变表示。我们不需要在站点之间找到“最接近的匹配”参与者 -这是一种基于协变量匹配[36]的策略，该策略在协变量（例如年龄）的分布不重叠时不太可行。我们的模型基于将最新的等变结果与群论中的已知概念相结合。当与常见的不变表示学习器相结合时，我们的公式允许更好地分析汇总的成像数据集。我们首先对常见的公平数据集进行评估，然后展示其在具有多个干扰变量的两个独立神经成像任务中的适用性。0对于一些在站点之间不完全匹配的有序协变量，可以通过借鉴等变表示学习的思想来很好地处理因果图。贡献。我们提出了一种通过学习对站点（扫描仪）和协变量（年龄）值具有鲁棒性的表示来汇总多个神经成像数据集的方法（见图1进行可视化）。我们展示了当学习不变表示时，连续的干扰协变量，其支持不同且在站点之间不具有相同分布时，可以有效地处理。我们不需要在站点之间找到“最接近的匹配”参与者 -这是一种基于统计学的协变量匹配[36]的策略，如果协变量（例如年龄）的分布不重叠，这种策略是不可行的。我们的模型基于将最新的等变结果与群论中的已知概念相结合。当与常见的不变表示学习器相结合时，我们的公式允许更好地分析汇总的成像数据集。我们首先对常见的公平数据集进行评估，然后展示其在具有多个干扰变量的两个独立神经成像任务中的适用性。02. 将多站点汇集减少为无限维优化0设X表示参与者的图像，Y表示相应的（连续或离散）响应变量或目标标签（例如认知得分或疾病状态）。为简单起见，仅考虑两个站点 -站点1和站点2。让D表示我们想要考虑的站点特定的偏移、偏见或协变量。图2a显示了将这些变量相关联的一种可能的数据生成过程。站点特定的偏见/混淆。请注意，实际上Y受到特定于参与者的高级（或潜在）特征XC的影响。图像（或基于图像的疾病生物标志物）X只是我们对参与者大脑XC的（有损）测量[12]。此外，X还包括一个（未知的）混淆：来自扫描仪（或采集协议）的贡献。图2a还列出了协变量C，例如年龄和其他影响XC（因此也影响X）的因素。一些常见的站点特定偏见D显示在104340图2a。这些包括（i）人口偏差Dpopul，导致队列的年龄或性别分布不同[7]；（ii）我们还必须考虑由不同的扫描仪或成像协议引起的采集偏移Dacqui -这影响X但不影响XC；（iii）数据还受到类别优势偏差Dpreval的影响，例如，在站点2中过度代表健康个体将影响跨站点的认知得分分布。原则上，通过编码器-解码器风格的架构可以实现图像的站点不变性，将图像X映射到“站点不变”潜在空间Φ（X）。在这里，理想情况下，Φ（X）对应于可在不同站点之间进行比较的真实“因果”特征XC。在实践中，我们知道图像不能完全捕捉到疾病 -因此，Φ（X）只是一种受我们手头测量限制的替代品。鉴于这些警告，图1显示了一种架构。理想情况下，编码器将最小化最大均值差异（MMD）[18]或其他潜在表示Φ（∙）在给定C值的站点Φ（X）之间的差异。通常情况下，特定于站点的属性D通常是未观察到的或不可用的。例如，我们可能无法完全访问从中绘制参与者的Dpopul。为了解决这些问题，我们使用一个因果图，参见图2a，类似于现有的工作[28,52]，只有最小的变化。对于处理未观察到的D，已知一些标准方法[20]。让我们看看它如何在这里发挥作用。在图2a上应用d-分离（参见[20,33]），我们可以看到节点（Dpopul，C，XC）形成所谓的“头到尾”分支，节点（Dacqui，X，XC），（Dpreval，Y，XC）形成“头到头”分支。这意味着XC ⊥⊥ D |C。这正是一个不变条件：XC在具有相同C值的样本中在不同站点上不应改变。为了使用Φ（∙）强制执行这一点，我们必须在给定C值的站点Φ（X）之间优化差异0min Φ MMD � P site 1 � Φ(X) | C � , P site 2 � Φ(X) | C � � 0在（1）中可证明解决分布优化问题的困难性的简要评论是有用的。针对这类问题的（最坏情况）收敛速度的通用工具正在积极开发中[48]。对于平均情况，[35]提出了一种在线方法，用于一类特定的（有限维）分布鲁棒优化问题，可以使用标准的散度度量来定义。需要注意的是，即使这些收敛保证在本质上是局部的，即它们输出满足必要条件但可能不足够的点。在实践中，前景稍微好一些。直观地说，条件分布P（Φ（X）|C）之间的最佳匹配对应于（1）中概率优化任务的（全局）最优解。现有的研究表明，确实可以接近这个解0通过子采样方法[52]或学习复杂的匹配函数来计算，以识别在站点之间“相似”的图像或对象对，或具有相同的C值[28]。子采样通过丢弃超出共同支持范围的样本来减少两个站点的样本数量。这会影响估计器的质量-例如，[52]必须将分析限制在C的年龄范围内，该范围与站点之间重叠或共享。当每个图像采集都很昂贵时，这种丢弃样本的做法显然是不可取的。如果C的支持在站点之间不是相同的，匹配函数也无法工作，如下面简要描述的那样。0例2.1.让C表示一个观察到的协变量，例如年龄。考虑站点1上的Xi，其中C=c1，以及站点2上的Xj，其中C=c2。如果c1≈c2，则匹配将在XC空间中寻找Φ（Xi）≈Φ（Xj）。如果c1超出了在站点2上获得的c的支持范围，那么不仅必须估计Φ（∙），还必须估计一个在XC上的传输表达式Γc2→c1（∙），使得Φ（Xi）≈Γc2→c1（Φ（Xj））。这个“传输”涉及到估计在c2岁时获得的潜在图像在c1岁时的外观。这意味着匹配需要对关键困难的解决方案进行进一步上游处理。02.1.通过等变映射改进分布匹配可能是可能的0暂时忽略Y，回想一下，匹配在这里对应于无标签（有限）条件分布之间的双射。实际上，如果条件分布采用特定形式，比如泊松过程，确实可以使用简单的匹配算法，只需要访问对应经验分布的成对排名信息[40]，例如著名的Gale-Shapley算法[43]。不幸的是，在我们考虑的应用中，这种分布假设可能与站点特定的协变量C不完全一致。本质上，我们希望表示Φ（当视为C的函数时）以可预测（或说确定性）的方式变化-如果是这样，我们可以完全避免匹配，而是匹配表示Φ（X）的站点分布的适当属性。我们可以使这个标准更具体。我们希望站点分布以一种趋势在站点之间保持一致的方式变化。假设这不是真的，比如说P（Φ（X）|C）在站点1的C=c时是连续的并且随着C的增加而单调增加，但在站点2时是单调减少的。在C=c的特定值上，P（Φ（X）|C）在站点之间的匹配至少意味着存在一个C=c'，其中P（Φ（X）|C）不匹配。对于高维的Φ来说，单调性论证是薄弱的。此外，我们还有多个干扰变量。事实证明，我们对站点之间的P（Φ（X）|C）在可预测的方式下变化的要求可以使用等变映射的思想来处理，即P（Φ（X）|C）必须Let SO(n) =�X ∈ Rn×n|XT X = In, det(X) = 1�bethe group of n × n special orthogonal matrices. The group104350图3.第一阶段的可视化。首先，使用编码器E将图像对Xi，Xj映射到一个超球面上。然后，将得到的对ℓi，ℓj通过τ网络传递，将它们映射到旋转矩阵的空间（即由G/H表示的商群）。事实3确保τ是一个G = SO(n)-等变映射。G(i, j)/G(i, j)-1是将τ(ℓi)转换为τ(ℓj)/τ(ℓj)转换为τ(ℓi)的群作用。0对于两个站点，与C相关的映射应该是等变的。此外，我们还将寻求对扫描仪属性的不变性。虽然我们熟悉通过MMD准则[26]来实现不变性的概念，但我们将简要地形式化我们在这种情况下不太常见的等变映射的思想。0定义1.在群G的作用下，定义在可测Borel空间X和Y上的映射f:X→Y称为G-等变的，如果0f(g ∙ x) = g ∙ f(x), g ∈ G0我们将读者引用到两篇最近的综述文章，[5]的2.1节和[6]的3.1节，这两篇文章提供了详细的回顾。等变性通常在群作用的背景下理解（比如矩阵群）[22,25]。虽然协变量C是一个向量（每个向量空间都是阿贝尔群），但由于该群最终将作用于图像的潜在空间上，施加额外的结构将是有益的。为此，我们将利用C和适合我们设置的群之间的映射。完成这一步骤后，我们将推导出一个等变编码器。我们接下来讨论这些步骤。03. 方法0（i）对协变量（如年龄）的等变性和（ii）对场地的不变性是学习多个映射的目标。为了简单起见，并且为了保持计算工作量可管理，我们将我们的方法分为两个阶段。简要地说，我们的阶段是（a）第一阶段：对协变量的等变性。我们学习一个映射到一个空间，该空间提供了表征协变量C的变化的基本灵活性，作为群作用。这使我们能够构建一个满足Def.1的等变条件的空间（b）第二阶段：对场地的不变性。我们学习第二个编码到一个通用向量空间，通过先验确保第一阶段的等变性属性得到保留。然后，调整这种编码以优化MMD准则，从而生成一个对场地不变但对协变量等变的潜在空间。我们在以下各节逐一描述这些阶段。03.1. 第一阶段：对协变量的等变性0给定图像空间X和协变量C，首先，我们希望将C对X的影响表征为某个群G的群作用。这里，元素g ∈G表征了从协变量ci ∈ C到cj ∈C的变化（简称为i和j）。C的变化对应于一个难以在X中实现的平移作用，而不涉及昂贵的条件生成模型。相反，我们建议学习一个映射到潜在空间L，以便C的变化可以由L中与G相关的群作用来表征（X的潜在空间）。举个例子，假设Xi在X中变为Xj（即Xi → Xj）。这意味着（Xi →Xj）是由协变量变化（ci →cj）在C中引起的。让E是图像空间X和潜在空间L之间的映射。在潜在空间L中，我们希望（EXi →EXj）应该对应于协变量变化（ci → cj）。0备注2.我们主要关注归一化的协变量，例如ℓp范数，而其他基于体积的确定性归一化函数也可以适用。在p=2的最简单情况下，相应的群作用是由旋转矩阵群自然诱导的。0基于这个群的选择，我们将学习一个自动编码器（E，D），其中E：X → L是编码器，D：L →X是解码器，这里L是编码空间。根据备注2，我们可以选择L为超球面Sn−1，（E，D）为超球面自动编码器[51]。然后，我们可以将“C对X的作用”表征为G对Sn−1的作用。也就是说，协变量变化（C中的平移）是L上的角度变化。这对应于由我们选择的群G的旋转。注意，对于L =Sn−1，G是n×n旋转矩阵的空间，用SO(n)表示，G的作用是明确定义的。剩下的是鼓励潜在空间L是G-等变的。我们从一些群论性质开始。03.1.1 组的群论性质回顾：SO(n)SO(n) acts on Sn−1 with the group action “·” given byg · ℓ �→ gℓ, for g ∈ SO(n) and ℓ ∈ Sn−1. Here we use gℓto denote the multiplication of matrix g with ℓ. Under thisgroup action, we can identify Sn−1 with the quotient spaceG/H with G = SO(n) and H = SO(n − 1) (see Ch. 3of [11] for more details). Let τ : Sn−1 → G/H be suchan identiﬁcation, i.e., τ(ℓ) = gH for some g ∈ G. Theidentiﬁcation τ is equivariant to G in the following sense.Fact 3. Given τ : Sn−1 → G/H as deﬁned above, τ isequivariant with the action of G, i.e., τ (g · ℓ) = gτ(ℓ).Next, we see that given two points ℓi, ℓj on Sn−1 thereis a unique group element in G to move from τ(ℓi) to τ(ℓj).Lemma 4. Given two latent space representations ℓi, ℓj ∈Sn−1, and the corresponding cosets giH = τ(ℓi) andgjH = τ(ℓj), ∃!gij = gjg−1i∈ G such that ℓj = gij · ℓi.Thanks to Fact 3 and Lemma 4, simply identifying a suit-able τ will provide us the necessary equivariance property.To do so, next, we parameterize τ by a neural network anddescribe a loss function to learn such a τ and (E, D) pair.3.1.2Learning a G-equivariant τ with DNNsNow that we established the key components: (a) an au-toencoder (E, D) to map from X to the latent space Sn−1(b) a mapping τ : Sn−1 → SO(n) which is G = SO(n)-equivariant, see Figure 3, we discuss how to learn such a(E, D) and a G-equivariant τ.Let Xi, Xj ∈ X be two images with the correspondingcovariates i, j ∈ C with i ̸= j. Let ℓi = E (Xi) , ℓj =E (Xj). Using Lemma 4, we can see that a gij ∈ G tomove from ℓi to ℓj does exist and is unique. Now, to learna τ that satisﬁes the equivariance property (Fact 3), we willneed τ to satisfy two conditions, τ(gij · ℓi) = gijτ(ℓi) andτ(gji · ℓj) = gjiτ(ℓj) ∀g ∈ G. The two conditions arecaptured in the following loss function,ℓi = E(Xi)ℓj = E(Xj)(2)Lstage1 =�{(Xi,i),(Xj,j)}⊂X×C∥G(i, j) · τ (ℓi) − τ (ℓj) ∥2+∥G−1(i, j) · τ (ℓj) − τ (ℓi) ∥2(3)Here, G : C × C → G will be a table lookup given by(i, j) �→ gij is the function that takes two values for thecovariate c, say, i, j corresponding to Xi, Xj ∈ X andsimply returns the group element (rotation) gij needed tomove from E(Xi) to E(Xj).Choice of G: In general,learning G is difﬁcult since C may not be continuous. Inthis work, we ﬁx G and learn τ by minimizing (3). Wewill simplify the choice of G as follows: assuming thatC is a numerical/ordinal random variable, we deﬁne G by(i, j) �→ expm((i − j)1m).Here m =�n2�is the di-mension of G and expm is the matrix exponential, i.e.,Algorithm 1 Learning representations that are Equivariantto Covariates and Invariant to SiteInput:Training Sets from multiple sites (X, Y )site1,(X, Y )site2. Nuisance covariates C.Stage one: Equivariance to Covariates1 : Parameterize Encoder-Decoder pairs (E, D) and τmapping with neural networks2 : Optimize over (E, D) and τ to minimize,Lstage1 + �i ∥Xi − D(E(Xi))∥2Output: First latent space mapping E and a supportingmapping function τ. Here, τ is G-equivariant to the co-variates C (see Lemma (4) and (3)).Stage two: Invariance to Site1 : Parameterize encoder b, predictor h and decoder Ψwith neural networks2 : Preserve equivariance from stage one with an equiv-ariant mapping Φ, (see Lemma (5))3 : Optimize Φ, b, h and Ψ to minimize Lstage2 + MMDOutput: Second latent space mapping Φ.Here, Φ isequivariant to the covariates and invariant to site.�Φ(ℓ) = τ(ℓ) · b τ(ℓ)−1 · ℓ�(4)104360expm : so ( n ) → SO ( n ) ，其中 so ( n ) 是 SO ( n )的李代数 [ 19 ]。由于 so ( n ) 是一个向量空间，因此 ( i− j ) 1 m ∈ so ( n ) 。为了减少 expm的运行时间，我们用 Cayley 映射 [ 29 , 39 ] 替换了 expm，其定义如下：so ( n ) � A �→ ( I − A )( I + A ) − 1 ∈SO ( n ) 。这里我们使用 expm进行参数化（其他选择也适用）。最后，我们通过使用重构损失约束和 ( 3 ) 中的 L stage 1 来学习编码器-解码器 ( E, D ) 。这也可以被视为该阶段的组合损失，即 L stage 1+ � i ∥ X i − D ( E ( X i )) ∥ 2，其中第二项是重构损失。该损失平衡了两个项，并需要一个缩放因子（见附录）。该阶段中所有步骤的流程图可见于图 3 。03.2. 第二阶段：对站点的不变性0在构建了一个对协变量 C 的变化等变的潜在空间 L之后，我们现在必须处理站点属性，即对站点的不变性。在这里，将 L 投影到一个同时保持来自 L的等变结构并提供灵活性以实现站点不变性的空间将是方便的。以下引理受到概率对称性的函数表示的启发（[ 5 ] 的 §4 . 2 ），为我们提供了实现这一目标的策略。在这里，考虑 Φ : L → Z 为投影。引理 5. 对于上述定义的 τ : L →G/H ，以及任意的映射 b : L → Z ，由以下定义的函数 Φ: L → Z0是 G -等变的，即 Φ( g ∙ ℓ ) = g Φ( ℓ ) 。Lstage2 =�ℓ=E(X)∈LX∈X,(6)MMD = ∥EZ1∼P (Φ(ℓ))site1K(Z1, ·) −EZ2∼P (Φ(ℓ))site2K(Z2, ·)∥H (7))}⊂X×C=Ee(Xj)|i − j|∥τ (ℓi) − τ (ℓj) ∥2(8)104370(a) ADNI 数据集0(b) 成人数据集0图 4. 潜在表示 τ ( ℓ ) 的 t-SNE 图。对于 ADNI (左) 和成人 (右)，等变编码器确保潜在特征均匀分布，并与年龄协变量值的变化呈单调趋势。非等变空间是由Na¨ıve池化基准生成的。每种颜色表示离散化的年龄组。年龄仅用于图中突出显示每个年龄组中样本的密度。0附录中提供了证明。请注意，对于任何映射 b ， Φ仍然是等变的。这使我们有选择地将 b参数化为神经网络，并通过最小化以下损失函数来训练 Φ的整体，以实现所需的不变性，其中由于 ( 4 )而保持等变性。在这项工作中，我们通过使用解码器 Ψ : Z→ L 来学习这样一个 Φ : L → Z，通过最小化以下损失函数来实现：0重构损失 �� ∥ ℓ Ψ(Φ( ℓ )) ∥ 2 +0预测损失 ∥ Y − h(Φ( ℓ )) ∥ 2 (5)0满足 Φ( ℓ ) = τ ( ℓ ) ∙ b � τ ( ℓ ) − 1 ∙ ℓ �0G-等变映射0通过约束 ( 6 ) 最小化损失 ( 5 ) 允许学习网络 b : L → Z和解码器 Ψ : Z → L 。现在我们要求 Z ∈ Z使得表示在站点之间是不变的。我们简单地使用以下 MMD准则，尽管也可以使用其他统计距离度量。0该准则使用具有范数 ∥ ∙ ∥ H 和核函数 K的再生核希尔伯特空间来定义。我们将 ( 5 )、( 6 ) 和 ( 7 )结合为目标函数，以确保站点不变性。因此，综合损失函数L stage 2 + MMD 被最小化以学习 (Φ , Ψ)。缩放因子的详细信息可在附录中找到。两个阶段的总结。我们的整体方法包括两个阶段。第一阶段，第 3.1节，涉及学习 τ 函数。通过选择损失 L stage 1 ，即 ( 3 )，在这个阶段学到的函数是 G-等变的。我们的下一个阶段，第 3.2 节，利用了学到的 τ函数和可训练的映射 b 来生成不变表示。由于 ( 4 ) 中的Φ 映射，这个阶段保持了 G -等变性。第二步的损失是 Lstage 2 + MMD ，即 ( 5 ) 。我们的方法在算法 1中总结。所提出的优化（τ,Φ）的收敛行为似乎仍然具有挑战性，但最近的论文0提供一些希望和机会。例如，如果神经网络是线性的，那么[16]的结果可能适用于解释我们在使用案例中的优越经验性能。04. 实验0我们对我们提出的编码器进行站点不变性和对协变量值 C的变化的鲁棒性评估。评估是在两个多站点神经影像数据集上进行的，算法的发展可能会产生最大的影响。在神经影像数据集之前，我们还在两个标准的公平数据集German和Adult上进行了实验。将公平数据集纳入我们的分析中，为我们提供了在一个已建立的问题上进行理智测试和优化可行性的手段。在这里，实现公平表示的目标被视为通过单独的敏感属性索引的多个数据子集进行汇集。我们首先描述我们的评估措施，然后报告比较的基准。评估措施。回想一下，我们的方法涉及学习τ，如(3)所示，以满足等变性属性。此外，我们需要学习Φ，如(4)-(5)所示，以实现站点不变性。我们的度量评估了潜在空间 τ ( ℓ ) 和 Φ( ℓ ) 的结构。这些度量包括：(a) ∆Eq：该指标评估了所有配对 i, j 的 τ ( ℓ i ) 和 τ ( ℓ j ) 之间的ℓ 2 距离。具体计算如下：0∆ Eq = �0该指标的较高值表示 τ ( ℓ i ) 和 τ ( ℓ j ) 之间通过群作用 g ij相关。此外，我们使用 t-SNE [45] 对 τ的效果进行定性可视化。(b) Adv：该指标量化编码器 Φ实现的站点不变性。我们评估学习到的 ℓ ∈ L 的 Φ( ℓ )是否包含有关站点的信息。训练一个三层全连接网络（见附录）作为对手，从 Φ( ℓ ) 预测站点，类似于[46]。较低的Adv 值，接近随机机会，是可取的。(c)M：在这里，我们计算 MMD 测量，如(7)所示，104380图5. 重建输出的统计分析。显示与阿尔茨海默病显著相关的体素（p <0.001）。使用Bonferroni校正进行多重比较。显著体素的高密度表示我们的方法在跨扫描仪汇集后保留了与疾病相关的信号。0在测试集上的表现。较小的 M值表示对站点的不变性更好。最后，(d)ACC：该指标记录了在预测目标变量 Y时的测试集准确性。与基准的比较。我们将我们的方法与一些众所周知的基准进行对比。(i)Naive：这种方法表示从多个站点汇集数据的天真方法，没有任何处理干扰变量的方案。(ii) MMD[26]：该方法最小化了站点之间的分布差异，而不需要对协变量具有等变性的要求。潜在表示缺乏等变性属性会导致较低的准确性值，我们很快就会看到。(iii) CAI[46]：该方法引入了一个鉴别器以最小化对抗方式训练编码器。训练过程直接优化了上述的 Adv度量。虽然是一种强大的隐式数据模型，但对抗方法在训练过程中已知存在不稳定性，并且缺乏收敛保证[37]。(iv) SS[52]：该方法采用子采样（SS）框架，通过协变量值 C将图像分割到站点之间。对于每个子采样组，分别最小化MMD 准则并计算平均估计值。最后，(v) RM[30]：也在[28]中使用，RandMatch（RM）在站点之间的样本上学习不变表示，这些样本在类别标签（我们基于 Y 和C值进行匹配）方面“匹配”。下面，我们总结每种方法及其采用的干扰属性校正方法。0校正Naive MMD [26] CAI [46] SS [52] RM [30] 我们的0站点 � � � � � � 协变量 � � � � � �0表1. 论文中的基线及其干扰属性校正。0

下载后可阅读完整内容，剩余1页未读，立即下载