跨存储联邦医学图像分割的泛化差距消除

38 浏览量更新于2023-10-25 收藏 12.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

208660消除跨存储联邦医学图像分割的泛化差距0An Xu * Univ. of Pittsburgh Wenqi Li NVIDIA Pengfei Guo Johns Hopkins University DongYang NVIDIA Holger Roth NVIDIA0Ali Hatamizadeh NVIDIA Can Zhao NVIDIA Daguang Xu NVIDIA Heng Huang Univ.of Pittsburgh Ziyue Xu NVIDIA0摘要0近年来，跨存储联邦学习（FL）在医学图像分析中引起了广泛关注，因为它可以解决数据不足、数据隐私和训练效率等关键问题。然而，FL训练的模型与集中式训练的模型之间可能存在泛化差距。这个重要问题源于参与客户端的本地数据的非独立同分布数据分布，被称为客户端漂移。在这项工作中，我们提出了一种新的训练框架FedSM，以避免客户端漂移问题，并首次成功地消除了与集中式训练相比的泛化差距，用于医学图像分割任务。我们还提出了一种新的个性化FL目标制定和一种新的方法SoftPull来解决我们提出的FedSM框架中的问题。我们进行了严格的理论分析，以保证其收敛性，以优化非凸平滑目标函数。使用深度FL进行的真实医学图像分割实验证实了我们提出的方法的动机和有效性。01. 引言0近年来，深度学习模型在计算机视觉任务中取得了成功[19,41,42]。然而，训练能够在未见测试数据上具有良好泛化能力的深度模型可能需要大量的训练数据。不幸的是，对于医学图像分割任务，在单个医疗机构中通常面临数据不足的问题，这是由于收集足够的带有专家标注的患者数据的昂贵过程。解决数据不足问题的一个直接方法是收集所有可用的医疗数据。0* 本工作在NVIDIA实习期间完成。A.X.和H.H.得到了NSF IIS1845666、1852606、1838627、1837956、1956002、IIA2040588的部分支持。该工作的实现可在https://github.com/NVIDIA/NVFlare/examples/FedSM上找到。0然而，这种方法会引起数据隐私的担忧。一方面，如上所述，收集医疗数据是昂贵的，这些数据已经成为医疗机构的有价值资产。拥有更多数据的机构可能更不愿意贡献他们的数据。此外，医疗机构有责任确保从患者那里收集的数据安全。收集数据可能会使患者面临数据泄露的风险。0当然，我们可以利用现有的普通分布式训练方法[31, 49,50]将机构的数据保持本地，并仅与中央服务器共享梯度。但是，深度模型的训练需要许多迭代才能收敛，这导致了普通分布式训练的不可接受的通信复杂性。它也不安全，因为最近的研究[14, 52, 54,55]表明，可以从泄漏的梯度中恢复像素级图像。0最近，联邦学习（FL）[13, 16, 29,48]已被提出来解决上述问题（数据不足、数据隐私、训练效率）。在医疗应用中，我们最感兴趣的是跨存储联邦学习，与跨设备联邦学习（例如移动设备）相比，我们参与的客户数量有限[17, 26,36]。具体而言，在FedAvg[38]中的每一轮训练中，FL的事实上算法，每个客户端将使用从中央服务器接收到的全局模型进行多次迭代的本地训练。然后，服务器收集来自每个客户端的所有本地模型，并将它们平均为新的全局模型。然而，对于FedAvg及其变体，由于不同客户端上的非独立同分布数据分布，会出现一个非常重要的问题，称为“客户端漂移”。不同客户端上的本地模型在本地训练过程中会逐渐发散。当数据相似性降低（更多的非独立同分布）时，客户端漂移可能严重危及全局模型的训练性能[20,21]。从理论上讲，这导致了收敛速度对本地数量更敏感208670训练步骤 [ 53]。在本文中，我们将从客户端收集数据并训练模型的过程称为集中式训练。需要注意的是，由于违反数据隐私，集中式训练是不可行的，但它为联邦学习算法提供了性能上限。尽管已经做出了大量努力和先前的工作，但联邦学习和集中式训练之间仍然存在泛化差距。在本文中，与任何先前的工作不同，我们提出了一种名为联邦超级模型（FedSM）的新型训练框架，以避免在联邦学习医学图像分割任务中遇到困难的客户端漂移问题。在FedSM中，我们提出了一种个性化模型，以适应不同的数据分布，并提出了一种新颖的模型选择器，以决定任何测试数据的最接近的模型/数据分布。我们总结我们的贡献如下。0•我们首次提出了一种新颖的训练框架FedSM，以避免客户端漂移问题，并缩小联邦学习和集中式训练在医学分割任务中的泛化差距。0•我们提出了个性化联邦学习优化的新型公式，以及一种名为Soft-Pull的个性化方法，用于解决我们的FedSM框架中的问题。我们对所提出的方法在联邦学习中的常见假设下进行了严格的收敛性分析。0•在真实世界的联邦学习医学图像分割任务中的实验验证了我们的动机以及我们的方法相对于现有联邦学习基准的优越性。02. 相关工作0在这里，我们介绍了现有的不同方法来提高代表性方法下联邦学习模型的性能。首先，联邦学习优化问题通常被定义为 min w 10n , n k 是客户端 k 的数据数量，总数据数量 n = � K k =1 n k 。 L D k 是客户端 k的目标函数，使用其本地数据 D k ，而 w是模型权重。FedAvg。在FedAvg中，客户端将在训练轮次 r 时从服务器接收起始模型w r 。每个客户端 k 执行 E 个周期的本地训练，使用流行的动量SGD或Adam [ 28]优化器根据应用需求更新本地模型为 w ( k ) r +1。然后服务器收集并平均本地模型，得到 w r +1 = 10K � K k =1 p k w ( k ) r +1 .限制本地训练。为了防止由于非独立同分布数据分布而导致的局部模型发散，FedProx [ 33 ] 提议在客户端 k的目标函数中添加一个近端损失项 ∥ w ( k ) r +1 − w r ∥2 2 。这意味着本地训练将鼓励 w ( k ) r +1保持接近起始点。0ing point w r ，使得 { w ( k ) r +1 } k ∈{ 1 , 2 , ∙∙∙ ,K }互相接近，以减轻客户端漂移问题。正确的客户端漂移。受到优化中方差减少技术（如SVRG [ 25 ]，SAGA [ 8]）的启发，提出了通过纠正本地训练与预测的本地和全局更新方向来纠正客户端漂移的方法。这些方法通常在凸或简单的非凸模型/目标上进行测试。对于复杂深度模型的实际训练，[ 9]表明方差减少技术在纠正随机梯度时通常不适用于深度学习，因为常见的数据增强技巧如批归一化 [ 22 ]和dropout [44]等会导致方差减少无法有效实施。个性化。个性化模型通常是全局模型的微调版本，以更好地适应特定客户端的本地数据分布。我们可以像本地训练一样，在客户端的本地数据上对全局模型进行微调，或者遵循基于MAML的个性化方法 [11 , 24 , 45]。然而，个性化模型的固有缺点是它们在其他站点的数据和未见数据上的泛化能力较差。在这项工作中，我们致力于找到一个与所有客户端的集中式训练一样具有良好泛化能力的模型。其他主题。联邦学习中还有许多其他新兴和有趣的主题，例如异构优化 [ 33 , 46 ]，公平性和鲁棒性 [ 32 , 34 ,39 ]，聚类联邦学习 [ 15]等。这些主题与我们的工作没有直接关系，但对于潜在的未来扩展可能是有价值的。最近的一项工作FedDG [ 36]需要共享部分数据信息，因此在一定程度上违反了数据隐私约束。在这项工作中，我们仅共享模型更新信息，以实现最大化的数据隐私。03. 方法论0在本节中，我们详细介绍了解决FL医学图像分割任务中泛化差距的动机和提出的方法。动机。在传统的FL中，目标是协作训练一个在所有客户端的联合数据分布上具有良好泛化能力的全局模型。客户端漂移问题源于我们在本地训练期间只能访问客户端的本地数据分布。尽管已经存在大量的研究工作，但由于这个问题，很难训练出与集中式训练一样具有良好泛化能力的全局模型。然而，在这项工作中，我们展示了摆脱客户端漂移问题是可能的。具体而言，我们提出0•对于测试数据，我们从所有客户端中搜索最接近（即最相似）的本地数据分布（第3.1节）。0•我们找到在所选的本地数据分布上具有最佳泛化性能的模型，并将其用于测试数据的推断（第3.2节）。Model Selector, 𝑤!Global Model 0, 𝑤"Personalized Model 1, 𝑤#,%Personalized Model K, 𝑤#,&Input 𝑥Super Model (𝑤", {𝑤#,'}'(%&, 𝑤!)Output ℎScore 𝑦*!ℎ)ℎ%ℎ&3.1.2FedSM-extrays = one hot(arg mink {L(h, hk)}Kk=0) ,(1)ys = one hot(k) .(2)208680图1. 提出的具有“超级模型”的FedSM框架。03.1. 新框架：FedSM0上述第一个动机激励我们设计了一个新的通用FL框架FedSM，其中我们训练了一个由全局模型、个性化模型和模型选择器组成的联邦“超级模型”。这些组件如图1所示，并且我们将它们详细说明如下。全局模型wg：由FedAvg训练的全局模型。它在所有客户端的联合数据分布上具有更好的泛化能力，但与集中式训练相比仍存在差距。假设模型函数为f，我们将其输出表示为h0 =f(wg，x)。个性化模型wp,k：由任何个性化FL训练方法训练的个性化模型。个性化模型在本地数据上通常比全局模型具有更好的泛化能力。我们将其输出表示为hk =f(wp,k，x)，其中k ∈{1，2，∙∙∙，K}。模型选择器ws：其目标是确定未见数据输入x与全局/个性化模型之间的匹配关系以进行推断。具体而言，它输出一个归一化的预测分数向量Σys。最终输出h由Σys和[h0，h1，∙∙∙，hK]决定。假设候选模型集Ω �{0，1，2，∙∙∙，K}，则Σ0k ∈ Ω Σys,khk。我们讨论以下潜在的训练方法。03.1.1 集成0假设我们已经有了训练好的全局模型和个性化模型。给定如图1所示的FedSM框架，一种直接的方法是将所有模型的输出[h0，h1，∙∙∙，hK]集成为最终输出h =ΣKk=0ys,khk。假设数据x的真实值为y，损失函数为L。然后，我们计算损失L(h，y)并通过FedAvg更新模型选择器ws。然而，在实践中我们发现在FL中以这种方式训练模型选择器很困难。最终的性能甚至可能不如全局模型。令期望值ys = minΣKk=0ys,khk，我们发现这是由于难以训练ys到期望值ys的困难造成的。0通过min wsL(ΣKk=0ys,khk，y)来最小化ws作为模型权重进行优化。对于每个数据输入x，我们可能需要许多训练步骤来最小化wsL(ΣKk=0ys,khk，y)，以使Σys接近ys。然而，由于计算成本巨大，这是不可接受的。这种方法的另一个问题是我们无法在全局模型和个性化模型训练完成之前开始训练模型选择器，这会导致FL的额外通信轮次。0为了解决集成中的训练困难，我们在这里提出计算0其中，“one hot”表示独热编码。然后我们计算交叉熵损失Ls ( � y s , y s)来更新模型选择器。通过这种方式，模型选择器对所需的值y s更清楚。因此，训练会更容易。我们将这种方法称为FedSM-extra，因为它仍然需要额外的通信轮次，就像集成方法一样。03.1.3 FedSM0为了解决额外训练轮次的问题，模型选择器需要与全局模型和个性化模型一起训练。然而，从公式（1）可以看出，所需的y s取决于经过训练的全局模型和个性化模型的输出。因此，我们需要解耦它们之间的依赖关系。作为进一步简化，假设训练数据x来自客户端k∈{1,2,∙∙∙,K}，我们提出以下方法：0直观上，个性化模型k倾向于在客户端k自己的本地数据上更好地推广。将y s设置为相应的客户端索引是安全的。尽管从理论上讲，这可能会降低公式（1）的性能，但由于没有额外的训练轮次，这更加实际。我们将这种方法称为FedSM，它解决了集成方法提出的所有问题。03.2. 新的个性化方法：SoftPull0在本节中，我们提出了一种新的个性化FL优化形式和一种方法SoftPull，用于解决它并为FedSM生成个性化模型。我们首先介绍现有的插值方法来解决不足的本地数据问题。假设全局数据集为D。为了解决不足的本地数据问题，[37]提出了每个客户端的数据集插值，如min w p,k λL D k ( w p,k )+ (1 − λ ) L D ( w p,k )，其中w∗g = arg minwg LD(wg) ,(3)w∗p,k = arg min LDk(λwp,k + (1 − λ)w∗g) ,(4)wp.k ← λw∗p,k + (1 − λ)w∗g .(5)w∗k = arg minw LDk(w) .(6)w∗p,k = λw∗k + (1 − λ)1K − 1̸̸̸̸̸1M ) with a convergence error O(r208690系数λ∈[0,1]。由于客户端k∈{1,2,∙∙∙,K}，这导致了K个优化问题，并且求解效率低下。此外，在本地训练期间很难获取全局数据集D的信息。[37]还提出了模型插值min w g ,wp,k ,λ � K k =1 L D k ( λw p,k +(1 − λ ) w g)。为了有效地解决模型插值问题，APFL[10]提出了以下方法：0动机。我们观察到模型插值试图在FL全局模型和局部模型之间找到合适的组合。当本地数据分布与全局数据分布完全不相似时，我们期望λ→1。当它们相似时，我们期望λ→1。0为了利用全局数据信息来改善本地泛化能力，APFL的制定存在两个潜在的缺点：0• 参与的全局模型w � g可能在D和Dk上推广效果不好，但会影响FL训练。0• 它到底在优化什么目标函数并不清楚。0在我们的问题形式化中，我们首先假设w �k是客户端k的局部最优解：0然而，由于缺乏本地训练数据，局部最优解w �k可能无法很好地推广。我们建议，与其插值全局最优解和局部最优解，我们提出所需的个性化最优解w �p,k是客户端k的局部最优解和其他客户端个性化最优解之间的插值：0k ′ =1 ,k ′ � = k w �p,k,k ′ . (7)0新的插值避免了全局模型，并确保插值模型是某个明确目标函数的最优解，与APFL不同。实际上，个性化最优解w �p,k也是客户端k的局部最优解和其他客户端局部最优解之间的插值，因为公式（7）与0w�p,k = λw�k + (1-λ)10K-10k′=1,k′≠k w�k′ (8)0然而，Eq.(7)更好地帮助我们找到我们正在优化的目标函数，因为我们可以将其转化为0w�k 0λw�p,k-1 -0λ10K-10k′=1,k′≠k w�p,k′ (9)0将其与Eq.(6)进行比较，我们立即得到{w�p,k}Kk=1作为优化问题的解0min{wp,k}0k=1 LDk(0λwp,k - λ0λ10K-10k′=1,k′≠k wp,k′)0(10) 为了解决提出的新个性化FL优化问题Eq. (10)，我们提出了一种新方法SoftPull(λ ∈[10K, 1]),通过将Eq. (7)中的w�k替换为Eq.(7)中的局部训练模型，即在服务器的每一轮训练后，0wp,k ← λwp,k + (1-λ)10K-10k′=1,k′≠k wp,k′ (11)0相应的算法总结如算法1第16行所示。当λ =1/K时，它变为FedAvg中的“硬”平均。为了分析收敛性，我们从以下常见假设开始。0假设1 (Lipschitz平滑) 损失函数LDk是L-平滑的，即�w1,w2∈Rd，我们有0∥�LDk(w1) - �LDk(w2)∥^2_2 ≤ L∥w1 - w2∥^2_2 (12)0假设2 (有界方差) 随机梯度�LDk(w,x)的方差有界�w∈Rd：0E ∥�LDk(w,x) - �LDk(w)∥^2_2 ≤ σ^2 (13)0其中E是对x∈Dk的期望0假设3 [40]梯度�LDk(w)在Rd上有有界值�w∈Rd：∥�LDk(w)∥^2_2 ≤0定理1 假设存在假设1、2和3。令Eq.(10)中的提出的目标函数为F，上标(r,m)表示全局迭代，w表示平均值，则0KRM0R^(-1)0r=00M^(-1)Σ0m=00k=1 E ∥�wr,mp,kF∥^2_2 (14)0= O(0ηRMλ^2 + (1-λ)^20KRMη^2λ^20KΣ0K=10r=0 E ∥wr,Mp,k - wr,Mp,k∥^2_20+ (1-λ)^20KRMλ^40KΣ0R^(-1)0m=0 E ∥wr,mp,k -0= O(0ηRMλ^2 + MΣR^(-1)r=0(10Rλ^2 + M^2η^2 ≤ R^(-1)Σr=0(1-λ)^20Rλ^4)0如果η = O(1/√0RM)和M = O(R^(1/3))，其收敛速度为0O(1/√0Rλ^2)1: Input: local dataset Dk, rounds R, number of sites K,learning rate η, η , coefficient λ, client weight̸208700算法1 FedSM训练0n02:初始化：全局模型wg，个性化模型wp,k，模型选择器ws，基础优03: 对于轮次r = 1, 2, ∙ ∙ ∙, R，执行以下操作4:服务器：将模型(wg, wp,k, ws)发送给客户端k05: 并行地对于CLIENT k ∈ {1, 2, ∙ ∙ ∙, K}，执行以下操作06: 初始化wg,k ← wg, ws,k ← ws07: 对于批次 (x, y) ∈08: wg,k ← OPT(wg,k, η, �wg,k L(f(wg,k; x), y))09: wp,k ← OPT(wp,k, η, �wp,k L(f(wp,k; x), y))010: // ys来自公式(2)011: ws,k ← OPT(ws,k, ηs, �ws,k Ls(fs(ws,k; x), ys))012: 结束循环013: 将(wg,k, wp,k, ws,k)发送到服务器015: 服务器：wg, ws ← � Kk=1 nk nwg,k, � Kk=1 nk nws,k016: 服务器：�k ∈ {1, 2, ∙ ∙ ∙ , K}, wp,k ← λwp,k + (1 − λ)10K − 1 � Kk′=1,k′�=k wp,k′ // SoftPull017: 结束循环 18: 输出：模型(wg,{wp,k}Kk=1, ws)0算法2 FedSM推断。01: 输入：数据x，模型(wg, {wp,k}Kk=1, ws)，阈值γ03: 如果max(�ys) > γ则 4: k = arg max(�ys) ∈ {1, 2, ∙ ∙ ∙ ,K} // 高置信度06: 否则7: �y = f(wg; x) // 低置信度08: 结束如果09: 输出：�y0备注1.1当客户端之间的数据相似性较低时，我们应该设置较大的λ0wr,mp,k∥22并确保收敛速度。从直观上讲，这是有效的，因为客户端从其他客户端学习的内容较少。0备注1.2 λ ↓和收敛误差↑，但这并不意味着更差的泛化，因为我们不希望过度拟合本地数据。我们将通过经验调整和验证它。0证明可以在附录C中找到。03.3. 全部在一起0我们总结了提出的SoftPull方法来训练个性化模型和由模型选择器、全局模型和个性化模型组成的FedSM框架的算法1。与FedAvg相比，每轮训练的通信成本为2wg + ws。0客户端 1 2 3 4 5 6 全局0训练集 50 98 47 230 80 400 905 验证集 25 49 24115 40 200 453 测试集 26 48 23 115 39 200 4510表1.视网膜数据集：每个客户端中的数据（2D图像）数量。客户端1到6的数据来源分别是Drishti-GS1 [43]，RIGA [6] BinRushed，RIGAMagrabia，RIGA MESSIDOR，RIM-ONE [12]和REFUGE[4]。全局表示来自所有客户端的数据。0客户端 1 2 3 4 5 6 全局0训练集 153 404 464 361 609 1179 3170 验证集 77 215219 162 289 582 1544 测试集 61 245 198 150 329 53215150表2.前列腺数据集：每个客户端中的数据（2D切片）数量。客户端1到6的数据来源分别是I2CVB [30]，MSD [7]，NCI ISBI 3T，NCI ISBI DX[1]，Promise12 [2]和Prosta- teX [3]。全局表示来自所有客户端的数据。0我们注意到一些方法，比如Scaffold[27]，其成本为2wg。训练后，服务器将超级模型(wg,{wp,k}Kk=1,ws)发送给每个客户端进行推断，这只产生一次通信成本。对于算法2中的FedSM推断，我们提出了一种启发式技术，即模型选择器在置信度较低时选择全局模型，因为在训练过程中我们没有标签0在公式(2)（全局模型）中。直观地说，如果测试数据与任何本地数据分布不相似，则全局模型应该是更好的选择，因为它涵盖了联合数据分布，而个性化模型只涵盖了一个本地数据分布。它还保证了FedSM至少不比具有适当阈值γ的FedAvg全局模型差。对于FedSM-extra，训练和推断算法都是相同的，除了确定ys、额外的训练轮次和不需要阈值γ。更多细节请参见附录B。04. 实验0我们在三个真实的联邦学习医学图像分割任务上验证了我们提出的方法：来自2D眼底图像的视网膜盘和杯子分割，以及来自3DMR图像的前列腺分割。全局和个性化模型架构是2D U-Net[41]，而模型选择器架构是VGG-11[42]。我们随机将数据划分为训练/验证/测试，比例为0.5/0.25/0.25。图像数据被调整为256×256。本地训练轮数为1，总训练轮数为150。大多数方法在100轮内收敛。但对于FedSM-extra，我们训练全局和个性化模型100轮，并进行额外的50轮模型选择器训练。损失函数为Dice损失，测试指标为Dice系数。基本优化器为Adam，β=(0.9,0.999)。我们调整了所有方法的最佳学习率和FedSM的阈值γ。特别是对于前列腺分割，图像数据是3D的，但我们取2D切片进行2D分割。每个实验重复运行3次，我们报告平均值。0204061001201400.700.750.800.850.900.950204061001201400.600.650.700.750.800.850204061001201400.760.780.800.820.840.86FedAvg0.88470.86790.86670.90150.78770.91720.87100.8923FedProx0.86350.85220.85470.89520.68520.90950.84340.8749Scaffold0.83800.85130.82150.89350.56710.91300.81410.8625FedSM0.91320.87690.88650.90410.84830.91950.89140.9028FedSM-extra0.91340.87630.88410.90380.84830.91720.89050.9007208710轮次0最佳全局验证盘子Dice系数0视网膜盘分割0集中式 FedAvgFedProxScaffoldFedSM0轮次0最佳全局验证杯子Dice系数0视网膜杯子分割0集中式 FedAvgFedProxScaffoldFedSM0轮次0最佳全局验证Dice系数0前列腺分割0集中式 FedAvgFedProxScaffoldFedSM0图2.训练曲线比较。曲线是非递减的，因为我们记录了训练过程中的最佳结果。0方法客户端1 客户端2 客户端3 客户端4 客户端5 客户端6 平均Dice系数全局Dice系数0集中式 0.9161 0.8760 0.8758 0.9022 0.8510 0.9179 0.8898 0.90140客户端1 本地 0.8835 0.3331 0.7345 0.4933 0.3408 0.7015 0.5811 0.5902 客户端2 本地 0.2346 0.8620 0.08860.7751 0.1791 0.4106 0.4250 0.5050 客户端3 本地 0.8337 0.3402 0.8766 0.6010 0.3644 0.7794 0.6326 0.6594客户端4 本地 0.5108 0.8574 0.3457 0.9008 0.2361 0.6822 0.5888 0.6910 客户端5 本地 0.5241 0.1584 0.39530.2039 0.8223 0.6222 0.4544 0.4662 客户端6 本地 0.7908 0.6649 0.7325 0.7681 0.3742 0.9150 0.7076 0.78770表3.（低数据相似性）视网膜分割的测试Dice系数比较。“客户端k本地”指的是在客户端k上进行本地训练。第一行指的是在客户端1�6的测试数据上的性能，它们的平均值，以及在所有客户端的测试数据上的性能。我们在这里报告了盘和杯的Dice系数的平均值。我们用粗体标出了最佳的联邦学习结果。有关它们的单独数字和分割的可视化比较，请参见附录D。0图3.从模型选择器中提取的特征的TSNE图，用于视网膜分割任务。0额外进行50轮。损失函数为Dice损失，测试指标为Dice系数。基本优化器为Adam，β=(0.9,0.999)。我们调整了所有方法的最佳学习率和FedSM的阈值γ。特别是对于前列腺分割，图像数据是3D的，但我们取2D切片进行2D分割。每个实验重复运行3次，我们报告平均值。0值。数据集信息总结在表1中02.总体而言，视网膜数据集在客户端之间具有较低的数据相似性（更强的非独立同分布）。图像可能在位置、颜色、亮度、背景比例等方面有所不同。而前列腺数据集的数据相似性较高，因为图像主要在亮度上有所不同（请参见附录A）。我们将FedSM和FedSM-extra与基线方法进行了比较：（1）集中式：集中式训练，这是上限，但在联邦学习中被禁止，（2）本地：在一个客户端上进行本地训练，（3）FedAvg [38]，事实上的联邦学习方法，（4）FedProx[33]，和（5）Scaffold [27]。04.1. 总体结果0我们在图2中比较了不同方法的训练曲线。集中式训练的上限以水平虚线表示。我们可以看到，提出的FedSM是唯一一个能够缩小与集中式训练之间验证差距的FL方法。由于提出的SoftPull个性化方法，FedSM在视网膜杯分割任务上甚至优于集中式训练。208720方法客户端1 客户端2 客户端3 客户端4 客户端5 客户端6 客户平均Dice 全局Dice0集中式 0.9018 0.8583 0.8702 0.8844 0.8800 0.8474 0.8737 0.86510客户端1 本地 0.8582 0.3886 0.4476 0.2849 0.3830 0.4697 0.4720 0.4336 客户端2 本地 0.7166 0.7669 0.83170.7341 0.6156 0.7754 0.7401 0.7403 客户端3 本地 0.6470 0.8541 0.8549 0.6735 0.6591 0.7519 0.7401 0.7496客户端4 本地 0.4515 0.6566 0.6700 0.8518 0.4558 0.6267 0.6187 0.6148 客户端5 本地 0.8198 0.7751 0.84690.8029 0.8038 0.7928 0.8069 0.8016 客户端6 本地 0.8555 0.7965 0.8260 0.7206 0.6478 0.8466 0.7822 0.78090FedAvg 0.8775 0.8575 0.8700 0.8802 0.8717 0.8532 0.8684 0.8638 FedProx 0.8948 0.8511 0.8722 0.88030.8668 0.8513 0.8694 0.8621 Scaffold 0.8500 0.8440 0.8570 0.8423 0.8431 0.8412 0.8463 0.84460FedSM 0.8946 0.8596 0.8786 0.8898 0.8817 0.8535 0.8763 0.8692 FedSM-extra 0.8886 0.8584 0.8766 0.88800.8760 0.8542 0.8736 0.86730表4.（高数据相似性）前列腺分割的测试Dice系数比较。我们将最佳FL数字加粗显示。有关可视化比较，请参见附录D。0未知客户端k 阈值γ GM PM1 PM2 PM3 PM4 PM5 PM6 Dice 最佳γ，Dice0客户端k = 6 0 0 0.02 0 0.35 0 0.63 N/A 0.8587 1, 0.8906 客户端k = 5 0 0 0.31 0.03 0 0.61 N/A 0.05 0.4015 0.9,0.4304 客户端k = 4 0 0 0 1.00 0 N/A 0 0 0.8869 < 0.95, 0.8870 客户端k = 3 0 0 0 0.57 N/A 0 0 0.43 0.8441 <0.9, 0.8446 客户端k = 2 0 0 0 N/A 0 0.92 0.08 0 0.8409 < 1, 0.8409 客户端k = 1 0 0 N/A 0 1.00 0 0 0 0.8839 <0.99, 0.88390表5.（视网膜分割，Dice = 盘和杯Dice系数的平均值）当FL在客户端{1, 2, ..., 6} / {k}上进行训练并在未知客户端k∈{1, 2, ...,6}上进行测试时，模型选择器从模型选择器中选择的模型选择频率。从左到右，GM表示全局模型，PM表示个性化模型{1, 2, ..., 6} /{k}。最佳γ的模型选择频率以及更详细的Dice结果可以在附录D中找到。请注意，由于阈值γ被故意设置为0，因此GM从未被选择。0SoftPull个性化方法。请注意，由于FedSM-extra的模型选择器必须在额外的训练轮次中进行训练，因此我们无法显示FedSM-extra的训练曲线。我们在表3和4中总结了测试数据。对于视网膜分割，FedSM在客户端平均Dice和全局Dice方面略优于集中式训练，分别提高了0.2%和0.1%；而FedAvg则分别下降了1.9%和0.9%。FedSM-extra与FedSM的性能相同，验证了从公式（1）到公式（2）的简化。对于前列腺分割，可以观察到类似的模式。但由于客户之间的数据相似性更高，差距变小了。对于视网膜分割，FedSM在客户端3上优于集中式训练，并与其他客户端的集中式训练相匹配。然而，FedAvg在客户端1、2、3和5上劣于集中式训练，其中本地数据集大小较小。此外，FedAvg在客户端1和2上的测试Dice性能与本地训练相似，甚至劣于客户端3和5的本地训练。因此，这些客户端无法从FL中受益，并且可能不愿意加入FL系统。我们还观察到本地训练在其他客户端的数据上无法很好地泛化，这一点至关重要，因为它将导致...0对于来自其他客户端（医疗机构）的患者，这种方法在中心化训练上改善了本地数据集的本地训练，尤其是对于数据不足的客户端。04.2. 验证动机0验证FedSM。回顾我们的第一个动机是找到最接近测试数据的本地数据分布。在FedSM中，我们首先绘制了从模型选择器提取的特征的TSNE图（图3）。为了验证模型选择器是否能够实现我们的动机，我们依次选择客户端k∈{1, 2, ∙ ∙ ∙,6}作为未知客户端进行测试，并使用客户端{1, 2, ∙ ∙ ∙, 6} /{k}对模型进行FL训练。我们将阈值γ设置为0，让模型选择器从个性化模型中选择。我们在表5中总结了频率。我们可以看到模型选择器倾向于选择客户端3和5的个性化模型用于客户端6，这也与图3和表3中的本地训练结果相匹配，即客户端3和5与客户端6更相似。其他客户端也可以观察到类似的模式。因此，模型选择器确实实现了我们的动机。请注意，为了验证模型选择器，我们不能让未知客户端k加入FL系统。因为在这种情况下，模型选择器倾向于选择自己的个性化模型。208730太尖锐0期望的平坦度0太平坦0适当平坦0收敛错误0更差更好更差更好0图4. 在视网膜分割中，不同方法在客户端5的数据上训练的模型附近的1D损失曲面。0方法客户端1 客户端2 客户端3 客户端4 客户端5 客户端6 客户端平均Dice 全局Dice0FT [47] 0.9087 0.8703 0.8877 0.9003 0.8409 0.9151 0.8875 0.8984 APFL [10] 0.9083 0.8640 0.8794 0.89690.8416 0.9152 0.8842 0.8966 Per-FedAvg [11] 0.9051 0.8559 0.8708 0.8954 0.8031 0.9119 0.8737 0.8900Per-FedMe [45] 0.9084 0.8646 0.8822 0.8980 0.8211 0.9162 0.8818 0.8957 SoftPull 0.9132 0.8769 0.88650.9041 0.8483 0.9195 0.8914 0.90280表6. 在视网膜分割中使用不同个性化方法的FedSM。Dice =盘和杯Dice系数的平均值。0λ 0.1 0.3 0.5 0.7 0.90客户端平均0.8808 0.8859 0.8895 0.8914 0.8882 全局0.89640.8896 0.9019 0.9028 0.90010表7. 在视网膜分割中使用不同系数λ的FedSM。Dice=盘和杯Dice系数的平均值。0在表5中，我们还验证了阈值γ对于FedSM在未知数据上的性能改进。对于那些模型选择器给出低置信度的未知数据，较大的γ增加了选择全局模型的机会，因为可能没有个性化模型适合。通过选择适当的γ，我们可以进一步将未知客户端5和6的Dice系数提高3%。验证SoftPull。回顾我们的第二个动机是找到在本地数据分布上具有良好泛化能力的模型，即使本地数据不足。为了实现这一点，我们提出了一种新的个性化联邦学习优化公式，使用SoftPull来解决这个问题。理论分析的备注1.1可以通过以下事实进行经验验证：对于数据相似性较低的视网膜分割任务，最佳λ=0.7（接近1），对于数据相似性较高的前列腺分割任务，最佳λ=0.3（接近1 K = 16 =0.17）。接下来，我们将验证备注1.2，即适当的λ可能会导致收敛错误，但同时可能通过其他客户端的帮助来改善泛化能力，防止过度拟合小的本地数据集。我们通过计算沿着10个随机抽样的单位向量方向的损失来绘制训练模型附近的1D损失曲面（图4），这是根据现有研究[18，23]进行的。有趣的是0我们可以看到，本地训练过度拟合训练数据，并导致一个尖锐的本地训练最优解，已知其泛化能力较差[18, 23,51]。相反，我们观察到FedAvg存在一种“过度正则化”效应，因为它具有比集中式训练更平坦的训练最优解和较大的收敛误差（更差的训练损失），这也导致了较差的泛化性能。实际上，FedAvg中的模型平均可以被视为一种隐式的正则化。相比之下，SoftPull通过选择适当的λ值实现可调节的平坦性。即使它导致了收敛误差，它的泛化性能也优于本地训练，并且与集中式训练相当。04.3. 消融研究

下载后可阅读完整内容，剩余1页未读，立即下载