分布式异步鉴别器GAN：医学图像隐私保护与分布式学习

175 浏览量更新于2023-10-23 1 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

113856合成学习：在不共享医学图像数据的情况下从分布式异步鉴别器GAN学习Qi Chang1岁，Hui Qu1岁，Yikai Zhang1岁，MertSabuncu2岁，Chao Chen3岁，Tong Zhang4岁，Dimitris Metaxas2岁1罗格斯大学2康奈尔大学3石溪大学4香港科技大学{qc58，hq43，yz422，dnm}@ cs.rutgers.edu，msabuncu@cornell.edu，chao.chen. gmail.com，tongzhang@tongzhang-ml.org摘要在本文中，我们提出了一个数据隐私保护和通信效率的分布式GAN学习框架命名为分布式异步鉴别器GAN（AsynDGAN）。我们提出的框架旨在训练一个中心生成器从分布式学习，并使用生成的合成图像单独训练分割模型。我们验证了所提出的框架上的健康实体学习问题，这是已知的隐私敏感的应用。我们的实验表明，我们的方法：1）可以从多个数据集学习真实图像的分布，而无需共享患者的原始数据。2）比其他分布式深度学习方法更高效，需要更低的带宽3）与由一个真实数据集训练的模型相比，实现了更高的性能，与由所有真实数据集训练的模型相比，性能几乎相同。4)具有可证明的保证，生成器可以以非常重要的方式学习分布式分布，因此是无偏的。我们在以下位置发布AsynDGAN源代码：https://github.com/tommy-1. 介绍1.1. 医疗情报中的隐私政策和挑战隐私问题，虽然在每个领域都很重要，但在医疗数据方面却得到了大力的多层次的监管，如HIPAA [2，11，36，13]和机构审查委员会（IRB）[6]的批准过程，保护患者这些规定犹如一把双刃剑，客观上造成了健康档案协作不足比如说美国，欧盟，平等贡献欧盟和许多其他国家不允许患者数据离开他们的国家[25，47]。因此，许多医院和研究机构对云平台持谨慎态度，宁愿使用自己的服务器。即使在同一个国家，医疗数据的合作仍然面临着很大的障碍。1.2. 医疗数据可及性众所周知，足够的数据量是训练成功的机器学习算法用于医学图像分析的必要条件[10]。然而，由于上述政策和挑战，很难获得足够的医学扫描来训练机器学习模型。2016年，美国进行了大约3800万次MRI扫描和7900万次CT扫描即便如此，用于机器学习研究的可用数据集仍然非常有限：可供公众使用的最大医学图像数据集是3.2万张[51] CT图像，仅占美国每年采集图像的0.02%。相比之下，ImageNet [9]项目是专为视觉对象识别研究而设计的大型视觉数据集，拥有超过1400万张图像，这些图像被标注在20，000多个类别中。1.3. 从合成图像中学习：解决方案在这项工作中，我们设计了一个框架，使用集中式生成器和分布式鉴别器来学习目标数据集的生成分布在健康实体学习背景下，我们提出的框架可以聚合来自多个医院的数据集，以获得对整体分布的忠实估计具体任务（例如，分割和分类）可以通过从发生器获取数据来本地完成。从合成图像中学习有几个优点：隐私机制：中央生成器对每家医院的原始图像信息有限。当发生器与医院中的鉴别器通信113857仅传输关于合成图像的信息。这种机制禁止中央生成器隐私机制数据传输自适应FL随机噪声参数/干扰否SL数据块剪切图层副本无伪数据，辅助变量合成数据共享：合成数据AsynDGAN数据块&鉴别器损失是允许生成器不受限制地共享合成图像。这样的汇总和再分配系统可以建立一个公众可访问的和忠实的医疗数据库。取之不尽的数据库可以使研究人员，从业人员受益，并促进医学智能的发展。对架构更新的适应性：机器学习架构快速发展，通过新的损失函数[48，17]，网络模块[18，45，37，42]或优化器[46，54，32，56，57]实现更好的我们可以合理地推断，随着新架构的发明，最近经过良好训练的模型可能会过时或在未来表现不佳。由于隐私敏感数据可能并不总是可访问的，即使我们基于这些数据集训练模型，我们我们提出的方法不是训练特定于任务的模型，而是训练一个从分布式判别器学习的生成器。具体来说，我们通过生成器学习私有数据集的分布，以生成合成图像供将来使用，而不必担心专有数据集的丢失。据我们所知，我们是第一个使用GAN来解决医疗隐私问题的公司简而言之，我们的贡献有三个方面：（1）提出了一种分布式的并行神经网络AsynDGAN（DistributedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximizedProximized(2)AsynDGAN比仅从一个数据集的真实图像学习的模型具有更高的性能。（3）AsynDGAN实现了与从所有数据集的真实图像学习的模型几乎相同的2. 相关工作2.1. 生成对抗网络（GANs）生成对抗网络[12]在各种应用中取得了巨大成功，例如自然图像合成[43，55，8]，图像风格转换[22，58]，计算机视觉中的图像超分辨率[29]，以及医学图像分割[52，50]，跨模态图像合成[40]，医学图像分析中的图像重建[53]。GAN通过对抗性超监督器估计生成分布具体地，生成器G试图模仿来自目标分布的数据，以使在Asyn-DGAN框架下，由于健康实体学习问题的性质，我们主要关注条件分布估计。然而，AsynDGAN框架可以很容易地应用到一般的GAN学习任务中。表1.不同学习策略的比较2.2. 学习数据隐私联邦学习：联邦学习（FL）寻求网络中的本地节点协作，以学习全球强大的模型，而无需将数据存储在云中。最近，随着数据隐私成为用户关注的问题，FL吸引了更多的关注[14，27，7，19]。FL不直接暴露用户在[1，23，34]中，SGD以隐私保护方式共享。然而，通信梯度是尺寸相关的。考虑到ResNet101 [15]具有d= 4000万个参数，它需要至少170mb来为每个客户端每次迭代传递梯度。即使使用类似于[1]的压缩技术，通信成本对于大型网络仍然是不可负担的分裂学习：分裂学习（SL）[49]将深度学习模型中的浅层和深层分开。中央处理器只维护与本地输入相距几个块的层，并且只有层间信息从本地传输到中央。以这种方式，隐私得到保证，因为中央处理器没有对数据的直接访问 It reduces the communication costfrom model- dependent level to cut-layer-dependent layerwhile protect- ing data privacy.然而，这种方法不适用于具有跳跃连接的神经网络，例如，ResNets [15].在AsynDGAN框架中，每次迭代中的通信成本没有维度d。只有辅助数据（标签和掩码），网络。对于128×128大小的灰度图像，每个节点每次迭代的通信成本为8mb，批量大小128.由于中央处理器只能访问原始数据和辅助数据，因此通过分块机制来保护客户端的隐私。此外，自适应性是Asyn-DGAN框架独有的优势随着机器学习方法的快速发展，从业者需要不断更新最先进的方法。然而，在经典的分布式学习子例程中训练新模型将存在高的事务成本。使用AsynDGAN系统，可以保持生成分布。因此，更新机器学习模型可以在本地进行，而无需生成训练数据。FL、SL和我们的AsynDGAN之间的比较如表1所示。1138583. 方法3.1. 概述我们提出的AsynDGAN由一个中央发生器和位于不同医疗实体的多个分布式鉴别器组成。接着介绍了分布式优化的网络结构、目标函数，并分析了分布式优化的过程。图像中的补丁这样的架构假设像素以马尔可夫随机场的方式独立于块[30，22]，并且可以捕获几何结构的差异，例如背景和肿瘤。3.3. AsynDGAN的目标AsynDGAN基于条件GAN [39]。经典条件GAN的目标是：3.2. 网络架构最小值最大值V（D，G）=Exs（x）Eyp（y|x）[log D（y|x）]G D中显示了所建议架构的概述图1.中央生成器，记为G，接受特定于任务的输入（我们实验中的分割掩码+Eypy（y|x）数据[lo g（1−D（y）|x））]（一）并生成合成图像来欺骗鉴别器。局部判别器D1~Dn学习判别局部真实图像和G.由于患者图像的敏感性从外面我们的体系结构自然能够避免这种限制，因为只有同一医学实体中的特定的实体需要访问真实图像。In this way, the real images in local medical entitieswill be kept privately. 仅需要在中央生成器和医疗实体之间传输合成图像、掩模和生成器将从属于不同医学实体的不同数据集学习联合分布然后，它可以用作图像提供者来训练特定的任务，因为我们希望合成图像与真实图像共享相同或相似的在实验中，我们将AsynDGAN框架应用于分割任务，以说明其有效性。U-Net [45]被用作分割模型，下面描述了为分割任务设计的G和Ds其中D代表整数，G是整数。ator. G旨在近似条件分布p数据（y|x）这样D就不能判断数据是否是“假的”。隐藏变量x是控制生成数据模式的辅助变量[39]。实际上，x通常是一个类标签或掩码，可以提供有关要生成的数据的信息。根据以前的工作（[33，21]），我们只以dropout的形式提供噪声，而不是提供高斯噪声z作为生成器的输入，这在训练和测试时都应用于Asyn-DGAN生成器的几个层。在AsynDGAN框架中，生成器由N个不同的鉴别器监督。每个数据集都与一个数据集子集相关联。很自然地，可以使用辅助函数变量x. 在另一种方法中，代替g inivenanaiv es（x），x的分布变为s（x）=πjsj（x）。为j∈[N]每个子分布，都有一个相应的判别式，对于Dj，其仅接收从先前sj（x）生成的数据。因此，AsynDGAN的损失函数变为：3.2.1中央发生器minGMaxD1：DNV（D1：N，G）对于分割任务，中央生成器是一个编码器-Σ=j∈[N]πj{Ex<$sj（x）Ey<$pdata（y|x）[logD]（y|x）]（二）由两个跨距2卷积(for下采样），九个残差块[15]，和两个+Eypy（y|x） [lo g（1−Dj（y）|x））]}转置卷积所有非残差卷积层之后都是批量归一化[20]，ReLU激活。所有卷积层都使用3×3内核，除了第一层和最后一层使用7×7内核。3.2.2分布式鉴别器在AsynDGAN框架中，鉴别器分布在N个节点（医院、移动设备）上。每一个PDDj仅可以访问存储在第j个节点中的数据，因此鉴别器以一种并行化的方式被训练。对于分割，每个子节点具有与PatchGAN中相同的结构[21]。The braindi-3.4. 优化过程AsynDGAN的优化过程如图2所示。在每次迭代中，向系统提供随机采样的元组（x，y）。这里，X表示由生成器观察到的输入标签，并且y是仅可由医学实体访问的真实然后，按照以下顺序迭代地更新网络块：1) D更新：计算第j个判别器Dj和更新Dj的对抗损失，其中j= 1， 2，···，N。2) G-update：更新所有光盘镜像后，G将vidually量化的假或真正的价值，不同的小使用对抗性损失Nj=1 损失（Dj）。1138591N1N图1. AsynDGAN的整体结构。它包括两部分，一个中心生成器G和多个分布式鉴别器每个医学实体中的D1、D2、· · ·、DnG接受特定于任务的输入（我们实验中的分割掩码）并输出合成图像。每个神经网络学习区分当前医学实体的真实图像和来自G.然后，经过良好训练的G被用作图像提供者来训练特定于任务的模型（在我们的实验中是分割）。日（年）|x）= p（y|x）（三）jp（y|x）+q（y|x）假设在每一个训练步骤中，在引理1中，生成器达到其最大值标准，则生成器的损失函数变为：minV（G）=EyExpdata（y|X）[IOgD（y）|x）]G+Eypy（y|x）[lo g（1−D（y）|x））]图2. AsynDGAN的优化过程。该固体-Σ∫=πjj∈[N]y∫sj（x）Xp（y|x）logp（y|x）p（y|x）+q（y|x）行表示向前传递，虚线箭头表示迭代更新过程向后传递期间的梯度流。实心块表示正在更新，而虚线+q（y|x）logq（y|x）p（y|x）+q（y|x）dxdy块意味着它们在更新步骤期间被冻结。红色和蓝色矩形分别是源遮罩和目标真实图像该过程被公式化为算法1。我们将交叉熵损失和引入到算法中，并进一步分析了交叉熵损失的性质。假设在每一步中，最优地，我们确实表明生成分布G试图通过近似数据的基本分布来最小化损失。定理1. 假设鉴别器D1 <$N总是-在此设置中分析AsynDGAN框架。我们强调具有最优（表示为D），损失函数的gen-该框架是通用的，并且可以与erator协作，是全局最优的当且仅当q（y，x）=p（y，x），其中op-GAN损失的变体包括Wasserstein距离和经典回归损失[3，31]。3.5. 分析：AsynDGAN学习正确的分布在本节中，我们提出了一个理论分析的异步 -DGAN和讨论的影响的结果。我们首先从一个技术引理开始，它描述了最优策略。引理1. 当生成元G固定时，最优判别器Dj（y|X）是：V（G，D）的最小值为−log 4。注1. 虽然AsynDGAN损失的分析与[12]具有相似的精神，但它具有不同的含义。在分布式学习环境中，来自不同节点的数据通常是考虑以下情况，其中，n（sj（x））nn（sk（y））=，kj，p（y）的信息|x），y∈N（sj（x））将如果我们丢失了第j个节点，受过训练的行为当从未观测分布sj（x）接收辅助变量时，生成模型是不可预测的。Asyn-DGAN框架提供了一种通过协作多113860个鉴别器来统一不同数据集的解决方案1138611我M算法1AsynDGAN的训练算法对于总训练迭代次数，对于每个节点j∈[N]do，训练的迭代次数为– m个辅助变量的样本小批量{x j，.，x j}并发送到生成器G。混合高斯直方图的形状。BraTS 2018该数据集来自2018年多模态脑肿瘤分割挑战[4，5，35]，包含低级别胶质瘤（LGG）和高级别胶质瘤（LGG）的多参数磁共振成像（mpMRI）扫描。1m胶质瘤（HGG）患者。有210个HGG和75个LGG– 从生成器G生成m个假数据，{yj，.， yj}q（y|x）并发送到节点j。在训练数据中有20例，每个病例有四种类型的MRI扫描和三种类型的肿瘤亚区标记。在– 更新鉴别器通过提升其随机梯度：在实验中，我们对HGG病例的T2图像进行二维分割，提取出完整的肿瘤区域。1Σm∇θΣ ΣlogDj（yj）+log（1−Dj（G（y<$j）。肿瘤面积小于10个像素的2D切片是GAN训练和分割阶段均排除。Djm首尾相接我i=1我在GAN合成阶段，所有三种标记都被用来生成假图像。对于分割，我们关注整个肿瘤（具有三个标签中的任何一个的区域）。对于每个节点j∈[N]，– 样品小批的 M 辅助变量{x j，.，x j}并发送到生成器G。多器官这数据集是提出通过 Kumar et1mal.[28]用于核分割。有30个组织病理学-– 从gener生成对应的m个算子G，{y，j，.， yj}q（y|x）并发送到节点j。来自7个不同器官的1000×1000训练集包含16个乳房、肝脏、肾脏和1m前列腺（每个器官4张图像）。同样的器官测试设备-– 鉴别器Dj将误差传递给发生器G。端– Update获取上述四个器官的8个图像（每个器官2个图像），而不同器官测试集具有来自膀胱、结肠和胃的6个图像在我们的实验中，我们专注于1 ΣN最大扭矩Σmlo g（1−Dj（G（y<$j）.四个器官同时存在于训练集和测试集中，并且每-形式颜色归一化[44]为所有图像。每个器官的两个训练图像被视为属于一个子集的子集端j=1i=1医学实体的基于梯度更新可以使用任何标准梯度学习规则我们用动量实验4. 实验在本节中，我们首先在合成数据集上进行实验，以说明AsynDGAN如何从不同的子集中学习混合高斯分布，然后将AsynDGAN应用于BraTS 2018数据集[5]上的脑肿瘤分割任务和BraTS 2018数据集[5]上的细胞核分割任务。4.1.2评估指标我们在BraTS 2018挑战赛[5]中采用相同的指标来评估脑肿瘤的分割性能： Dice 评分（ Dice ）、灵敏度（Sens）、特异性（Spec）和Hausdorff距离的95%分位数（HD95）。Dice评分、灵敏度（真阳性率）和特异性（真阴性率）测量地面真实掩模G和分割结果S之间的重叠。它们被定义为2 |G ∩ S|多器官数据集[28]。4.1. 数据集和评价指标骰子（G，S）=|G|+的|S|（四）4.1.1数据集合成数据集合成数据集由以下步骤生成：Sens（G，S）=|G∩ S||G||（1− G）（1 −S）|（五）混合3个一维高斯。换句话说，我们以相等的概率生成x∈ {1， 2， 3}。给定x，质量标准（G，S）=（六）|1 −G|随机变量y由y=y11x=1+y21x=2+y31x=3其中1个事件是指示函数Hausdorff距离计算地面实况和分段掩模的边界：和y1<$N（−3，2），y2<$N（1，1），y3<$N（3，0. （五）。什么生成器学习y的条件分113862布：p（y|x）完美地，直方图的行为应该类似于HD（G，S）= max{supINFx∈<$Gy∈ <$Sd（x，y），supinfy∈<$Sx∈<$Gd（x，y）}（七）113863其中，k表示边界运算，d是欧几里得距离。由于Hausdorff距离对小的外围子区域敏感，因此我们使用距离的95%分位数而不是[5]中的最大值为了简化问题，同时公平地比较每个实验，我们选择2D而不是3D分割任务进行BraTS2018挑战，并在每个2D切片上计算这些指标，并对测试集中的所有2D切片取平均值。对于细胞核分割，我们利用Dice评分和聚合Jaccard指数（AJI）[28]：Σ(a) Syn-All（b）Syn-Subset-n（c）AsynDGAN图3.不同方法生成的分布。学习的分布如图3所示。特别是，由于局部信息的限制，任何局部学习（如图3（b）所示）只能AJI=nnGi=1 |G i∩ S(G i)|Σ（八）而AsynDGAN能够捕获全球信息，Gi=1 |+的|+k∈K |Sk|因此，mation具有与常规GAN使用分离数据集的并集（Syn-All）。其中S（G i）是关于Jaccard指数与G i具有最大重叠的分割对象，K是包含尚未被分配给任何地面实况对象的分割对象的集合。4.2. 实现细节在合成学习阶段，我们使用9块ResNet [16]架构作为生成器，以及具有与Patch- GAN [21]中相同结构的多个判别器，补丁大小为70×70。我们调整输入的图像为286×286，然后随机裁剪图像，256×256。除了GAN损失和L1损失之外，我们还使用了[24]中描述的感知损失我们用迷你-批处理 SGD 并应用 Adam 求解器 [26] ，学习率为0.0002 ，动量参数 β1= 0 。 5 ， β2= 0 。 999 我们在AsynDGAN中使用的批量大小取决于判别器的数量。我们使用批量大小3和1用于BraTS 2018数据集和多器官数据集，重新排序。在分割阶段，我们随机裁剪224×224的图像，批量大小为16作为输入。该模型使用Adam优化器进行训练，学习率为0.001，用于脑肿瘤分割中的50个时期和核分割中的100个时期。为了提高性能，我们在所有实验中使用数据增强，包括肿瘤分割中的随机水平翻转和旋转以及细胞核分割中的附加随机尺度和仿射变换。4.3. 合成数据集在本小节中，我们证明了所提出的合成学习框架可以从不同的子集中学习高斯分布的混合。我们比较了3种设置下的学习分布质量：（1）Syn-All。使用数据集中的所有样本训练常规GAN。(2)Syn-Subset-n。仅使用样本在局部子集n中，其中n∈ {1， 2， 3}。(3)AsynDGAN。使用所有子集中的样本训练我们的AsynDGAN分布式方式。4.4. 脑肿瘤分割在本小节中，我们表明，当不同医疗实体中存在相同疾病的患者数据时，我们的AsynDGAN可以很好地4.4.1设置训练数据中有210个HGG病例。由于我们无法访问BraTS 2018挑战赛的测试数据，因此我们将210个然后根据肿瘤大小对训练集进行排序，并将其平均分为10个子集，将其视为10个分布式医疗实体中的数据。训练集中有11,057张图像，测试集中有2,616张图像。我们进行以下分割实验：(1)真实的一切使用来自整个训练集（170个案例）的真实图像进行训练。(2)实子集n。使用来自第n个子集（医学实体）的真实图像进行训练，其中n= 1，2，...，10。在这个类别中有10个不同的实验。(3)合成人使用从常规GAN生成的合成图像进行训练。GAN直接使用来自 170 个病例的所有真实图像进行训练(4)AsynDGAN。使用我们提出的Asyn的合成图像进行训练-DGAN。AsynDGAN使用来自10个子集（医学实体）的图像以分布式方式进行训练。在所有实验中，测试集保持相同，以进行公平比较。应注意，在Syn-All和AsynDGAN实验中，合成图像的数量与Real-All中的真实图像的数量相同。常规GAN具有与AsynDGAN以及超参数。唯一的区别是AsynDGAN有10个不同的鉴别器，每个鉴别器都位于医疗实体中，只能访问一个子集中的真实图像。4.4.2结果定量脑肿瘤分割结果如表2所示。使用所有真实图像113864(a) 图像（b）标签（c）实-全（d）同步-全（e）实-子集-6（f）AsynDGAN图4.典型的脑肿瘤分割结果。(a)测试图像。(b)肿瘤区域的地面实况标签。（c）-（f）分别是在所有真实图像、常规GAN的合成图像、来自子集6的真实图像、AsynDGAN的合成图像上(a)输入（b）AsynDGAN（c）实数图 5. 来自 AsynDGAN 的合成脑肿瘤图像的示例。(a)AsynDGAN网络的输入。(b)基于输入的AsynDGAN的合成图像。(c)真实的图像。方法骰子↑Sens↑规格↑HD95↓全部真实0.74850.79830.995512.85实子集10.56470.57660.994526.90实子集-20.61580.63330.994121.87实子集-30.66600.70080.995021.90实子集-40.65390.66000.996221.07实子集-50.63520.64370.995619.27实子集-60.68440.72490.993521.10实子集-70.64630.62520.997215.60实子集-80.66610.68760.995718.16实子集-90.68440.70880.995318.56实子集-100.65070.65960.995717.33Syn-All0.71140.70990.996916.22AsynDGAN0.70430.72950.995714.94表2.脑肿瘤分割结果。（Real-All）是我们可以访问所有数据的理想情况。是我们的基准，并实现最佳性能。与理想基线相比，使用每个医学实体（实子集-1 10）中的数据训练的模型的性能下降了很多，因为每个子集中的信息是有限的，并且训练图像的数量要少得多。我们的AsynDGAN可以在训练过程中从所有数据的信息中学习，尽管生成器不会“看到”真实的图像。我们可以生成尽可能多的合成图像来训练分割模型。因此，该模型（AsynDGAN）优于所有使用单个子集的模型。作为参考，我们还报告了使用来自常规GAN（Syn-All）的合成图像的结果，该GAN直接使用所有真实图像进行训练。AsynDGAN具有与常规GAN相同的性能，但没有隐私问题，因为它不从医疗实体收集真实图像数据。来自AysnDGAN的合成图像的示例如图5所示每种方法的几个定性分割结果如图4所示。4.5. 核划分在本小节中，我们将AsynDGAN应用于多器官核分割，并表明我们的方法对学习不同器官的核特征是有效的。4.5.1设置我们假设训练图像属于四个不同的医学实体，每个实体有一个器官的四个图像。与第4.4节类似，我们进行以下实验：（1）真实的一切。使用训练集的16个真实图像进行训练。 (2)实子集n。使用来自每个子集（医学实体）的4幅真实图像进行训练，其中n∈ {breast，liver，kidney，prostate}. (3)合成人使用来自常规GAN的合成图像进行训练，使用全部16个真实图像。(4)AsynDGAN。使用来自AsynDGAN的合成图像进行训练，AsynDGAN使用来自4个子集的图像进行分布式训练。在所有上述实验中，我们使用相同的器官测试集进行评估。113865(a) 图像（b）标签（c）真实-全部（d）同步-全部（e）子集-前列腺(f)AsynDGAN图6.典型的细胞核分割结果。(a)测试图像。(b)原子核的真实标记。（c）-（f）分别是在所有真实图像、常规GAN的合成图像、来自前列腺的真实图像、AsynDGAN的合成图像上训练的模型的结果。不同的颜色表示不同的细胞核。我们的方法在这类任务中的有效性。使用常规GAN（Syn-All）的在AsynDGAN中，每个神经元负责一种类型的细胞核，这对于生成器学习整体分布可能更好。我们在图7中展示了AsynDGAN的几个合成图像示例，在图6中展示了典型的定性分割结果。表3.细胞核分割结果。(a)输入(b)AsynDGAN(c)房图7.来自Asyn-DGAN的合成核图像的例子(a)AsynDGAN网络的输入。(b)基于输入的AsynDGAN合成图像。(c)真实的图像。4.5.2结果定量细胞核分割结果见表3。与使用单个器官数据的模型相比，我们的方法实现了最佳性能。原因是局部模型无法学习其他器官的核特征。与使用所有真实图像的模型相比，AsynDGAN具有相同的性能，这证明了AsynDGAN5. 结论在这项工作中，我们提出了一个分布式GAN学习框架，作为多个健康实体中隐私限制问题的解决方案。我们提出的框架应用GAN来聚合和学习不同健康实体中数据集的总体分布，而无需直接访问患者数据。经过良好训练的生成器可以用作图像提供器，用于训练特定任务的模型，而无需访问或存储私人患者的数据。我们在不同数据集上的评估表明，我们的训练框架可以从分布式数据集中学习真实图像此外，仅由合成数据训练的特定任务模型与由所有真实数据训练的模型具有竞争性性能，并且优于由每个医学实体中的本地数据训练的模型。确认我们感谢匿名评论者提供有用的评论。这项工作得到了ARO-MURI-68985 NSMUR、NSF-1909038、NSF-1855759、NSF-1855760、NSF-1733843、NSF-1763523、NSF-1747778和NSF-1703883。方法骰子↑AJI↑全部真实0.78330.5608真实-子集-乳房0.73400.4942真实亚组肝脏0.76390.5191真实亚组肾0.74160.4848前列腺实子集0.77040.5370Syn-All0.78560.5561AsynDGAN0.79300.5608113866引用[1] 纳曼·阿加瓦尔，阿南达·泰尔莎·苏雷什，费利克斯·辛南·X·余，桑吉夫·库马尔和布伦丹·麦克马汉。 cpsgd：通信高效且差异私有的分布式sgd。神经信息处理系统的进展，第7564-7575页，2018年[2] George J Annas et al. Hipaa法规医疗记录隐私的新时代？新英格兰医学杂志，348（15）：1486[3] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。[4] Spyridon Bakas ， Hamed Akbari ， AristetienSotiras ，Michel Bilello，Martin Rozycki，Justin S Kirby，John BFreymann，Keyvan Farahani，and ChristienDavatzikos.用专业的分段标记和放射组学特征推进癌症基因组图谱、神经胶质瘤、磁共振成像的收集。科学数据，4：170117，2017。[5] Spyridon Bakas，Mauricio Reyes，Andras Jakab，StefanBauer ， Markus Rempfler ， Alessandro Crimi ， RussellTakeshi Shinohara，Christoph Berger，Sung Min Ha，Martin Rozycki，et al.确定最好的机器学习算法，用于脑肿瘤分割，进展评估，以及在brats挑战中的总体生存预测。arXiv预印本arXiv：1811.02629，2018。[6] 作者声明：Robert J Amdur. 机构审查委员会：管理和职能。Jones Bartlett Learning，2006年。[7] Theodora S Brisimi，Ruidi Chen，Theofanie Mela，AlexOlshevsky，Ioannis Ch Paschaleet，and Wei Shi.联邦电子健康记录预测模型的联邦学习。国际医学信息学，112：59[8] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[10] 佩德罗·多明戈斯关于机器学习的一些有用的知识。Commun. acm，55（10）：78 -87，2012。[11] 疾病控制和预防中心等。Hipaa隐私规则和公共健康。CDC 和美国卫生与公众服务部的指导。 MMWR ：Mortality and Mortality Weekly Report，52（Suppl. 1）：1[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[13] Lawrence O Gostin，Laura A Levit，Sharyl J Nass，等.遵循健康保险及责任法案隐私规则：通过研究增强隐私，改善健康。国立科学院出版社，2009年。[14] 安德鲁·哈德、卡尼什卡·拉奥、拉吉夫·马修斯、斯瓦鲁普·拉马斯·瓦米、弗拉德·诺伊斯·博·费斯、肖恩·奥根斯坦、休伯特·艾希纳、克洛伊·基登和丹尼尔·拉马奇。联邦学习移动键盘预测。arXiv预印本arXiv：1811.03604，2018。[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] 朱利安·霍克伯格局部单眼抑制的深度知觉丧失：立体视觉解释中的一个问题。Science，145（3638）：1334[18] Judy Hoffman，Dequan Wang，Fisher Yu，and TrevorDarrell.野生环境中的FCNs：像素级对抗和基于约束的适应。2016年。[19] 李黄，尹一峰，曾福，张世发，邓浩，刘殿波。Loadaboost：基于损失的Adaboost在医疗数据上进行机器学习。arXiv预印本arXiv：1811.12629，2018。[20] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[21] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。2016年。[22] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。[23] 王凌霄，大卫·埃文斯，谷泉泉.分布式学习没有苦恼：隐私保护经验风险最小化。神经信息处理系统的进展，第6343-6354页，2018年。[24] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。2016年欧洲计算机视觉会议[25] 我是Sogomonjan1TanelKerikm aée。电子卫生监管政策面临的挑战你的律法有多深？脱欧技术.现代冲突，367，2017。[26] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[27] JakubKon ecˇ n y`，HBrendanMcMahan，FelixXYu，PeterRicht a´ rik，AnandaTheerthaSuresh，andD av eBacon. 美联储式学习：提高沟通效率的策略。arXiv预印本arXiv：1610.05492，2016。[28] Neeraj Kumar、Ruchika Verma、Sanuj Sharma、SurabhiBhargava、Abhishek Vahadane和Amit Sethi。用于计算病理学的广义核分割的数据集和技术。 IEEEtransactions on medical imaging，36（7）：1550[29] Chris tianLedig ， LucasTheis ， FerencHusza´r ， JoseCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew

下载后可阅读完整内容，剩余1页未读，立即下载