基于多Agent强化学习的交互式3D医学图像分割方法

63 浏览量更新于2023-10-25 收藏 773KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9394基于多Agent强化学习的交互式3D医学图像廖轩1、李文豪2、徐其森2、王祥峰2、金波2、张晓云1、王晓云1、张雅11上海交通大学合作媒体创新中心2华东师范大学多智能体人工智能实验室{liaoxuan，xiaoyun.zhang，wangyanfeng，ya zhang}@ sjtu.edu.cn，{51164500105@stu，51184501067@stu，xfwang@sei，bjin@cs}. ecnu.edu.cn摘要现有的三维图像自动分割方法往往不能满足临床应用的需要。许多研究已经探索了一种交互式策略，通过迭代地结合用户提示来提高图像然而，连续相互作用的动态过程在很大程度上被忽略了。本文提出将迭代交互式图像分割的动态过程建模为马尔可夫决策过程（MDP），并用强化学习（RL）求解不幸的是，由于探索空间很大，使用单智能体RL进行体素预测是很困难的。为了将探索空间减少到易于处理的大小，我们将每个体素视为具有共享体素级行为策略的代理，这种多智能体模型的另一个优点是捕捉分割任务的体素之间的依赖性。同时，为了丰富以前的分割信息，我们保留了预测的不确定性在状态空间的MDP和推导出一个调整的动作空间，导致更精确和更精细的分割。此外，为了提高探索效率在各种医学数据集上的实验结果表明，我们的方法显着优于现有的最先进的方法，具有更少的相互作用和更快的收敛速度的优势。1. 介绍医学图像分割是医学图像结构和功能分析、诊断和治疗等后续处理的重要环节传统的密集人工标注对于3D医学图像是非常低效的，并且其性能高度依赖于医生随着卷积神经网络（CNN）的发展，自动分割大大提高了效率*同等贡献医学图像处理[13，16，23]。然而，目前的自动方法的准确性和鲁棒性仍需要改进，以实际的临床应用。为了获得更好的分割，引入了交互式图像分割[5，7，20]以整合用户提示（主要以点，涂鸦和边界框的形式）。这类交互式方法通过在预测模型中加入新的标注约束，提高了分割的性能，已成为一个热门的研究方向。通常，一次性交互可能无法确保分割精度。因此，许多现有方法与迭代细化模式兼容：操作员根据当前结果提供新的提示以细化分割直到其令人满意。此外，为了减少交互的数量，现有的作品引入了用自动获得的粗分割替换初始提示的想法[5，20]。注意，在本文中，我们将在初始输入中包含粗分割的此类方法称为更新方法，并且本文将重点讨论此类方法。关于目前的更新方法，存在两个主要问题：1）他们通常忽略了连续相互作用的动态过程。虽然分割可以迭代细化，但模型总是孤立地对待每个细化步骤的分割，而不存在先前的信息。2)另一个问题是当使用二进制分割结果而不是每个体素的分割概率作为模型输入的一部分时，预测不确定性的损失。从密集分割概率到二进制分割预测的舍入可能导致量化误差和准确性损失。针对上述两个问题，本文提出了一种新的交互式医学图像分割更新方法，称为通过多智能体强化学习的迭代细化交互式3D医学图像分割（IteR-MRL）。我们制定的迭代交互式图像分割的动态过程作为一个MDP。具体而言，在每个细化步骤中，模型需要根据先前的分段来决定所有体素的标签9395从互动中获取信息和监管信息。之后，模型将根据预定义的分割测量获得反馈，并且上述过程将被重复，直到达到最大交互次数。然后，我们采用RL方法来解决上述MDP，即找到分割策略，以最大化在每个细化步骤中获得的累积奖励。然而，由于大的探索空间，使用单智能体RL进行逐体素预测将是棘手的。此外，考虑到分割任务中的体素是相互依赖的，它们可以通过更全面地掌握周围的信息来实现更好的分割为了将探索空间减少到易于处理的大小并明确地对体素之间的依赖关系建模，我们引入了多智能体强化学习（MARL）方法。我们把每个体素作为一个代理，决定自己的标签。所有代理共享相同的策略，并通过卷积核相互协作。同时，我们设计了一个基于相对交叉熵增益的奖励，而不是考虑当前预测和地面事实之间的差异，具体来说，算法在每个细化步骤中对改进给予积极的奖励，反之亦然，因此可以强制新的预测与监督方法相比，这种基于RL的方法具有更快的细化收敛的优点。针对现有研究中分割图二值化导致的预测不确定性损失问题，采用分割概率代替二值分割作为RL状态的一部分。该增强的状态空间还导出调整动作空间，从而导致更精确和更精细的分割。然后，分割细化过程可以被看作是一系列的动作，以调整一定程度的分割概率。这样，保留了预测的不确定性，并且算法在更细的粒度和更密集的空间中进行探索。实验结果表明，所提出的IteR-MRL对不同的初始分割和不同的医学数据集是鲁棒的在相同的初始分割条件下，本文提出的交互式算法在不同的3D医学图像分割数据集（包括脑肿瘤、心脏和前列腺图像）上均优于我们将我们的贡献总结如下：• 我们制定了交互式图像分割任务作为一个MDP，并提出了一种新的基于MARL的三维医学交互式分割框架图像，使用户交互的更有效的利用• 我们提出通过分割概率来保留预测的不确定性，这可以丰富以前分割的信息，并导致一个更精确和更精细的调整。• 大量的实验表明，分割是显着改善了迭代序列，只有很少的相互作用和快速收敛，考虑到两个连续步骤之间的相对增益。2. 相关工作交互式图像分割已广泛应用于自然[4，22]和医学图像[15，19，20]。本节将简要回顾现有的工作。2.1. 基于图的交互式图像分割传统的方法利用低级别的功能，如直方图和像素之间的相似性。GraphCut[4]和GrabCut [17]将用户提示纳入最大流量最小切割算法[3]。DenseCRF [10]考虑从相邻像素到所有像素对的像素关系。[8]提出使用测地线距离来计算像素之间的距离，对对比度敏感，适用于医学图像。[21]介绍了一种通过仅在一个切片中从用户注释中学习的用于胎儿MRI的分割方法。2.2. 基于CNN的交互式图像分割最近，使用卷积神经网络（CNN）已经成为计算机视觉问题的热门。许多基于CNN的方法已经开发用于交互式图像分割任务。[22]是第一个将CNN用于交互式图像分割的方法。[15]用CNN代替GrabCut中的高斯混合模型进行MRI分割。另一项工作，3D U-Net [7]学习从一个3D医学图像的稀疏注释切片中产生完整的分割。为了节省初始用户提示的预算，以下方法（称为更新方法）选择将自动生成的分割作为模型初始输入的一部分。[20]提出了一种称为DeepIGeoS的两阶段方法，使用输入中的初始粗分割来细化分割。然而，在第一步骤之后的精细分割不能有效地用于该模型中。[5]将DeepIGeoS扩展为迭代版本：Inter-CNN，它在训练和测试阶段迭代地细化先前的细化二进制预测。他们的问题之一是忽视了连续相互作用的动态过程。另一个问题是由概率分割到二值分割的量化所造成的精度损失。2.3. 基于RL的交互式图像分割也有一些方法使用RL来显式地建模交互式图像分割任务中的动态过程。SeedNet [18]使用RL代理来模拟9396是的粗分割最终分割好的没有用户更新不够好交互法分割图1.迭代细化交互式图像分割方法流程图。给定一个粗略的分割，该方法迭代地细化它与用户交互，直到细segmenta-灰是足够好的。向分段模型给出提示的用户行为。由于我们的方法使用RL作为分割模型来预测分割，所以我们的方法与它正交。Polygon-RNN [6]将对象分割识别为多边形。他们的模型连续地产生顶点，直到多边形闭合。用户可以通过调整顶点来做出贡献。在此基础上，Polygon-RNN++[1]通过将RL与图神经网络相结合，开发了一种更快，更准确的算法然而，由于3D图像与多边形分割的不兼容性，以及即使采用网格化策略也具有极大的动作空间，因此这些基于网格的方法不能应用于3. 方法在本节中，我们将交互式图像分割公式化为MDP，并提出了一种新的基于MARL的交互式医学图像分割方法，以更有效地利用交互信息。3.1. 概述在我们的工作中，我们提出了一个基于更新方法的迭代细化框架，如图所示。1，其通过整合用户交互来迭代地细化粗略的初始分割，以便获得更精确的分割结果。可以从任何可访问的分割方法获得初始分割。如第1节和第2节所讨论的，现有的基于监督学习的算法的主要问题是它们将整个图像细化过程分成孤立的步骤。为了解决这个问题，我们采用RL来明确地捕捉连续预测之间的关系，通过设计奖励作为相对改进。 As the large state space and action space of voxel-wise prediction and the necessity of the collaborationsbetween interdependent voxels, we use the idea of MARL:each voxel in a 3D image is regarded as an agent. PixelRL[9]也将每个像素视为一个代理，但它专注于没有人类交互的一般图像处理任务。相比之下，交互式图像分割任务更适合采用RL，因为其内在的顺序性。与处理非交互式IteR-MRL。通过利用原始3D图像、先前的分割概率和交互信息作为状态，中间的演员网络对分割概率进行更新并产生新的分割概率。注意，先前的分割概率来自先前的更新迭代，并且交互信息是从用户提示转换的提示图，这将在子节3.2中介绍。Actor网络输出Agent的动作，调整先前的分割概率并生成当前的分割概率。之后，对于当前分割概率有两个后续操作。一方面，它通过基于地面真值和连续分割概率计算先前和当前交叉熵之间的相对增益，将奖励信号反馈给网络，用于参数更新。另一方面，它被呈现给用户，用户提供反馈，即。点击对象或背景错误预测的地区。咔哒声在图中以红点表示。2，这是扩大的可视化。通常，使用由初始方法（任何分割方法）产生的粗略分割概率作为其初始分割，IteR-MRL迭代地细化分割概率，直到分割是令人满意的。此外，这里使用的演员网络是为MARL设计的，它将3D图像上的体素视为相互协作的代理。应该注意的是，我们不是像以前的方法[5，20]那样将分割概率量化为二进制分割预测，而是直接使用分割概率作为以前的分割信息并将其馈送到模型中。引入分割概率，丰富了以往的分割信息，使分割结果更加准确。与二值分割量化相比，利用分割概率可以得到一个调整动作空间，从而得到更精确、更精细的分割结果具体来说，我们可以在每一步调整分割概率，并从一组不同的尺度中选择最佳调整幅度MARL模型中个体的调整行为是基于自身和邻居3.2. 用于交互式图像分割的多Agent RL框架在本小节中，我们描述了交互式图像分割的MARL设置令x=（x1，· · ·，xN）是数据集中的一个任意图像，并且xi是第i个体素养木我们把每个xi当作一个代理，其策略是定义为πi（a（t））|s（t））。s（t）和a（t）是状态（图像，我我我图像处理任务，我们的目标是更好地考虑和有效地利用来自用户的外部监督信号在互动中。先前的分割概率，用户交互）和ac-在步骤t处，对于xi，t_tion（对先前概率的调整）;a（t）∈ A，A是动作集;s（t）∈ S，S是状态我我图2介绍了我们提出的方法集的框架通过使用卷积核，一个代理可以访问9397−+−我ℓℓ（t）ij+，i−，i我我我我体素代理代理之间的协作状态地面实况奖励一个3D图像行动上一节。概率用户交互当前分段概率基于FCN的Actor Network基于错误区域的提示地图基于测地距离的基于交叉熵的相对增益图2.综述了基于MARL的迭代细化交互式三维医学图像分割算法（IteR-MRL）。在每个细化步骤中，包含图像、先前分割概率和提示图的状态被馈送到演员网络，然后演员网络产生由其输出动作导出的当前分割概率接着，用户基于错误区域返回提示点击（红在每一步，奖励由先前和当前分割交叉熵之间的相对增益确定。在我们的方法中，体素被视为相互协作的代理邻国从整个图像的角度出发，对先前的分割进行细化，得到新的分割。通过将全球动作a（t）=（a（t），···，a（t）），图像代理转移到以及背景提示映射h（t），分别从对象提示集hs（t）（对象上的提示）和背景提示集hs（t）（背景上的提示）生成。所以1N用户提示映射是这两个提示映射的串联全局状态s（t+1）=（s（t+1），···，s（t+1）），并得到（吨）（吨）（吨）（吨）1Nh=[h+，h−]。对于一个提示地图h ，<$∈{+，−}，全局奖励r（t）=（r（t），···，r（t））。（吨）（吨）（吨）（吨）1N我们定义h=（h，1，···，h，N）。元素h，i我们现在定义一个单一的状态，动作和奖励IteR-MRL中的代理xi状态对于我们的问题公式化，在步骤t处体素代理xi的状态是其体素的串联，值bi，其先前分割概率p（t）为在提示图上h（t）由xi和相应提示集hs（t）之间的最小距离计算：h（t）=minM（x，x），（1）n，i<$xj∈hs <$对象标签及其在提示映射h（t）和h（t）上的两个值：其中，M是用于测量s（t）=[bi，p（t），h（t），h（t）]其中p（t）∈[0，1].对于尼-我我+，i−，ii初始状态s（ 0 ），初始粗分割概率表示初始概率p（0）。现在我们讨论整个提示图的生成关于步骤t处的用户交互，提示映射h（t）从点击点形式的用户提示转换通过单击给出提示点，用户指示其周围的区域是一个错误区域。直觉上，一个点离提示点越近，它的标签被错误预测的可能性就越大。因此，引入了提示图来显示提示的辐射区域，并将局部相互作用扩展到整个图像。提示的数量和位置根据用户交互规则来选择。实际上，提示图有两个通道，与图像大小相同：对象提示映射h（t）两个体素。以前的相关工程采用了几种距离-测量方法包括测地线[8]，高斯和欧几里得距离。在本文中，我们使用基于测地线距离的提示图来测量距离。两个体素之间的(See图中的提示图。2.）的情况。行动上虽然以前的作品[5，20]直接从网络输出分割概率，但我们在这里根据先前的概率预测调整量作为动作，以使结果更加稳定而不会突然变化在时间步长t处，对于xi的动作a（t）∈ A是通过一定的量a（t）。因此，分割概率p（t+1）af.+i i9398我一我vK=t我ter采取行动a（t）是：p（t+1） =C1（p（t）+a（t）），（2）i0我我其中Cb（x）= min（max（x，a），b）将x的值从a剪切到b。 p（t+1）被约束为[0，1]，因为它表示概率。动作集合A ={Ak}（k = 1，2，···，K）包含K个动作，允许智能体调整概率在不同的情况下会有不同的程度。例如，当体素更接近提示点击时，对体素进行更大的调整是合理的此外，一个体素倾向于在其大多数邻近体素选择该动作时采取某一调整动作。奖励为了提高探索效率，我们设计了一种基于相对交叉熵增益的奖励机制，使模型在约束方向上进行更新。具体地，将回报设计为从先前分割到当前分割的相对改进，其为基础真值yi与分割概率pi之间的交叉熵Xi的减少量：r（t） =X（t−1）− X（t），（3）图3. IteR-MRL的网络架构。策略头和值头共享低级特征并提取它们自己的高级特征。图像、提示图和先前分割概率的当前组合是好的。我们分别用θp和θv表示策略和价值头的参数。网络的输入是时间步t的状态：s（t）。值头输出当前状态V（s（t））的估计值。Thegradientθv的计算公式为：dθv=<$θA（s（t），a（t））2，（6）A（s（t），a（t））=<$Tγk−tr（k）−V（s（t）），（7）其中r（k）是时间步长处所有体素的平均奖励X（t）=−y ilog（p（t））−（1 − y i）log（1− p（t））。（四）K. A（s（t），a（t））是在时间步长t处，我我我对于（3），在其概率更接近真实体素标签的情况下，智能体获得正奖励，反之亦然。相对增益不是一个遥远的目标，而是为智能体提供了一个比较和超越的基线。一般来说，一个交互序列的累积奖励是a（t），表示不受状态影响的实际累积报酬，减小了梯度的方差。政策负责人输出作用策略y π（a（t））|s（t）），这是采取每个动作a（t）的概率。θp的梯度计算如下：dθp=− <$θπ（a（t）|s（t））A（a（t），s（t））.（八）Ri= ΣTt=1t−1r（t），（5）p两个负责人以端到端的方式进行联合培训其中T是总步骤数，折扣因子γ取（0，1]中的值。3.3. 网络和培训为了公平比较，[20]命名为R-net的交互式网络架构被用作我们算法和所有其他基线方法的主干我们将网络调整为图1中的网络3为了适应RL训练算法：异步优势行动者-批评者（A3 C）[14]。该网络首先使用三个3D卷积块来提取低级特征。然后，将网络分为策略头和值头，两者都有三个3D卷积块来提取特定的高级特征。策略头的功能是预测已知状态下的动作概率分布在我们的情况下，给定图像、提示图和先前的分割概率，策略头预测对先前的分割概率采取每个调整尺度的可能性。值头的功能是估计当前状态的值。具体来说，价值头评估如何政策负责人数值水头第6组，v第5区块，v第4组，v块3块2块1下采样第6组，p第5组，p第4组，p输入ConcatenateConcatenate上采样Softmax产值上采样产量政策γ93994. 实验4.1. 数据集在我们的论文中，我们做了三个三维MRI数据集上的实验。每个图像在使用之前根据其非零区域进行裁剪对于每个数据集，我们访问所有具有地面实况的图像案例，并将它们分成几个集合。初始方法定义为产生初始粗分割的分割方法如果我们在更新方法中再次使用在初始方法上训练的图像，则粗分割概率（更新方法的初始分割概率）将过于完美而不能在更新方法中细化，因为这些图像已经在初始方法中看到了地面真实。因此，我们提出了一种新的数据集分割方法：将数据集分割为三个部分，两个训练集和一个测试集。详细地说，我们随机选择N个训练案例作为初始方法的训练集，形成D训练1，并随机选择另外N个训练案例，9400剩余的数据集作为用于更新方法的训练集，形成D训练2。剩余的N个测试用例用作测试，形成D测试。注意，更新方法中的D训练2的初始分割概率数据是通过用初始方法测试D训练2而获得的。这三个数据集如下：BraTS 2015。脑肿瘤分割挑战2015（BraTS）[12]提供了磁共振图像中我们使用液体衰减反转恢复（FLAIR）图像，包含274例，只分割整个脑肿瘤。我们将Ntrain设置为117，Ntest设置为40。嗯，什么。多模态全心脏分割（MM-WHS）[24]包含覆盖整个心脏子结构的多模态全心脏图像我们利用20例MRI对左心房血腔进行了分割我们将Ntrain设置为8，Ntest设置为4。NCI-ISBI 2013。 NCI-ISBI 2013 Challenge [2]旨在自动分割前列腺结构。它提供了80个前列腺MRI数据。我们将Ntrain设置为32，Ntest设置为16。4.2. 设置评估指标。通常，医学图像分割由骰子分数评估：骰子（S，S）= 2|SpSg|、（9）初始更新BGV-NetHighRes3DNetDeepIGeoS（P-Net）初始077.1575.3982.16最小割27.4680.6977.0584.08DeepIGeoS（R-Net）82.9785.8085.7284.83InterCNN85.1785.5687.2986.54IteR-MRL86.1488.5387.4387.50表1.不同初始方法的组合InterCNN表2.在一个交互序列中提高性能PG|S p|+的|S G|其中Sp、Sg分别表示预测和地面实况。 |·|是该区域中的体素数。当我们研究交互式图像分割任务时，我们不仅考虑骰子分数，而且考虑用户点击数。我们的目标是以更少的用户点击获得更高的骰子分数用户模拟。由于需要大量的人力资源与真正的医生进行实验，我们模拟用户点击像其他作品。虽然以前的作品通常会为训练提供许多点击（140次），但为测试提供几次点击，但我们的训练和测试交互策略是一致的因此，训练设置类似于测试设置，以减少训练和测试之间的偏差在图像的一个训练/测试序列中，我们每一步都给N次点击具体地，点击被选择为最大的N个点击误差区域的中心。此外，在每个点击点上加入一个小的干扰噪声，以使模型具有鲁棒性，并使其模仿真实用户的行为。实作详细数据。对于预处理，通过整个数据集D=[D训练1，D训练2，D测试]的平均值和标准变化来归一化所有图像。每个图像由边界框基于其具有[0，10]体素扩展的非零区域进行裁剪尺寸为55×55×30。数据扩充-在三个方向上翻转，并在三个方向上以角度范围[−π/8，π/8]随机旋转。图4.曲线显示的性能改进由于所提出的IteR-MRL可以很容易地适应无交互模式，我们首先训练一个纯分割模型IteR-MRL 0作为IteR-MRL的预训练模型。IteR-MRL 0被训练1000个时期，并且IteR-MRL在IteR-MRL 0上微调500个时期。学习速率采用具有初始学习速率10- 4。参数设置如下：T=5，N点击=5，γ=0。95，噪声=[-3，3]3。我们使用亚当算法的优化与minibatch大小为1。对于不同的数据集，使用一个Nvidia Titan X GPU的模型训练时间从几个小时到两天每个更新步骤的平均推理时间为894ms，其中包括424ms的交互模拟时间。4.3. 结果为了公平比较，我们将denseCRF应用于所有与CRF兼容的模型作为最终的细化处理。比较与state-of-the-art 方法.我们来-采用三种最先进的方法进行MRL：切[10]，DeepIGeoS（R-Net）[20]和InterCNN [5]。在表1中，更新方法从四种不同的初始分割方法接收粗分割：BG（将所有体素标签设置为背景），V-Net [13]，HighRes 3DNet [11]和DeepIGeoS（P-Net）[20]。实验结果表明，在每种初始方法下，IteR-MRL都能获得比基线更好的性能步骤012345点击数051015202577.1579.5279.9780.2280.4680.69最小切割（+2.37）（+0.45）（+0.25）（+0.24）（+0.23）DeepIGeoS（R-Net）七十七点一五85.6285.7485.7385.7585.80（+8.47）（+0.12）（-0.01）（+0.02）（+0.05）77.1583.1984.3985.1685.5285.56（+6.04）（+1.20）（+0.77）（+0.36）（+0.04）9401行动国IteR-MRL±0。1±0。2±0。4±1。0概率二进制CC84.03CC84.29CC86.51CC87.20CCC87.88CCCC88.53CCCCC88.02图像首字母表4.不同操作和状态设置的组合Min-CutDeepIGeoSInterCNN IteR-MRLGround（R-Net）真相图5.不同更新方法的可视化表3.不同数据集上的性能显示了我们的方法的鲁棒性和推广。为了验证考虑连续预测之间的相对增益是否可以导致快速改进，我们还分析了表2中的一个细化序列期间我们在这里使用V-Net对于第一个细化步骤，所有更新方法的性能都有显着提高（从+2。37到+847）。从第二步开始，虽然有了新的用户，但大多数性能都遇到了停滞（几乎没有改善）提示DeepIGeoS（R-Net）甚至有一个降级（-0。01）第三步。而其他方法改进缓慢在每一步精化中，IteR-MRL都有较高的改进，证明了考虑连续预测之间的相关增益的有效性。在每个细化步骤的大的改进也导致良好的结果（88. （53）最后。此外，我们注意到IteR-MRL图4提供了一个交互序列中的性能改善的全局视图。图5给出了以V-Net为初始化方法的不同更新方法的可视化具体来说，我们可视化细化分割后，五个细化步骤。可以观察到，虽然其他方法倾向于产生相当平滑的边界，但IteR-MRL在捕获边缘细节方面表现更好。上述结果是从数据集BraTS2015的实验中获得的。还对表3中的其他两个数据集MM-WHS和NCI-ISBI2013进行了更多实验，以验证初始方法V-Net的鲁棒性实验结果表明，IteR-MRL在各种类型的数据集上都具有稳定的性能。表5.报酬函数对绩效的影响消融研究。我们在表4中分析了不同动作集对算法性能的影响。特别是，当动作集只包含±1时。0（第1行），则分段概率变为二进制，因为分段站概率只能取值0和1。其余的动作集都是针对含有分割概率的状态设计的。分析了动作对于值的影响，我们固定动作的数量，让动作值-使用率不同：我们尝试±1。0，±0。4，±0. 2和±0。1（第1、2、3、4行）。比较采用分段概率的状态-与二元预测相比，由于损失了预测的不确定性，二元预测的预测性能较差。此外，结果表明，小的动作值比大的性能更好原因是，小的动作值允许IteR-MRL进行更详细的调整，但是大的动作值可能会过度行为，并且永远不会达到某些特定状态。对于动作数的影响，我们逐渐将新动作添加到动作集中（第4、5、6、7行）。可以观察到，通过为IteR-MRL提供不同程度的调整，丰富的动作导致更好的性能。在具有高置信度的情况下，IteR-MRL倾向于采用大的调整，这加快了细化收敛。但是，添加±1。0会相对损坏性能，因为± 1的调整。0对于大多数情况来说太极端了在一般情况下，我们了解到，除了± 1的小动作和大动作的组合。0最好，最后选择A={±0。1，±0. 2，±0. 4}作为我们模型中请注意，我们还考虑了一个连续的动作空间，但实验结果表明，在连续的动作空间中训练和收敛是困难的。此外，由于呈现给用户的最终预测对于每个体素是0或1，因此我们不关心无法通过离散动作空间达到最佳最终状态。在表5中，我们比较了不同的奖励设计步骤012345点击数0510152025绝对报酬七十七点一五85.5586.5387.5987.7587.65（+8.40）（+0.98）（+1.06）（+0.16）（-0.10）相对报酬七十七点一五84.3586.7887.6188.1888.53数据集BRATS2015MM-WHSNCI-ICBI2013初始77.1579.6079.34最小切割80.6983.2179.92DeepIGeoS（R-Net）85.8085.2179.97InterCNN85.5684.7682.14IteR-MRL88.5386.9282.719402切片i-1切片i图像GTHHintobj 1Hintobj 2 Hintobj 3 Hintobj 4Hintobj 5提示bg1提示bg2提示bg3 提示bg4提示bg5切片i+1图像Prev_pred提示objCurr_pred GthPred0Pred1 Pred2 Pred3 Pred4Pred5(a)（b）第（1）款图6.预测和提示之间关系的可视化（a）一次点击的可视化及其对预测和提示图的影响显示单击的切片及其两个相邻切片。用户点击表示为红点。一行五个图形形成一个组，对应于一个切片[图像，先前预测，对象提示图，当前预测，地面实况]。(b)每个步骤的预测和提示图的可视化。第一列中的数字是[Image，Ground truth，Initial prediction]。然后，每一列形成一个步骤，对应于[Object hint map，Background hint map，Prediction]。步骤012345步骤012345点击数0510152025点击0510152025良好互动七十七点一五84.3586.7887.6188.1888.53即时奖励77.1584.4481.2678.3676.0774.89（+7.20）（+2.43）（+0.83）（+0.57）（+0.35）（T=1）（+7.29）（-3.18）（-2.90）（-2.29）（-1.18）W/O相互作用七十七点一五78.6079.5380.1580.5680.78累计奖励77.1584.3586.7887.6188.1888.53（+1.45）（+0.93）（+0.62）（+0.41）（+0.22）（T=5）（+7.20）（+2.43）（+0.83）（+0.57）（+0.35）不良互动77.1576.8675.4774.8474.2972.76（-0.29）（-1.39）（-0.63）（-0.55）（-1.53）表6.互动对绩效功能的贡献。前面提到的相对报酬的另一种选择是绝对报酬，即。之间的差异当前预测和地面实况。结果表明相对的一个表现更好。一个可能的原因是相对增益可以更好地反映智能体我们知道，交互和模型都可以导致性能的提高。我们现在通过改变交互策略来分析交互对性能的贡献除了之前使用的良好相互作用之外，在表6中还进行了另外两个比较没有交互的方法是总是用随机噪声填充提示图，模型将不会接收任何新的交互信息。另一种交互性差的方法在这种情况下，交互可能会向模型传递错误的消息。因此，我们发现有意义的互动确实有助于大大提高绩效。还可以观察到，没有交互的模型仍然具有一些性能增益，这可能来自迭代模型本身。此外，具有不良交互的一个的退化表明，无效的交互可以损害性能。为了验证累积奖励相对于即时奖励的有用性，我们分析了T，即一个训练细化序列期间的总步骤数表7表明，累积奖励优于即时奖励，后者对于多步交互具有较差的性能。图6呈现了与图6所示的方法之间的关系的可视化。表7.累积奖励与即时奖励预测和提示。图6（a）示出了用户交互对预测和提示图的影响。由于数据是3D的，我们用点击显示切片（中间一行）和它的两个相邻切片（两侧的行）。提示图上的红色部分是推荐的对象区域。我们发现，该算法可以成功地纠正用户点击（红点）周围的局部区域此外，相邻切片上的对应区域也得到了改进。在图6（b）中，我们观察到预测和提示图在一个包含五个步骤的交互序列没有显示用户点击，因为点击的切片在每个步骤都不同，我们只关注一个特定切片的变化。通过提示图的指示，IteR-MRL成功地逐步改进了初始预测。5. 结论在本文中，我们提出了一种新的迭代细化交互分割方法的三维医学图像使用多智能体强化学习。该方法显式地对交互式图像分割任务的动态过程进行建模，以便在每次迭代中得到快速的分割改进。实验结果表明，该方法的性能优于现有的方法，并且对各种初始分割和数据集具有鲁棒性。致谢本工作得到国家自然科学基金（ 11871279 ，U1509219，61702188，61771306，61521062），111计划（B 07022），SHEITC（2018-RGZN-02046）和STCSM（19 ZR 1414200，18 DZ 2270700）的支持。9403引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用Polygon-RNN++对分割数据集进行高效的交互式注释。在CVPR中，第859-868页[2] N Bloch，A Madabhushi，H Huisman，J Freymann，JKirby，M Grauer，A Enquobahrie，C Jaffe，L Clarke和K Fara-hani。NCI-ISBI 2013挑战：前列腺结构的自动分割。癌症影像档案，370，2015。[3] 尤里·博伊科夫和弗拉基米尔·科尔莫戈洛夫。视觉能量最小化的 Min-Cut/Max-Flow 算法的实验比较 IEEETransactions on Pattern Anal-ysis Machine Intelligence，（9）：1124[4] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界ICCV，第105-112页，2001年[5] 古斯塔夫·布雷德尔，克里斯汀·坦纳，安德·科努格鲁。分段编辑网络的迭代交互训练。在MLMI国际研讨会，第363-370页，2018年。[6] Lluis Castrejon，Kaustav Kundu，Raquel Urtasun，andSanja Fidler.使用Polygon-RNN注释对象实例。在CVPR中，第5230-5238页[7] O¨zgu¨ nC¨ic¨ek ， AhmedAbdulkadir ， SoerenSLienkamp ，Thomas Brox，and Olaf Ronneberger.3D U-Net：从稀疏注释学习密集体积分割。在MICCAI，第424-432页[8] 安东尼奥·克里米尼西托比·夏普安德鲁·布莱克Geos：测地线图像分割。见ECCV，第99-112页，2008年。[9] Ryosuke Furuta，Naoto Inoue，and Toshihiko Yamasaki.用于图像处理的具有多步强化学习的全卷积网络。在AAAI，第3598-3605页，2019年。[10] Phil i ppK raühenbuühlandVladlenKoltun. 具有高斯边缘势的全连接CRF中的有效推理在NeurIPS，第109-117页[11] Wenqi Li，Guotai Wang，Lucas Fidon，Mr.Ourselin，MJorge Cardoso，and Tom Vercauteren.关于3D卷积网络的紧凑性、效率和表示在IPMI中，第348-360页[12] Bjoern Menze，Andras Jakab，Stefan Bauer，JayashreeKalpathy-Cramer ， Keyvan Farahani ， Justin Kirby ，Yuliya Burren ， Nicole Porz ， Johannes Slotboom ，Roland Wiest，Levente Lanczi，Elisabeth Gerstner，et al.多模态脑肿瘤图像分割基准（BraTS）。IEEE医学成像学报，第33页，2014年。[13] Fausto Milletari Nassir Navab和Seyed-Ahmad Ahmadi。V-Net：用于体积医学图像分割的全卷积神经网络。在3DV中，第565-571页[14] Volodymyr Mnih ， Adria Puigdomenech Badia ， MehdiMirza，Alex Graves，Timothy Lillicrap，Tim Harley，David Silver，and Koray Kavukcuoglu.深度强化学习的异步方法。在ICML，第1928-1937页[15] Martin Rajchl ， Matthew CH Lee ， Ozan Oktay ，Konstanti- nos Kamnitsas，Jonathan Passerat-Palmbach，Wenjia Bai，Mellisa Damodaram ， Mary A Rutherford ， Joseph VHajnal，Bernhard Kainz，et al. Deepcut：使用卷积神经网络从边界框注释进行对象分割。IEEE Transactions onMedical Imaging，36（2）：674[16] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-Net：用于生物医学图像分割的卷积网络。在MICCAI，第234-241页[17] 卡斯滕·罗瑟弗拉基米尔·科尔莫戈洛夫安德鲁·布莱克。GrabCut：使用迭代图切割的交互式前景提取。在ACMTransactions on Graphics，第23卷，第309-314页[18] 宋光模，熙秀明，李京武。Seednet：自动种子生成，具有深度强化学习功能，可实现强大的交互式分割。在CVPR中，第1760-1768页[19] Guotai Wang，Wenqi Li ，Maria A Zuluag

下载后可阅读完整内容，剩余1页未读，立即下载