没有合适的资源?快使用搜索试试~ 我知道了~
8533...模型在每种组织类型上都能很好地推广强大的组织学图像分析:标签还是合成?1,1,1,2,1,3,4,5,6,7.Kurc1,Rajarsi R.1,Joel H.加州大学伯克利分校斯坦福大学{lehhou,samaras}@ayush94582@gmail.com cs.stonybrook.edu{tahsin.kurc,joel.saltz}@ stonybrook.edurajarsi. stonybrookmedicine.edu摘要细胞核的检测、分割和分类是数字病理学中的基本分析操作。目前最先进的方法需要来自病理学家的大量监督训练数据,并且在来自看不见的组织类型的图像中可能仍然表现不佳我们提出了一种无监督的组织病理学图像分割方法,该方法综合了每种组织类型的训练图像块的异构集虽然我们的合成补丁并不总是高质量的,我们通过一个普遍适用的重要性抽样方法利用生成的样本的汽车船员这种方法首次重新权衡了合成数据的训练损失,从而使真实数据分布的理想(无偏)泛化损失最小化。 这使我们为了使用随机多边形生成器来合成近似的蜂窝结构(即,核掩模),在许多组织类型中没有给出真实的例子,因此,基于GAN的方法不适合。此外,我们提出了一个混合合成管道,利用真实的组织病理学补丁和GAN模型中的纹理与现有的最先进的监督模型相比,我们的方法在没有训练数据的情况下对癌症类型的概括性明显更即使在具有训练数据的癌症类型中,我们的方法也可以在没有监督成本的情况下实现相同的性能 我们在癌症基因组图谱(TCGA)库中发布了超过5000个全载玻片图像(WSI)的代码和分割结果1,该数据集将比目前可用的数据集大几个数量级。1. 介绍现有的最先进的监督图像分析方法[11,22,13,48,3,62,59,61,9,66,64,24,40]在很大程度上依赖于需要领域专家参与的大型注释训练数据集的可用性。 这是一个耗时且昂贵的过程。 而且对于1www3.cs.stonybrook.edu/www.example.com((以无监督的方式合成纹理和地面实况结构...从TCGA中的每个完整载玻片图像中几百个小时来标记几种类型生成的模型在某些不可见的组织类型上失图1.(一).标准学习方法仅对存在地面实况训练数据的组织类型学习并表现良好。(b).我们建议综合图像纹理和地面真值结构来训练监督模型,即使没有给出真正的地面真值结构。因此,我们的模型一般化以及看不见的组织类型。方法一般化各种输入类型,必须为每个输入类型收集监督数据。例如,来自北欧和南非等地区的标记卫星图像都需要训练强大的卫星图像分析方法[65,49]。在病理学图像分析中,为了实现最佳性能,由于组织异质性以及组织制备和图像采集的变化,通常必须针对不同的组织类型(诸如不同的癌症部位、脂肪组织、坏死区域、血管和腺体)细胞核的检测、分割和分类是几乎所有病理成像研究的核心分析步骤[11,22,13,48,3,62,59,61,9,66,64,40,23,2,29],精准医学[17,12]。这是提取可解释特征的第一步,这些特征提供了有价值的诊断和预后癌症指标[14,15,1,43,20]。人工生成细胞核分割真实数据需要很长时间。根据我们的经验,由50个图像块(12 M像素)组成的训练数据集需要专家病理学家120-230小时与大型研究中的数据量相比,这个训练数据集非常小(例如,10k整张幻灯片图像,50T像素)。这是鲁棒核分割的主要障碍。8534合成模块无GAN模块(1)从一个预定义分布核掩模特定任务学习模块稳健分割(绿色轮廓)(二)本样品重量 (四)任何类型任务-(5)初始合成贴片精制合成补片(三)0.353图2.我们的管道概述:我们使用无GAN模块来合成(采样)具有其核掩模的初始合成病理学图像块。然后,我们使用GAN细化初始合成补丁并计算其样本权重。我们最终会培训一个特定的任务(例如,分段、分类等)CNN在这个采样实例上。如果采样的地面实况结构没有产生真实的合成示例,则该实例对训练损失的影响被降低权重。解决这个问题的一种方法是训练数据合成[26,16,51]。现有的训练数据综合方法都假设合成数据的分布与真实数据的分布相同然而,情况并非如此,特别是对于具有细胞结构的组织病理学图像的合成(例如,核面具),因为没有针对大多数癌症类型给出核面具的真实例子。我们提出了一种基于重要性抽样的方法,即使在给定有偏的分布(合成数据)时,也能最大限度地减少真实数据分布上的理想(无偏)泛化损失这使我们能够列举可能的细胞结构,用于训练数据合成。我们的管道(见图。2):1. 从预定义的近似地面真值生成器中采样细胞核分割掩模;2. 利用真实纹理构建初始合成补片(图3)输入组织类型;3. 使用GAN模型使初始合成补丁更真实;4. 简单地使用贝叶斯定理,从神经网络的输出计算该合成示例的重要性权重5. 训练特定任务(例如分割)CNN使用合成补丁,掩模和重要性权重。换句话说,我们在合成训练补丁的生成期间列举可能的地面实况结构。如果生成的补丁不真实,我们会降低其在训练损失中的影响同样,如果生成的补丁不仅非常逼真,而且很少合成,那么我们会增加其在训练损失中的影响。概括起来,我们的贡献是:(1)当我们没有得到任何真实的核面具例子时,用面具合成完美逼真的训练补丁几乎是不可能的。我们提出了一种基于重要性抽样的方法其重新权衡近似生成的示例的损失,用于训练特定于任务的(例如,核分段)网络,最小化在真实数据分布上的理想(无偏)泛化损失(2)我们展示了如何通过简单地使用贝叶斯定理从GAN的输出计算重要性权重(3)我们提出了一种混合合成流水线,其利用真实组织病理学补丁中的纹理来合成任何组织补丁。(4)所提出的方法对组织异质性具有鲁棒性。当测试癌症类型没有监督数据集时,我们的核分割CNN在跨癌症泛化方面明显优于监督方法即使对于存在监督数据的少数组织类型,我们的方法也与监督方法的性能相匹配。(5)我们在癌症基因组图谱(TCGA)库中发布了13种主要癌症类型的超过5000 个全载玻片图像(WSI)的细胞核分割结果。这些结果比目前可用的人类注释数据集大至少四个数量级。我们相信,这个大规模的数据集,即使没有准确的注释,是一个有用的功能,为未来的病理图像分析研究。2. 相关工作细胞核的检测和分割是几乎所有病理成像研究中的基本分析步骤[11,22,13,48,3,62,59,61,9,66,64,40,23,2,29]精准医学[17,12]。 最近的作品在IM- 年龄分析已经提出了众包或高级别的,不太准确的注释,如涂鸦,以手动生成大型训练数据集[34,57,64]。Zhou等人的工作 [68]在组织图像中分割细胞核并在图像内重新分布分割的细胞核。重新分布的细胞核的分割掩模是8535假设是预测的分割掩码。这项工作需要分割掩码,并且不会生成估计理想(无偏)泛化损失,g(X,T),我们将特定任务的损失公式化如下:新的纹理和形状。生成对抗网络(GAN)[44]已经被提出用于生成逼真的图像[16,6,4,51,8,67,42,25,46,38]。比如说,ΣLR(θR)=X、Tfθ(X,T)p(X,T)g(X,T)g(X,T).(二)图像到图像的转换GAN [26,16]合成眼底图像。然而,它需要准确的监督分割网络来分割出眼睛血管,作为合成流水线的一部分。S+U学习框架[51]通过GAN优化最初合成的图像,以提高其真实感。该方法在眼睛注视和手部姿态估计任务中实现了最先进的结果。最近,一种基于GAN的方法[37]能够用核掩模合成逼真的病理图像。它仅限于具有地面真实掩模的癌症类型,因为它需要真实的掩模示例。GAN还用于合成相同内容的各种风格的图像。Cycle-GAN等[35,69]将图像的内容转移到目标样式,而无需使用配对图像进行训练通用样式转换方法[32,54]通过向生成器网络提供参考样式来解决这个问题。然而,为了应用任何GAN模型来合成图像和掩模,需要真实图像和掩模的示例。3. 损失估计的重要性抽样在本节中,我们将展示如何最小化理想的(无偏的)特定于任务的(例如,分段、分类等)在给定近似抽样分布(合成数据)的情况下,真实数据分布的泛化损失。我们定义一个随机变量X,代表一个图像/补丁,其地面真值T,真实图像的概率密度函数为p(X,T)。实际上,X和T是离散的。特定于任务的泛化损失我们现在可以从合成的pdf g(X,T)中采样X,T,而不是从真实的pdf p(X,T)中采样X,T,并最小化新的损失函数f′(X,T)=fθ(X,T)p(X,T)/g(X,T)。 这是标准的重要性抽样方法[7]:当从p(X,T)采样是昂贵的时,我们从g(X,T)采样,然后通过将其损失乘以权重p(X,T)/g(X,T)来重新加权每个样本。请注意,为了使所得的广义损失估计是无偏的,对于所有p(X,T)>0的X,T,还需要g(X,T)>0。给定图像X,底层地面真值T为固定。因此,我们可以简单地在PDF中删除Tp(X,T)p(X)=.(三)g(X,T)g(X)等式的右侧 3可以从GAN计数器的输出导出。 使用交叉熵(对数似然)损失训练的递归估计X从真实分布而不是合成分布中采样的概率:Pr(X)|X)。该算法使用真实和合成的示例进行训练。将常数c表示为合成输入样本和真实输入样本的数量之间的比率 : c=Pr ( Xg ) /Pr ( Xp ) 。 因 此 p ( X ) =Pr(X|X=P(X),g(X)=Pr(X|X.使用贝叶斯Pr(X|Xp)Pr(X)|X)=LR(θR)与模型参数θR为:ΣLR(θR)= fθR(<$X,T<$)p(<$X,T<$),(1)Pr(X|Xp)+ Pr(X|X(g)cp(X)=.p(X)+g(X)c(四)X、T其中,fθ(·)是损失函数,例如常规分段损失[36,41]。为了最小化由等式定义的泛化1,我们采样一个示例,从重新排列方程图4给出了由CPU的输出Pr(X p)表示的重要性权重|X):分布定义为p(X,T),然后最小化损失p(X)Pr(X<$p|十)、=c·.(五)fθ(τX,Tτ)。如果有无限个真实样本,经验损失精确地收敛到等式。1.一、在这项工作中,我们合成-g(X)1−Pr(Xp|十)、大小训练示例X,T。我们将合成图像的概率密度函数定义为g(X,T)。理想情况下,p(<$X,T<$)等价于g(<$X,T<$)。然而,为了合成无偏示例和相应的这对于组织病理学图像几乎是不可能的,因为注释数据的缺乏和组织类型之间的细胞如果合成面片不现实(Pr(X)p|X)100。5),它将被降低权重(对损失的贡献较小)。 如果合成补丁是现实的,很少产生,它将被加权(贡献更多的损失)。我们在图中显示了重要性权重的可视化。7 .第一次会议。无偏损失最小化的最优性:因为我们知道Pr(Xp|X)通过在无偏数据集(即, 无限样本Xp和Xg),我们可以很容易地证明这会产生无偏的泛化损失最小化:无偏推广损失的分布的实际数据定义的方程。1是8536相当于Eq。二、由于我们可以很容易地从综合数据分布g中采样,因此方程中的唯一项。2需要学习的是重要性权重p(X)/g(X),由等式2定义。五、因此,无偏的输出Pr(Xp|X)产生无偏的重要性权重,并且进一步地,无偏的泛化损失。前景纹理图3.在我们的“无GAN模块”中:利用任何给定组织类型中的纹理来合成组织病理学图像块。此步骤生成与给定掩码匹配的图像块。修补程序进行优化图5.我们的精化器(生成器)CNN将参考类型补丁的信息添加到精化阶段,以便初始合成补丁将根据参考类型进行精化。目标组织类型。首先,我们随机生成一组多边形作为核面具。特别地,我们根据随机不规则值扰动圆上的点,使其更接近/更远离中心这些多边形具有可变的大小和不规则性,并且允许通过预定数量的像素彼此随机重叠。为了模拟附近原子核形状之间的相关性,所有多边形都被随机四边形变形。这种掩模的目的是提供组织中基本结构的通用表示,并在合成图像中引起更大的可变性。我们认为所生成的掩模作为前景/背景掩模(细胞核作为前景和组织作为背景),并利用纹理从真正的组织病理学图像补丁生成初始合成图像补丁的背景/前景的方式。这是一个快速的过程;合成200×200引用类型输入伪补丁参考类型另一个真正的补丁从参考类型引用类型(假的)在参考类型使用单个CPU核心,40倍放大的像素块需要一秒钟。生成背景补丁:首先,我们去除源图像块中的细胞核以创建背景块,在该背景块上添加合成细胞核。我们应用一个简单的Ostu[33]在源图像补丁,以确定核材料。 在超分割中,分割区域al-图4.在我们的真实/假补丁,我们提供额外的如果假补片是真实的,但不反映与参考类型相同的组织类型,则检查员仍然能够区分两者。因此,优化器学习以参考样式生成补丁。4. 异质贴片合成我们现在展示如何合成(样本)训练示例。图2显示了我们的方法的概述,该方法从异质纹理和细胞结构的未标记的真实组织病理学图像(例如,核面具)。4.1. 初始合成该步骤生成合成补片,这些补片对于所有给定的目标组织类型来说不一定是真实的。因此,这一过程的一个重要部分是预先定义的,无论ways完全包含前景对象(本例中为nucleus)。 我们通过图像修复用与背景像素相似的颜色和纹理值替换与分割的核材料对应的像素[55]。超分割可能不能精确地描绘核边界,并且可能在分割的核中包括非核物质。这是可接受的,因为该步骤的目的是保证仅使用背景组织纹理模拟 前景 核纹理:我们对源片应用子分割方法以从分割区域收集核纹理。在子分割中,分割区域完全包含在前景对象中。这确保了真实核内的像素用于生成合成图像中的真实前景(核)。由于原子核通常很小,模糊核边界和染色质清除模型实像块基于颜色的超级修复的细胞核自由分割掩模补丁(背景)随机多边形内插采样随机分割蒙版稀释蒙版初始合成贴片从真实斑块获得的纹理和判别器CNN初始合成图像Conv.孔夫斯…残余+实参考样式图像Conv.池平铺康卡特在细化的早期阶段添加参考图像的纹理特征Refiner(generator)CNN精化曲面8537GGGGG GGGGG在一小部分组织上,子分割将产生Σ。ΣΣLrealG (θG)= E log 1−D(X,S;θD),其中D(X,S;θD)数量非常有限的核材料,现有的重建方法。因此,我们的方法利用随机提取的真实斑块的曙红通道[19]中的纹理,并将其与通过源斑块的子分割获得的核颜色相结合,以生成核纹理。结合前景和背景:让我们将Ii,j、Ai,j、Bi,j、Mi,j定义为所得合成补丁、核纹理补丁、无核补丁和核掩模补丁中位置i,j处的像素值。 为了根据核遮罩补丁组合核纹理和非核纹理,Ii,j可以设置为Ai,jMi,j+Bi,j(1−Mi,j)。这可能导致明显的伪影,例如明显的核边界。此外,某些类型的细胞核中的清晰染色质现象没有建模。因此,我们的方法随机清除核掩模补丁中的多边形的内部,并在应用上述等式之前模糊它们的边界4.2. 优化初始合成这些初始合成图像块通过对抗训练进行细化。我们还使用该算法的输出来计算重要性抽样权重,其定义如下五、在这个阶段,我们实现了一个细化器(生成器)CNN和一个卷积CNN。是具有可训练参数的CJD的输出,给定细化面片X和相同的参考类型面片S作为输入,它是由D估计的输入X与S的组织类型匹配的概率。鉴别器D具有两类输入:在同一类型S′,S′内的真实斑块对和一个合成斑块对你好,我是。 I.它的损失是最大的损失。分离损失LD(θ<$D<$)=−ElogD(S′,S;θD)−Elog1−D(X,S;θD)。生成器和分类器都采用一个参考面片,并根据参考面片中的纹理对另一个输入面片进行细化或分类。此功能是实现与非对称连体网络[10,28],如图所示。4和图五、已经证明,GAN能够生成具有挑战性的训练示例,从而产生鲁棒的分类/分割模型[30,50,31,21,60]。因此,细化器是用损失L训练的,难以为特定于任务的CNN生成具有挑战性的训练示例(损失更大)。我们简单地将Lhard定义为特定任务损失的负 值 : Lhard d ( θG ) =−LR ( θR ) , 其 中 LR(θR)是具有可训练参数θR的特定任务模型R的损失。当训练精化器时,我们更新θG以产生最大化LR的精化补丁。当训练特定于任务的CNN时,我们更新θR以最小化LR。 如果Lhard d(θG)大于Lre g(θG),则细化块的潜在分割基础真值将发生显著变化。我们知道-给定输入图像块I和参考类型块GS时,具有可训练参数θG的精化器G输出精化补丁X=G(I,S;θG)。理想情况下,输出补丁为(1)。正则化:初始合成补丁和细化补丁之间的像素差异足够小,使得合成的(二)、给定类型的真实:它是参考面片类型的真实表示(三)、信息量大,难度高:它为特定任务的CNN提供了一个具有挑战性的例子,因此训练好的特定任务的CNN将是健壮的。我们构造三个损失:Lreg,Lreal和Lhard分别用于上述每个属性。前两个损失Lreg和Lreal基于S+U方法[51]。将L的权重增大到0倍。0001最小化这种不希望的结果的可能性。4.3. 由人类专家进行视觉评估图6,7,8显示了我们的初始合成和细化补丁的例子。为了验证合成贴片是真实的,我们请病理学家区分真实贴片和合成贴片。特别是,我们向病理学家展示了100个随机提取的真实斑块、100个随机选择的初始合成斑块和100个随机选择的细化斑块。从这一组中,病理学家选择了他以为是真的。病理学家将其归类这些损失的加权平均数被定义为最终损失。lossLG for training the refiner CNN:LG=αLreg+βLreal+ γLhard。(6)我们设置超参数α = 1。0,β = 1。0,γ = 0。0000001在实验中。正则化损失Lreg被定义为弹性损失大 部 分 初 始 合 成 补 丁 ( 46% ) 和 大 部 分 细 化 补 丁(64%)是真实的。病理学家将(83%)真实斑块归类为真实斑块。这是因为许多真实的斑块是散焦的或不包含细胞核。图图7示出了真实合成斑块与不真实合成斑块的权重分布。这证明了真实的合成补丁具有更高的分辨率。net [70]:LregGG(θG)= Eλ1||I−X||1+λ2||I−X||二、其中E[·]是应用于训练集的期望函数,||·||1和||·||2是L-1和L-2范数,λ1和λ2是预定义参数。我们使用λ1=0。00001且λ2=0。0001实验通过训练精化器(生成器)G,在参考类型中实现真实表示的损失是重要抽样权重,反之亦然。5. 实验我们使用来自MIC-CAI 18和MICCAI 17细胞核分割挑战[39,58]的数据集和广义细胞核分割数据集8538真实来源的组织类型贴片真实参考组织类型贴片可能的地面实况结构要完善的(a). 在初始合成步骤中利用各种组织类型中的纹理(b). 优化初始合成面片,使其更像参考类型。图6.使用不同源组织纹理补片和参考类型补片的效果。生成的合成面片具有与源/参考面片相同的纹理/类型。0.8(一).重要抽样权重(b). 重要性抽样权重示例0.60.40.2000.5 1 1.5 2重要抽样权重参考组织类型贴片合成组织补片权重不匹配参考组织类型:向下加权0.690.310.15匹配参考组织类型:向上加权2.541.631.18图7.重要性抽样权重的评估和可视化(一). 被病理学家分类为真实的合成斑块比被分类为假的斑块具有(b).重要性抽样权重的可视化。[29]包含七种癌症类型。此外,我们用淋巴细胞检测数据集评估了我们的方法[23]。我们实现了图中概述的精化器。5,具有21个卷积层和2个池化层。鉴别器有15个卷积层和3个池化层。作为特定于任务的CNN,我们使用U-net [47]和一个具有15个卷积层和2个池化层的网络进行核检测和分割,以及一个具有11个卷积层的网络进行分类。有关详细信息,请参阅我们的源代码。我们使用GAN的开源实现[27,51]作为我们实现的一部分。我们随机初始化所有网络(没有预训练)。在测试期间,我们将输入HE补丁的颜色归一化[45]。5.1. 细胞核分割实验监督方法严重依赖于代表性数据集。然而,由于组织病理学图像注释所需的大量劳动和专家领域知识,目前只有少数癌症类型具有监督数据集对于没有标记数据的癌症类型,监督方法比具有标记数据的癌症类型我们使用MICCAI 18和MICCAI 16/17核分割数据集验证了这一论点[39,58]。MICCAI18细胞核分割挑战数据集[39]包含从两种癌症类型的整个载玻片图像中提取的15个训练和18个测试组织图像。MICCAI17数据集[58]包含32个训练图像和32个测试图像,从四种癌症类型的全载玻片图像中提取。典型的分辨率是600×600像素。此外,我们使用广义核分割数据集的测试集测试了我们方法的跨数据集泛化能力[29]。测试集包含7种癌症类型的14个1000×1000像素块。请注意,注释一个细胞核大约需要2分钟。生成这些训练数据集需要大约225个工时。在这种情况下,无监督合成图像生成和训练可以节省大量时间,同时能够生成更大的训练数据集。在细胞核分割实验中,对几种方法进行了评价;这些方法列在下面。在下文中,通用表示使用从TCGA库中的所有癌症类型的整个载玻片图像中提取的补丁训练的所提出的方法。更具体地说,我们从TCGA存储库中的每个诊断完整载玻片图像中以40倍(对于20倍图像,我们将补丁上采样到40倍)随机提取了500×500像素的组织补丁。这产生了大约10k个组织贴片。通用U网 使用U-网的建议方法[47]由病理学家分类为假的贴片由病理学家分类为真的贴片概率8539作为特定任务的CNN。我们的U-net有两个输出:一个用于核检测,另一个用于类级别的核分割。然后,我们结合检测和类级分割结果,使用分水岭实现实例级分割[5,2]。环球有线电视新闻网. 所提出的方法具有15层分割/检测网络。通用U-net +真实数据。由于U-net的计算效率很高,因此我们使用来自MICCAI 18训练数据集的合成数据和真实数据来训练U-net,作为我们在5000多个WSI上部署的模型。类型特定的U-net / CNN。我们使用半监督U网[47]和15/11层CNN作为独立的监督网络,使用来自多达四种癌症类型的真实人类注释组织图像块进行训练。我们通过旋转、镜像和缩放来增强真实的补丁。为了获得用于无监督学习的每种组织类型,我们根据从 每 个 TCGA WSI 采 样 的 块 合 成 了 75×75 像 素 和200×200像素的块。“GAN-free模块”生成了然后,我们使用GAN对这些初始合成补丁进行图像细化和基于重要性采样的我们使用以下两种设置测试了监督方法:(1)癌症类型。我们用所有两种MICCAI18和四种MICCAI17癌症类型的训练集训练了特定类型的监督CNN。(2)癌症类型。我们排除了一种癌症类型的训练图像,用所有其他癌症类型的训练图像训练了一个特定类型的监督CNN,并在排除类型的图像上评估了训练的CNN。我们对所有两种/四种癌症类型重复了这一过程,并将性能报告为所有运行的平均值。我们使用DICE系数的两种定义的平均值作为性能指标。第一个版本是标准的DICE系数[18,53]:将分割像素集表示为S,将真实核像素集表示为T,DICE =2π|S∩T|(|S|+的|不|)的情况。 第二种是原始的变体,以捕获分割对象的方式不匹配,而整体分割可能非常相似。评价结果见表。1.一、我们的方法在没有监督数据的情况下测试癌症类型(跨癌症类型)时显著优于监督方法。即使当每种癌症类型(癌症类型内)都存在监督数据时,我们的方法也能表现出最先进的方法。为了进一步验证我们的方法在没有监督数据的组织类型上优于基线方法,我们评估了跨数据集的核分割方法:我们在MICCAI 17训练集上训练了监督方法并在广义核分割数据集的测试集上对其进行测试[29]。如Tab.所示2、我们的方法细胞核分割MICCAI 18MICCAI 17方法DICE平均值DICE平均值在癌症类型测试的监督方法类型特定的CNN0.80130.7713特定类型的U形网0.83910.7645轮廓感知网络[9]0.812-CSP-CNN [23]0.83620.7681MICCAI18获奖者0.870-[58]第58话-0.783在不同癌症类型测试的监督方法类型特定CNN 0.7818 0.7314型号专用U型网0.8010 0.7179针对所有癌症类型的建议无监督方法环球有线电视新闻网0.8180 0.7708表1. MICCAI 18和MICCAI 17细胞核分割数据集上的细胞核分割结果。对于这三种网络架构中的每一种,我们的方法在没有监督数据的癌症类型上都显著优于监督方法(跨癌症)。即使所有癌症类型(癌症内)都存在监督数据,由于合成数据集的规模很大,我们的方法也可以像最先进的方法一样执行,而无需任何监督成本。MICCAI18获胜者在数据集上的泛化能力明显优于超监督的类型特定方法。因此,我们在TCGA库中发布了5000个WSI的分割结果[56]。现有最大的人类注释数据集[29]包含100个大小为1000×1000像素的补丁。我们的分割结果的规模大于10M这样的斑块。我们相信,这种大规模的数据集,即使没有准确的注释,是一个有用的功能,为未来的病理图像分析研究。细胞核分割方法DICE平均值类型特定的U网,跨数据集0.7328通用U-net +真实数据0.7713表2.跨数据集评估结果。特定类型的CNN在MICCAI 17训练集上训练,并在广义核分割数据集的测试集上进行评估[29]。我们的非监督方法比监督的类型特定方法更好地推广5.2. 消融研究我们评估了我们方法的三个组成部分的重要性:损失函数中的重要性权重,利用真实参考类型补丁进行细化,以及为CNN训练生成硬示例我们一次删除一个特征,并在MICCAI17数据集上测量细胞核分割的性能使用U-net的实验结果如表10所示。3 .第三章。所提出的方法减少了5.4%,7.8%和3.2%的分割误差。通用U形网0.84010.7612通用U-net +真实数据0.86780.78638540(一)(b)第(1)款(c)第(1)款++++++++(一).细胞核分割的合成实例(b)。用于淋巴细胞(用+表示)检测的合成实例图8.我们生成的各种合成补丁的例子。表3.使用MICCAI 17核分割挑战数据集的消融研究。提出的方法将分割误差(1-DICE平均值)降低了5.4%,7.8%和3.2%。淋巴细胞检测方法AUROC水平集特征+监督网络[67] 0. 7132微调VGG 16(监督)[52] 0.6925通用CNN(提议)0.7149表4.淋巴细胞数据集上的淋巴细胞检测[23]。在没有任何监督成本的情况下,我们的方法优于仅在一种癌症类型的补丁上训练的所有监督模型。图9.三个失败案例:黑色素瘤(a)和失焦(b)场景中的暗色素未通过我们的合成管道建模。一些染色质清晰的浅色细胞核(c)在接近深色、易于检测的细胞核时检测不到。5.3. TCGA中13种癌症类型的人体评价为了在不受控制的环境中评估细胞核分割方法,我们从TCGA [56]中的13种主要癌症类型(每种癌症类型具有超过500个WSI)中随机提取了133个500×500像素的斑块,对这些斑块应用分割方法,并盲比较我们的方法和基线之间的分割质量对于分割方法,我们使用在MICCAI 18训练集上训练的全监督U-网(类型特定的U-网)作为基线,并使用在合成和真实MICCAI 18训练数据上训练的U-网(通用U-网+真实数据)作为我们的方法。对于人类评估,专家病理学家根据每个斑块中的真阳性-假阳性-假阴性结果,在133个补丁中,在83个补丁中,我们的方法比基线更好,在46个补丁中,我们的方法更差,在4个补丁中,它们是相似的。我们在图中显示了三个失败案例。9 .第九条。年龄中心有淋巴细胞的斑块标记为阳性。我们的方法将淋巴细胞合成为直径约7微米的圆形和深色物体。一些合成图像的例子如图所示。8.表4显示了我们的方法与基于水平集特征的方法[67]和监督VGG16方法[52]的实验评估。我们使用ROC曲线下面积(AU-ROC)作为评估指标。6. 结论监督方法依赖于大量的标记的组织病理学数据,这是昂贵的生成。我们介绍了一种方法,学习异质病理学补丁在无监督的方式。我们的方法用重要性权重合成训练补丁,这样特定于任务的(例如,训练CNN以最小化真实数据上的理想(无偏)泛化误差当癌症类型不存在监督数据时,我们的结果明显优于监督方法的跨癌症泛化结果。即使当监督数据存在时,由于合成数据的规模要大得多,我们的方法也可以执行监督方法。我们发布了超过5000个WSI的分割结果,这比目前可用的人类注释数据集大了几个数量级。在未来的工作中,我们将证明我们基于重要性采样的损失最小化方法在其他任务(如混合质量图像分类)上的通用性[63]。致谢这项工作是支持在份1U24CA180924-01A1,3U24CA215109-02, 和1UG 3CA 225021 -01,来自国家癌症研究所,R 01 LM011119 -01 和 R01LM009239 从 美国国家医学图书馆,以及Adobe的礼物。这项工作使用了极端科学与工程发现环境(XSEDE),该环境由美国国家科学基金会资助号ACI-1548562支持。具体来说,它使用了匹兹堡超级计算中心(PSC)的Bridges系统,该系统由细胞核分割方法DICE平均值5.4.淋巴细胞检测实验没有确凿的例子0.7476细化过程中无参考贴片0.7410淋巴细胞检测数据集[23]有1367个标记无重要性权重0.7533训练补丁和418个测试补丁从12个补丁中裁剪出来,Universal CNN(提议)0.7612代表性肺腺癌全切片组织8541引用[1] H. J. Aerts,E.R. 贝拉斯克斯河T. 莱热纳尔角帕尔马P. Grossmann,S. Cavalho,J.布辛克河Monshouwer,B.海贝-肯斯,D. Rietveld等人使用定量放射组学方法通过非侵入性成像解码肿瘤表型。自然通讯,2014年。[2] M. Bai和R.乌塔松深度分水岭变换用于实例分割.在CVPR,2017年。[3] N. Bayramoglu和J. Heikki la?用于组织病理学图像中细胞核分类的转移学习在ECCV工作-商店,2016年。[4] N.拜拉莫奥卢山卡基宁湖Eklund和J.海基拉使用条件生成对抗网络实现高光谱肺组织学图像的虚拟h e染色在CVPR,2017年。[5] S. 博彻分水岭、层次分割和瀑布算法.数学形态学及其在图像处理中的。一九九四年[6] L. Bi,J. Kim,A.库马尔,D. Feng和M.富勒姆.通过多通道生成对抗网络合成正电子发射断层扫描图像。在分子成像,重建和分析运动身体器官,中风成像和治疗。2017年。[7] C. M.主教模式识别和机器学习。2006.[8] F. Calimeri,A.马尔祖洛角Stamile和G.泰拉奇纳使用生成对抗神经网络的生物医学数据增强。在2017年的人工神经网络国际会议[9] H. Chen,X.齐湖,加-地于角,澳-地Dou,J.Qin和P. -A.衡Dcan:用于组织学图像对象实例分割的深度轮廓感知网络。医学图像分析,2017。[10] S.乔普拉河Hadsell和Y.乐存。有区别地学习相似性度量,并应用于人脸验证。在CVPR,2005年。[11] R. 科伦岛福斯特河Gatenby,M.E. 吉格尔河吉利斯,D. Gutman , M. 海 勒 河 贾 恩 A. Madabhushi ,S. Mad-havan等人。NCI研讨会报告:将成像表型与基因组标记相关联的临床和计算要求。转化肿瘤学,2014年。[12] F. S. Collins和H.瓦穆斯精准医疗的新举措。新英格兰医学杂志,2015年。[13] L. A.库珀,A. B.卡特,A. B. Farris,F. Wang,J. Kong,D. A. 作者:T. C. Pan,S. R. 乔莱蒂,A. Sharma等人数字病理学:医学成像中的数据密集型前沿。IEEE,2012。[14] L. A. Cooper,J. Kong,D. A. Gutman,F. Wang,S. R.Chol-leti,T. C. Pan,P. M. Widener、A. Sharma,T. 米克尔森A. E. Flanders等人计算机胶质瘤研究的综合方法。IEEE生物医学工程学报,2010年。[15] L. A. Cooper,J.孔氏D.A. Gutman,F.Wang,J.高城,C. Appin,S. Cholleti,T. Pan,A.夏尔马湖Scarpace等人用于疾病亚型识别和表征的综合形态学分析。美国医学信息学协会杂志,2012年。[16] P. 科斯塔A。加尔德兰M. I. 我是你M D. Abra` mof f,M. Niemeije r、A. M. Mendon c. 坎皮略对抗性视网膜图像合成。arXiv,2017.[17] N. R. Council et al.精准医疗:建立生物医学研究的知识网络和新的疾病分类法。国家科学院出版社,2011年。[18] L. R.骰子.物种间生态关联量的量度。生态学,1945年。[19] A. H. Fischer,K.A. 雅各布森,J。Rose和R.泽勒组织和细胞切片的苏木精和伊红染色。2008年冷泉港协议[20] R. J. Gillies,P. E. Kinahan和H. Hricak.放射组学:图像不仅仅是图片,它们是数据。放射学,2015年。[21] I.古德费洛,J。Shlens和C.赛格迪解释和利用对抗性的例子。2015年,国际会议[22] M. N. Gurcan和A.马达布希数字病理学。SPIE,2013年。[23] L. Hou,V.阮氏A.B. Kanevsky,D.Samaras,T.M. 库尔奇T. Zhao河,巴西-地R. Gupta,Y.高,W. Chen,中国粘蝇D. Foran,et al.用于组织病理学图像中无监督细胞核检测和表示的稀疏自动编码器。模式识别,86:188[24] L. Hou,L. Samaras,T. M. Kurc,Y. Gao,J. E.戴维斯和J. H.萨尔兹用于整个切片组织图像分类的基于补丁的卷积神经网络。在CVPR,2016年。[25] X. Huang,Y.黄氏Y.Li,O.Poursaeed,J.Hopcroft和S.贝隆吉堆叠生成对抗网络。在CVPR,2017年。[26] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR,2017年。[27] T. Kim. 模拟 + 无监 督学习 在ten-sorchow中的 应用。https://github.com/carpedm20/simulated-unsupervised-tensorflow.[28] G. 科赫用于单次图像识别的连体神经网络ICML研讨会,2015年。[29] N. 库马尔河,巴西-地维尔马,S。夏尔马,西-地Bhargava,A.Vahadane和A.塞西一个数据集和一种技术,用于计算病理学的广义无核细胞分割IEEE trans-actions on medical imaging,2017。[30] H. Le,T. F. Y. Vicente,V. Nguyen,M. Hoai和D.萨玛-拉斯。A+ D网络:训练具有对抗性阴影衰减的阴影检测器。在ECCV,2018。[31] J. Lemley,S. Bazrafkan和P.科科伦智能扩充-学习最佳数据扩充策略。IEEE Access,2017.[32] Y. Li,C. Fang,J. Yang,Z. Wang,X. Lu和M. H.杨通过特征变换进行通用样式传递。在NIPS,2017年。[33] P. - S. Liao,T.- S.陈佩C. Chu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功