深度卷积神经网络功效评估的基准数据集及其偏差影响【2021】

112 浏览量更新于2024-01-24 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学5（2021）92评估用于测试深度卷积神经网络功效的基准数据集Sanchari Dhar，Lior Shamir堪萨斯州立大学，曼哈顿，KS 66506，美国ar t i cl e i nf o文章历史记录：接收17六月2021收到修订版2021年9月28日接受2021年2021年10月12日在线提供保留字：卷积神经网络数据采集偏差实验设计a b st ra ct在过去的十年中，深度神经网络，特别是卷积神经网络（CNN），已经成为生物医学图像分析领域的主要工具，并被广泛使用在其他领域，如物体或人脸识别。CNN在提供卓越性能的能力方面具有明显的优势，但不需要完全理解反映当前生物医学问题的图像元素，也不需要为该任务设计特定的算法。易于使用的库的可用性及其非参数性质使CNN成为需要自动生物医学图像分析的问题的最常见解决方案。但是，虽然CNN有许多优点，但它们也有某些缺点。由CNN确定的特征是复杂和不直观的，因此CNN通常作为“黑匣子”工作此外，CNN从像素数据中可以提供区分信号的任何信息中学习，这使得控制CNN实际学习的内容变得更加困难在这里，我们遵循常见的做法来测试CNN是否可以对生物医学图像数据集进行分类，但我们不是使用整个图像，而是只使用不具有生物医学内容的图像的一部分。实验表明，CNN即使在使用不包含任何生物医学信息的数据集进行训练时，也可以提供很高的分类精度，或者可能被图像数据中的不相关信息系统地偏置。这种一致的不相关数据的存在很难识别，因此可能导致有偏见的实验结果。CNN这种缺点的可能解决方案可以是控制实验，以及其他保护性实践，以验证结果并避免基于CNN生成的注释得出有偏见的结论版权所有2021作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍随着数字成像和大型存储设备的日益普及，分析大型图像数据库的能力已成为从广泛范围的数据中发现信息的关键的领域。特别地，卷积神经网络（CNN）在生物医学研究中广泛流行，并且用于生物医学领域内的非常大量的应用（Litjens et al. ，2017; Min etal. ，2017; Shen et al. ，2017; Cao et al. ，2018; Wainberg et al. ，2018），显然还有其他领域，如物体识别，人脸识别等。机器学习的使用也加强了对性能分析模型的需求（Liu et al. ，2017年）。在过去的十年中，数字成像和存储设备的快速发展使得能够收集非常大的生物医学图像数据集。例如，具有机器人载物台的显微镜能够在操作的几个小时内收集数千个显微镜图像（Abrahamet al. ，2004年;*通讯作者。电子邮件地址：lshamir@mtu.edu（L. Shamir）。https://doi.org/10.1016/j.visinf.2021.10.001Zanella 等人， 2010; Shamir et al. ， 2010; Singh et al. ， 2014年）。数字射线照相术已经生成了大量的射线照片，允许自动化数据分析，以通过诸如基于图像的自动诊断的任务来做出新的发现或改进医疗保健实践（ Hu 等人， 2011 年， 201 ， 2018;Kermany et al. ，2018; Bychkov et al. ，2018; Aina et al. ，2019;Beclosen et al. ，2020年）。大型生物医学图像数据库的可用性加强了对可以分析这些图像并将其转化为科学发现或新的医疗实践的方法的需求这些数据集还允许AI社区开发基于AI的解决方案，以解决生物医学领域的问题。一旦数据集公开，人工智能社区就可以将其用作基准，开发一种可以分析它们的算法，并比较不同算法的性能以确定最佳解决方案。在过去的十年中，深度学习，特别是卷积神经网络已经成为生物医学图像分析最常见的AI方法（Anwar et al. ，2018; Chen etal. ，2019; Zhang et al. ，2019）。CNN可以应用于一个广泛的图像数据，而不需要定制特殊的，cific算法，并可以实现卓越的性能。与2468- 502 X/©2021作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfS. Dhar和L. Shamir视觉信息学5（2021）9293由于易于使用的库的可用性，CNN在不一定是计算机科学家的研究人员中也变得非常然而，虽然CNN具有巨大的优势，但它们的流行也需要在生物医学图像的背景下研究它们的缺点，以及CNN应用于生物医学图像数据集的常见做法。CNN自动从图像像素中识别特征，导致非直观的特征通常充当这些特征是由它们区分不同类别的能力自动确定的，因此也可能由不一定反映手头生物医学问题的信号虽然深度学习在生物医学图像分析的几乎所有方面都是一个新兴的趋势，而且这种趋势必将持续下去，但仔细分析其弱点也很重要。与传统的用于测量图像数据特定方面的“浅学习”方法不同深度神经网络自动识别复杂特征的能力是一个巨大的优势，它使深度学习变得非常普遍，并且通过消除对图像处理中的深度知识的需求而然而，这些自动定义的数据驱动特征是基于它们在不同图像类别之间进行分离的能力来确定的。然而，这加强了一个仔细的实验设计，这对于测试通过特定任务功能工作的“浅学习”算法可能是至关重要的例如，基于成像时照明条件的细微差异，像素可能具有不同的值。CNN可能能够在不同类之间没有归一化的情况下捕获这些差异。成像设备或对象位置的轻微变化，拍摄图像时CCD温度的差异，甚至不同的技术人员都可能导致某些难以用眼睛感知的差异，但可能对CNN产生强烈影响。CNN可以根据训练集中的任何信息进行预测，无论它是否具有生物医学意义。由于这些特征是非直观的，实验者很难识别出这些预测是由背景噪声或伪影驱动的情况，这种情况可能会导致科学论文中发表的有偏见的结果，而实验者并没有意识到这种偏见，并认为他们报告了准确的发现。在许多情况下，导致偏差的视觉特征太微妙，人眼无法注意到，导致实验者相信CNN做出的预测反映了CNN识别视觉内容之间差异的能力。因此，实验者可能会得出关于图像类别之间存在差异以及CNN识别这些差异的能力的某些结论。作为一个简单的例子，CNN通过分析射线照片自动识别某种疾病的能力可以通过基准数据集进行估计，这与同一CNN在现实世界中识别相同疾病的能力不同。在这里，我们研究可能的数据集偏差使用几个不同的数据集在一个受控的过程中，这是典型的生物医学图像数据集的采集。我们表明，在许多情况下，将CNN应用于数据集会导致与数据采集过程相关的数据集偏差驱动的结果，因此可能导致有偏差的结果。为了避免偏倚的结果，我们提出了简单的控制实验。这些实验可以在应用CNN注释数据时执行，并且可以帮助识别注释由偏见驱动的情况2. 相关工作编译基准数据集用于开发机器视觉算法，并测试和比较不同算法的性能，以确定给定生物医学图像分析问题的最有效解决方案。这些数据集使大量的研究成为可能，它们的使用是机器学习中的常见然而，基准数据集也可能由于不同的原因而存在偏差例如，在对象识别的基准测试的上下文中，人们通过他们的基础事实或为数据集选择样本来注释样本的感知可能导致偏差，特别是当数据集是从网络收集时（Torralba和Efros，2011; Khosla etal. ，2012; Tommasi et al. ，2017; Kortylewski et al. ，2019）。这种偏见也可以通过实验来证明，用一个基准数据集训练算法，与使用相同基准的训练和测试相比，使用另一个数据集会导致较弱的结果（Torralba和Efros，2011）。考虑到较大的训练集有望提供更强或等同于较小训练集的性能，因此较弱的性能可以被视为数据集偏倚的证据（Torralba和Efros，2011）。在某些情况下，由于图像中的某些信息太细微而无法被眼睛注意到，但可能对分类过程产生关键影响，因此机器学习算法可以对视觉上看起来相同的图像进行不同的分类。这被称为对抗机器学习（Huang et al. ，2011年）。这些图像可以用来攻击机器学习系统，特别是可以影响人工神经网络的性能。ral networks（Goodfellow et al. ，2014年）。对抗样本的效果也会影响视频数据（Zhang et al. ，2020年）。通过使用人眼看起来无关紧要的数据来攻击神经网络的能力表明，人工神经网络可能对源于神经网络操作方式的偏差敏感。数据集偏差问题的解决方案之一是增加数据集的可变性这可以通过使用数据增强来完成（McLaughlin et al. ，2015; Jaipuria etal. ，2020），结合不同的数据集（Khosla et al. ，2012），或综合地改变数据集的可变性（Khosla et al. ，2012）。另一种建议的方法是通过特定特征集对不同特征进行分类的能力来对不同特征进行加权，并对容易分类的样本进行惩罚（Li和Vasconcelos，2019）。然后可以使用加权数据集来减少结果中的偏差。机器学习领域中使用的基准数据集旨在尽可能可靠地表示现实世界（Torralba和Efros，2011），允许开发和比较不同算法的性能，这些算法解决了自动对象识别或人脸识别等一般常见问题。在生物医学领域，基准数据集用于开发和比较不同生物医学图像分析问题的算法。在其他情况下，生物医学数据集是为一个单一的实验收集的，并由一个单一的研究团队使用虽然已经做了大量的工作来分析从网络上收集的数据集的偏差，从网络上收集的图像在这里，我们专注于收集的数据集的偏见在受控环境和明确定义的数据采集过程中，如生物医学领域的图像分析中经常出现的情况假设在数据集中没有偏差，由卷积神经网络示出的分类准确性可以被信任为不同类别之间的差异的指示，并且算法提供对分类准确性的自动解决方案的能力可以被信任S. Dhar和L. Shamir视觉信息学5（2021）9294×××∼∼∼这个数据集反映的问题。将经过训练的CNN应用于大型数据集可以用于注释大量样本并在数据中进行发现，或者自动化注释，如在基于图像的诊断等任务中所做的然而，如果数据集以某种方式存在偏差，则该偏差可能导致由偏差而不是生物医学信息驱动的这种误导性的情况可能会导致神经网络在使用基准数据集时实现的性能与应用于真实世界医学图像时的性能之间的差异。受控的数据采集过程并不一定保证数据集的公正性。例如，用于基于图像的自动诊断的医疗数据集可以在多于一个诊所处获取。如果阳性病例在不同诊所之间分布不均匀，CNN可以学习表征某个诊所的特征，并且实际上开发用于“诊所分类”的算法，由于不同的诊所可能使用不同的硬件、不同的设置和不同的技术人员，因此很难保证所有诊所的图像采集过程完全相同。使用显微镜数据证明了这种偏差的一个例子显微镜图像中的细胞（Zanella et al. ，2010; Singh et al. ，2014年）。但是，对细胞进行分类的能力也是由成像过程而不是细胞的形态驱动的（Shamir，2011）。这一点通过结果的一致性得到了证明，而不考虑图像中细胞的存在，表明信号是由背景噪声而不是细胞驱动的（Shamir，2011）。也就是说，即使从图像中完全去除细胞，分类精度也几乎与存在细胞时原始数据集的分类精度相同（Shamir，2011）。3. 生物医学图像数据集测试了几个生物医学图像数据集，如表1所示。使用的第一个数据集是COVID-CT（Khanet al. ，2020年）。COVID-CT数据集的编制是为了测试COVID-19是否可以通过胸部X射线的自动分析来诊断该数据集用于CoroNet（Khan等人，2020年），这是一种深度卷积神经网络，可以从胸部X射线照片中识别COVID-19感染。图 1显示了来自数据集的原始胸部X射线图像的示例，以及来自原始图像左上角的20个20像素的子图像。显然，通过单独使用人眼，不可能基于裁剪的子图像来识别不同类别之间的差异，因为这些是不包含身体任何部分的视觉信息的空白背景区域表1示出了当使用LeNet-5卷积神经网络（LeCun et al. ，1998; Sultana etal. ，2018年）。在卷积神经网络的大多数层中使用的激活函数是整流线性单元（ReLU），除了输出层，其中使用S形激活函数。在训练过程中，该模型使用具有自适应学习率的Adam（自适应矩估计）优化器（Kingma和Ba，2014），并且由于二进制分类，使用二进制交叉熵作为损失函数。训练次数为120次。实验采用训练集中的空白子图像训练网络，然后用测试集中的测试空白子图像进行测试。为了进行比较，同样的实验也通过原始图像进行训练和测试。在任何情况下，在所有实验中，训练图像和测试图像都是相同类型的，并且没有进行任何尝试用CNN对20×20的子图像进行分类，Fig. 1. 来自COVID-CT的示例图像和左上角的20 20部分从原始图像中分离的角。只有子图像用于分类。原始图像，反之亦然。显然，训练图像没有用于测试。如表所示，尽管在看似空白的背景子图像中缺乏与COVID-19相关的信息，但CNN能够实现67. 14%的分类准确率，远高于50%的纯粹概率准确率。当使用LeNet-5架构将图像分类为COVID- 19或非COVID-19时，COVID-CT的原始数据集这表明子图像的数据集提供了比原始数据集更好的预测精度。这个令人惊讶的观察可能是由于来自成像过程中的差异的信号比来自由图像反映的医学状况的信号更强。子图像的数据集更加一致，使CNN能够学习之间微妙但一致的差异。图像源自成像过程。另一个被测试的生物医学数据集是具有四个X射线类的数据集（Khan et al. ，2020年）。在该数据集中，胸部X光片分为COVID、正常、细菌性肺炎和病毒性肺炎。图图1示出了原始图像的示例以及原始图像的相应裁剪的左上角。如图所示，裁剪后的图像彼此相似，肉眼无法轻易分类。它们只包含背景区域，而不是身体的任何部分。用于单独基于裁剪图像区分类别的卷积神经网络提供了41.25%的分类准确率，这远远高于预期的25%的随机机会分类。也就是说，即使图像中不存在生物医学信息，CNN也能够以远高于偶然的准确性识别COVID-19病例。的S. Dhar和L. Shamir视觉信息学5（2021）929520× 20像素∼×∼∼∼××××表1本研究中使用的医学图像数据集，分离的看似空白的背景区域的大小，以及使用LeNet-5卷积神经网络对空白子图像进行分类时在每个数据集中实现的分类精度。3 Kvasir 8 3200 80020×20像素30.75图二. 来自COVID-19数据集的四个类别的示例图像，以及左上角的20×20部分与原始图像分离。当仅使用子图像时，分类准确率为1.41%。当将相同的LeNet-5架构应用于原始数据集时，分类准确度提供了77.50%的准确度。这表明，与使用空白子图像训练和测试的CNN相比，使用完整图像训练和测试的CNN提供了更高的分类准确度。然而，由小的空白子图像组成的数据集也提供了远高于纯粹机会的预测准确性。Kvasir数据集（Pogorelov et al. ，2017）是包含内窥镜检查图像的生物医学数据集。图2显示原始图像和空白子图像的大小从原始数据集的最左上角裁剪的20个像素。如图所示，实际上不可能仅通过使用裁剪的子图像中的视觉信息来将图像分类到它们各自的标签中。然而，LeNet-5可以以30.75%的准确率进行这种区分如前所述，利用空白子图像实现的准确度远高于纯粹的机会准确度，对于八个类别，机会准确度为12.5%当应用 LeNet-5 对原始图像进行分类时，分类准确率为73.75%。该精度高于使用空白子图像时的精度。这种差异可以归因于CNN基于视觉内容识别类之间差异的能力。但是，由于空白子图像的分类也显示出比纯粹的机会更高的准确性，因此可以假设与图像获取过程相关的背景视觉特征可能对结果具有一定的影响，如图1B所示。3.第三章。使用的另一个数据集是果蝇的200个显微镜图像的数据集（D.黑腹）细胞分成10类，取自Shamir et al. （2008年a）。每个类别是使用mRNA拦截掩蔽的不同基因，并且细胞用DAPI（4 '，6-二脒基-2-苯基吲哚）染色。使用具有机器人载物台和60物镜的DeltaVision光学显微镜获取图像，如Shamir et al. （2009年）。图图4示出了来自被掩蔽的10个基因中的每一个每个显微镜图像的尺寸为1024 × 1024像素，并且每个图像包含多个细胞，如图所示图三. 来自KVASIR和20个原始图像的示例20部分左上角与原始图像分开。只有子图像用于分类。表2使用细胞图像和使用从背景获取的子图像时的分类精度。对象#训练#测试图像精度图像图像大小（像素）（%）电池1500 500 60×60 81.11背景1500 500 60×60 63.45图四、细胞在图像中的分布预期是随机的，并且类之间的差异预期通过细胞反映。因此，通过应用简单的Otsu二进制阈值（Otsu，1979）从图像中分离细胞，并且识别具有超过40个相邻像素的对象。每个这样的对象周围的60 × 60子图像被分离以创建2000个细胞图像的数据集，以及从图像的背景部分获取的2000个相同大小的子图像的另一个数据集，其中细胞被分离。不在场该表显示，虽然细胞图像以高得多的准确度分类，但背景子图像的准确度远高于预期的10%纯粹机会，如表2所示。3.1. 人脸和物体识别上述生物医学数据集显示的偏倚来源可能是图像采集过程，如第5节所述。机器学习领域中一些最常用的数据集是从网络下载的图像数据集，如ImageNet，在这些情况下，图像采集过程不受控制。然而，在生物医学领域，数据集通常不是通过从网上下载不同的图像来获取的，而是通过一个受控的过程来获取的。该过程可以与一些面部识别数据集和对象识别数据集的准备过程进行比较。对于受控的人脸识别数据集，我们测试了Yale Faces A和YaleFaces B人脸识别基准数据集。没有数据集类#训练图像#测试图像图像尺寸准确度（%）12COVID-19（两个类别）COVID-19（四个类别）2455896014024020× 20像素67.1441.25S. Dhar和L. Shamir视觉信息学5（2021）9296××∼∼∼∼∼图四、来自 RN A i 数据集的示例图像和基因ID。每一类都是掩盖不同基因的结果表3CNN识别了不一定当使用LeNet-5对来自人脸识别数据集的裁剪的小子图像进行分类时，数据集的大小和分类精度。没有数据集类#培训#test图像大小精度图像图像（像素）（%）1耶鲁面临A151323322 × 2954.62 Yale Faces B 28 13104 3276 27×20 87.8Yale Faces A数据集有15个受试者，每个受试者有11张人脸图像。Yale Faces B数据集有28个主题，每个主题有585张图像。将Yale Faces B转换为相同数量图像的数据集，其中原始数据集中的每个图像都转换为包含原始图像左上角27 20像素的图像。这部分图像只包含背景，在所有图像中视觉上都是一样图5显示了Yale Faces B中前五名受试者的前五张图像。如图所示，当使用肉眼时，从不同对象的原始图像分离的子图像非常在Yale Faces A数据集中，背景被从图像中移除，导致人为的空白背景。因此，在Yale A数据集的情况下，对每个图像进行变换，使得使用来自每个受试者的前额的22 - 29个像素。与Yale B数据集不同的是，Yale A数据集中的小图像包含代表人皮肤的像素，而Yale B数据集中没有使用包含任何面部或头发特征的像素。然而，这些图像并不包含允许通过视觉观察图像来识别面部的信息，或者甚至不包含允许识别图像是面部或人的身体的任何其他部分的信息。图6示出了用于CNN分类的原始面部图像和较小图像的示例。与生物医学数据集一样，数据集通过使用常见的LeNet-5CNN架构来测量。每个数据集中的训练图像和测试图像的数量以及每个数据集的分类精度如表3所示。尽管所有图像在视觉上都很相似，但CNN能够以远高于偶然的准确性对图像进行分类。对于15个受试者，Yale Faces A的预期纯粹机会准确度为7%，而Yale Faces B数据集的预期纯粹机会准确度为3%。如表3所示的显著更高的分类精度表明，与面孔相关，因此与手头的机器学习问题无关。这表明，即使CNN的分类准确率高于偶然性，也不一定意味着CNN确实能够识别人脸，但可能会识别数据集的特征，从而区分不同的受试者。当将CNN应用于原始的Yale Faces A数据集时，使用表3中指定的相同数量的训练和测试图像，分类准确率为96.97%。这显然比使用裁剪子图像的变换数据集时的54.55%的准确度更高。这表明图像比仅包含前额的子图像中可以识别的信息更多，但是由CNN识别的前额信息可以用于识别对象，其准确性当将CNN应用于原始的Yale Faces B数据集时，同样使用表3中指定的相同数量的训练和测试图像，分类准确率为99.97%。与Yale Faces A一样，当仅使用小的空白背景子图像时，分类准确性显著下降。但是，对于背景中看似没有信息的小部分，其准确性仍然远远高于纯粹的偶然准确性。在Yale B的情况下，小的子图像是从图像的背景中获取的，并且不包含面部、头发、衣服或可能允许识别图像中的人的由于可以在没有面部或身体的任何特征的情况下识别受试者，因此唯一的解释是成像过程导致图像中存在的信息，并允许CNN通过识别拍摄图像的会话来识别受试者。对象识别基准数据集在许多情况下是从万维网收集的。常用的基准测试包括ImageNet、MS COCO、PASCAL或CIFAR。收集数据和准备基准数据集的方法不同于生物医学领域中的图像收集，其中该过程通常是受控过程。为了测试可能的偏差，我们使用了在受控成像过程中收集的对象识别数据集。我们使用了两个数据集：COIL-20和COIL-100。COIL-20包含20个对象类，每个对象在数据集中有72个图像样本。COIL-100有100个受试者，每个受试者包含72个图像（Nene et al. ，1996 b，a）.从原始图像创建了一个单独的子图像数据集COIL-100和COIL-20数据集。新的数据集在以下方面是相等的：S. Dhar和L. Shamir视觉信息学5（2021）9297×∼∼∼∼∼∼图五. 来自Yale Faces B的示例图像和来自最左上角的与原始图像分离的小的子图像。只有子图像用于分类。见图6。来自Yale Faces A的示例图像和与原始图像分离的前额的子图像。仅前额子图像用于分类。将图像的数量添加到原始数据集，但每个图像都被替换为128 128子图像，从原始图像的右上角裁剪。图图7和图8示出了原始图像以及从原始图像分离以形成新数据集的子图像的示例。如图所示，新的数据集由看似空白的图像组成，不包含任何可以让人识别类别的特征。表4显示了训练集和测试集中的图像数量，以及使用不包含可理解图像内容的裁剪子图像时实现的分类准确度。对于COIL-20和COIL-100，仅机会精度分别为5%和CNN实现的高得多的分类精度清楚地表明，该模型能够捕获分割图像和目标标签之间隐藏的复合关系。这可以通过CNN从背景像素中恢复信息的能力来解释，并且该信息可以区分对象类别。由于在这些子图像中不存在对象，因此识别由成像过程驱动，并且CNN可以识别成像会话而不是对象图像中当将CNN应用于原始图像时，COIL-20数据集的分类准确率为98.61%，远高于使用裁剪子图像时的分类准确率35.42%。同样，将CNN应用于原始COIL-100数据集时的分类准确率为96.46%，远高于将CNN应用于裁剪子图像时达到的27.48%准确率。4. CNN分类偏差卷积神经网络（CNN）的主要优点之一是它们在提供训练图像时自动选择特征图的固有能力然而，这种性质的缺点在某些情况下可能导致潜在的弱点。无需人工干预的自动化特征图选择过程反映了手头的图像分析问题。CNN旨在自动选择最具区分力的特征，如果数据集中存在此类特征，则CNN提供的分类S. Dhar和L. Shamir视觉信息学5（2021）9298××见图7。来自COIL-100的示例图像和与原始图像分离的背景的看似空白的图像。每个子图像是128个128从图像的右上部分分离的子图像。因为图像的这一部分是背景，所以子图像在肉眼看来是黑色的正方形，并且似乎不包含有意义的信息。仅空白子图像用于分类。图8.第八条。来自COIL-20的示例图像和与原始图像分离的背景的看似空白的子图像。背景子图像是从每个原始图像的右上部分分离的128个子图像。图像的该部分仅包含黑色背景，因此分离的子图像在视觉上是黑色正方形。仅空白子图像用于分类。表4用于使用深度神经网络测试对象识别基准分类的数据集有几种做法可以用来避免由于区分但不相关的特征驱动的分类偏差而导致的误导性结果。首先，图像的背景可以提供关于图像获取过程的可靠性的实质性信息。通过分离小的看似空白的子图像的背景，我们可以创建一个控制数据集，只与背景信息。CNN仅基于背景识别正确类别的能力可以在数据采集过程中警告某些异常的存在。这些异常很难检测，但CNN可以用它们来制造21×21像素当不存在异常时，分类的准确性高于其对这些图像进行分类的实际能力。也就是说，如果CNN可以基于其背景预测图像的类别，其准确度高于纯粹的机会，则该CNN在整个数据集上实现的整体分类准确度可能会有偏差，因此无法对使用该CNN作为有效解决方案的能力进行强有力的假设。可以使用的另一种方法是在两个单独的数据采集会话中采集训练集和测试集，或者从不同的诊所或其他来源获得训练和测试数据。没有数据集课程数#训练图像#测试图像图像尺寸准确度（%）12COIL-20COIL-1002010011525760288144021× 21像素35.4227.85S. Dhar和L. Shamir视觉信息学5（2021）9299∼×××表5当使用细胞图像和当使用从背景获取的子图像时的分类精度。使用一个载玻片和一个成像会话采集训练集，并且在不同载玻片中采集测试集，与训练集不同的图像采集会话。对象类#训练图像#测试图像准确度（%）细胞101500150047.27背景101500150011.83也就是说，不是在单个批次中获取整个数据集，然后将其分成训练集和测试集，而是训练集和测试集。测试集在一个会话中获取，而测试集在另一个会话中获取。在单个批次中获取整个数据集，然后将数据随机分为训练集和测试集的常见做法可以使CNN通过使用来自成像会话的潜在信息来实现更高的分类准确性。如果某个类别的所有图像都是在单个会话中获取的，CNN可能能够选择识别会话而不是类别的特征将训练集和测试集的采集分开，确保CNN不能使用可以识别训练集中的会话的特征来识别测试集中的图像。也就是说，如果在单个成像会话中获取每个类别的图像，然后将其分离为训练和测试样本，则CNN可以将图像与其会话相关联，以提高其将图像正确分类的能力。如果在与训练图像不同的会话中获取所有测试样本，则会话信息不能用于将测试样本与相同类别的训练样本相关联。分离训练集和测试集的获取的实践可以用所描述的显微镜图像进行测试在第3节，并显示在图。四、通过相同的过程多次生成数据集，从而产生具有相同基因的等效数据集，但在不同的过程和不同的载玻片中成像。相同的10个基因也用于不同的实验（Shamir et al. ，2008 b，2009）。表5示出了利用一个图像采集批次成像的一个载玻片的训练和利用在一个图像采集批次中成像的另一载玻片的测试不同的图像采集批次。如表所示，当使用不同成像会话进行训练和测试时，背景图像细胞的分类准确率也从使用同一批次进行训练和测试时的81%大幅下降到使用一批中获取的图像进行训练并使用不同批次中获取的图像进行测试时的47%。这表明，使用一个批次进行训练并使用另一个批次进行测试会降低准确性，这意味着除了来自细胞形状的信号避免在会话中获取数据还可以提高通常用于测试CNN性能的基准数据集的可靠性。例如，如果每个样本都是在单独的会话中获取的，CNN将无法使用反映成像会话的微妙但重要的信息。虽然在一个会话中对多个图像进行成像在可以收集的图像数量方面是方便且更有效的，允许CNN对成像会话进行分类（例如，照明条件、CCD的温度等）而不是图像中的主体。如果每个图像都是单独采集的，则不会显示会话信息此外，如果图像也是以随机顺序采集的，而不是通过一次对一个类别进行成像，则无法通过采集其样本的会话来识别该类别。为了测试是否在不同的会话中对每个样本进行成像，我们使用了c。 elegans肌肉年龄数据集，这也是表6C的分类精度。当使用整个图像时，以及当使用图像的20×看似空白的部分时，elegans肌肉年龄数据集。图像类#培训#测试精度部分图像图像（%）所有图像450751.1620× 20左上角450724.2Shamir et al.（2008 a）的基准数据集。该数据集包含252张c的头部显微图像。elegans nematodes，分为四类。每个类都有不同的年龄，1天，2天，4天和8天。通过使用20物镜光学显微镜对线虫进行成像的长时间手动过程，分别获取每个图像。表6示出了整个图像的分类精度，以及当从每个图像分离20 × 20左上子图像时的分类精度。每类使用来自训练的50个图像，并且每类使用7个图像用于测试。由于测试图像的数量相对较少，因此使用10倍交叉验证。如表所示，当从每个原始图像中分离20 × 20左上角的子图像时，分类准确度下降到非常接近25%的机会准确度。当使用整幅图像时，分类精度高于随机机会。这表明，当分别采集每个图像时，分类精度非常接近预期的这表明，如果每个图像都是在单独的批次中获取的，则背景信息不能用于在训练图像和测试图像之间建立关联5. 结论在计算机视觉文献中，在基准数据集反映真实世界的能力的背景下讨论了数据集偏差。在生物医学领域，应用于生物医学图像数据集的CNN已被证明在某些情况下提供比专家病理学家进行的分类更好的准确性（Paul et al. ，2021年）。在这里，我们研究的偏见，不是由人类选择的样本或偏好在注释过程中，但驱动的图像采集过程。这些偏差与生物医学领域更相关，在许多情况下，医学图像是由限定数量的诊所在受控过程中采集的。这些偏差难以识别，并且有时是不期望的，因为受控图像采集通常被假定为也控制可能的偏差的过程。实验表明，当一批获取训练集，另一批获取测试集时，CNN对图像的无信息背景部分进行准确分类的能力下降到近似纯粹的偶然准确度。这是由于缺乏可以关联会话的信息。在这种情况下，对前景对象进行正确分类的能力可以归因于CNN解决图像分类问题的真正能力，而不是识别某些图像采集会话中典型的微妙模式的能力。在不同的会话中获取每个图像可能并不总是可行的，因为它可能需要大量的劳动。例如，在显微镜图像中，当一个人试图产生数千个细胞的数据集时，为每个细胞准备单独的载玻片可能是不切实际的准备一个数据集进行训练，并准备一个单独的数据集进行测试，可以达到相同的结果。与将数据分为训练集和测试集的传统方法相比，这种做法的工作量增加了一倍，但这种做法仍然是可行的。由于易于使用，功能强大，并且可以通过可用的开源库访问，CNN在生物医学领域变得非常流行，并且是生物医学领域的默认解决方案。S. Dhar和L. Shamir视觉信息学5（2021）92100自动图像分析问题。然而，虽然CNN在许多方面优于以前的方法，但它们也有过度拟合和不受控制的学习的缺点。当随着越来越多的生物医学研究人员（不一定是机器学习专家）使用CNN，重要的是要确保所有CNN用户也了解CNN可能的弱点。这将有助于避免那些看似科学合理，但实际上提供有偏见或不可靠结果的实验。CRediT作者贡献声明Sanchari Dhar：选择数据集，进行研究，准备手稿。LiorShamir：设计研究，选择数据集，准备手稿。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢该研究部分由NSF资助，美国资助AST-1903823。我们要感谢两位知识渊博的匿名审稿人，感谢他们富有洞察力的评论，帮助改进了手稿。我们还要感谢浙江大学出版社的资助，使这篇论文得以开放获取。伦理批准本研究不涉及人类受试者。研究中使用的所有数据都来自过去发布的公共数据库引用亚伯拉罕，V.C.，泰勒，D.L.，哈斯金斯，J.R.，2004.应用高含量筛选到大规模细胞生物学。Trends Biotechnol.22，15爱娜，O. E.，Adeshina，S.A.，Aibinu，A.，2019.深度学习用于基于图像的宫颈癌检测和诊断。2019年第15届电子学、计算机和计算国际会议。IEEE，第1-7号。Anwar ， S. M. ， Majid ， M. ， Qayyum ， A. ， Awais ， M. ， Alnowami ， M. ，Khan，M.K.，2018. 使用卷积神经网络的医学图像分析：综述。 J. 医学系统42，1-13。Bychkov，D.，林德，N.，图尔基河，Nordling，S.，Kovanen，P.E.，Verrill，C.， Wallian-der，M.，Lundin，M.，Haglund，C.，Lundin，J.，2018.基于深度学习的组织分析可预测结直肠癌的预后。Sci. 众议员8，1Cao，C.，中国植物志，刘芳，谭，H.，宋，D.，Shu，W.，李伟，Zhou，Y.，（1996年），中国科学院，Bo，X.，Xie，Z.，2018年深学习及其在生物医学中的应用。基因。变形金刚。生物信息。16，17-32。陈永春，字耀昌，字：洪，D.J.K.，Wu，C.W.，Mupparapu，M.，例如，2019.深度卷积神经网络在生物医学成像中的应用：综述。J. OrofacialSci. 11（3）.古德费洛，I.J.，施伦斯，J.，塞格迪角，澳-地2014.解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572。Hu，Z.，唐，J.，王志，张，K.，张，L.，太阳，Q.，2018.深度学习用于基于图像的癌症检测和诊断-调查。模式识别。83，134-149。黄湖，加-地约瑟夫，公元，纳尔逊湾，Rubinstein，B. I.，Tygar，J.D.，2011.对抗性机器学习。在：第四届ACM安全和人工智能研讨会的会议记录，pp。43比58Jaipuria，N.，张，X.，巴辛河，Arafa，M.，Chakravarty，P.，Shrivastava，S.，Manglani，S.，Murali，V.N.，2020.使用合成数据增强消除数据集偏差。在：IEEE/CVF计算机视觉和模式识别研讨会会议论文集，pp。772-773Kermany，D.S.，Goldbaum，M.，蔡伟，Valentim，C.C.，梁汉，Baxter，S.L.，McKeown，A.，杨，G.，Wu，X.，中国农业科学院，严，F.，例如，2018.通过基于图像的深度学习识别医学诊断和可治疗疾病。172号房1122-1131可汗人工智能Shah，J.L.，巴特，M.M.，2020. Coronet：一个深度神经网络，用于从胸部X光图像中检测和诊断COVID-19。Comput. 方法

下载后可阅读完整内容，剩余1页未读，立即下载