《医疗器械临床研究报告》：超概念采样方法对乳腺癌机器学习的有效性和竞争力

139 浏览量更新于2023-12-26 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

i本文的最新情况见最后《医疗器械临床研究报告》第1卷第3期（2018年）176-185页基于模式的超概念采样方法的Tooba Salahuddin，Fatima Haouari，Fahad Islam，Rahma Ali，Sara Al-Rasbi，NadaAboueata，Eman Rezk，Ali Jaoua卡塔尔多哈卡塔尔大学计算机科学与工程系A R T I C L E I N F O保留字：数据采样形式概念分析乳腺癌机器学习A B S T R A C T生物医学数据的增加导致需要开发数据采样技术。随着大数据的出现和数据科学的普及，采样或简化技术已经帮助显著加快了数据分析过程。直观地说，如果没有采样技术，很难从大型数据集中有效地提取有用的模式。然而，通过使用采样技术，可以有效地对巨大的数据集进行数据分析，以产生相对较小的数据部分，从原始数据集中提取最具代表性的对象。然而，为了得到有效的结论和预测，样本应该保持数据行为。在本文中，我们提出了一个独特的数据采样技术，利用形式概念分析的概念。机器学习实验结果的样本进行质量评估，我们的方法的性能进行了比较与文献中提出的另一种采样技术。结果表明，所提出的方法在样本量和质量方面的有效性和竞争力，由准确性和F1测量确定。1. 介绍乳腺癌是妇女中的一种高度流行的疾病，也是妇女死亡的最常见原因。美国癌症协会预测，2018年美国约有266，000名女性可能被诊断患有乳腺癌，其中15%预计将死于这种疾病[31]。乳腺癌患者的生存率可以通过有效的治疗来提高，这可以在疾病的早期诊断时开始[15]。诊断乳腺癌的一种自动化方法是通过分析来自组织学图像的处理数据[3]。来自每个像素的数据可以被分类为恶性或良性，这可以帮助检测和确定癌区域。然而，由于数据量巨大，在时间紧迫的情况下，pix el分类过程可能变得相当耗时。虽然可以发现许多研究集中在通过优化训练模型来提高分类准确性[1，12，14，23，34，38，39]，但很少有人注意通过训练较小的数据样本而不是训练整个大规模数据集来优化实验设置。图1通过使用一个样本进行训练演示了PIXel分类过程数据抽样是一种统计方法，可用于选择、操作和分析具有代表性的数据子集，提取有意义的推论采样允许用户处理少量数据，以便相对更快地构建和运行分析模型然而，在这种情况下，应该注意的是，数据行为的保存至关重要，这是一项具有挑战性的任务。通过使用保留数据行为的术语，我们的意思是样本还应该包含数据中形成的函数依赖性。同样，有效的采样技术将产生保留原始数据集特征的高质量样本。因此，数据采样技术可以作为像素分类过程的催化剂。受参考文献[27]研究的启发，本文介绍了一种融合现有概念和数学方法的增强数据采样技术。这些方法包括形式概念分析，超概念算法[19]和基于高耦合产生样本的数据简化算法。此示例的新颖之处在于它保持了原始数据的模式行为，并由原始数据集中最具代表性的数据组成。我们提出的方法的更多细节在方法部分中描述。本文的主要贡献如下：*通讯作者。电子邮件地址：jaoua@qu.edu.qa（A. Jaoua）。https://doi.org/10.1016/j.imu.2018.07.002接收日期：2018年5月20日;接收日期：2018年7月8日;接受日期：2018年7月8日2018年7月1日的一份声明2352-9148/©2018PublisheddbyElsevierLtd.这是一个不可避免的问题，因为CCBY-NC-NDLicense（http：//creativecommons.org/licenses/BY-NC-ND/4。0/）。可在ScienceDirect上获得目录列表医学信息学杂志主页：www.elsevier.com/locate/imu《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人177Fig. 1.从原始图像到pi X el分类。1. 取样方法：我们提出了一种新的数据采样模型，基于模式的超概念采样，它利用了现有技术的独特组合。我们的主要目标是产生一个样本，展示原始数据的最重要的数据特征。我们开发了一个形式化的概念分析，超上下文特征提取算法，并减少基于对象之间的高耦合。2. 机器学习：我们使用机器学习技术对从我们提出的采样方法中获得的结果进行评估我们还将我们的实验结果与其他技术进行了比较，以证明我们的采样模型的竞争力本文的其余部分组织如下：第3节提供了所需的概念，包括形式概念分析，超概念和减少使用高耦合的简洁信息。第2节讨论了图像采样的相关工作。第4节描述了我们提出的解决方案。在第5节中给出了所提出的采样技术的EX实验结果，并与另一种采样方法进行了比较。第六节是论文的结论。2. 相关工作统计学中最常用的抽样方法是简单随机抽样和分层抽样。简单随机抽样是基于任意选择的项目，而不需要满足任何标准。首先，分层抽样根据某些标准将人口分类为阶层，然后从每个阶层中按比例选择项目[5]。分层的分类应满足相互排斥和整体详尽的要求尽管它们明显易于应用，但从这种方法生成的样本无法保留数据中存在的函数依赖关系，而这对于创建数据集的代表性子集是必要的。它还需要事先了解数据，以便能够将其分类到层中。事实上，通过应用非随机采样技术，可以从采样数据中获得有意义的见解，并专注于数据集的重要方面[29]。此外，各种图像数据采样技术在文献中可用，主要用于图像渲染。Kettunen等人[20]介绍了用于图像合成的梯度域采样该算法考虑基于图像梯度和像素的采样。通过计算相似路径对之间的差异来计算估计梯度，从而降低方差。最后，使用泊松重建来组合来自piX el值和梯度的信息，从而产生样品。沿着类似的思路，Cho等人[13]实施了优化的离散梯度采样，也称为b值采样，以改善乳腺病变的分析。为了加速动态容积MRI，Feng等人[16]使用了黄金角径向采样。最终，Ayech和Ziou [8]提出了一种通过k-means聚类的排名集采样的增强设计。该方法首先利用排序集样本上的一个函数估计最优中心，然后根据估计的中心对观测数据集进行分类然而，据我们所知，文献中存在有限的图像采样方法，这些方法在代表性样本中满足我们所需的标准。Rezk等人。[27]提出了基于模式的比例采样，它要求数据遍历四个不同的变换以提取样本。最初，使用成对元组比较方法将处理后的图像数据转换为二进制形式上下文。在第二阶段，所得到的二元关系用于从数据中提取模式。模式是从数据集中的特征数量计算出来的。在第三阶段，从模式中数学计算比例，并基于比例选择元组实例。最后，在最后一个阶段，对象被映射到原始数据，以提取最终样本中的实例。通过这种方式，生成的样本保留了原始数据的行为。Yu Su等人。[32，33]还通过在包含模拟数据的科学数据集上应用索引技术，开发了有效和高效采样的算法。生成的样本通过保持样本中的值和空间分布来保持数据行为。首先，位向量被细分为相等大小的扇区。接下来，使用随机分层采样从每个位向量中提取一定数量的样本。这种技术有助于保持样本中的值分布。各部门的抽样百分比保持不变。Liang等人[ 21 ]提出了一种受控随机采样技术，用于从高光谱图像中选择像素样本，以便于同一图像的训练集和测试集之间的重叠最小化。该样本具有全局随机分散在图像中并且在类中均匀分布的特性3. 背景3.1. 函数依赖在其经典定义中，函数依赖是一种当一个属性唯一地确定另一个属性时存在的关系。如果R是与属性X和Y的关系，属性之间的函数依赖用X→Y表示，表示Y函数依赖于X [7]。假设我们有一个病人台，tribute patient_Id 、 patient_Name 和 patient_Age 。在本例中，patient_Id属性唯一标识patient_Name属性，这意味着patient_Name在功能上依赖于patient_Id。3.2. 形式概念分析形式概念分析（FCA）为建立由格理论驱动的概念数学框架提供了基础[9，35]。这门学科允许一种概念上但有意义的方法来发现和表示知识[24]，用于不同领域的实际应用。这些领域包括但不限于图像挖掘[11]、医学图像解释[6]、决策制定[36]、语义网搜索[18]、情感分析[22，26]、特征[17]和数据缩减[28]。FCA中的关键表达式是形式上下文，它是对象和属性之间的二进制映射[25]。从输入数据到二进制形式概念的转换分两个主要步骤完成。在第一步中，输入数据被转换成一个二进制数据表，称为形式上下文。根据标准定义，形式上下文由（G，M，I）表示，其中G和M分别是对象和属性的有限集合，I是对象和属性之间的二元关系。《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人178表1正式背景。乳腺癌恶性良性化疗放射治疗操作患者1101000患者2110000患者3010110患者4101101患者5001010患者6110100G和M。表1表示形式背景，其中G={患者1，患者2，患者3，患者4，患者5，患者6}和M={乳腺癌，恶性，良性，化疗，放疗，手术}，并且I是二元关系。然后在第二步中，形式概念（A，B）建立在这个上下文之上，其中A和B分别定义形式概念的范围和意图（A，B）={{患者2，患者6}，{乳腺癌，恶性}}是可以从表1中表示的形式上下文生成的形式概念的示例，其中B表示由A中的对象共享的M中的所有属性。3.3. 超概念超概念，也称为超矩形，是基于形式概念分析[19]。设（G，M，R）是一个形式背景，任意属性，其中a∈ M。超矩形（Ha）是R的子关系，使得Ha（R）=Z（a. R−1）oR（是恒等关系，Z（R）={（e，e）e∈R}，是R中的元组）。我们为每个超矩形计算一个权重，这给了我们一个衡量其强度的指标，它的对象和属性之间的关联。超矩形Ha（R）的权重通过下式计算：w（Ha（R））=r *（r−（d+c）），（d * c）其中是Ha（R）的基数（即二元关系Ha（R）中的对数），d是其域的基数，c是其余域的基数。图2中的第一个表表示一个完整的关系，其中d= 6，c= 6和= 16。该表下方是从完整关系中为每个属性提取的超矩形列表，右侧显示了计算的相应权重计算与每个属性及其相应权重相关联的超矩形的过程如图2所示。术语最优超矩形maxH（R）是指从完整关系中提取的具有最大权重的矩形。图2中的第二个表表示初始关系的最佳超矩形。然后将完整关系拆分为最优超概念和剩余的二元关系。剩余的二进制关系，然后使用作为一个新的初始关系，以提取下一个最佳超矩形。迭代地重复该过程，直到实现完全收敛，即，全部关系被多个最优矩形覆盖。这将产生符合1级超概念的属性列表为了简洁性和针对性，我们通过例子来解释一级超概念。在该示例中，图2中的最优超矩形和二元关系完全收敛于该关系。因此，它们代表了具有关键词{乳腺癌，放射治疗}的1级超概念。超概念的更详细解释可以在参考文献[19]中找到。3.4. 抽样方法统计学中最常用的抽样方法是简单随机抽样和分层抽样。简单随机抽样是基于任意选择的项目，而不需要满足任何标准。总体中的所有元素都有相等的概率被选入样本。分类，分层图二.计算超矩形的权重。抽样是根据一些标准（如年龄）将人口分类为阶层，然后从每个阶层中选择项目[5]。分层的分类应满足相互排斥和整体详尽的要求。尽管它们明显易于应用，但从这种方法生成的样本无法保留数据中存在的函数依赖关系，而这对于创建数据集的代表性子集是必要的。它还需要数据的先验知识，以便能够分类到层中。事实上，通过应用非随机抽样技术，可以从抽样数据中获得有意义的见解，并专注于数据集的重要方面[29]。3.5. 耦合采样算法该数据采样技术基于FCA。首先从给定的数据库实例中生成基于相似性的形式上下文。形式上下文中的每一行都表示0和1的模式，这取决于对象对中对象属性之间的相似性。例如，在图3中，对象对（O1，O2）的模式是0110。因此，在本发明中，《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人179原始图3.第三章。获取对象模式表。O1和O2都属于模式0110。例如，每个对象对只能有一个模式，而一个模式可以属于0个或多个对象对的图案0110 也属于到的对象对（O1，O6），（O2，O5）和（O5，O6）。算法1描述了概念采样算法，该算法选择高度耦合的对象，即具有最大模式总数该算法从对象模式表开始，其中行表示数据集中的对象，列表示模式，如图3中的最后一个表所示。值算法1.耦合采样算法保留原始数据的函数依赖信息。这种技术可以在没有任何关于数据的先验知识的情况下应用。数据集经过四次转换，最终得到一个可接受的样本。第一步是使用成对元组比较将数据集转换为二进制形式上下文（FC）。生成的FC对象被认为是二进制模式分别属于每个对象对。第二步从第一步中的二元关系中产生对象/模式表。将对象映射到其图案，并计算每个对象的图案引用。在第三步中，超上下文缩减算法被应用于对象/模式表，从而产生用于所有对象的缩减的和代表性的模式列表。在第四步也是最后一步中，对上一步中的简化表进行概念数据采样。该算法提取高度耦合的对象的样本。图1展示了4阶段采样过程，并在以下章节中对每个阶段进行4.1. 将数据转换为正式上下文在初始阶段，使用成对元组比较方法将数据转换为二进制FC。这将导致n（n-1）行，2FC表，其中是数据集中的作为基于完全相等的比较经常导致信息损失，因此为了避免这种损失，基于相似性度量计算来比较对象。这说明了执行比较的不灵活和模糊的方法，该方法量化了两个对象的接近程度。通过参考文献[28]中介绍的公式计算一对值的相似性度量1 −n1−n2 、max（n1，n2）其中n1和n2是两个数字。基于固定的相似度阈值，输入：ObjectPatternTable输出：最终样本=到目前为止分析的对象集合中的不同对象集合重复max=具有最大模式总数的未分析对象集马克斯对于每个在做找到对应对的两个对象之间共享的公共模式（CP）对于CP中的每个常见模式，如果该对属于该模式并且该模式未被覆盖，则将图案设置为已覆盖将该对添加到（）如果结束，则结束端直到所有的模式都被覆盖该算法的主要目标是通过选择数据集中最具代表性的对象来减少数据集的大小作为示例，（O1，O2）和（O1，O6）表示模式0110，而（O1，O3）和（O3，O5）表示模式1011。在这个例子中，算法应该为每个模式选择第一对，即对象对（O1，O2）和（O1，O3）。通过这样做，我们成功地用3个对象而不是5个对象来表示2个模式，从而减少了缩减数据集中选定对象的数量。4. 方法我们提出的采样方法利用概念方法和超上下文简化技术来构建一个样本，其目的是如果相似性度量等于或超过阈值，则FC对象由布尔值“1”填充，否则该值为“0”。在生成的FC表中，每个元组都是一个二进制模式。表3显示了表2中元组比较后的FC输出子集，它被用作演示过程步骤的示例。表3中的FC是基于70%相似性阈值生成的4.2. 对象/模式表在第二阶段中，来自FC表的二进制数据被制成对象模式表。FC表中的二进制实例通过该表的属性表示为模式。原始数据集中的每个对象都映射到在FC表中计算的模式。《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人180表2原始数据库实例。表5应用超上下文后的对象模式表一BCD03T12764T110T241494T201T32773T311T421696T411T55796T511T61554T611T72844T711T81675T811T941396T911T106191813T1010表3FC表。算法应用于本文所示的对象模式表（表4），它生成Level 1中的模式0和3。因此，对象模式表现在仅包含由超上下文算法提取的模式，如表5所示。4.4. 概念抽样算法在最后一步中，一个采样算法，重点是保持高耦合应用于减少对象模式表，这是由于超上下文的应用程序生成。这将产生一个高度耦合的对象样本。因此，样本中的所有结果对象都具有唯一的图案组合。表6显示了对精简版本的对象模式表应用概念采样算法后的结果示例，前一步。样本包含3个元组。自然地，作为成对比较的结果，每个对象可以与一个或多个模式相关联。对象模式表中的模式数为2n，其中是原始数据集中的属性数。对于每个对象，计算其相关联的二进制模式的频率。如果对象属于特定模式，则该单元格的值填充为“1”，否则值为“0”。考虑表4中给出的对象模式表。二进制属性以其十进制等效形式写入。模式总数为24。从表3中可以看出，对（t1，t2）形成二进制模式“0001”。当转换为十进制时，它表示为“1”。因此，对于模式“1”，t1和t2都具有布尔值true（1）。对应于t1的模式6的值“0”意味着t1在FC转换期间没有与任何其他元组形成此模式。4.3. 对象/模式表到超概念超上下文的方法被应用到对象模式表，这给了我们覆盖整个表的最具代表性的模式。在该技术中，仅提取来自级别1超上下文的属性。最终的结果是一个对象模式表，其中包含较少的（也是最重要的）模式。当超语境表4对象模式表。5. 评价5.1. 实验环境我们的实验是在来自MITOS 2012数据集的乳腺癌组织的显微图像上进行的[30]。该数据集包含来自5名患者的50张图像，每张图像由512×512像素组成，根据经验丰富的病理学家手动标记的真实数据，这些像素被注释为恶性或良性。这些图像通过最大响应8（MR8）滤波器组，该滤波器组为我们提供了8个纹理滤波器响应，用作每个图像的特征。这样做的原因是因为Dhoha在她的论文[ 2 ]中表明，与其他纹理特征（如Gabor和相位梯度）相比，MR8滤波器提供了最具区分力的特征。使用两种方法生成和检测样本：数据分割和交叉验证，每种方法均具有不同的配置。在数据分割方法中，数据集被分成两个相等的分区。从第一个分区中，从25个图像中随机选择10，000个像素（每个图像400个像素）。在第一个分区中使用50，000个像素（每个图像2000个像素）重复实验这是作为我们提出的抽样方法的输入。由此产生的样本被用作五种不同机器学习算法的训练数据集。这些算法包括朴素贝叶斯012345六...15(NB)，支持向量机（SVM），模式网（PN），级联Forward Net（CFN），前馈网络（FFN）。第二个分区，T11100110...1其余25张图像（512× 512像素）用于测试，T2011110一...0T3101101一...1表6T41011101...0Sample.T51011101...0T61101100...1一BCDT71101110...0T8100101一...1T241494T9101100一...0T421696T101000100...0T61554一BCD(t1，t2）0001(t1、t3）1111(t1、t4）1000(t1、t5）0100(t1、t6）0111(t1、t7）1101(t1、t8）0111(t1、t9）0000(t1、t10）0000(t2、t3）0011(t2、t4）0110...............(t9、t10）000 0《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人181比较五个分类模型在F1测量和准确性方面的表现。此外，还采用不同的FCA相似度阈值来衡量相似度度量对样本质量的影响。这些阈值配置设定为70%、80%和90%。在交叉验证中，数据集被分成10个折叠，其中9个折叠作为训练数据集提供，一个用于测试。这个过程重复10次，训练数据集有不同的折叠组合。样本量计算为所有10次迭代中生成的样本的平均值。我们对MITOS数据集的两种10倍交叉验证配置进行了实验。图像被细分为10组，每组5幅图像。第一个骗局，在计算中，从50个图像中的每一个中选择750行的随机样本，使得每折叠总共3750（=750*5）行。对于第二种配置，从每个图像中选择2500行的随机样本，每个折叠中总共达到12500（=2500*5）行。与数据分割方法类似，阈值配置也是不同的，相同的机器学习算法用于分类。在准确度和F1测量方面比较结果。此外，使用数据分割和交叉验证方法产生的采样方法的结果与参考文献[27]中提出的基于模式的比例采样方法的相应结果进行了比较。用于实验的机器学习算法在下一小节中描述。评估和比较的结果在下面的机器学习子部分中给出5.2. 机器学习朴素贝叶斯是最常见的机器学习算法之一，它使用概率理论来分类对象。该方法基于贝叶斯定理，并假设数据点的属性之间相互独立.朴素贝叶斯分类器最流行的用例包括垃圾邮件过滤器，医疗诊断等。支持向量机（SVM）是另一种流行的监督机器学习技术。由于其可扩展性，它用于分类、回归和新颖性检测或离群值检测[10]。 SVM的底层技术是一种非概率二进制线性分类器。因此，给定标记的训练集，SVM训练的模型可以将新的未见过的示例分配给先前见过的标签之一。在这项研究中使用了两种不同的神经网络结构，即前馈网络（FFN）和级联前向网络（CFN）。FFN是最简单的网络类型，它由三层组成：输入，隐藏和输出。数据以一个方向传播：从输入层开始，通过隐藏层，最后到达输出层。因此，FFN中没有循环。与此同时，有了CFN，见图4。数据分割的样本量。图5. 使用数据分割的所有分类器的准确性（10，000像素）。每层与所有后续层之间的连接。例如，CFN包括从输入层到隐藏层和输出层的两个连接，而FFN包括从输入层到隐藏层的一个直接连接。使用级联网络架构的一个优点是，它可以通过拥有更多的连接来准确地学习输入和输出层除了以上所述，并且鉴于这是一个模式识别分类问题，模式识别神经网络（PN）也被认为是一种合适的技术。PN基于前馈人工神经网络，使用反向传播（BP）算法进行训练（FFBPNN），并根据目标类别对输入进行分类。PN的目标数据由所有零值的矢量组成，除了目标类所在位置的1。5.3. 数据分割结果在我们的实验中，我们观察到样本量随着相似性阈值的增加而增加图4显示了通过使用三个不同的相似性阈值从训练集的两种配置中获得的样本量。较高的相似性阈值会导致1的数量减少，因此需要在结果样本中有更多的对象来保留数据特征。通过使用90%的相似性阈值，在用于数据分割方法的样本中获得的元组的最高数目是76。同样明显的是，具有50000像素的数据集仅在90%相似性阈值时显著增加了样本量。然而，不能得出结论，更大的数据集将产生更大的样本，因为它完全取决于函数图第六章使用数据分割的所有分类器的准确性（50，000像素）。《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人182图第七章F1-使用Data Split（10，000PIX el）测量所有分类器图第八章F1-使用Data Split（50，000像素）测量所有分类器数据中存在的依赖关系。紧耦合会产生一个小样本，而松耦合可能会包含更多的元组，最终导致一个更大的样本。使用不同相似性阈值的5种分类算法的准确度和F1测量值比较见图1和图2。五比八对于神经网络（PN，CFN，FFN），对同一样本进行重复测试会产生高度不同的结果。因此，记录的测量值是5次实验的平均值。从图中可以看出。图5 - 8显示，50000像素像素数据集的准确度和F1测量结果与10000像素数据集的结果一致：较高的相似性阈值（90%）比较低的相似性阈值（70%）产生更好的结果。换句话说，与较小的样本相比，较大的样本对所有算法产生更好的结果。这符合样本量越大结果越好的统计学事实。此外，在所有分类器中，SVM对10000和50000像素的精度最高。10000像素的最高准确度达到79%，相似性阈值为80%和90%。50000像素子集的结果为使用70%和90%相似性阈值的SVM提供了80%的甚至更好的准确性。相比之下，神经网络（FN，CFN和FFN）没有产生合理的结果，因为它们往往在较大的数据集上表现更好[37]。相反，我们的样本范围仅在11到102个记录之间。此外，与其他分类器相比，SVM对F1-measure的表现也最好。在数据分割方法中的相似性阈值的所有三种配置中，使用90%的相似性阈值，SVM的最佳F1测量在86%处得到满足。图9.交叉验证的样本量。图10. 使用交叉验证的所有分类器的准确性（3750像素）。图十一岁使用交叉验证的所有分类器的准确性（12，500像素）。5.4. 交叉验证结果交叉验证实验使用3750 pix els/fold的第一个配置为不同的相似性阈值生成14、30和98的平均样本量。图9示出了针对不同相似性阈值通过10倍交叉验证生成的平均样本大小。交叉验证的样本量也与数据分割方法产生的样本量一致图图10和图11展示了使用交叉验证的5个分类器产生的不同准确性测量。很明显，这些样本《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人183图12个。F1-使用交叉验证测量所有分类器（3750像素）。图13岁F1-使用交叉验证测量所有分类器（12，500像素）。见图14。使用HCS和PPS的数据分割的所有分类器的准确性。使用80%和90%的相似性阈值生成的结果产生比70%的阈值更高的准确性。此外，SVM和NB在所有相似性阈值配置中的表现优于其他分类器。SVM使用3750像素配置生成90%相似度的最佳准确度为79%。在F1度量方面，所有分类器在90%相似性阈值上的结果都超过79%。总体而言，最佳的F1测量值为86%，由SVM使用交叉验证方法产生。图图12和图13说明了所有分类器使用交叉验证进行F1测量的结果。显然，从两个子集的结果中可以观察到这种趋势：90%的相似性阈值比其他阈值产生更好的结果。图15. F1-使用HCS和PPS的数据分割测量所有分类器。5.5. HCS与PPS毫无疑问，我们的抽样方法已超越PPS的最高分类准确度，并减少了样本量，表现出卓越的性能。图14比较了HCS和PPS在90%相似性阈值的准确度方面的结果。在这种情况下，准确度之间的差异是显著的，也是相当的。HCS获得了80%的最佳准确度，比PPS的SVM高出2%。与PPS相比，HCS还提高了NB的性能，准确率为76%，而PPS为73%。同样值得注意的是，尽管HCS产生的样本量小于PPS，但它产生的结果与PPS相当，在某些情况下，结果比PPS更好。因此，HCS被证明可以通过保留函数依赖性来提供更好的分类准确性，样本甚至更小。图15示出了使用数据分割方法对来自HCS和PPS的F1测量结果的比较。显然，当使用90%的相似性阈值时，HCS对NB、SVM和PN三种算法的性能分别优于PPS此外，还可以观察到，对于FFN和CFN，HCS的性能几乎类似同样，使用交叉验证方法和相似性阈值确认为90%，HCS在准确性和F1测量方面再次优于PPS的NB，SVM和PN通过使用交叉验证的两种采样方法，使用90%相似性阈值生成的样品的F1测量和准确度结果如图1A和1B所示。分别为17和16。见图16。使用HCS和PPS交叉验证的所有分类器的准确性。《医疗器械临床研究报告》第1卷第3期（2018年）176-185页T. Salahuddin等人184图17. F1-使用HCS和PPS的交叉验证测量所有分类器。5.6. 与其他方法看看Dhoha论文中的结果，我们可以看到她使用了从25张图像中随机抽取的137，500像素的样本，类似于我们的数据分割方法。然后，她使用朴素贝叶斯（NB）和支持向量机（SVM）分类器对这个样本进行训练，然后对其他25张图像进行测试。她使用NB和SVM的准确率分别为75%和78%，两种分类器的F1测量值均为83%。回顾我们的数据分割方法的结果，NB的最佳准确度和F1测量值分别为77%和82%，SVM的最佳准确度和F1测量值分别为80%和86%。Dhoha使用人工神经网络分类器取得77%的准确度及82%的F1量度，而我们的神经网络分类器则以模式识别神经网络取得最佳结果，分别为76%及82%。因此，我们看到，我们的方法给出了类似或更好的结果比论文。更有趣的是，我们设法通过使用我们方法中的102个像素的样本来获得这些值。使用深度卷积网络对乳腺癌组织病理学图像中的癌性区域进行Pi xel-wise分类被认为是最先进的[12]。在时间效率方面，Ciresan等人提出的方法。[14]需要24小时来使用优化的GPU训练网络，并实现了0.782的F分数。Wahab等人对此进行了改进。[34]提出了一种需要15小时训练并达到0.79的F分数的方法。与其他论文所做的工作相比，使用MR8滤波器响应作为特征似乎通常提供了更好的结果。HCS还通过对小样本进行训练而不是对整个分区进行训练来促进训练过程，从而大大减少了训练时间。我们的实验是在具有Intel（R）Core（TM）i7 CPU @的64位处理器上进行的。2.30 GHz。HCS所需的最长训练时间仅为36 s，同时将F分数提高到0.859。这使得我们的方法实用，并随时适用于医学图像分类。6. 结论我们提出了一种采样方法，HCS，由一个独特的组合现有的技术。抽样程序植根于形式概念。它经历了一个转换到形式概念分析，然后转换到对象模式表。它利用超上下文算法进行模式约简。之后，应用耦合采样算法来生成样本。使用5种机器学习算法测量所得样本的准确性和F1测量。结果还根据PPS进行了评估，通过提供更高的准确性和高F1测量值，HCS在使用不同的学习配置时具有明显的竞争力。而且，结果示例生成了一个非常简洁的示例使用二进制分布，它捕获原始数据集中存在的函数依赖关系和关联。因此，它能够提供有竞争力的结果。此外，图案是基于所有特征生成的，而不会丢失任何特征。此外，抽样技术不依赖于类分布的先验知识。确认这一贡献是由卡塔尔国家研究基金（卡塔尔基金会成员）的NPRP-07-794-1-145赠款促成的。在此所作的声明完全是作者的责任。引用[1] Abdel-Zaher Ahmed M，Eldeib Ayman M.使用深度信念网络进行乳腺癌分类。EX pert Syst Appl 2016;46：139-44.[2] 阿比德·多哈乳腺癌组织显微图像中肿瘤区域的分割硕士论文多哈，卡塔尔：卡塔尔大学; 2016年[3] Akay Mehmet，结合特征选择的支持向量机用于乳腺癌诊断。 Expert Syst Appl2009;36（2）：3240-7.[4] AL-Allaf Omaima N Ahmad，AbdAlKader Shahlla A，Tamimi AbdelfatahAref. 用模式识别神经网络提高虹膜识别系统的性能。J. Sci. Eng. Res. 2013年;4.[5] 阿米蒂奇·彼得，贝瑞·乔弗里，马修斯·约翰·奈杰尔·斯科特。医学研究中的统计方法。John Wiley& Sons; 2008.[6] 阿提夫·贾马尔，乌德洛·赛琳，布洛赫·伊莎贝尔。用形式概念分析和描述逻辑进行图像理解的平面推理。IEEE传输系统曼·赛伯恩B Cybern。20 1 4 ;44（5）：552-70.[7] Atzeni Paolo，Morfuni Nicola M.数据库关系中空值的函数依赖和约束。 Inf Contr1986;70（1）：1-31.[8] Ayech Mohamed Walid，Ziou Djemel.基于排序集抽样的k-均值聚类太赫兹图像分割。E X pert Syst Appl2015;42（6）：2959-74。[9] 柏和豪梅，迈赫迪，那不勒斯。用模式结构刻画形式概念分析中的函数依赖性。AnnMath Artif Intell2014;72（1-2）：129-49.[10] 班尼特·克里斯汀·P坎贝尔·科林支持向量机：炒作还是哈利路亚？《探索通讯》2000;2（2）：1-13.[11] Blaschke Thomas，Hay Geo BerrreyJ，Kelly Maggi，Lang Stefan，HofmannPeter，Addink Elisabeth，Feitosa Raul Queiroz，van der Meer Freek，van derWerHarald，van Coillie Frieke，et al. Geographic object-based image analysis-towards a new paradigm. ISPRSJ Photogrammetry Remote Sens 2014;87：180-91.[12] 陈浩，窦琦，王Xi，秦静，恒凤安，等.通过深级联网络检测乳腺癌组织学图像中的有丝分裂。AAAI。2016年。p. 1160-6[13] Cho Gene Young，Moy Linda，Zhang JeYangelL，Baete Steven，LattanziRiccardo，Moccaldi Melanie，Babb James S，Kim Sunheon，Sodickson DanielK，SigmundEricE.乳腺癌体内非相干运动的拟合方法和b值采样策略的比较。 Magn Reson Med2015;74（4）：1077-85。[14] Ciredan Dan C，Giusti Alessandro，Gambardella Luca M，Schmidhuber Jürgen.使用深度神经网络检测乳腺癌组织学图像中的有丝分裂。医学影像计算与计算机辅助介入国际会议。Springer; 2013. p. 411-8[15] E DeSantis Carol，Fedewa Stacey A，Goding Sauer Ann，Kramer Joan L，SmithRobert A，Jemal Ahmedin。乳腺癌统计数据，2015年：黑人和白人妇女之间发病率的趋同。CA A CancerJ Clin 2016;66（1）：31-42.[16] Feng Li，Grimm Robert，Block Kai Tobias，Mr. Hersh，Kim Sunheon，XuJian，A X el Leon，Sodickson Daniel K，Otazo Ricardo.黄金角径向稀疏并行MRI：压缩感知、并行成像和黄金角径向采样的组合，用于快速和灵活的动态容积MRI。Magn ResonMed 2014;72（3）：707-17。[17] Ferjani Fethi，Elloumi Samir，Jaoua Ali，Ben Yahia Sadok，Ismail Sahar，RavanSheikha.基于孤立标签的形式上下文覆盖：一种有效的文本特征提取方法。InfSci2012;188：198-214.[18] 福米卡·安娜。基于粗糙集和模糊形式概念分析的语义网搜索。知识基础系统2012;26：40-7.[19] Hassaine Abdelaali，Mecheter Souad，Jaoua Ali.使用超矩形关键字提取的文本分类：应用于新闻文章分类。计算机科学中的关系与代数方法国际会议。Springer; 2015.p. 312-25[20] Kettunen Markus，Manzi Marco，Aittala Miika，Lehtinen Jaakko，DurandFrédo，Zwicker Matthias.域路径跟踪。ACM Trans Graph2015;34（4）：123.[21] 梁杰，周军，钱云涛，文莲，白晓，高永胜。评价超光谱图像分类中光谱-空间方法的抽样策略。IEEE Trans Geosci Rem Sens2017;55（2）：862-80.[22] 李胜屯蔡福庆文本挖掘的模糊概念化模型及其在意见极性分类中的应用。 KnowlBase Syst 2013;39：23-33.[23] Mert Ahmet，KılıNiyazi，Bilgili Erdem，Akan Aydin.减少特征集的乳腺癌检测

下载后可阅读完整内容，剩余1页未读，立即下载