深度学习架构HiSAN在癌症病理报告分类中的性能评估

60 浏览量更新于2023-12-05 收藏 1.19MB PDF 举报

机器学习方法

性能评估

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ArticialInteligenceInMedicine101（2019）101726基于层次自注意网络的癌症病理报告分类Shang Gaoa， John X.放大图片创作者：John A.作者：陈文辉a，陈文辉A.作者声明：[J] Fearnb，Lynne Penberthyb，Xiao-Cheng Wuc，Linda Coyled，Georgia Tourassia， Arvind Ramanathana，a美国田纳西州橡树岭市橡树岭国家实验室健康数据科学研究所计算科学与工程部b美国马里兰州贝塞斯达国家癌症研究所癌症控制和人口科学部监测信息学分部c路易斯安那州肿瘤登记处，路易斯安那州立大学健康科学中心公共卫生学院，美国路易斯安那州新奥尔良d美国马里兰州卡尔弗顿信息管理服务公司A R T I C L E I N F O保留字：癌症病理报告临床报告深度学习自然语言处理文本分类A B S T R A C T我们介绍了一种深度学习架构，分层自注意力网络（HiSAN），旨在对病理报告进行分类，并展示了其独特的架构如何在准确性，更快的训练和清晰的可解释性方面实现新的最先进水平我们评估了从美国国家癌症研究所（NCI）的监测，流行病学和最终结果（SEER）计划获得的374，899份病理报告的语料库的性能每份病理学报告与五项临床分类任务相关我们将HiSAN的性能与医疗文本数据中常用的其他机器学习和深度学习方法进行了比较-朴素贝叶斯，逻辑回归，卷积神经网络和分层注意力网络（以前的最先进技术）。我们表明，HiSAN在所有五个分类任务中的准确性和宏观F分数方面都优于其他机器学习和深度学习文本分类器。与之前最先进的分层注意力网络相比，HiSAN不仅训练速度快了一个数量级，而且相对准确度提高了约1%，相对宏观F分数提高了5%。1. 介绍美国国家癌症研究所（ NCI ）的监测、流行病学和最终结果（SEER）计划保存了其在美国各地登记处收集的大多数癌症病例的详细癌症病理学报告（https://seer.cancer.gov）-这些报告代表了详细癌症特征的丰富信息来源。然而，从病理报告中提取有用的信息，如癌症部位或组织学，通常由受过专门知识培训的专家手动完成，以了解报告的内容。这个过程非常昂贵和耗时，从而限制了癌症登记处从现有病理报告中识别有用数据元素的能力，并限制了精确医学等对时间敏感的应用。因此，迫切需要在所有癌症登记处实现信息提取过程的现代化。癌症病理报告的自动分类是一个活跃的研究领域，旨在利用机器学习（ML）方法，从病理学报告中识别关键数据元素，从而减轻人类注释者的负担最近，深度学习方法已被证明对各种自然语言处理（NLP）任务非常有效，例如解析[1]，情感分析[2]和问题回答[3];因此，许多这些方法已适用于医学NLP任务，包括临床文本分类[4]和信息提取[5]。不幸的是，这些深度学习架构通常被设计用于较短的文本段，通常不超过一个段落。癌症病理学报告提出了独特的挑战，包括长达数页的文档，不同报告部分的长距离语言依赖性，以及只有一小部分病理学报告文本与特定分类任务相关。此外，病理学实验室的报告结构和语言模式的变化带来了额外的挑战。因此，许多从一般NLP任务改编的非常规深度学习架构无法有效地应对这些挑战。在这项工作中，我们介绍了一种深度学习架构，*通讯作者。电子邮件地址：gaos@ornl.gov（S. Gao），tourassig@ornl.gov（G. Tourassi），ramanathana@ornl.gov（A. Ramanathan）。https://doi.org/10.1016/j.artmed.2019.101726接收日期：2019年5月14日;接收日期：2019年9月6日;接受日期：2019年9月10日0933-3657/©2019Authors.由ElsevierB.V. 这是一个不可操作的CC，它与CCBY-NC-NDLicense（http：//creativecommons.org/licenses/BY-NC-ND/4。0/）。可在ScienceDirect上获得目录列表医学中的人工智能杂志主页：www.elsevier.com/locate/artmed《医药卫生信息公开》101（2019）101726S. Gao，etal.2HiSAN是一种分层自我关注网络（HiSAN），专门设计用于克服与癌症病理报告相关的许多困难。我们测试了HiSAN与其他最先进的文本分类方法在分类五个关键癌症数据元素（部位、偏侧性、行为、组织学和等级）方面的有效性，这些数据来自大约375K份癌症病理报告的数据集。我们不仅证明了HiSAN在所有五个任务中都达到了最佳的准确性和宏观F分数，而且它的运行速度比类似的分层深度学习方法快了一个数量级以上。此外，我们还展示了HiSAN独特的架构如何使每份病理报告中识别每个数据元素的特定关键字清晰可视化，以及报告中不同单词和文本片段之间的语言关系可视化。2. 背景跟踪美国人口的癌症统计数据是疾病控制和预防中心（CDC），北美中央癌症登记协会（NAACCR），美国癌症协会（ACS）和国家癌症研究所（NCI）的重要优先事项。这些统计数据有助于为癌症研究、资助和立法提供信息，识别某些癌症类型的风险人群，并分析早期检测和治疗进展的影响。NCI的SEER计划维护美国各地的癌症登记，收集、存储和管理癌症发病率和生存数据，覆盖约 34.6% 的美国人口（https://seer.cancer.gov/about/overview.html）;详细的癌症特征，如解剖部位和组织学，通常以癌症病理报告的形式记录。由于手动解析癌症病理报告是一项需要专业知识的时间密集型任务，因此病理报告IR的自动化工具可以显著减轻人类注释者的负担。传统上，用于病理报告的大多数自动分类系统依赖于基于规则的方法[7- 13]或非深度学习 ML 方法，例如朴素贝叶斯，逻辑回归，Adaboost，支持向量机和条件随机场[14-19]。这些方法通常依赖于手工设计的特征或特定n-gram单词短语的外观来识别关键数据元素。这些方法有明显的弱点-手工设计的特征可能是脆弱的，当文档不遵守预定规则时会失败，而n-gram特征无法解释跨越短文本窗口的任何潜在重要的语言模式[20，21]。近年来，许多自动化的NLP解决方案已经转向使用深度学习，因为深度学习方法已经被证明在广泛的NLP任务中击败了传统的ML方法[22]。深度学习方法的一个重要好处是，它们能够直接从文本中学习自己的显著特征，而不需要任何人类工程学;此外，与利用n-gram特征的方法不同，许多深度学习架构可以在长时间的文本中识别相关的语言模式。此外，深度学习方法通常将文本表示为单词嵌入向量，以向量格式捕获单词的语义内容[23]。由于单词嵌入表示可以捕获语言意义和单词相似性，因此当应用于包含模型从未见过的新词的文档时，最近的研究表明，深度学习方法在各种临床NLP任务中的表现优于传统的ML和基于规则的方法[24，25]。卷积神经网络（CNN）是一种流行的NLP深度学习架构，已被有效地应用于医学文本分析[24，26];这些网络利用滑动窗口在文档中移动并一次分析一定数量的单词。与利用基于n-gram的特征的传统ML模型一样，CNN的一个明显弱点是它们无法捕获语言模式超出了一个小窗口，通常是3人们试图通过堆叠多个卷积层来增加接收场来减轻这一弱点[27];然而，一项比较研究表明，这些较深的网络通常无法超越较浅的网络[28]。递归神经网络（RNN）是NLP和医学文本分析的另一种流行的深度学习架构[29，30]。RNN被设计用于处理顺序数据。它们一次处理一个单词序列，在每个单词处，RNN考虑序列中所有先前单词的信息。与CNN不同，RNN可以在很长的文本序列中找到语言模式。然而，由于与文本序列中每个单词相关的操作依赖于所有先前的单词，因此与CNN相比，RNN非常慢，并且也很难并行化[31]。RNN的计算复杂度与给定序列的长度呈多项式关系;因此，虽然基于RNN的方法对于较短的文本文档（如Yelp评论）可能是易于处理的，但对于较长的多页文本文档（如病理报告），它们可能会非常慢。在我们以前的工作中，我们分析了层次注意力网络（HAN）[32]的有效性，这是一种基于RNN的架构，在从病理报告中识别癌症部位和组织学等级的有效性上，发现HAN击败了CNN和传统的ML方法用于一小部分1000份病理学报告[33]。然而，我们也发现HAN的训练速度非常慢，需要每个报告的处理时间接近一秒自我注意力是深度学习社区中相对较新的发展，在各种NLP任务中取得了最先进的性能，包括机器翻译[34]和问答[35]。基于自我注意的方法利用神经注意机制（在下面的部分中详细讨论），该机制在文本序列中找到不同单词之间的语言关系。这些方法是两全其美的--像RNN一样，自我注意力可以在很长的文本序列中找到语言模式，像CNN一样，自我注意力运行速度很快。基于注意力的架构的另一个主要好处是它们易于解释和可视化-神经注意力机制的输出直接告诉用户模型正在使用哪些单词来做出决定。在这项工作中，我们介绍了HiSAN，它利用了类似于HAN的分层架构，但用自注意力取代了计算成本高的RNN层。我们将以前的实验从两个分类任务扩展到五个分类任务，并在更大的病理报告数据集上进行测试我们表明，HiSAN不仅可以实现比HAN更好的准确性和宏观F分数，而且训练速度快10倍以上。3. 材料和方法3.1. 数据集详细信息我们的完整数据集包括2018年5月根据机构审查委员会方案DOE000152从路易斯安那州肿瘤登记处获得的374，899份癌症病理学报告。这些报告涵盖了2004年至2018年路易斯安那州居民中的所有类型的癌症。每份报告都包括元数据，例如报告日期和唯一的患者ID，以及分析癌症肿瘤的病理学家每份病理学报告包括一个唯一的肿瘤ID，用于识别与该报告相关的特定肿瘤;多份报告可能与同一肿瘤ID相关。路易斯安那州癌症登记中心为我们提供了与每个唯一肿瘤ID相关的五个关键数据元素（部位、偏侧性、行为、组织学和分级）的真实标签这些由人类专家基于与该肿瘤ID相关的所有病理学报告以及该特定肿瘤的其他可用数据（包括临床记录）手动注释有《医药卫生信息公开》101（2019）101726S. Gao，etal.3总共有70个可能的部位标签、7个偏侧性标签、4个行为标签、516个组织学标签和9个等级标签;标签描述和每个标签的发生次数可参见我们的补充信息（ SI ） A 部分，更详细的信息可参见 SEER 编码手册（https://seer.cancer.gov/tools/codingmanuals/）。为了模拟一个真实的生产环境，在这个环境中，一个在旧的现有报告上训练过的分类器必须预测新传入报告的标签，我们将数据集分为训练集、验证集和测试集。由于同一肿瘤ID可能随时间推移有多个病理报告与之相关，因此我们设计了分割，以防止来自同一肿瘤ID的报告在训练集、验证集和测试集之间分割。因此，我们首先按肿瘤ID对所有病理报告进行分组;属于同一肿瘤ID的每份病理报告均分配与该肿瘤ID相关的最早报告的日期-如果2017年撰写的报告属于2012年首次撰写的肿瘤ID，则可能分配2012年的日期。我们将2016年及之后的所有报告分离到我们的测试集中;从2004年至2015年的剩余报告中，我们随机选择80%用于我们的训练集，并将其他20%用于我们的验证集（确保来自相同肿瘤ID的报告不会在训练集和验证集之间分开）。这将产生一个包含236，519个报告的训练集、一个包含59，241个报告的验证集和一个包含78，856个报告的测试集。3.1.1. 数据清洗每份原始病理学报告均以XML格式提供给我们，其中包括元数据和文本字段。对于每份报告，我们丢弃了元数据字段，如患者ID和注册ID，并保留了所有文本字段，如临床病史和正式诊断。然后，我们对所有单词进行降序，将任何unicode字符转换为相应的字符串，并删除任何连续的标点符号（例如，一个接一个的多个周期被单个周期取代）。任何在整个语料库中出现少于五次的独特单词都被替换为“unknown_word”标记。我们应用了几个文本修改和替换步骤来标准化病理学报告。这些包括将用于识别癌症（例如乳腺癌）中的癌症部位的所有时钟-时间参考标准化为数字1 - 12后跟字符串“oclock”的格式。此外，为了减少词汇表空间，我们将所有小数转换为“decimal“单词标记，将所有大于100的整数转换为“large_integer“单词标记。SI第B节中列出了其他次要文本修改和替换步骤。清理后，病理报告的平均长度为633个标记。与HAN一样，HiSAN首先将一个长文档分解为较小的语言片段，例如单个句子。一般来说，病理学报告不会自然地分解为感-相反，大多数病理学报告列出了相关事实，并在-Fig. 1.分层自我注意力网络（HiSAN）。临床文本分类因此，我们提出了新的HiSAN架构，它更适合于癌症病理报告的分类我们的HiSAN结构如图1所示。HiSAN的每个组件将在以下小节中详细讨论。3.2.1. Self-attention自我注意机制将嵌入序列与自身进行比较，以找到序列中条目之间的关系。给定一个嵌入序列E∈nl×d，其中l是序列的长度，d是嵌入维数，一个基本的自注意机制生成一个新的序列S∈nl×d，其中每个条目s i是原始序列中所有条目e i的加权平均。直观地说，每个新条目si应该在其中捕获来自原始序列中的所有条目ei的与该条目最相关的信息：排成一行因此，我们将每个文档拆分为更小的Self-Attention（E）=softmax（EE）E（一）基于每个病理报告中出现的自然换行符的分段。不幸的是，并非所有病理报告都使用换行符来分隔信息-'<'。因此，在通过换行符分割病理学报告之后，如果任何行长于50个单词，则我们基于标点符号和符号的精选列表进一步分割它，所述标点符号和符号的精选列表基于我们对用于在我们的语料库中逐项列出列表的字符的观察;这些符号在SI部分B中提供。分成行后，病理报告平均有70行，每行平均8.5个标记。3.2. 层次自注意网络HiSAN的架构类似于分层卷积注意力网络（HCAN）[36]，这是我们之前为情感分析和一般文本分类任务开发的架构。在我们的实验中，我们发现HCAN中使用的几个组件可以提高一般文本（如Yelp和Amazon评论）的性能，但在应用时会降低性能为了改善这种基本的自我注意，我们不是直接将E与其自身进行比较，而是使用函数从E中提取三组不同的特征：（1）Q和（2）K，这是有助于找到序列中条目之间重要关系的特征，以及（3）V，这是用于生成新输出序列的特征。这允许在序列中的条目之间进行更有表现力的比较。某些特征在查找单词关系时非常有用，例如识别生物医学术语在病理报告中如何相互对应，这些特征在Q和K中被捕获。另一方面，某些特征对于最终分类任务更有用，这些特征在V中被捕获。我们在同一个输入序列上使用三个位置前馈操作E∈L×d 生成Q∈λl×d，K∈λl×d，V∈λl×d。我们的立场-明智的前馈操作等效于具有一个字的窗口大小的1D卷积《医药卫生信息公开》101（2019）101726S. Gao，etal.4DDD图二. HiSAN中使用的注意力机制类型Q=ELU（Conv1D（E，Wq）+bq）K=ELU（Conv1D（E，Wk）+bk）V=ELU（Conv1D（E，Wv）+bv）QKT目标关注：多头自注意（Q，K，V）=[头1，（四）Self-Attentionn（Q，K，V）=softmaxV（二）多头目标-注意力（S）[头，，头]1在上面的等式中，E是字/行em的原始序列其中，头i=目标注意力（Si）（五）beddings和Wq、Wk、Wv、bq、bk和bv是与用于创建每个新的Q、K和V表示的1D卷积相关联的权重和偏置。我们将点积QKT缩放为：因为已经发现，当嵌入D的维数尺寸变得非常大时，它可以提高性能[34]。我们对自我注意力的实现如图2左边的两个图所示. 二、3.2.2. 目标注意出于分类的目的，所有序列（无论长度如何）都必须表示为一个固定长度的向量，以便它可以被馈送到同一个softmax分类层。我们的目标注意力机制将序列S∈N1×d中的每个条目与学习的目标向量T∈N1×d进行比较，该目标向量表示给定当前任务要查找的信息。T被随机初始化，然后在训练过程中通过反向传播学习; S中与T更相似的条目将被分配更高的重要性，反之亦然。目标注意力机制的输出是一个固定的向量O∈N1×d，它是S中条目的加权平均值，并根据给定任务从最关键的条目中捕获信息。我们的目标注意力机制使用与自我注意力机制类似的操作：联系我们在上面的等式中，我们将Q、K、V和S嵌入中的每一个分割成h个子嵌入，使得{Q i，K i，V i，S i}∈{l×d/h}。然后，每组子嵌入被馈送到其自己的自我注意或目标注意函数中。最后的输出是来自各个注意力函数的输出head i的级联，导致输出序列S输出∈101×d用于多头自注意力，O输出∈101×d用于多头目标注意力。这种方法的一个关键好处是，与其他技术（如添加额外的卷积滤波器）不同，多头注意力增加了模型的可扩展性，而不会增加可训练模型权重的数量。3.2.4.层次结构自我注意会发现序列中条目之间的关系，而不管它们在序列中相距多远。这意味着，无论两个单词出现在文档中的哪个位置，自我注意力仍然可以识别这两个单词之间的相同关系。为了充分利用这一功能，我们使用了一种类似于我们之前使用HAN [33]的分层结构-对于任何给定的病理学报告，我们首先将报告分割成单独的行，然后在处理整个报告之前单独处理每行。这迫使自我注意力机制首先找到局部关系找出最重要的单词目标-注意力（S）=softmaxS（三）在试图找到单词之间的全局关系之前，在不同的线路上。这使得HiSAN能够更好地专注于单词，我们对目标注意力的实现如图3最右边的图所示。二、3.2.3. 多头注意在自我注意和目标注意中，注意操作计算一组注意权重，用于计算词嵌入的加权平均值;然后将这些注意权重应用于词嵌入的所有维度dVaswani等人发现，可以通过使用h个并行注意机制来提高性能，每个注意机制都关注嵌入维度d的不同部分[34]。因此，嵌入维度的不同部分可以使用不同的权重进行组合-这捕获了更复杂的关系，因为不同的语义概念通常被捕获在嵌入维度d的不同子部分中[37]。我们在自我关注的实现中应用了同样的原则，对给定的分类任务最重要的词的关系我们的HiSAN使用两个层次结构。对于病理报告中的每一行，“词“层次结构基于该行中最重要的词嵌入来构造表示该行的内容的行嵌入。然后，“行“层次结构基于由“词“层次结构生成的最重要的行嵌入来构造表示整个病理报告的内容的文档嵌入。这个最终文档嵌入然后用于分类。HiSAN中的每个层次结构都由元素级前馈操作组成，用于创建自注意中使用的Q，K和V向量，多头自注意机制用于查找嵌入之间的重要关系，以及多头目标注意机制，用于构建最终输出嵌入表示。在我们之前对HAN的研究中，我们发现分层结构显著提高了病理《医药卫生信息公开》101（2019）101726S. Gao，etal.5DD=报道在我们的实验中，我们测试了HiSAN的相同层次结构的有效性。3.2.5. 正则化深度学习模型容易过度拟合;因此，我们利用dropout来正则化我们的网络。我们以两种方式应用dropout首先，我们丢弃每个层次中使用的10%的字和行嵌入;这种类型的丢弃在其他NLP应用中已经被证明是有效的[38]。其次，我们从所有自我和目标注意力机制（在每个多头注意力内）中丢弃10%的输出，如下所示：⎛⎛QKT ⎞⎞– 三个并行卷积滤波器，一次处理3、4和5个单词，每个滤波器有300个滤波器，然后是整个文档的maxpooling操作。HAN最初由Yang等人于2016年开发，用于感测分析[32]。在2018年之前，我们发现HAN在识别癌症病理报告中的部位和等级方面击败了文本CNN和非深度学习方法[33]-我们认为HAN是目前识别癌症病理报告中关键数据元素的最先进方法对于我们的HAN，我们使用与我们之前的论文中使用的相同的超参数-除了CNN和HAN之外，我们还与非Self-Attention（Q，K，V）=dropoutsoftmax dropoutsoftv⎝⎝ ⎠ ⎠目标注意力（S）dropout（六）（七）HiSAN的分层版本，我们称之为自注意力网络（SAN），以表明分层结构的使用确实提高了性能。对于我们的SAN和HiSAN，我们使用一个DI-在我们的位置明智的饲料，512的d和8头h的mension大小⎝⎝ ⎠ ⎠在softmax函数之后生成的归一化相似性矩阵中丢弃随机单词，通过防止注意力机制总是学习不同单词之间的相同关系来减少过拟合，从而迫使注意力机制探索新的潜在单词关系。我们发现，利用这两种形式的dropout提高了HiSAN在所有五个分类任务中的性能。4. 结果我们的实验包括比较HiSAN在五个关键数据元素中分类癌症病理报告– 网站，偏侧性，行为，组织学和等级-对其他流行的文本分类方法。我们比较的方法在准确性，宏观F-分数，和速度。4.1. 基线、超参数和设置详细信息我们将HiSAN的性能与常用的医学文本数据的传统ML和深度学习算法以及先前应用于医学文本分类的其他深度学习架构进行了比较。所有基线模型和HiSAN的超参数都在2004年至2015年的报告中进行了单独的双重交叉验证设置，其中包括训练和验证数据，但不包括用于报告最终结果的测试数据;这样做是为了扩大用于超参数调整的数据集大小，以便找到更强大的超参数。对于非深度学习方法，我们使用TF-IDF unigrams和bigrams作为特征与朴素贝叶斯（NB）和逻辑回归（LR）进行比较;由于我们的大数据集有1375 K文档，特征空间的10780 K唯一的一元和二元组，其他ap-诸如支持向量机和随机森林之类的方法在存储器和/或时间方面过于昂贵我们在验证集上调整了LR的超参数对于深度学习方法，我们比较了两种流行的文本分类架构，这些架构以前曾在癌症病理报告中进行过基准测试-在我们之前的工作HAN [33]中，我们发现没有分层结构的RNN不仅在准确性和病理报告分类的宏观F分数方面比HAN表现得更差，而且需要更长的时间来训练。因此，这些已从我们的研究中排除。单词级CNN基于Kim在2014年开发的句子分类架构[39]。2017年，Qiu等人表明，当从癌症病理报告中分类部位和等级时，类似的架构优于非深度学习方法[24]。对于我们的文本CNN，我们使用与Qiu指定的超参数类似的前向、多头自注意和多头目标注意操作用于除行为之外的所有任务，行为使用256用于D。对于我们的深度学习方法，我们使用流行的Word2Vec算法为词汇表中的每个单词生成单词嵌入[40]。我们使用300的维度大小、5个单词的窗口大小和连续词袋算法在我们的整个病理学报告语料库上训练我们的Word2Vec嵌入。这些单词嵌入在训练过程中被设置为可学习的参数，以便每个单词嵌入可以进一步调整，以最大限度地提高我们分类任务的性能。所有非深度学习方法都是使用Python中的scikit-learn包实现的;这些方法都是在训练集上拟合的，并在测试集上进行评估。所有深度学习模型都是使用Python中的Tensor TensorFlow包实现的;这些模型都是使用批量大小为64的训练集和Adam优化器进行训练的[41]学习率1 E-4，beta1 0.9，beta2 0.99。在每个epoch之后，在验证集上评估准确性;当验证准确性连续5个epoch未能提高时，训练停止。对于每个深度学习模型，我们保存具有最高验证精度的历元之后的模型参数，并使用这些参数在测试集上进行评估。4.2. 评估指标这些分类任务中的许多具有极端的类别不平衡-病理报告在可能的类别之间分布非常不均匀。特别是，对于组织学，有超过500种可能的类别，但这些组织学中的许多类别的实例少于100个（参见SI部分A，了解每个类别的实例直方图）。因此，我们使用两个不同的指标来评估每种分类方法的性能-总体准确性和宏观F分数。我们注意到，在像我们这样的分类任务中，每个报告都被分配到一个类别，准确性与微观F分数相同。在每个任务中，总体准确率只是衡量测试集中正确分类的报告的百分比。这个指标不会因为分类器在人口较少的类上表现不佳而不成比例地惩罚分类器。另一方面，宏观F分数更大程度上取决于分类器在不太流行的类上的表现。直观的，宏观的F-分数衡量每个班级内的分类器性能，然后在所有班级中平均此性能;因此，在罕见班级中表现良好与在普通班级中表现良好同样重要。虽然准确性衡量分类器的整体表现，但宏观F分数更好地捕捉了分类器识别不经常看到的案例的能力，这在现实世界中非常重要。宏F分数的数学实现描述如下：《医药卫生信息公开》101（2019）101726S. Gao，etal.6精密度c=真阳性c真阳性c+假阳性c表2现场测试集准确度和宏观F评分（95%置信区间）召回c=真阳性c真阳性c+假阴性c和组织学任务，使用减少的数据集，其中从15个最常见的癌症部位的病例被删除。F1评分c=2×精度c×召回率c精确度c+召回率c1N宏观F1评分=n∑F1评分c（8）其中n是给定分类任务中可能的类的总数，c是特定类。对于准确度和宏观F分数，我们通过从测试集中引导样本来建立每个指标的95%置信区间-我们的程序在SI第B节中描述。我们使用这些置信区间来建立以下差异之间的统计显著性：不同方法的性能。我们还衡量培训所有分类器的推理时间同一台机器使用四个Intel Xeon E5-2695 v4 CPU和一个Tesla P100GPU。4.3. 实验结果即使与HAN相比，HiSAN在所有五项任务中也实现了最高的准确性和宏观F-分数（表1）。HiSAN的性能对于宏F分数尤其明显，这表明HiSAN方法在用很少的示例准确分类案例方面要好得多。这对于实际应用很重要，因为某些癌症类型或组织学可能相对罕见，但仍然需要准确识别。为了进一步验证分类器之间性能差异的统计意义，我们在每对分类器的测试集预测之间执行McNemar测试[42]。我们的结果显示在SI部分D，并确认HiSAN的性能是与所有其他类别的分类器相比，fication任务。我们在SI的C部分中显示了每个分类器在每个分类任务中按类别划分的F -分数。HiSAN在大多数课程中取得了最好的F-分数，特别是对于最流行的课程;然而，当HiSAN不是最佳表现者时，它仍然是该组中表现最好的课程之一。在代表性严重不足的类别（<总样本的1%）中，分类器表现最好的一致性较低。我们还注意到，某些类别可能比其他类别更容易识别-例如，在现场任务中，所有分类器在识别C60（阴茎）方面远远优于C48（腹膜后腔和腹膜）或C57（其他和未指定的女性器官），即使它们各自具有相似数量的训练样本（总样本的0.13 - 0.18%）。人工检查显示，某些癌症的语言与所有其他癌症非常不同，使它们更容易识别，表1上图：每个分类任务的测试集准确度和宏观F分数（95%置信区间）。下图：每种分类方法的训练和推理时间（以秒为单位）;深度学习方法的训练时间显示为每个epoch的时间×要收敛的epoch数。网站侧差行为组织学级ACC宏观ACC宏观ACC宏观ACC宏观ACC宏观NB66.8111.7480.4832.5091.1126.6846.281.5451.4826.78（66.35，66.89）（11.65，11.85）（80.23，80.70）（32.40，32.65）（90.96，91.28）（26.44、27.00）（46.09，46.66）(1.48（见第1.56段）（50.98，51.59）（26.49，26.80）LR88.1456.6288.4343.2696.1282.0772.8324.4366.5960.72（88.09，88.48）（56.21，57.93）（88.35，88.72）（42.97，45.10）（95.94，96.17）（78.07，82.83）（72.64，73.17）（24.00，25.42）（66.52，67.08）（59.35，63.80）CNN89.4456.4489.0547.8996.4474.9975.3923.5069.9768.72（89.27，89.63）（55.59，57.10）（88.87，89.24）（46.88，48.87）（96.32，96.55）（72.63，77.28）（75.16，75.66）（23.41，24.87）（69.71，70.26）（66.41，70.76）韩89.8561.1989.0247.6996.5480.3175.6826.8271.1074.03（89.67，90.02）（60.38，61.85）（88.83，89.20）（46.59，48.71）（96.43，96.64）（77.79，82.67）（75.44，75.91）（26.80，28.30）（70.85，71.36）（72.79，75.03）San89.1459.5788.8749.6296.3882.2174.0726.0967.5969.15（88.96，89.32）（58.79，60.93）（88.67，89.05）（48.58，50.57）（96.27，96.49）（79.81，84.31）（73.79，74.32）（26.03，27.50）（67.29，67.86）（67.44，70.53）HiSAN90.1762.7089.3448.8396.7082.9476.1529.8671.3374.05拆分/10个代币（89.99，90.36）（61.74，63.43）（89.16，89.53）（48.83，50.78）（96.59，96.80）（80.41，85.07）（75.91，76.41）（29.69，31.46）（71.05，71.61）（72.71，75.09）HiSAN分割/线90.3763.3689.3549.9996.7184.0276.2230.2371.5974.30（90.21，90.54）（62.30，64.07）（89.16，89.53）（49.08，51.01）（96.61，96.82）（81.64，86.07）（75.97，76.45）（30.13，31.84）（71.34，71.86）（73.03，75.33）拆分/10个代币HiSAN分割/线3.16 E +3× 9 epochs 3.14 E +3× 6 epochs 3.13 E +3× 7 epochs 3.17 E +3× 10 epochs3.14E+3× 10个epoch4.52E−1C=I网站组织学ACC宏观ACC宏观NB42.0215.1932.210.74（40.35，41.87）（14.61，15.23）（31.92，33.30）(0.69，0.80）LR72.2457.8265.6925.26（70.94，72.30）（55.68，58.12）（64.73，66.19）（23.73，26.00）CNN73.1056.6367.5320.69（72.37，73.72）（55.47，57.61）（66.84，68.25）（20.41，22.37）韩72.8157.3068.9022.93（72.12，73.50）（56.20，58.17）（68.23，69.61）（22.63，24.81）列车时间（s）网站侧差行为组织学级64个文档的平均预测时间NB1.415E+13.29 E +02.45E+07.94E+13.38E+04.61E−3LR2.01E+32.82E+21.56E+21.33E+44.32E+23.59E−3CNN1.06E+3× 13个epoch1.06E+3× 8 epoch1.05E+3× 9 epoch1.06E+3× 14个epoch1.06E+3× 13个epoch1.01E−1韩5.11E+4× 5 epochs5.04E+4× 4 epochs5.00E+4× 5 epoch5.08E+4× 7 epoch5.05E+4× 7 epoch4.69 E +0San1.28E+3× 20个epoch1.27E+3× 11个epoch1.27E+3× 15个epoch1.28E+3× 19个epoch1.28E+3× 18个epoch1.52E−1《医药卫生信息公开》101（2019）101726S. Gao，etal.7而某些癌症组有明显的语言重叠，使它们更难区分;这将在第节中进一步研究。5.1和5.2。在表2中，我们使用简化的数据集对网站和组织学任务进行了实验，其中我们删除了15个最常见的癌症网站的所有报告。我们保持与原始数据集相同的训练/验证/测试分割;这导致38，580个训练样本，9714个验证样本和11，600个测试样本。使用这个减少的数据集，HiSAN和其他分类器之间的性能差异更加清晰-这表明当可用于训练的样本较少时，HiSAN能够更好地处理类不平衡。HiSAN在所有任务中的准确性和宏观F-分数方面都优于SAN，这表明利用将长文档分解为较小块的结构化结构有助于模型更好地定位对分类至关重要的文本段，特别是在组织学和等级等更困难的任务这与我们以前对HAN的研究结果一致– 专门设计用于处理序列数据（如RNN和自我注意力）的神经架构可以在长文本段上定位重要的语言关系，但当这些序列太长时，这些架构无法定位或保留关键信息。通过将长文档（如病理报告）分解为较短的片段（如单独的行），我们可以利用RNN或自我注意的优势，而信息损失要少得多。我们在HiSAN中测试了两种分层拆分版本，一种将病理学报告拆分为每个10个标记的块，另一种通过换行符拆分病理学报告（如我们的数据清理部分所述）。我们看到，虽然两个版本的性能都明显优于SAN，但基于换行符的拆分性能略好-这是有道理的，因为在大多数情况下，换行符反映了原作者如何组织病理报告中的信息。在本文的其余部分，对HiSAN的引用将指按行拆分的HiSAN。在时间方面，与CNN相比，HiSAN的训练时间大约长2-3倍，推理时间长5倍（表1和图2）。 3）。相对于HAN，HiSAN在HAN完成单个epoch之前完成训练，并且HiSAN的预测速度比HAN快10倍以上我们注意到，我们的自我注意力的实现没有利用位置嵌入。就其本身而言，自我注意力并不区分输入序列中单词的顺序;因此，许多基于自我注意力的架构的实现利用位置嵌入来捕获关于单词顺序的信息[43，44]。然而，我们发现，在HiSAN中添加位置嵌入并不能始终如一地提高我们任务的性能（SI部分G）。此外，我们发现，从HCAN[36]中添加额外的架构组件（旨在捕获更复杂的语言关系）会降低HiSAN在病理学上的性能图三.验证准确性与现场分类任务的时间。报告分类（SI部分G）。我们预计这是因为癌症病理报告中的相关词的百分比对于我们给定的任务非常低-只有少数临床概念对识别特定标签有用。因此，与对简短的Yelp评论进行情感分析[36]的任务相比，词序和由额外的架构组件（如par-attention机制）捕获的更复杂的语言特征对于我们的分类任务来说不那么重要。在我们的主要实验中，我们用一个“unknown_word”标记替换了罕见的单词（在语料库中出现少于五次在SI部分H中，我们还展示了HiSAN的性能，其中所有可能的单词都包含在单词嵌入词汇表矩阵中。包括所有单词在组织学任务中的表现略有提高然而，包含所有词汇会降低所有其他任务的表现。5. 讨论5.1. 误差分析如我们的数据集详细信息部分所述，重要的是要注意，我们的地面真值标签是在肿瘤级别而不是在报告级别因此，如果报告是针对继发性或转移性部位，则肿瘤水平标签可能不适用于特定报告为了更好地了解HiSAN如

下载后可阅读完整内容，剩余1页未读，立即下载