智能远程医疗诊断系统：多模态机器学习，深度学习，远程服务，预测诊断，患者问题

187 浏览量更新于2024-01-09 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁23（2021）100513基于患者医疗问题和结构化症状的智能多模态远程医疗诊断系统Hossam Farisa，b，Maria Habib b，*，Mohammad Farisb，Haya Elayan b，Alaa Alomari ba约旦大学阿卜杜拉二世国王信息技术学院，11942，约旦bAltibbi（altibbi.com），安曼，约旦A R T I C L EI N FO保留字：阿尔蒂比多模态诊断机器学习自然语言处理深度学习文档嵌入TF-IDF特征提取数字医疗远程医疗远程医疗计算机辅助诊断阿拉伯语MENAA B S T R A C T与健康相关的数字数据的大量增加彻底改变了机器学习算法的能力，以产生更显著的信息。数字健康数据由各种信息组成，包括诊断，治疗和药物。诊断是由医疗保健代理人提供的用于改善患者健康的基本服务。然而，诊断错误导致不正确地治疗患者或在不适当的时间对他们造成伤害。计算机辅助诊断系统是帮助临床医生做出正确诊断的智能方法。通过减轻临床认知错误的可能性来做出决策。本文提出了一种智能诊断决策支持系统的一部分，远程医疗1平台服务于中东和北非（MENA）地区。拟议的系统利用了由Altibbi公司策划的庞大的健康相关数据集，其中包括以阿拉伯语的不同方言编写的许多非结构化患者问题，并构建了由全科医生（GP）确定的症状。该系统包含基于两种模式训练的机器学习模型的融合：患者的症状和医疗问题。各种特征表示技术（即，统计和字嵌入）和机器学习分类器，包括逻辑回归（LR）、随机森林（RF）、随机梯度下降分类器（SGD分类器）和多层感知器（MLP）分类器的变体，已经被用于实验。这两种模式的组合的输出显示出有前途的预测能力的分类准确率，这是84.9%。所获得的结果表明，该模型在预测诊断可能的病人的情况下，根据给定的症状和病人的问题，从而可以帮助医生做出正确的决定的潜力1. 介绍数字医疗和健康信息学通过更好的医疗协调、患者参与和改进的诊断显著改变了患者鉴别诊断是在多种疾病交叉时，根据症状确定病因的过程众所周知，当案件是检测罕见的疾病时，这是非常复杂的。同时，疾病的早期发现可能会对患者的健康产生巨大影响。世界卫生组织（WHO）报告称，在高收入国家，每年约有5%的成年人遇到诊断错误[1]，而Mahumud等人。[2]近850，000名诊断发达国家每年都报告错误。管理这样的临床诊断不确定性引起问题，特别是对于经验不足的医师或临床医生。通过计算技术实现诊断过程自动化是在线远程医疗平台的一个重要目标。自动化计算机辅助诊断系统的好处是使临床诊断实时提供给所有人，节省医生和患者的精力和时间。诊断决策支持系统（DDSS）为临床医生提供准确的信息来解决问题。DDSS对提高靶向诊断的准确性以及改善治疗和患者相关决策具有相当大的影响。DDSS可以分为基于知识的，非基于知识的，或它们的混合[3，4]。* 通讯作者。电子邮件地址：hossam. ju.edu.jo（H.Faris），maria. altibbi.com（M. 哈比卜），穆罕默德.法里斯@ altibbi.com（M。 Faris），haya. altibbi.com（H.Elayan），alaa. altibbi.com（A.Alomari）。1世界卫生组织对远程医疗的定义是通过增加获得护理和医疗信息的机会来改善患者的治疗效果。”https://doi.org/10.1016/j.imu.2021.100513接收日期：2020年11月16日;接收日期：2021年1月3日;接受日期：2021年1月3日2021年1月12日在线提供2352-9148/©2021的作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuH. Faris等人医学信息学解锁23（2021）1005132基于知识的DDSS集成了一组规则，在文献中被称为解决条件的最佳实践。然而，非基于知识的系统不包含预定义的规则集，而是使用机器学习算法从大量先前定义的案例中推断出这些规则。相反，混合模型集成了来自医学科学中的预定义知识以及来自医学经验的学习知识的信息。误诊问题被认为是临床医生认知错误的结果，统计数据显示，四分之三的诊断错误归因于认知偏差和临床推理的缺陷[5]。由人工智能技术驱动的DDSS被认为是最好的方法，包括认知经验和医学知识，以产生更好的患者健康相关决策[6]。人工智能是通过机器模仿人类的自然智能的科学分支，其中机器可以通过利用元学习技术（例如机器学习方法）在没有人类干预的情况下思考和推断知识。开发这种智能诊断模型对于减少临床错误至关重要，对于帮助临床医生在正确的时间做出正确的决定至关重要。然而，构建高效的诊断系统需要大量相关数据的可用性来训练和部署它们。临床和数字健康平台是以各种格式（包括文本、听觉或视觉）呈现的临床原始数据的丰富资源。处理文本临床数据需要能够预处理和分析这些数据的特殊方法。自然语言处理技术可以处理和处理文本数据，以便生成捕获隐藏的关系模式学习到的功能将部署到学习算法以产生有意义的知识。临床自然语言处理分析由包括诊断和治疗在内的不同信息组成的医疗或临床报告，对这些报告进行处理以推断出这些有用的知识，从而帮助临床医生做出决策。本文的目的是通过提出一个智能模型来帮助医生和临床医生在诊断过程中做出正确的决策，从而实现诊断过程的自动化。该模型的计划是帮助中东和北非地区讲阿拉伯语的临床医生。阿拉伯语环境中的自然语言处理并不简单，因为阿拉伯语是形态和语音上最复杂的语言之一此外，阿拉伯语有不同的形式，包括辩证阿拉伯语和现代标准阿拉伯语，其中辩证阿拉伯语在国家之间存在差异，尽管拼写和写作风格不同。此外，在阿拉伯语背景下工作的主要挑战之一是缺乏临床和医疗数据集，特别是在多方言的情况。然而，在本文中，Altibbi被用作案例研究，收集数据Altibbi2是一款知名的数字在中东和北非建立了一个保健平台，在该地区提供远程医疗服务。它拥有超过200万个文档化的咨询，所有临床记录都存储在其数据库中。Altibbi的主要目标之一是开发一个计算机辅助DDSS，以帮助他们的临床医生和医生在诊断过程中，减少潜在的错误，并使该过程实时可用，这也是本文的主要灵感和目标。依靠他们的远程医疗服务，他们策划了10，000多个结构化症状和4，000多个诊断，以建立这样一个智能诊断工具。通常，策划数据是需要预先处理和分析的文本数据，这是构建可部署人工智能模型的基本步骤。图1说明了问题及其背后的动机。本文通过以下方式解决了识别可能的诊断的问题：实现基于机器学习算法的多模态分类方法。该模型预计将提供不同的优势;首先，在早期2 https://www.altibbi.com/。这是具有挑战性的，因为在开始阶段的症状要么是模糊的，要么是重叠的[7]。第二，整合重要信息如患者的病史或过敏的能力第三，帮助将临床记录映射到基于国际疾病分类（ICD）的相应诊断中，这是已知的繁琐且容易出错[8]。所提出的分类模型是多模态的融合。因此，它结合了来自多个来源的各种信息，这些信息在数据、特征、分数或决策级别上起到互补作用。集成来自多个模态的数据可以提高学习算法的效率。例如，为了识别一个人的情绪;机器学习模型在整合来自面部表情、语音、行为和生理或大脑信号的数据时可以表现得更好[9]。所提出的基于多模态的机器学习系统依赖于两种模态：患者问题和由GP识别的症状。在该系统中，为每种模态开发了两个独立的机器学习模型，然后将模型的结果结合起来进行最终预测。患者的问题是由文本矢量化技术，代表文本的文字数值。这些技术包括词频-逆文档频率“TF-IDF“和散列向量化器，它们主要是语法特征。此外，嵌入模型（例如，Doc2vec嵌入），它提取文档的语义。然而，症状的数据是由ICD-10代码表示的结构化数据，该ICD-10代码由GP针对每次医疗咨询进行标记。映射到他们的正确诊断的咨询制定为一个多类分类，其中一个对休息（OVR）的方法是利用。OVR是一种启发式算法，基于二进制的机器学习算法能够处理多类分类问题不同的机器学习分类器已被用于实验，并基于每种模态进行独立比较。所使用的分类器是LR、RF、SGD分类器和MLP分类器，这些分类器将在本文后面讨论。两个模型的最终输出使用不同的方案组合;排名，求和和乘法。该模型的准确性，推理和加载时间，以及大小的评估分类模型。所提出的诊断模型的分类结果显示出可喜的结果，获得了84.9%的准确率。拟议办法的主要贡献是：开发基于两种模式融合的诊断决策支持系统：结构化临床信息和非结构化自由文本咨询。开发一个系统，可以服务于多方言阿拉伯语的背景下，这是非常复杂和具有挑战性的。随后，将所提出的系统部署到数字健康平台（Altibbi）中;以帮助Altibbi的医生有效地进行诊断过程并做出正确的决策。本文件其余部分按以下各节组织。第二部分：基于机器和深度学习的鉴别诊断系统的最新相关工作。第三部分：介绍了QSDM的方法学，包括数据收集、预处理、特征提取、QSDM的体系结构以及QSDM的评价标准。鉴于第4节：提供了实验设置、进行的实验和结果讨论。最后，第五部分：研究结果和对未来工作的建议。2. 相关作品开发基于计算的智能系统来辅助临床决策具有很大的优势，因为它们可以避免潜在的错误··H. Faris等人医学信息学解锁23（2021）1005133=Fig. 1. 描述了传统的和基于机器学习的鉴别诊断系统。左边是传统的诊断过程，它容易受到行为或临床错误甚至延迟决定的影响。而在右边，临床医生的决策由来自机器学习系统的决策支持，该机器学习系统可能是多模态系统。并产生更可靠的结果。然而，由于缺乏所需的数据集，特别是在非英语背景下，没有这样的研究，特别是诊断预测（鉴别诊断）。值得注意的是，有几项研究提出了基于计算的鉴别诊断工具（即，[10]，Uvemaster [11]，INTEGRA [12]和MED-TMA [13]）。然而，他们并不关心自然语言处理的应用。本文关注的是阿拉伯语背景下的自然语言处理，因此，本节回顾了最近与阿拉伯语和其他语言的单一或多个诊断预测相关的研究。2.1. 单一疾病不同的研究已经将人工智能技术应用于特定疾病的诊断，例如，在参考文献[14]中，自然语言处理方法用于筛查孕妇的任何自杀行为。作者使用在线平台进行分析。然而，结果并不令人满意，但作者建议使用人工智能来帮助预测自杀。在参考文献[15]中，作者提出了一种机器学习方法，用于基于从放射学报告中提取的特征预测肝细胞癌监测的放射学资源利用率。实验了几种特征表示和机器学习分类器。其中TF-IDF和SVM的准确率最高（92%）。此外，Xue等人[16]构建了一个基于决策树的模型，用于使用EHR和医学知识诊断心脏病。作者利用预训练的临床词嵌入来训练决策树算法，获得了良好的性能结果（准确率为89%）。Liu等人[17]提出了一种基于自然语言的方法处理和机器学习，用于在中文背景下从文本放射学报告中识别肝癌。作者构建了一个词典，并将提取的特征用于不同的机器学习算法（即SVM，LR和RF）。值得注意的是，所提出的模型实现了90%的f1分数Searle等人[18] 提出了一个基于机器学习的模型，用于诊断阿尔茨海默病的基础上提取的特征，从转录的自发语音。作者使用了基于频率的（TF-IDF）和分布式单词表示（DistilBert）与SVM和LR。（TF-IDF SVM）和（DistilBert LR）获得了非常相似的性能，但（DistilBert LR）获得了最好的结果（f1-评分88%）。&&&此外，Tong等人[19]提出了一种智能系统，用于在中文背景下区分溃疡性结肠炎、克罗恩病和肠结核的诊断。作者基于结肠镜图像的文本描述数据开发了该模型，其中提取的特征是TF-IDF和可训练的手套。一般来说，CNN与RF相比具有更好的性能。Küpper等人。[20]基于SVM算法和从673名青少年收集的数据，创建了一个用于检测自闭症谱系障碍的机器学习模型。即使模型取得了很好的效果，但模型的推广性不好。此外，Elaziz等人。[21]创建了一种机器学习诊断工具，用于使用胸部X射线图像诊断冠状病毒疾病（COVID-19）。利用两种进化算法对图像中提取的特征进行特征选择，并将其输入KNN分类器。所使用的数据集的大小约为1，800和1，500，即使它们的大小很小，它们也获得了96%和98%的准确度。 Fathiet等人[22]提出了一种基于神经模糊的智能方法，诊断白血病包括急性淋巴细胞白血病儿童白血病和骨髓性白血病。然而，主要的问题是缺乏数据，这降低了所提出的模型的泛化能力。此外，Chandra和Verma [23]设计了一种机器学习方法，用于使用分割的肺部胸部X射线图像检测肺炎。MLP和LR算法实现了最高的准确率，接近95%以上。然而，作者没有考虑可扩展性和模型泛化问题。然而，Aydin等人。[24]设计了一种用于儿童牙周炎诊断的机器学习方法。他们对7,244名患者使用了决策树算法，准确率达到94.69%。2.2. 多种疾病在过去的几年里，一些研究论文研究了自然语言处理和机器学习在基于电子健康记录（EHR）的诊断预测中H. Faris等人医学信息学解锁23（2021）1005134以及医疗和临床记录。例如，考虑到涉及不同数量疾病诊断的研究，Jacobson和Dalianis [25]提出了一种基于深度学习的方法，用于预测瑞典背景下的医疗感染。他们应用了不同的堆叠自动编码器和具有不同特征表示的受限玻尔兹曼机（RBM），即，Word 2 Vec和TF-IDF。在f1分数方面的最佳表现是83%，并获得了（TF-IDF RBM）。&在参考文献[26]中，作者根据ICD-9将文本医疗记录自动分类为前50个常见诊断。他们将单词和字符级别的特征表示应用到具有注意力机制的LSTM中。该模型表现不太好，但是，作者提供了潜在局限性的讨论。此外，Guo等人[27]构建了一种基于从电子病历（EMR）中提取的文本症状的疾病检测方法。提取的特征使用TF-IDF表示并馈送到双向LSTM（BiLSTM）中。当应用于重症监护医学信息市场（MIMIC-III）数据库时，该模型达到了83%的曲线下面积（AUC）。在另一篇论文中，参考文献[28]中，在法语的背景下，实施了一种基于深度学习的方法，用于基于以下内容检测健康相关感染：临床叙述一卷积神经网络 (CNN)是与其它机器学习算法（例如，支持向量机（SVM）和朴素贝叶斯（ NB ））在不同的词向量化（即， Word2Vec 、 Bag-of-Word（BOW）、TF-IDF和Glove）。CNN通过获得97%的f1分数而优于机器学习算法。此外，AtutX a等人[8]提出了一种基于深度学习的模型，用于将诊断报告分类为各自的ICD-10代码。该研究针对不同的背景进行，包括意大利语，法语和匈牙利语。采用了不同的模型（即，CNN，递归神经网络（RNN）和变压器），其中使用Word2Vec嵌入表示特征。该研究在 f1 评分方面取得了非常好的结果（意大利语（ 95% ），法语（83%），匈牙利语（96%））。此外，Nuthakki et al.[29]设计了一个基于神经他们使用Wikitext103数据集和LSTM分类器的预训练特征表示将数据分类为ICD-9标准的前10和前50个频繁类别基于前10类的分类比使用前50类的分类获得了更高的同样，在Ref。[30]，作者对临床文档进行了自动ICD-10映射使用BOW和TF-IDF并集成到SVM算法中结果表明，深度学习分类器的性能更好。此外，Kalra等人[31]实施了一种自动分类方法，用于将病理报告分类为不同的诊断。作者使用TF-IDF，其中提取的特征被馈送到线性SVM，XGBoost和LR中。研究结果显示，XGBoost分类器在f1分数方面表现最好（92%）。在另一篇论文中，Obeid etal.[32]使用急诊科提供者报告的数据实现了精神状态的自动检测方法比较了不同的模型，包括机器学习（例如， SVM、NB、RF）和深度学习（例如， CNN），以及各种特征表示(e.g.、TF-IDF，预训练Word2Vec，以及在不同维度上不可训练的Word2Vec）。深度学习模型的性能最好，准确率为94.5%。此外，Morillo等人[33]开发了一个基于机器学习的网络框架，用于诊断精神障碍。该工具接收一组症状，并根据ICD-10编码将其映射为适当的疾病。作者使用TF-IDF特征向量化器训练了K最近邻（KNN）分类器。然而，训练数据集相对较小。此外，Castellazzi等人。[34]提出了一种用于诊断阿尔茨海默系统被使用。自适应神经模糊推理系统的最高精度达到84%。此外，Poletti等人。[35]开发了一种机器学习模型，用于诊断和预测重度抑郁症和双相情感障碍的情绪障碍。所提出的模型是基于分层逻辑回归。即使使用的数据集相对较小，但该模型也可以获得97%的曲线下面积得分。此外，Fernandes等人。[36]训练了一个机器学习模型来检测精神分裂症和双相情感障碍。该模型整合了416种疾病的免疫和炎症生物标志物的多域数据。该模型的敏感性和特异性分别为71%和73%。Liu等人[37]提出了一种深度学习系统（deep CNN），用于基于16，114例病例的皮肤病鉴别诊断。它显示出识别26种皮肤状况的能力，但预测其他419种状况。该模型达到了66%的前一名准确率，而三位认证皮肤科医生的准确率为63%。此外，Oktay和Kocer [38]创建了卷积长短期记忆（LSTM），用于执行帕金森震颤和原发性震颤的差异诊断。在40名受试者身上进行测试时，结合姿势和休息姿势，准确率达到90%。Born等人[39]开发了一种基于超声的COVID-19鉴别诊断的图像. 该模型的目的是将图像分类为COVID-19，肺炎和健康病例，其准确率达到90%以上。表1列出了相关论文的摘要。总体而言，以前的研究表明，致力于实施鉴别诊断系统，以促进临床医生的决策的潜在努力同时，它们也揭示了阿拉伯语中缺乏这种系统。这意味着需要进行更多的研究，以推进中东和北非地区的临床诊断决策支持系统。3. 方法本节介绍了所进行的方法学的各个阶段，包括数据收集和预处理、问题案例的特征提取、分类模型的开发以及模型的评估。图2示出了该方法的概述。3.1. 数据收集和预处理从Altibbi收集的总数据为263，867个问题（咨询），伴有症状和诊断。症状总数为7，324，而诊断为7，410。每次咨询都伴随着多种症状和多种诊断，即使其中一些很少发生。首先，在协商中重复少于20次的诊断被删除。随后，没有诊断的咨询被取消。因此，最后就诊人数为246 814人，诊断人数为1 206人。图3显示了咨询次数与诊断次数的关系。很明显，大多数咨询都是一种诊断。同时，利用几个预处理步骤来清洗和准备预测模型的数据在症状数据的情况下，每个症状都是二元要素这反映了它是否存在于相应的问题中。诊断也是如此，每个诊断都是一个二进制值的类标签，其中1表示存在，0表示不存在。症状的数据的最终记录是多标记的各种数量的诊断。在问题的情况下，通过各种自然语言处理对问题进行预处理，包括消除非阿拉伯语短语、数字、特殊符号、变音符号、超链接、标点符号，以及去除阿拉伯语停止词和否定词。除了一些阿拉伯字符的规范化之外。所有问题都使用自然语言工具包（NLTK）中的轻型ISRI阿拉伯语词干提取器进行词干提取[40]，并由NLTK标记器进行标记H. Faris等人医学信息学解锁23（2021）1005135=×表1相关工作的总结。表1（续）参考语言目标技术应用绩效评价[14]英语放映临床486怀孕匈牙利语10（96%）孕妇预测自杀语篇分析与知识挖掘女性被诊断为阳性，[29]英语将临床笔记归入ICD-9LSTM精度=百分之八十行为系统自杀行为，其中146人证实有自杀行为。[30]英语自动ICD-10份临床文件[31]英语病理学自动分类BOW+ TF-IDF和SVM，Word2Vec+CNN和LSTMTF-IDF，SVM，XGBoost，LR准确度=72.02%F1-评分=百分之九十二[15]肝细胞癌的早期[16]英语心脏病TF-IDF，SVM精度=百分之九十二DT算法精度=百分之八十九reports into不同的诊断[32]英语自动检测方法SVM，NB，RF，CNN，Word2Vec，TF-准确度=百分之九十四点五[17]中国人SVM、LR和F1-score=精神状态IDF放射学报告[18]英语阿尔茨海默氏症的诊断TF-IDFSVM，DistilBert LRF1-评分=百分之八十八阿尔茨海默ANFIS百分之八十四疾病[19]溃疡性结肠炎和克罗恩TF-IDF，手套，CNN，RF敏感度=百分之九十九特异性=百分之九十七[35]英语预测抑郁症的情绪障碍分层LR AUC= 97%[第20话]第20话SVM算法青少年…=21 AUC=90%，青少年21[36]第三十六话病症和精神分裂症的诊断PCA，传统灵敏度=百分之七十一[21]中文冠状病毒病（COVID- 19）[22]白血病的诊断分数阶多通道E分量矩（FrMEMs）和KNN神经模糊方法（ANFIS），（ GMDH ）和主成分分析（PCA）AUC=百分之八十四两个不同数据集的准确率分别为96%和RMSE=0.0865，MSE=0.007和双相情感障碍[37]英语皮肤病的鉴别诊断[38]中文帕金森震颤与原发性震颤[39]English COVID-19的鉴别诊断推理统计深度CNN（初始-v4）深度卷积LSTMVGG，VGG-CAM，NASNetMobile特异性=百分之七十三前一名准确率=66%准确度=百分之九十准确度=百分之九十[23]英语肺炎的检测[24]阑尾炎的诊断方法有哪些MLP，LR准确度95.63%DT算法准确率94.69%3.2. 特征提取首先，从文本数据中提取特征是通过矢量化完成的。矢量化是将文本文档转换为[25]瑞典[26]英语儿童医疗保健感染的预测自动化堆叠式自动编码器和RBM Word和F1-评分=百分之八十三F1-评分=分解成数值特征向量。在文献中，已经提出了几种方法，例如TF-IDF，哈希向量化器和单词嵌入，如后续小节所述。ICD-9文本医学笔记分类[27]英语The detection of diseasesbased on textsymptoms fromEMR[28]英语健康相关感染字符级嵌入和LSTMTF-IDF和BiLSTMCNN，SVM，NB，TF-IDF，BOW，Word2Vec，53%，AUC=百分之九十AUC= 83%F1-评分=百分之九十七3.2.1. TF-IDF矢量化器TF-IDF是一种文本向量化技术，它利用加权项来更好地表示语料库中的不频繁词，并减少频繁非信息词的影响。由于不相关特征的存在会误导学习过程，降低学习效果. TF-IDF由词频（TF）和逆文档频率（IDF）的叉积（TF-IDF）定义TF IDF）。TF是项k出现的比例如等式（1）所示，在数据集中的唯一单词的数量n上。的[8]意大利语，分类手套F1得分IDF是表示频率比率法语，CNN、RNN和诊断变压器=意大利语（95%），在所有文档中的项的值（如在等式（2）中），其中dn是法语（83%），文档数，dfk是包含项k的文档数。因此，频繁单词将具有低TF-IDF得分，参考语言目标技术应用绩效评价和ICD报告-匈牙利肝癌鉴别RF百分之九十[33个]英语精神障碍的诊断KNN、TF-IDF准确度=百分之九十五点七从文本[34个]英语诊断SVM，ANN，准确度=H. Faris等人医学信息学解锁23（2021）1005136n图二. 拟议方法概览。在这方面，词嵌入是由基于预测神经的模型创建的分布式词表示。它的主要优点是能够通过更密集的矢量表示来编码语料库中单词的语义关系。因此，它是基于这样的想法出现的，即出现在相同上下文中的相似单词将具有相似的表示和高相似性分数。创建词嵌入的一个著名模型是由Google开发的Word2Vec [43]。Word2Vec使用浅层神经网络来创建嵌入，其中嵌入长度表示隐藏层的数量，这是一个待优化的超参数。Word2Vec有两种训练结构：连续词袋（CBOW）和跳格（SG）。前者采用一组上下文词，以预测目标词，而后者则使用目标词来预测上下文词。CBOW在表示频繁单词方面更有效，图三. 咨询次数与诊断次数之间的关系。反之亦然TF=nk（1）IDFlog（dn）（2）而SG模型在对非频繁词进行编码时效果更好另一方面，Doc2Vec也是Google创建的文档嵌入模型[44]。Doc2Vec模型包含单词向量和文档向量。每个文档都有一个唯一的随机初始化向量标识符，而单词的向量可能在文档之间共享。文档向量和单词向量被连接或平均，以创建最终文档的嵌入。因此，文档的嵌入可以被=2个东风K通过两种不同的训练模型学习：分布式记忆模型段落向量（PV-DM）和分布式词袋模型3.2.2. 散列向量化器哈希向量化器是一种由scikit-learn库实现的技术[41]，用于创建令牌出现的矩阵。它的一个关键特性是，生成的唯一文本标记不存储在内存中，而是通过散列映射到特殊的列索引中，其值是标记计数。哈希是通过使用MurmurHash来执行的，MurmurHash是一种非加密哈希函数[42]。对令牌进行散列提高了性能并减少了所使用的内存，特别是在处理大型数据集时。然而，散列向量化器的局限性在于该方法不能从列索引中检索原始单词。3.2.3. 文档嵌入文档嵌入是词嵌入的扩展，相反，词嵌入将每个文档表示为向量。文档可以是短文本（即，tweet，question），a paragraph，or anarticle.在这段落向量（PV-DBOW）前者类似于CBOW，它通过随机梯度下降和反向传播从上下文中预测和记忆目标。而后者类似于SG模型，它使用文档的向量来学习和分类一组单词，无论它们是否属于当前文档。3.3. 症状诊断模型（QSDM）首先，本节描述了开发QSDM方法的过程。QSDM是两种模式的融合：第一种分析症状并将其分类为四种可能的诊断。建议诊断的数量被设置为四个以匹配医生第二种是问题分类模态，其最多预测四种潜在诊断，其中最终预测取决于组合两种模态的结果。的结构H. Faris等人医学信息学解锁23（2021）1005137=（）=2∑-症状和问题模态依赖于机器学习算法，如将在以下小节中讨论的。3.3.1. Logistic回归LR是一种用于分类的统计和线性机器学习算法[41]，在医学和自然语言处理应用中很受欢迎[45，46]。它使用逻辑函数来模拟自变量和二分因变量之间的关系。逻辑函数是一个Sigmoid（S形）函数，它接受一个值并将其转换为一个类标签（参见公式其中X是要变换的输入值，e是自然数的基数。主要地，它将特征向量X=x1，x2，...，xn作为输入，其中n是特征（独立变量）的数量，并将它们分类到一组类C中c1，c2，.，c k，其中k是类的数量。MLP已成功应用于各种应用中，例如对象检测[48]，金融预测[49]，欺诈检测[50]，医疗诊断[51]和其他[52，53]。3.3.5.多类分类多类分类问题自然需要区分两个以上的类。问题在于，机器学习算法或者最初被开发为支持二进制分类（例如，LR，SVM），或者不能处理多类问题。然而，已经开发了各种方法来处理这个问题，这通常是基于将问题转化为多个二进制分类问题。这些方法是一对一（OVO）和OVR。OVO技术将问题划分为多个二进制分类，其中每对类都被认为是一个问题。因此，分类问题（CP）的总数为f x1（3）1+eXscikit-learn库中LR的实现通过以下方式进行规范化：因此，如等式（6）所示，最终输出是来自所有构造的分类器的多数投票。Nc是类的总数。这种技术的一个主要缺点是，有大量的类。默认使用各种正则化器。3.3.2. 随机森林CP= Nc×（Nc-1）（6）RF是一种集成学习方法[47]，它是产生预测的决策树分类器的集合。每个决策树都是基于从原始特征集中提取的不同特征集构建的基于所有树的预测，高投票的类被认为是最终的预测。RF算法的主要优点是能够避免过拟合并执行相对特征重要性。3.3.3. 随机梯度下降SGDClassifier是一个由scikit-learn库实现的线性分类器，它通过随机梯度下降（SGD）进行正则化和训练。SGD是一种优化算法，它调整算法的参数以最小化成本函数。损失函数的梯度每次都是针对一个随机样本计算的，并且学习率逐渐降低，这比在调整参数时考虑整个数据集的梯度下降更快。模型的输入是稀疏和密集的特征阵列，其形式为（n个样本n个特征），其中它拟合的默认模型是线性SVM（通过将损失设置为铰链）。SGDClassifier支持各种笔体，包括L1、L2和ElasticNet.3.3.4. 多层感知器MLP是一种多层人工神经网络，它由分布在一堆层上的一组神经元构成。感知器是神经网络的最简单结构，由两层（隐藏层和输出层）组成。数据从输入层流向隐藏层，然后以一个方向流向输出层。MLP是众所周知的机器学习算法，其经由神经元的非线性激活部分执行输入到输出的非线性映射。每个神经元都有权重和偏置参数，网络通过这些参数进行学习。神经网络的分层结构使它们能够在学习和反向传播信息时捕获数据中的分层隐藏表示。在训练过程中，每个神经元执行（权重w和输入I与偏置β的）求和，如等式（4）所示，其中n是输入神经元的数量。而输出（S）是由非线性函数f（x）（例如Sigmoid函数）。因此，最终输出y是由fj（Sj）得到。nSj=ωijIi+βj（4）i=1而OVR方法将问题分解为一组二元问题，其中构造的二元问题的数量等于类的数量。每个问题将一个类与其余（Nc1）个类进行分类，而最终的预测则考虑具有最好的自信结果。图 4说明了OVR技术。3.3.6. 系统架构主要地，QSDM是两个部分的融合：症状检测模型和问题模型，如图5所示。结合这两种模式的目的是通过聚合症状模型的信息特征来改善问题模型的结果。症状模型包括所有症状作为二元特征，因此，它涉及来自问题的所有独特症状的集合（其为7，324个特征）。唯一诊断是标签集（1，206），其由二进制值表示。症状数据分为80%用于训练，20% 用于测试。数据被输入各种机器学习模型，包括 LR 、RF 、SGDClassifier和MLP分类器。训练集用于建立学习模型，而测试集用于评估它们的性能。所开发的模型基于OVR方法来处理多类分类。每个模型都单独训练和测试。然而，最终的预测诊断是从这个子模型的最佳性能分类器中获得的。针对问题模型，提出了几种特征提取方法，单独使用（TF-IDF，哈希向量化器和文档嵌入），其中文档嵌入通过Doc 2 Vec实现。生成的三个数据集分别分为（80%和20%）用于训练和测试。同时，它们通过OVR被送入四个分类器。接下来，选择性能最好的分类器的结果作为问题模型的最终预测。组合两个模型的结果可以通过不同的融合标准来执行，包括乘法、排序和fj（x）=1第一章（五）+e-Sj见图4。OVR技术每个方框代表一个二元分类问题，其中彩色点代表其他类别。H. Faris等人医学信息学解锁23（2021）1005138M=[]其中通过算术加法实现融合而对于M图五. QSDM系统架构的表示。总结。换句话说，对于乘法，它采用两个模型（症状和问题）的预测概率，并在它们之间执行算术乘法，然后返回高分诊断。对于求和，也是如此argmaxPV={v|如果v>z，则<$z∈V<$zscin=v}（7）精度=1∑{f（x）=1<$x=argmax（PX）<$。xj=yj）}（8）我在排序中，选择高排序的诊断（基于最高准确度）。在排序情况下，报告了两种情况下的结果;情况一是两种模型中没有重复诊断，如果存在（情况二），则删除重复诊断，并从预测能力较高的模型中选取将两种模式（症状和问题）的结果合并在一起，以产生最终输出。3.4. 评价标准四个定量评价措施被认为是评估QSDM模型的性能，这是在不同的精度水平，模型大小，模型加载时间，和推断时间的准确性。准确度是各个诊断的总数（m）中正确诊断的比率，其由等式（7）和（8）定义。在等式（7）中，Pv表示所有诊断，其中V v1，v2，... vn，假设n等于唯一诊断的数量。在等式（8）中，y是控制器的实际诊断。而X是预测的诊断。其中（m）是考虑的诊断数，即4。P是所有诊断的概率，j是诊断指数。准确度以其精密度表示。例如，精度1的准确度意味着算法在从相应的真实诊断中检索至少一个正确诊断时的精确程度。这被称为精度_1。Precision_2表示模型找到至少两个正确诊断的能力，而Precision_3指的是找到至少三个诊断。模型大小是一个重要的度量，特别是，知道增加模型的大小（例如，增加深度学习模型中隐藏层的数量）将因此提高模型的性能。然而，这是至关重要的，因为它可能会降低在基础设施有限的情况下的功效。此外，加载时间和推理时间是指示模型在生成实时预测中的效率的两个相关度量。加载时间对应于在Web上部署模型所需的时间，而推理时间是执行预测所需的时间。H. Faris等人医学信息学解锁23（2021）1005139-√̅̅̅̅（（+））--4. 实验和结果4.1. 实验设置实验使用Python版本（3.7.3）实现。宿主机是一台运行Ubuntu-1804- bionic-64的云服务器，内存容量为64 GB，处理器为Intel(R)核心（TM）i7-7700，处理器速度为3.6 GHz，而GPU是8 GB的GeForce GTX 1080。所有算法均基于scikit-learn语言实现。关于LR算法，惩罚是L2 正则化器，并且最大迭代次数是500。对于RF，树的数量为100，基尼指数用于分割的评估，并且用于分割的特征的最大数量由fn确定，其中fn是特征的数量。在SGDClassifier的情况下，损失函数被设置为log以提供输出的概率，罚函数是l2正则化子，α 0。0001，最大迭代次数为1000次，学习率定义为1。0/α * t的t0 ，其中t0是a预定义常数，t是时间步长。MLP分类器的设置是基于scikit-learn库的默认设置。其中，激活基于Relu函数，优化器是Adam，学习率是常数（0.001），最大迭代次数是200，隐藏层大小实验为10，20，30和40，此后性能不再提高。对于文档嵌入，实验是根据Keras深度学习框架[54]实现的，该框架构建在TensorFlow 2.0 [55]之上。使用Doc2Vec模型，其最大时期数为50，嵌入维数为500，学习率为0.025，窗口大小为3。Doc 2 Vec的训练结构基于分布式内存模型（PV-DM）。4.2. 基于模态的结果关于问题模块，本小节提供了不同特征提取方法的分类器之间的比较，包括TF-IDF向量化器、散列向量化器和文档嵌入。表2给出了基于TF-IDF矢量化器的四种算法在准确度方面的性能。从表中可以清楚地看出，当正确预测至少一个诊断（由Precision_1表示）时，所有算法都获得了更好的结果。从表中可以看出，LR算法是获得的性能最好的分类器（46.7%）。MLP（10）实现了45.2%的非常好的准确性，即使与LR相比略有下降。MLP（20） MLP（30例）分别为44.0%、41.4%。然而，SGD分类器的性能最低（33.5%）。关于预测至少两个正确诊断的情况（Pre- cision_2），LR表现最好（40.4%），然后是MLP（10）和MLP（20），分别为38.9%，38%）。类似地，在预测至少三个正确诊断（Precision_3）时，L

下载后可阅读完整内容，剩余1页未读，立即下载