没有合适的资源?快使用搜索试试~ 我知道了~
⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 6(2020)151www.elsevier.com/locate/icte分类学习在肿瘤学临床诊断和治疗建议中的实践考虑弗拉维奥·S放大图片作者:Correa da Silvaa, b.Costac,b,Antonio F.Iemmad,ba巴西圣保罗大学计算机科学系,05508090bAutem Medical,Bedford,NH 03110,USAc肿瘤学中心,巴西Libanes医院01308050d巴西圣保罗大学精密科学系,邮编:13418900接收日期:2019年12月31日;接收日期:2020年3月15日;接受日期:2020年3月16日2020年3月21日网上发售摘要本文综述了机器学习与医学之间的关系,以评估机器学习在诊断和治疗建议方面的实际应用潜力。在此建立的考虑特别适用于肿瘤学,其中早期诊断对于治疗的成功尤为重要,治疗通常基于化疗和放疗,而化疗和放疗具有有害的副作用。c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:医学机器学习;监督学习;人工智能1. 介绍人工智能(AI)和医学有着长期的关系,可能始于MYCIN治疗建议的开发[1]。医学为人工智能提供了临床诊断方面的挑战性问题(给定一组症状,选择最佳诊断)和治疗建议(给出诊断,选择最佳治疗计划)。反过来,人工智能为解决医学问题提供了有前途的技术[2]。肿瘤学特别适合AI [3,4],因为如果早期发现,癌症可以得到最有效的治疗,但肿瘤学中的症状在早期阶段很难识别,因此早期诊断的技术是受欢迎的;癌症治疗通常基于化疗和/或放疗,这具有严重的副作用,因此可以优化治疗计划以最大限度地减少副作用并提供创新疗法疗效的明确证据的技术是受欢迎的。人工智能在医学中的实际应用更多地发生在支持信息的管理中,而不是直接支持医疗保健专业人员的活动:通讯作者:大学计算机科学系 圣保罗,05508090,巴西。电子邮件地址:fcs@usp.br(F.S.Correa da Silva)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.03.004医生们已经通过知识表示和处理系统以及自动化诊断程序来增强了他们的能力,以处理大数据集,但是自动化诊断和治疗建议直到最近才开始随着学术研究而转移[5]。对这一观察结果的可能解释是,药物受到美国食品和药物管理局、欧洲药品管理局和欧洲经济区CE标志法规等组织和规范的严格监管。这些组织所要求的质量保证和透明度水平是昂贵和耗时的;并且用于自动诊断和治疗建议的新方法和技术的经验验证需要临床试验,这些临床试验是昂贵的,劳动力和时间消耗的,经常超出学术倡议的范围。近年来,医学中的人工智能已经转向机器学习(ML)[6],基于ML与其他技术相比可以提供更小的主观性的主张,因为领域知识和专业知识被基于统计的数据分析所取代。然而,领域建模仍然是ML的核心,特别是当可解释性是这是一项强有力的要求,就像在医药领域一样,监管组织和规范对透明度提出了要求。此外,临床2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。∈∈∈∈⊆152F.S. Correa da Silva,F.P.Costa和A.F.Iemma/ICT Express 6(2020)151试验突显了控制样本复杂性的必要性(换句话说,从保持尽可能小的样本中提取尽可能多的信息以训练学习算法),这导致了对知识获取的需求,以用于适当的领域建模,作为构建在实践中可以相关的系统的本文的两个主要目标是:(1)消除ML可能在重要性上超越专家知识的不现实预期,以及(2)提供证据证明AI直接支持医疗保健专业人员的活动是可行的。第2节概述了建立诊断和治疗建议系统的方法,特别关注肿瘤学、结构和功能。以这样的方式进行测试,即领域知识的相关性已澄清。第3节描述了样本复杂性的下限,给出了医学专家提供的真实数据的预期精度和可靠性要求。所获得的界限确定了临床试验中采用的样本量的保守要求。最后,第4节提出了讨论和结论。2. 学习、诊断和治疗建议临床诊断可以被视为基于患者旅程的一系列步骤:(1) 病人P来看医生。医生基于(a)专家知识和(b)参考群体P的默认选择来选择体征S,使得P。(2) 给定符号S,医生建立关于p的诊断的初步假设D。专家知识和参考群体确定诊断的精确度和可靠性的未知但已定义的上限,对应于最佳可用诊断(地面实况)。(3) D是根据风险排名,基于(a)证据的强度和(b)相应疾病的严重程度按照秩诱导的顺序,对于每个d D(a),另一组符号Sd′(b)医生尽可能地进行检查,在Sd′的表面上。(4) 医生为最终诊断进行融合。使用监督分类学习的步骤1至3的自动化可以表征如下(图1)。 1)、(1)给定患者 p∈P, 选择符号SFig. 1. 程序-诊断。符号集Sd′是根据已知的基因和参考人群选择的。(5) F或eac hSd′,给定Sd′之间的相关性,以及相应的 假设。(6) 从P中选择适当基数的样本考虑到可以确保经验分类器和最佳可用诊断之间的足够相似性的诊断的所需精度和可靠性。(7) 采用适当基数的样本P_n和符号集S和S_d′,d,D.(8) 决策程序支持医疗诊断。治疗建议也可以被视为步骤:(1) 患者p具有先前识别的最可能的诊断。医生选择一组测试T来选择治疗计划,基于专家知识和参考群体P的默认选择,使得P P。(2) 给定T的结果,医生为p构建治疗计划。该计划可以包含IF-THEN规则形式的附加决策点。(3) 根据属性、经验和参考人群的观察结果评估治疗。使该过程自动化的一般步骤可以如下所示(图1)。(2):(1) 给定参考群体P,患者p∈ P 和corre-(2) Oracle从一个神谕数据库中检索到的。一个oracle是一个对集合,其中响应最可能的诊断d,替代治疗计划ti∈T, 其中,T是一组计划,根据Si是在p<$i∈ P<$i中观察到的符号,di是诊断符号。 P的基数必须足够大,以确保对p的诊断的适当精度和可靠性,这对应于经验分类器和最佳可用诊断之间的足够相似性。(3) 符号和假设之间的相关性的特点是wrt功能,最好的捕捉如何决策程序可以优化。在机器学习和统计学术语中,这些函数是内核[7]。选择合适的内核是基于对相关性的检查以及关于用于构建学习模型的方法和技术的专家知识。核的选择决定了一个上界经验分类器的精确性和可靠性(4) 假设D基于OP检验、所选核和S来构建和排序。对于每个假设d∈D,第二个以前的知识。排名基于相关性分析不同方案及其相应的有效性,这是建立使用适当的基数样本PP,这样就可以保证精度和可靠性, 关于治疗计划的最佳信息。在肿瘤学中,由于某些类型的肿瘤死亡率很高,这些经验性结果可以基于相对较少的病例,而这些病例又被详细描述(2)排名最高的疗法应用于p。临床诊断和治疗建议的这种分步表征有助于识别诊断和治疗建议的精确度和可靠性的局限性。符号集S和Sd′、治疗计划T和参考人群P的选择取决于专业医学知识。核函数的选择⃗==-联系我们≥∈ ⊤ ⊥| |联系我们∈⟨ ⟩∈我的天∈{v,. . . ,v}1ns∏|V|=∈O⟨⟩O∈O|V|F.S. Correa da Silva,F.P.Costa和A.F. Iemma/ICT Express 6(2020)151-154153表1下限为|P|g iv en,δ假定|V|150块图二、 程序-治疗建议。体征和假设之间以及诊断和治疗计划之间的差异取决于专家统计知识。这些限制是强加在最好的诊断和治疗决策。此外,用于建立最佳诊断和计划的经验估计的样本基数由下式提供的下限确定:|P|ϵ0.10.20.3δ0.14003663460.210092870.3454139分类器和最佳可用分类器,例如,如果是0。1,则在给定符号v的值的元组的情况下,经验分类器和最佳可用分类器提供相同诊断d的概率为至少90%;以及(3)δ:可靠性,即,构建精度为1/2的分类器的风险的上限。<例如,如果δ 0. 2和100。1,则存在低于20%的概率来选择使用与最佳可用分类器的不一致低于90%的任何预言机在[10]之后,可以为(ln|V|+ln2)统计分析诊断和其他方法的精确度和可靠性限值P的基数|P|≥2ϵ2δ .这个下限可以是如前所述,在标准的医疗实践中,机器学习技术在正确使用时,最多可以确保提供可证明与最佳诊断和计划相似的结果。如以下部分所述,如果我们能够获得足够大的样本,则由于样本基数而导致的决策精度和可靠性的限制3. 域表征给定一个具有符号∈S和相应诊断∈D之间相关性的总体P,我们希望确定用于构建预言机P的样本P的最小基数N,使得p1,. . . ,p NP,每个vi是对应于关于p i的观察的符号S的值的元组,并且di是对于p i wrt疾病dD的确认的诊断,其中,指示resp。证实和反驳疾病假设在符号vi的值和诊断值di之间具有高相关性。集合v1,d1,. . . v|P|,d|P|对于成对符号,所有p P的诊断可能部分不一致,相当于诊断精度和治疗计划最优性的上限(未知但确定)。这些上界表示最好的可用分类器。可以建立基于预言机的经验分类器,其可可能近似正确学习[8]扩展到处理部分不一致[9,10],可以提供P的基数的下限作为(1)的函数。 :赋值符号空间的基数。假设每个符号s S可以有一个基数为n s的有限值集,我们有,Sn s;(2)n:精度,也就是说,一个经验用于确定样本量的约束条件,例如,如果支持向量分类用于诊断,支持向量相关用于治疗建议[10]。 作为例如,假设|V|150 美元,我们有 |V|2005年 。EmplOYing该值,可以获得Pgiv环境值的估计值,表1中给出了δ和δ。为了获得低于20%的概率,即分类器将与最佳可用分类器具有高于10%的不一致性,需要访问基数为100的样本。开发了初步实验以使这些概念性结果为基础:46名患者的队列,包括晚期癌症患者和健康对照受试者,参与数据收集会话,其中血液动力学测量值收集约1小时,并且使用EORTC QLQ-C30问卷获得生活质量(Q)的自我评估(https://qol. eortc. 或g/)。一些患者参加了一个以上的会议,会议之间的间隔在两到四周内。考虑到患者之间的重复,获得了206个观察结果的样本。根据医学知识,心率变异性(HRV)被认为是血流动力学信息的主要来源,其他参数仅用于验证HRV测量结果。同样基于医学知识,采用测量的时间复杂性作为基于数据收集后超过360天阈值的生存可能性对患者进行分类的基础。使用Higuchi分形维数评估时间复杂度[11]和样本熵(E)[12]。交叉验证评估表明,在给定选定参数Q、H、E的情况下,预测高于指定阈值的生存率的精度为74%。假设样本量为206,并且在前面的段落中获得了精度界限,我们可以依赖于预测精度在区间[0. 9× 0。74.67%,1. 1× 0。74± 81%]。154F.S. Correa da Silva,F.P.Costa和A.F.Iemma/ICT Express 6(2020)151这一初步结果在实践中表征了机器学习的作用-以及相应的精度和可靠性界限-以及医学专家知识来构建诊断系统。4. 结论本文讨论了如何将分类学习系统插入到医生的活动工作流程中,以支持诊断和治疗建议。鉴于机器学习技术在医学中应用的一个重要障碍可能是大量数据的要求,这可能表明有必要建立和运行成本高昂的临床试验,因此提出了对样本复杂性估计的分析,以建立基于监督学习的训练系统的预言机,以及基于可行维度的临床试验建立预言机的建议途径。本文致力于澄清与医学智能系统开发相关的方法学问题-更具体地说,肿瘤学中的诊断和治疗建议-以避免误解,这些误解可能会误导对医学专家知识的统计学习自主性的期望。为了说明这些观点,初步的实证结果包括癌症患者的预期生存超过一个固定的,任意的阈值分类。未来的文章将致力于严格的实证验证的命题在这里列出,特别是在肿瘤学治疗计划。鉴于如本文所述,获得经验结果可能需要相当长的时间,作者认为,在进一步的经验确证之前,本文提出的概念框架可能是有用的竞合利益作者声明以下经济利益/个人关系可能被视为潜在竞争利益:作者是Autem Medical Research Lab(巴西)的合作伙伴CRediT作者贡献声明弗拉维奥·S科雷亚达席尔瓦:概念化,方法学,形式分析,写作-原始草案,写作-审查和编辑。Frederico P.Costa:概念化,资金获取。安东尼奥·F Iemma:概念化。引用[1] Edward H. Shortliffe,Stanton G. 作者声明:Bruce G. 作者声明:Thomas C.斯坦利·梅里甘科恩,一个人工智能程序,建议医生关于抗菌治疗,计算。BioMed. Res. 6(6)(1973)544[2] Niels Peek,Carlo Combi,Roque Marin,Riccardo Bellazzi,30年的人工智能医学(AIME)会议:研究主题回顾,Artiff。内特尔Med.65(1)(2015)61[3] Konstantina Kourou,Themis P Exarchos,Konstantinos P Exarchos,Michalis V Karamouzis , Dimitrios I Fotiadis , Machine learningappli-cations in cancer prognosis and prediction,Comput.结构生物技术J. 13(2015)8-17.[4] 作 者 : Henry Kaplan , Anna Berry , Kristine Rinn , Erin Ellis ,George Birch-field,Tanya Wahl,Xiaoyu Liu,Mariko Tameishi,JD. Beatty,PatriciaDawson,Vivek Mehta,Anna Holman,MaryAtwood,Shlece Alexander,Candy Bonham,Lauren Summers,IyaKhalil , Boris Hayete , DianeWuest , Wei Zheng , Yuhang Liu ,Xulong Wang , Thomas David Brown , Abstract 5299 : Machinelearning approach to personalized medicine inbreastcancer patients,Cancer Res. 78(13增补)(2018)5299。[5] 乔纳森·H放大图片作者:Steven M. Asch,机器学习和预测在医学:超越膨胀的期望,新英格兰的高峰。J. 376(26)(2017)2507.[6] Igor Kononenko,机器学习用于医疗诊断:历史,最新技术和前景,Artif。内特尔Med. 23(1)(2001)89[7] Bernhard Scholkopf,Alexander J. Smola,Learning with Kernels:Support Vector Machines , Regularization , Optimization , andBeyond,MIT Press,2001.[8] Leslie G.勇敢,一个可学习的理论,Commun。ACM 27(11)(1984)1134-1142.[9] David Haussler,神经网络和其他学习应用的PAC模型的决策理论概括,Inform。的Comput。 100(1)(1992)78[10] Mehryar Mohri,Afshin Rostamizadeh,Ameet Talwalkar,机器学习基础,麻省理工学院出版社,2012年。[11] T.张文,基于分形理论的不规则时间序列的研究,中国科 学 院 学报,20 01 ,(2):277-283。[12] 约书亚·S作者:Richard,Douglas E. Lake,J. Randall Moorman,Sampleentropy,in:Numerical Computer Methods,Part E,in:Methods inEnzymology,vol. 384,Academic Press,2004,pp.172-184。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功