没有合适的资源?快使用搜索试试~ 我知道了~
不放射治疗中基于AI的应用的质量保证Mich ae€lClaessens,Msc,y,1CarmenSellerOria,Msc,z,1CharlotteL. Brouwer,PhD,zBenjamin P. Ziemer,PhD,xJessica E.Scholey博士xHui Lin博士xAlon Witztum博士xOlivierMorin博士xIssam El Naqa博士#和Dirk Verellen博士y人工智能(AI)在放射治疗(RT)领域的最新进展及其与现代软件系统的集成,对医学物理专家提出了新的挑战。这些AI算法通常是数据驱动的,可能会不断发展,并且由于训练数据中的固有噪声和算法中使用的大量参数,它们的行为具有一定程度的(可接受的)不确定性这些特征要求采用适应性和新的全面质量保证(QA)方法,以保证人工智能算法开发期间的个体患者治疗质量以及临床RT环境中的后续部署然而,基于AI的系统的QA是一个新兴领域,尚未被深入探索,需要医生、医学物理专家和商业/研究AI机构之间的交互式合作本文总结了RT中每个子域的AI模块的当前QA方法,并进一步关注持续存在的缺点和即将到来的关键挑战和前景。Semin Radiat Oncol 32:421−431 ©2022作者。爱思唯尔公司出版这是一CC BY-NC-ND 许 可 下 的 开 放 获 取 文 章 ( http://creativecommons.org/licenses/by-nc-nd/4.0/)介绍放射治疗(RT)工作流程是一个复杂的过程,包括多个耗时的步骤,对治疗质量的影响,因此,y比利时安特卫普大学医学与健康科学学院放射肿瘤学系z荷兰格罗宁根大学格罗宁根大学医学中心放射肿瘤学系x加利福尼亚大学旧金山分校放射肿瘤学系。Mof fittCancer Center,Tampa,FL机器学习系#放射肿瘤学系(Maastro),GROW肿瘤学学院,马斯特里赫特大学医学中心,荷兰马斯特里赫特。利益冲突:作者没有利益冲突资金来源:Mich a€elClaessens获得比利时佛兰芒抗癌联盟(FlemishLeague Against Cancer,Belgium)的资助,编号:000019356。Carmen Seller Oria得到了荷兰癌症协会(KWF研究项目11518)的资助,名为“INCONTROL-质子治疗的临床控制基础设施”。地址转载请求MichaelClaessens,医学和健康科学学院,放射肿瘤学系,铱网络,安特卫普大学,比利时,Wilrijk(安特卫普),比利时。电子邮件:michael. uantwerpen.be[1]两位作者对这项工作的贡献相当结果。 由于患者数据和计算能力的指数增长,RT社区对应用机器学习(ML)和深度学习(DL)技术来支持工作流程的兴趣越来越大。1,2鉴于医学物理专家作为临床环境和新技术之间桥梁的独特作用,他们很可能是实施这些自动化系统的主要前沿,以提高效率、质量、标准化和加速工作流程,从而实现更安全和准确的辐射管理。3尽管在开发创新ML/ DL算法方面做出了巨大努力4.为了确保人工智能(AI)模型以高度一致性和准确性满足临床预期,需要采取适当的质量保证(QA)措施,彻底测试可能导致不准确结果的任何条件。5具体而言,在RT中,基于AI的系统的QA程序与众所周知的非基于AI的系统的QA相比具有独特的方面,在非基于AI的系统中,传统的过程评估,测量和审查(任务组(TG)-40,TG-100,MPPG#5.a等)变得不那么合适了。这种困难源于AI的独特性质,即系统行为来自临床训练数据,https://doi.org/10.1016/j.semradonc.2022.06.0111053-4296/© 2022作者。爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)421422M. Claessens等人而不是人类专家的逻辑设计。因此,基于AI的应用程序可能会导致训练的模型并不总是具有正确的物理或方法实现,而是更多地具有现象学模型预测和输出。这阻碍了用户,对他们的表现有(非常)有限的控制。因此,用于非基于AI的系统的常规QA技术可能并不总是对基于AI的应用有效。与此同时,这导致对高质量和可解释的AI系统的需求不断增加。因此,为理解和解决高质量人工智能系统中固有的困难医学物理学的不同学会已经认识到这一点,他们最近发布了一份详细的医学物理学人工智能清单(CLAMP)。9这篇文章是一份名为放射治疗”。在本文中,我们深入了解了RT工作流程不同领域(自动分割,自动图像配准,自动规划,合成成像,自动患者特异性和机器QA)的基于AI的系统的当前最先进技术此外,还将深入讨论其余的挑战基于AI的系统任何基于AI的应用程序的成功临床使用都依赖于QA工具的附带工作流程,以验证AI输出在特定病例和常规基础上的适用性,如图1所示。病例特定QA是指验证为每个患者或机器生成的基于AI的应用程序的输出的所有检查当QA结果令人满意时,输出可用于RT工作流程的以下步骤(图中的绿色箭头)。①的人。当特定情况的QA检查失败时,输出将进行第二次验证(图1中的红色箭头)。根据应用程序的不同,可以通过多种方式监控模型输出的质量。目前,对输出的人的监督,结合定量/定性测量,被视为最重要的工具之一。对于某些应用程序,可以使用独立的辅助算法来对性能进行基准测试。此外,可以利用自动案例特定QA方法来突出不同的行为。当在案例特定QA期间检测到过于频繁的故障时,执行常规QA以确定是否需要重新调试部署的模型。常规QA致力于定期监督AI模型的有效性,旨在监测临床工作流程变更(例如,软件更新等)后模型的输出是否10为此,应在参考测试数据集上完成定期的端到端性能测试。当常规QA测试不符合预期时,可能需要重新调试模型(见图1)。应在调试阶段后创建用于常规QA的数据集,其中包含当前图1通用自适应RT工作流程(橙色框)以及不同阶段的基于AI的应用程序(蓝色框)。每个基于AI的应用程序的输出都受到由特定案例和常规QA组成的QA工作流程的约束。(彩图可于网上查阅。)放射肿瘤学423临床实践,应结合定量和定性的方式进行分析。基于AI的自动分割的QA目标和危险器官(OAR)的准确分割是RT治疗计划的起点(见图1)。这些分割通常由医生或有经验的计划者手动执行,这使得其成为一项耗时的任务,在RT机构内和跨RT机构具有高度的观察者内和观察者间变异性11-13为了解决这些问题,最近引入了DL自动分割算法,以提高该过程的一致性和效率。[14]关于RT领域中解剖区域的当前ML/DL架构的概述,我们参考了现有文献[15]、[16]以及Savjani等人在本期中的贡献。尽管这些方法已经达到专家描绘的准确性,但是个体患者解剖可能与模型训练不同,例如解剖变异、肺叶切除术、组织的手术切除、硬件/支架的存在等,并且成像采集协议可以在不同中心和时间上这可能会导致分割错误,范围从轻微(例如,边界缺失)到主要(例如,缺失切片)几何偏差。此外,用于评估性能的定量指标可能对重大偏差不敏感,因此系统误差可能无法检测到。因此,在临床常规中调试和实施后,应按患者和常规对其输出质量进行审查。病例特异性QA自动分割应用程序的每个输出都应进行审查,如果需要,在第二次验证期间进行纠正(图1)。 1),并在临床使用前获得批准。 该过程取决于用户,可能存在偏差和劳动密集型,可能会遗漏重大错误。13当校正自动轮廓的时间接近从头开始轮廓的时间时,AI模型的可用性可能会受到质疑。为了解决这些问题,已经构建了几种数据驱动的方法,目的是提前检测异常的自动分割,即自动化检查。首先,建立了统计模型来检测轮廓中的异常对于每个OAR,可以根据先前批准的RT计划计算轮廓的不同2D或3D体积特征的组合 有关功能的概述,请参阅。通过观察特征概率分布,系统报告描绘异常。近年来,也研究了用于自动分割的基于ML的QA基于每个感兴趣区域(ROI)的各个特征,可以训练决策树以分类给定自动分割输入的几何形状。19除了只考虑轮廓的几何属性(质心、体积和形状),相邻结构的空间关系以及患者之间个体轮廓的解剖相似性也可以用作训练输入。这样,模型应该能够描述每个结构的结构间质心和体积变化以及20,21未来的方法可以使用辅助算法来预先标记内部训练模型的劣质自动分割。这种方法要求两种算法是独立的,假设它们会以不同的方式偏离[15]偏差可以用定量测量来表征(例如,骰子相似系数、豪斯多夫距离等)。 在2个分割之间,并用作分类模型的输入。22,23对于这些常见评估指标的可用性限制,我们参考。10使用DL方法进行自动分割的QA,这仍然是一个新兴领域。一项研究使用卷积神经网络模型,该模型基于2D CT图像计算相应的2D概率图和不确定性图,这些图又是ResNet模型的输入,以预测地面实况和自动分割之间的Dice相似性系数得分。24.另一种方法可以是通过应用蒙特卡罗丢弃和高斯分布来创建空间概率图。25在自适应RT工作流程中,可以通过使用剂量分布和潜在正常组织并发症概率关注临床相关感兴趣区域来指导26常规模型QA临床成像采集协议可能会发生变化,例如CT/磁共振成像(MRI)协议或扫描仪、患者定位、视野、输入序列或所考虑的固定设备的因此,应将使用新工作流程获取的患者图像分割添加到参考集中,作为上市后监督的一部分,以定期监测模型的稳健性。在此阶段,定量和定性验证是适当的,应结合使用。10为了分析分割模型的鲁棒性和机构间通用性,还可以使用具有专家手动轮廓的精心策划的CT图像的基准数据集。这些是公开的,由多个机构的图像组成,具有不同的CT协议。27为了帮助评价多ROI分割的配准和自动分割,开发了用于比较自动分割ROI与参考手动分割ROI的开源软件。这种(例如,TaCTICS)平台提供了提交的和参考的手动分割ROI的定量和定性比较,以向用户提供关于其模型在目标体积和OAR上的性能的反馈。[28]这种方法可以与图灵测试相结合,其目标是计算机和人类之间的反应变得难以区分,放射肿瘤学家29特定QA挑战基于DL的分割目前提供很少的解释能力来理解在分割预测期间如何以及哪些特征影响训练的网络。这424M. Claessens等人阻碍了完全理解和识别不准确分割背后的原因在泛化能力的背景推测的原因可能是患者/成像或描绘指南解释的局部差异。30区分内在轮廓变化性和模型失效具有挑战性26,需要更多关于模型各种不确定性分量的信息(更多信息请参考Van den Bergh等人在本期中的贡献)。有了这个,可以定义器官特异性公差(mm),其中专家可以调整自动轮廓,并考虑观察者内和观察者间的变化,提供接受自动轮廓的指导。31基于AI的图像配准QA图像配准能够将不同的图像参考转换到共同的坐标系中,合并来自不同时间点或图像模态的解剖信息。32它在RT工作流程的不同阶段发挥关键作用,例如分割、自适应治疗计划、患者定位、每日剂量评估、轮廓传播和剂量累积。32,33在医学成像领域,34,35以及RT工作流程的背景下,已经开发了几种基于AI的刚性和可变形图像配准系统。36-40RT中的大多数DL图像配准方法设计用于通过监督和非监督学习在锥形束CT(CBCT)和CT或MRI和CT图像之间进行可变形图像配准。后一种方法正日益受到关注,因为要配准的图像中的地面实况并非总是可用。四十一、四十二病例特异性QA图像配准误差可能源于缺乏清晰的解剖标志、输入图像中的伪影、解剖变化、DL模型以及输出图像的误用33图像配准的准确性可以使用显示图像融合的可视化工具进行定性确认和验证。然而,尚未定义在图1所示的QA工作流程中评估几何和剂量测定准确度的准确和有效确认。43由于难以定义地面实况,因此在特定病例水平上对图像配准进行量化验证具有挑战性。43尽管如此,最近的研究提出了基于DL的QA系统,该系统输出图像配准准确性指标,具有对图像配准执行自动化病例特定QA的潜力。这种监督DL模型是用配准图像对结合变形向量场和/或地面真实器官轮廓来训练的44-49常规QAAAPM任务组132提出了非AI图像配准临床部署所需的QA程序指南33用于图像配准系统的调试,配准的定量验证可以通过计算目标配准误差、平均一致距离、骰子相似系数、雅可比行列式和一致性来实现精确度。独立于配准算法的评估度量也可以应用于基于DL的图像配准的调试过程。对于非基于AI的图像配准,几何和拟人幻影可以用于常规QA。50然而,对于基于AI的图像配准,只有拟人幻影才是合适的,因为模型是用患者图像训练的。在拟人幻影和患者之间的AI输出中仍然可能存在重大差异,因此出于常规QA目的,可能需要特定QA挑战鉴于基于DL的图像配准应用是一个新兴领域,基于AI的图像配准的常规或案例特定QA尚未得到广泛探索。此外,文献表明,仍然需要建立QA工具,以便将传统图像配准算法可靠地实施到临床工作流程中。三十三、四十三、五十一、五十二关于基于AI的图像配准,应特别注意用于监督学习模型的训练数据的质量在进一步的步骤中,基于与已建立的常规配准方法的二次比较的附加QA方法可以帮助监测基于AI的图像配准算法的基于AI的自动规划QA治疗计划的三维剂量分布的各种定量细节对患者治疗结果具有实质性影响,并且可能因个体患者手动处置计划创建是耗时的过程,其中通常需要由处置计划者手动确定逆计划优化目标参数。该过程通常需要多次迭代优化以实现临床上可接受的治疗计划。然而,由于治疗计划是一个优化问题,因此永远不能保证实现最优计划。53人工智能的发展导致软件应用程序减少了治疗计划过程中的人为干预和工作量,并提高了整体治疗计划质量的一致性,并通过某些定义明确的指标进行量化。 有关自动化治疗计划的当前模型和方法的详细概述,请参阅。53-55基 于 知 识 的 计 划 ( KBP ) 是 指 使 用 先 前 知 识(即,先前优化的计划)来预测新患者的治疗计划或剂量的任何方法。为了将其从开发到采用有效整合到常规临床使用中,应遵循从“台式”开发到临床“床边”部署的持续信任建立每个步骤放射肿瘤学425旨在描述模型和部署限制,并在进入下一个验证阶段之前接受或解决这些限制。[56]临床实施的这一阶段在TG-308中进行了广泛讨论。这种方法还需要对输出进行高效、精简的QA,6如图1所示。治疗计划过程中的许多方面TG-53)。自动计划创建或KBP决策支持工具的引入需要额外的QA层,以验证支持工具的正确功能、针对疾病表现创建的治疗计划的最佳性6病例特异性QA已开发基于规则的治疗计划质量保证方法,以在最终批准前提高一致性和效率。57,58这些支持系统的主要缺点是难以处理以前没有遇到过的疾病表现或管理临床实践的变化。6 , 58为了解决这些问题,已经开发了基于KBP和AI的计划预测,其可以用作自动化临床计划的独立基准。53利用可实现的DVH的先验知识,自动估计目标DVH目标,可以作为治疗计划QA工具。59 , 60然而,这些方法无法提供患者特异性可实现剂量分布的任何合理估计。即使DVH数据库模型改善了OAR保留,61在双盲计划选择策略中,使用KBP模型创建的计划优于手动计划,62其中剂量测定师没有特定的空间指导来照射目标。 这可能导致计划具有可接受的DVH目标,但在某些特定的临床关注区域中的剂量分布不可接受。最近,自动化3D剂量图预测或剂量分布图预测技术已经被广泛地应用。可以使用在描述患者几何形状的图像上训练的DL方法和手动优化的剂量分布或剂量图来实现图生成。55与上述相关的先前工作相比,该KBP系统不仅可以提供DVH目标的估计,而且还可以向规划者提供关于剂量分布可以改善的体素级反馈。对于体系结构的完整概述,我们参考.55其他方法是贝叶斯网络,其使用放射肿瘤学本体来开发具有历史临床数据的条件概率表这种贝叶斯网络应用通过评估给定的一组计划参数在给定一些初始诊断信息的情况下的概率来确定计划的适用性。然而,构建处理全方位患者特异性诊断数据的概率表将需要无数记录和大量工作来处理无数的癌症表现。此外,当在开发环境之外使用该模型时,由于RT实践的差异,该模型的 性 能 显 著 恶 化 。64常规QA与自动分割模型类似,KBP模型的输出应定期以特定的测试集为基准,其中包含具有一系列复杂性的计划。65自动计划评价的目标是分析模型是否能够使用定性和/或定量测量成功处理临床数据中的几何和剂量变化。66KBP模型创建的治疗计划和临床批准的计划之间的差异可能是由于治疗计划系统中实施的模型的限制或治疗计划交付的不确定性,包括与治疗单元以及患者设置、分次内运动和个体患者疾病表现的变化相关的不确定性。这些差异的大小和影响取决于创建KBP模型时使用的治疗计划的复杂性。因此,当在专门的QA工作流程中评估计划质量时,需要考虑所有这些特征(图1)。①的人。此外,任何新的治疗病例应仅输入到使用相似病例(即,相似部位、病变肿块、附近OARS等)训练的KBP模型中。错误地使用任何KBP模型都不会产生最佳结果。当标准临床工作流程发生变化时(例如,分次方案、不同技术),模型以及参考数据集应重新委托给新的工作流程。10代替完全重新训练模型以增强模型的预测能力,可以获得开环策略以逐步添加新的高质量计划来升级数据库并更好地保留解剖学变化。66-68通过实施这种迭代学习过程,可以生成捕获实际临床实践的后续模型。如果在此位置仍出现性能不佳,建议重新调试模型特定QA挑战由于新计划是基于先前计划预测的,因此使用手动优化的治疗计划的选择来训练和验证KBP模型,所述手动优化的治疗计划可能包含潜在的次优计划或计划太少而不能生成稳健的计划以涵盖患者群体的可变性。这需要在部署KBP模型之前与物理学家和剂量学家密切合作,以确保患者不会接受次优计划。输送给患者的剂量分布不仅取决于KBP预测的剂量分布,还取决于机器输送治疗计划的能力。理想情况下,KBP模型应与特定的临床结果相关联,例如病变局部控制或治疗毒性。收集和整合关于治疗计划剂量指标、计划交付的不确定性和总体计划复杂性以及医生和患者报告的结局的结构化数据对于未来基于AI的自动计划模型至关重要基于AI的合成CT的QA在RT中使用人工智能来合成大小的CT扫描以进行治疗计划的情况有了大幅增加,426M. Claessens等人CT(sCT)最常来源于MRI和CBCT。生成sCT的目的是基于原则上不适合该目的的图像执行剂量计算,这是由于缺乏组织衰减信息(在MRI的情况下)或存在截断投影、散射噪声或图像伪影(在CBCT的情况下)。69基于MRI的sCT有可能实现仅MRI RT,从而避免CT扫描采集。基于CBCT的sCT预计将参与自适应RT工作流程(见图1),提供有关患者解剖结构的更频繁信息,同时减少CT扫描采集量。对于模型架构的全面概述,我们参考了现有文献69、70以及Niu等人和Gurney-Champion等人在本期中的贡献。尽管基于AI的sCT显示出优越的图像质量,相对于通过常规方法生成的sCT,仍需要开发质量控制工具以将sCT部署到临床工作流程中。10,69,70需要质量控制工具来检测sCT中的潜在非预期特征,这些特征是由由于不同的扫描仪设置、医疗植入物或解剖异常而落在训练分布之外的图像生成的。病例特异性QA最近提出了不同的系统来评价sCT在病例特异性水平上用于剂量计算的适用性。对于基于MRI的sCT,CBCT用作sCT的质量控制工具,比较两种图像中的剂量分布和CT数量准确度。71-73在基于CBCT的sCT旨在用于自适应质子治疗工作流的情况下,质子射线照相术(也称为范围探测)已被提议作为sCT中CT数量评估的体内质量控制工具。74此外,薄膜和3D凝胶剂量测定被提议作为依赖于打印3D病例特异性体模的sCT QA测量75建议将不确定性图作为由神经网络自动生成的案例特定QA指标。它们可以检测出预期分布之外的输入图像,以及可能包含错误的输出图像。76-78此外,如果损失函数与附加项相结合,神经网络可以学习输入数据的哪些区域与高度可变的输出相关联。79常规QA应使用新的患者数据不断扩展模型,以确保使用代表当前患者人群和图像采集设置的训练数据集生成sCT。因此,需要常规质量控制程序来定期验证模型的性能,并在需要重新确认模型时进行沟通。10、70μg/ml可以帮助sCT的常规质量控制,类似于它们用于CT扫描的QA。然而,鉴于MRI和CT中的对比度要求,这种方法对于基于MRI的sCT可能具有挑战性。六十九、八十特定QA挑战尽管已经从不同的角度(基于软件、图像比较或基于测量)提出了用于合成CT验证的质量控制工具,但仍存在有待解决的挑战。许多sCT生成的可行性研究报告了小的训练数据集,这使得它们依赖于扫描仪。多中心训练可以帮助验证神经网络对不同扫描仪或图像采集设置的鲁棒性。69、70此外,还需要建立例行的质量保证程序。在静态场景中提出了特定病例的QA工具,主要是在头颈部癌症患者中,但未来的工作应考虑在呼吸运动区域验证sCT。81基于AI的患者特定QA的QA由 于 调 强 放 射 治 疗 ( IMRT ) 和 调 容 弧 形 治 疗(VMAT)治疗技术的复杂性,AAPM TG 119和218分别推荐了患者特定的QA测量程序,以确保治疗能够按预期进行。82,83目前用于患者特定QA测量的常用方法包括使用离子室、二极管阵列、薄膜和电子射野成像设备进行点剂量测量然而,这样的技术是耗时的、资源密集的,并且它们识别次优计划的能力受到质疑。八十四、八十五AI算法已被开发用于预测IMRT/ VMAT QA结果。这些模型通常提取特征,如从计划和机器相关参数导出的复杂性度量、放射组学分析和/或从剂量或剂量图导出的神经网络特征。这些特征被用作所选算法的输入。输出可分为2个研究目标。第一种方法直接预测QA结果,例如伽马通过率结果或离子室剂量不一致,而第二种方法侧重于检测和识别与输送相关的错误,并且无法通过QA指标发现。这些模型具有提供时间效率和自动化虚拟QA工具的潜力,这将显著减少RT治疗工作量。预测的输出可能有助于使治疗计划不那么复杂,并降低未来失败的概率这对于自适应RT或高优先级治疗是有利的,其中患者护理路径在时间上是有限的86然而,这些自动化工具的质量保证程序尚未得到很好的界定。病例特异性QA理解每个计划的提取的复杂性特征,并为每个计划引入超出单个预测值的额外指标,可以作为算法的案例特定QA检查如果AI模型预测高伽马通过率结果,但计划包含非常高的复杂性特征,则用户应该能够进一步研究计划,例如,放射肿瘤学427物理测量。此外,由于复杂性特征是从每个RT计划文件中提取的,因此机构可以记录各个计划特征在训练数据集中的百分比。这也可以提供洞察预测的测量结果和计划复杂性之间是否存在不匹配。此外,机构可以使用独立的3D剂量重新计算结果来补充模型预测,并调查两种方法之间结果存在偏差的计划。[88]同样的原理也可以应用于第二个自动化模型。常规模型QA在实施基于AI的患者特异性QA工作流程时,内置常规QA有2个要素。首先,模型的预测准确性应使用测量计划进行持续评估,这些计划由于其复杂性而在常规QA过程中处于确定的阈值之下。通过这种方式,常规QA将确保与基线没有偏差。第二,一个复杂程度不同的计划子集应该作为一个基准数据集.应每月重新交付这些计划,以确保一致性和稳健性。10特定QA挑战训练数据的质量通常是不完美的,2不同物理学家对同一计划的测量通常会有不同的结果(例如,设置错误等)。在 在这种情况下,数据内容需要标准化指南,多机构共享数据的努力将有助于克服数据可用性有限的问题(例如,Wahid等人在本期中所述)。 由于大多数计划都通过了传统的机构QA,因此使用机构QA结果训练的基于AI的模型可能很难预测计划中的潜在失败,因为训练数据集中缺乏失败的例子。目前的人工智能模型在识别可能发生的所有错误原因方面可能表现不佳。这些模型的灵敏度可以通过在与QA失败相关的训练数据中引入更多错误来提高。需要更好地理解计划复杂性特征如何与治疗计划系统优化相关,以便可以安装反馈机制来告知失败的确切原因。因此,人工智能模型的多重验证对于识别最突出的特征以指导治疗计划过程是必要此外,不同的研究表明,当模型在解剖区域特定的IMRT/VMAT计划上训练时,可以发现更好的QA预测。八十七,九十使用人工智能来预测患者特定的QA测量将产生临床决策支持工具(图1中的“自动化患者QA“),定义为提供知识和个人特定信息的系统,智能地填充或在适当的时间呈现,以增强医疗保健。91每个机构可以决定为预测结果设定的阈值。例如,如果AI模型可以预测二极管阵列的伽马通过率在3%以内,并且如认可机构希望继续将不可接受的计划界定为伽马合格率达90%的计划,则它们不应需要衡量任何预测合格率超过93%的计划6基于AI的机器QA直线加速器的QA遵循国际指南(TG-40/142,TG-100),定期监测设备的纵向稳定性,并识别工作流程和过程故障。其主要缺点是,这些建议的方法是劳动密集型的,耗时的,更多的意见驱动,而不是基于证据。这是除了罕见的和不可预测的事件性质,这样的问题。为了解决这些繁重的QA任务,大数据分析引起了越来越多的兴趣。然而,传统的统计方法无法应对RT大数据带来的挑战,特别是在导航大量多维测量时的大类别不平衡,相关临床数据的样本量很小在这种情况下,人工智能模块可以处理多复杂的数据,以预测潜在的故障或差异,并根据交付日志文件、剂量测量QA、束流数据或质子场构建模型。86这样,可以选择量化潜在异常值的最敏感的QA参数。关于当前AI算法的全面概述86然而,很少有人注意到这些自动化设备的质量保证病例特异性QA目前,关于基于AI的系统的QA的出版物专注于机器QA。 评估模型正确性的一种方法是与统计过程控制并行使用。92,93预先定义的控制图限值提供了确定QA测量是否稳定或不稳定的灵活性。如果测量值在控制限值内且与模型输出一致,则可认为模型稳定。在这种情况下,该过程处于统计控制状态。如果测量值超出控制限值,则可认为该过程不稳定,但模型未显示偏差。需要对超出控制限度的点进行调查(图1中红色箭头指向“第二次验证“),以确定其是否仍符合机构QA公差,或者是否需要进一步研究和分析。另一种方法是将部署的模型与另一个基于AI的QA模块进行基准测试。使用这种方法的一个要求是,两个模型都是在独立的数据上训练的(不同的机器或不同的来源,例如,电子射野成像设备图像与日志文件)。常规模型QA参考数据集可以与从所有机构机器收集的QA测量结果集成。可以获得QA结果的一系列变化,其特征在于例如设备或体模设置的差异,以这种方式,428M. Claessens等人可以监视针对实时不可避免的偏差的模型为了监控真实世界故障(例如,多叶准直器故障)的灵敏度,可以将模型的输出随时间推移与其他建立的测量方法的结果和公差94特定QA挑战人们认识到,幸运的是,RT中的错误是罕见的。然而,由于缺乏定义良好的特征,使得ML的传统二进制分类方法由于大的类不平衡而变得难以处理。因此,很难收集适当的训练数据集。此外,线性加速器检测器具有某些限制(cf像素大小),可能导致信息的重大损失。其余挑战为了从基于AI的应用程序的临床采用和附加值中获益,需要严格的病例特异性和常规QA工具来监控AI模型的输出。在最具挑战性的在线自适应RT工作流案例中,自动化的案例特定QA工具是必要的,以减少这些任务所需的大量人力资源。如表1所示,很少关注与特定病例QA程序相关的常规QA。然而,一旦建立了一个常规的QA框架来监控特定的基于AI的应用程序,这个框架就可以很容易地转移到其他基于AI的临床决策支持工具上。图1所示的RT工作流程中,用于不同基于AI的应用程序的QA工具目前处于不同的开发阶段。虽然针对基于AI的分割或治疗计划提出了许多特定病例的QA方法,但很少有关于基于AI的图像配准,sCT生成,患者QA和机器QA的QA的研究报告。不同基于AI的应用程序的QA进度不平衡可能与修改/验证输出的难度水平有关。 对于一些基于人工智能的应用程序,例如自动分割,模型的输出可以在第一时间进行解释,并手动调整以达到可接受的结果。然而,对于诸如sCT生成的其他应用,如果需要,则不能容易地解释或校正输出。阻碍人工智能临床应用的一个因素-基于应用程序的一个困难是定义AI输出的哪些质量特征是相关的,哪些不是。例如,特定病例的QA工具可能会检测到特定患者的sCT质量较差。然而,该特征可能仅在以下情况下相关:质量较差的区域靠近靶点、器官处于危险中或者接受高治疗剂量。这将触发第二次验证程序,可能得出sCT可能不适合临床使用的结论。然而,如果在不与任何上述元件重叠的区域中发现质量不足,则sCT可能仍然适合于临床使用。进一步 挑战可能 出现 以确定适当的QA工具的阈值,应将AI输出返回RT工作流程或进行第二次验证表1 RT应用程序常规QA案例特定QA1. 基于AI的自动分割的QA机构间数据集27用于自动分割ROI的比较28图灵测试29Statistical models统计模型17,18基于ML的功能19-21ML-based secondary algorithm基于ML的二次算法15,22,23基于DL的概率/不确定性图242. 基于AI的图像配准QA(*)外观检查33DL模型44-493. 基于AI的自动规划QA基准化65重新调试10模型更新67,68,70基于规则57、58基于AI的模型61,63DVH预测模型59、60盲法研究验证624. 基于AI的sCT的QA(*)重新调试10(*)中国69锥形束CT71-73质子射线照相术74胶片/凝胶剂量测定法75不确定性图76-795. 基于AI的患者特定QA的QA6. 基于AI的机器QA(*)模型预测准确性评估(*)基准数据集(*)结合来自不同机器的与其他测量方法的比较94(*)复杂性特征记录(*)与独立剂量计算的Statistical process control统计过程控制92,93(*)与另一个基于AI的QA进行RT中不同基于AI的应用程序的常规和特定案例QA系统概述一些标有(*)的QA应用程序已经提出,但尚未进行调查或开发。放射肿瘤学429(see图1)。为决策规则设置不同的阈值可能有助于在基于AI的应用程序的临床实施的启动阶段触发仔细的调查然后,在获得了与所实现的模型有关的更多经验之后,可以优化这样的一旦开发了QA工作流程,应在临床环境中对基于AI的应用程序的所有功能及其QA工作流程进行端到端测试,范围从代表性到极端场景,以确保所有元素的充分性能。极端情况可能有助于确定模型的极限。这应该允许定义正确使用基于AI的应用程序的说明,包括可以使用AI应用程序的条件的规范和要求。 应用程序的预期用途和限制应详细记录并显示给最终用户。95与模型开发人员的密切合作应该能够洞察基于人工智能的应用程序的局限性。Sourlos等人在本期提供了更多关于数据和模型方面的通信的示例。在实施基于AI的应用程序后,需要定期进行监督,以验证其在不断变化的条件下的适用性和适应性。正如Chen等人所报道的,用于医疗应用的AI模型可能具有4个月的数据相关性半衰期(取决于具体应用)。6,96临床实践或工作流程、数据标签、图像采集设置、新员工或软件更新的变更,以及软件在预期用途或范围之外的使用都是示例其中AI模型性能可能会下降。97它是避免由于过时的训练数据而中断基于AI的应用程序的临床使用的关键。为此,常规QA应评估模型对变化条件的适应性,定期更新新获取的数据,并在需要时重新训练或重新提交模型。已经提出了一些应用程序来评估条件变化对AI模型性能的影响,例如,通过将历史数据划分为与临床变化相关的时期。6通过定期监测变化,可以确定人工智能模型中的一段时间应该在过时之前重新调试。此外,重要的是要认识到临床实践中的预期变更(例如,轮廓绘制指南的变更或更新的OAR剂量限制)可能对模型的可用性产生重大影响。同样,在最极端的情况下,如果变化对于简单的模型更新来说太大,则可能需要重新训练整个模型。自动化测试可能是一种解决方案,可以帮助常规QA检查模型适应性,并通过不断增长的数据集不断更新AI模型。然而,测试自动化是一个主要的成本驱动因素,因为建立测试环境、实现和自动化测试需要大量的初始工作。6此外,当被测系统发生变化时,维护自动化测试需要付出巨大的努力。本文重点介绍用于基于AI的应用程序的QA工具,这些工具旨在自动化或减少现有任务的工作量(见图1)。其他方法可以应用人工智能来生成新的策略,目前在RT工作流程中没有类似的方法。QA工作-验证基于AI的新策略应用程序的流程可能会因潜在缺乏地面真实数据而具有挑战性。结论本文综述了RT中最常见的基于AI的系统(自动分割、图像配准、自动规划、sCT生成、患者QA和机器QA)的QA现状和挑战。其成功的临床整合依赖于在临床实践中正确使用特定病例和常规QA,旨在评估AI输出的适用性,并在检测到不满意的输出时触发后续验证或AI模型重新调试。引用1. El Naqa I,Das S:机器和深度学习在现代医学物理学中的作用。医学物理47,2020(5):e125−62. Brouwer CL,Dinkla AM,Vandewinckele L等人:放射肿瘤学中的机器学习应用:当前使用和支持临床实施的需求。PhysImaging Radiat Oncol 16:144-148,20203. Cui S,Tseng HH,Pakela J,et al:Introduction to machine anddeeplearningfor medical physicians. 医 学 物 理 47 ( 5 ) : e127-e147,20204. Magrabi F,Ammenwerth E,McNair JB等:临床决策支持中的人工智能:评估人工智能的挑战和实际意义。Yearb MedInform 28(1):128-134,20195. WiensJ,Saria S,Sendak M等人:Do no harm:A roadmap forresponsiblemachine learning for health care。Nat Med 25(9):1337-1340,20196. KaletAM,Luk SMH,Phillips MH:放射治疗质量保证任务和工具:机器学习的许多角色。Med Phys 47(5):e168-e177,20207. BalagurunathanY,Mitchell R,El Naqa I:医疗背景下人工智能的要求和可靠性。物理医学83:72-78,20218. Jia X,Ren L,Cai J:人工智能技术的临床应用将需要可解释的人工智能模型。医学物理47(1):1-4,20209. 王文,王文,等:医学物理学中的人工智能. 医学物理48:4711-4714,202110. Vandewinckele L,Claessens M,Dinkla A等人:放射治疗中基于人工智能的应用概述:实施和质量保证建议。Radiother Oncol 153:55-66,202011. BrouwerCL、Steenbakkers RJHM、van den Heuvel E等人:头颈部危险器官描绘的3D变异。Radiat Oncol 7:32,201212. vander Veen J,Gulyban A,Nuyts S:头颈部癌症靶体积描述的观察者间差异。 Radiother Oncol 137:9-15,201913. Apolle R,Appold S,Bijl HP,et al:头颈癌和肺癌适应性治疗期间靶勾画的观察者间变异性增加。肿瘤学学报58(10):1378-1385,201914. vander Veen J,Willems S,Deschuymer S,et al:深度学习对头颈癌中危险器官描绘的好处。 RadiotherOncol 138:68-74,201915. CardenasCE,Yang J,Anderson BM,et al:Advances in auto-segment
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功