自闭症谱系障碍的注意力筛查的新框架

87 浏览量更新于2023-10-13 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1181基于注意力的孤独症谱系障碍筛查施晨齐赵计算机科学与工程系，明尼苏达大学chen4595@umn.eduqzhao@cs.umn.edu摘要本文提出了一个新的框架，自动和定量筛选自闭症谱系障碍（ASD）。其目的是解决当前临床环境中的两个问题：1）临床资源不足，ASD患病率高（1。7%在美国），和2）ASD筛查的主观性。这项工作与三个独特的特点区分自己：首先，提出了一种具有特权通道的ASD筛查框架，该框架在训练过程中整合了来自两种行为通道的信息，并在测试时提高了对每种单一通道的性能。拟议的框架并不要求模式之间的主题重叠。其次，它开发了第一个计算模型，使用拍照任务对ASD患者进行分类，其中受试者在更生态的环境中自由探索他们的环境拍照揭示了受试者的注意力偏好，将患有ASD的人与健康人区分开来，并且还易于在现实世界的临床环境中实施，而不需要先进的诊断仪器。第三，这项研究首次利用了观看图像时眼动的时间信息，编码了ASD患者和健康对照者之间更详细的行为差异。实验表明，我们的ASD筛选模型可以实现优越的性能，优于以前的国家的最先进的方法由相当大的利润。此外，我们的框架使用不同的模式，证明了性能的改善，在拍照和图像查看任务，提供了一个一般的范例，在多个来源的行为数据，更准确的ASD筛查。该框架也适用于各种情况下，一对一的成对关系是难以获得跨不同的模态。1. 介绍孤独症谱系障碍（ASD）是一种遗传性、终身性神经发育障碍（NDD），具有复杂的神经系统发育障碍。病因和原因。它在全球范围内流行，在美国每59名儿童中就有一名受到影响[2]。尽管目前公认为ASD治疗的最有效临床途径由于ASD的患病率和有限的临床资源，它们并不广泛适用。此外，人类评估是主观的，往往是不一致的，也是偶发的。因此，辅助ASD筛查的自动和客观工具具有重要的临床和社会需求。视觉注意网络在大脑中普遍存在，许多NDD与对视觉刺激的非典型注意有关。例如，人们早就知道ASD患者对面部或其他社会刺激有非典型的注意力[6，7，27，28，29]。最近对自然场景刺激的研究显示，ASD患者和健康人之间存在更复杂或更细微的差异[36]。本文开发了新的计算机视觉技术，以解决ASD筛查中存在的挑战。它提出了一种新的方法，允许记录和模型的注意力与更大的生态有效性和实际可行性。此外，随着问题的复杂性，例如 ASD 内或多个 NDD 之间的相当大的异质性[24]），以及临床数据的稀缺，它强调了重要性，并提出了利用多种行为模式以及时间信息来编码准确ASD筛查所需的更详细和全面信息的方法。具体而言，我们建议将两个不同的方式与人类的视觉注意力，即。注意偏好记录从拍照任务和图像观看任务，ASD筛查。在拍照任务中，受试者在环境中自由移动，并通过拍摄照片来识别他们感兴趣的首选区域，而在图像查看任务中，受试者通过眼动跟踪设备记录他们的眼球运动来查看不同的图像。我们提出了一种新的ASD筛查方法，该方法具有特权模态框架，在训练过程中整合了多种模态，而不是在每种模态上独立地筛查ASD1182并且在测试时有益于每种模态。我们的框架包括三个主要组成部分：为了利用视觉注意力网络的渗透性和深度神经网络（DNN）的学习潜力，我们开发了两个DNN模型，每个DNN模型编码由受试者拍摄的照片的特征（拍照）或眼睛运动的时间信息（图像观看），以基于注意力偏好对ASD进行分类。为了充分利用这两种模态的丰富和互补信息，我们提出了一种多模态提取方法，该方法为多个模态（即始终可用的主模态和仅在训练期间适用的特权模态）学习一个共享嵌入空间，并将多模态知识从共享空间提取到每个模态。与现有方法相比，我们的框架在以下方面具有优势：1）与以前的方法[17，22]不同，这些方法较少关注时间信息并独立地训练特征编码器和ASD分类器，我们的图像观看模型以端到端的方式开发，并接受眼球运动的时间信息; 2）不同于多模态方法[21，34]，其要求在测试期间所有模态的可用性，这在临床场景中难以实现，我们的框架可以部署在每个独立模态上; 3）与其他具有特权模态方法的学习类似，所提出的多模态提取方法可以在不同模态之间传递丰富的信息，而不会在受试者中重叠，而不是依赖于模态之间的一对一成对关系[10，16，20，23]。总之，本文有三大贡献：• 我们超越了一种模态，并提出了一种具有特权模态框架的ASD筛查，该框架利用了多个行为数据源在我们的背景下各模式之间没有学科重叠。• 我们开发了第一个计算模型，以屏幕ASD的基础上拍照任务。尽管任务的挑战性，我们的模型优于胡-人的专家和实现合理的性能。• 通过引入眼动的时间信息，我们的模型在图像观看任务上能够实现新的最先进的性能。2. 相关作品自动ASD筛查。存在自动识别患有ASD的人的若干计算模型。Anzulewicz等人 [1]使用智能平板设备记录儿童的运动模式，并提出了三种基于决策树的模型，用于基于这些模式识别ASD。受ASD患者难以识别面部和解读面部情绪[29]的发现启发，Liu等人 [22]评估了面部扫描模式并检测出ASD患者。为了捕捉ASD和对照组在观看图像过程中的凝视模式差异，Wang等人[36]提出训练具有预定义特征的支持向量机（SVM）模型，蒋和赵[17]后来扩展了[36]通过引入一种新的深度神经网络方法，该方法突出了凝视模式的差异，从而为准确的ASD筛查提供了更具鉴别力的特征。人们还探索了不同类型的神经成像技术来分类ASD [21，34]。虽然这些方法实现了合理的结果，但它们要么仅考虑单一模态并且较少关注利用时间信息[1，17，22，36]，要么依赖于难以在临床场景中部署的资源需求仪器所获取的多模态数据[21，34]。学习下隐藏的信息。在特权信息下学习（LUPI）是[31，32]中提出的一种范式，它指定了某些特权-在培训期间可以获得这些信息，但在测试时不适用。在本文中，我们关注的情况下，特权信息对应于一个模态不同于一个可用的所有时间，即学习与特权模态。Hoffman等人。 [16]提出了一种多流幻觉架构，该架构学习不同模态之间的映射在[20]中，Lambert等人利用特权模态的特征来学习辍学单元的超参数。Garcia等人 [10]提出将模态幻觉[16]与知识蒸馏[14]结合起来，用于特权模态的动作识别。在[23]中，Luo等人通过在训练期间在各种模态之间构建图结构，将多模态知识提取到单模态网络这些方法依赖于不同模态之间的一对一成对关系，这通常难以在具有患者数据的临床环境中实现，例如，在我们的ASD筛选实验中，从两组受试者单独收集两种模态的数据而没有重叠。在这项工作中，我们提出了一个ASD筛查的特权模态框架，该框架将ASD筛查的多种我们的框架不依赖于不同模式或先进诊断仪器的受试者重叠进行数据收集，因此适用于常规临床环境中的ASD筛查。通过结合眼睛运动的时间信息和来自两种模态的丰富知识，所提出的模型能够实现优异的性能并且优于先前的最先进的方法。3. 使用特权模态进行神经发育障碍，如ASD，通常以多种症状为特征，其中单一症状1183照片序列编码器-PTASD？ASD？图1：基于注意力的ASD筛查模型的高级架构（顶部）和图像查看（底部）模式。 GAP表示全局平均池化层。在照片拍摄中的xt是图像t的特征，而在图像观看中，xt是在注视t附近提取的特征。N和M表示图像的数量，并且固定在照片拍摄和图像观看数据。模态可能不携带用于诊断目的的足够信息。在这项工作中，我们建议用更多的行为模式来筛查ASD，这将提供补充和丰富的信息。多模态数据对于条件的异质性和来自临床群体的数据的稀缺性是特别重要的。具体来说，我们提出了一个ASD筛查与特权模态框架，利用两种不同的自主模态，即。拍照和观看图像。它在训练过程中整合了来自两种模态的信息，并且在测试时只需要一种模态，即我们将一种模态视为有利于学习另一种主要模态的特权模态。与现有的多模态[21，34]或特权模态学习[10，16，20，23]方法不同，我们的框架不依赖于部署期间所有模态的可用性或跨模态的一对一成对关系（例如，受试者重叠），使其更适用于现实世界的临床场景。在本节中，我们说明了所提出的框架的三个主要组成部分，包括两个DNN模型，分别用于在拍照和图像查看任务上进行ASD筛查，以及多模态蒸馏方法，该方法将多模态知识从共享空间蒸馏到每个独立模态。3.1. ASD摄影筛查不同于先前基于视觉注意的ASD筛查方法[17，22，36]，其遵循被动的图像观看程序，我们的拍照任务允许受试者自由地与各种场景进行交互，并在第一人称设置中识别感兴趣的区域或对象，从而在揭示一个人的注意力偏好方面提供更生态的范例此外，人们拍摄的照片提供了额外的-这些信息显示了他们在社会互动中的行为例如，由于社交互动减少，患有ASD的个体可能不会要求人们进行姿势调整，从而导致人们不摆姿势或不看相机的照片质量差。受ASD患者拍摄的照片往往具有与健康人拍摄的照片不同的特征的发现的启发[35]，例如。在注意偏好和照片质量的差异，在本文中，我们的目的是筛选ASD通过表征这些差异与池的照片拍摄的受试者。为了实现上述目标，我们建议利用CNN来学习有意义的特征，并利用递归神经网络（RNN）来捕获照片序列的特征。如图1（顶部），所提出的模型由两个主要组成部分组成：1）编码器模块，其首先使用最先进的ResNet-50 [13]将原始图像数据投影到高级视觉特征，然后使用长短期记忆（LSTM）[15]网络顺序地遍历照片序列中不同图像的特征，以及2）分类器模块，其接受LSTM的最终隐藏状态并进行预测（即ASD或ASD）。对照）。给定特定对象拍摄的照片序列，首先通过ResNet-50计算序列中不同图像的视觉特征，然后应用全局平均池（GAP）将空间特征转换为描述相应图像抽象信息然后，这些向量被顺序转发到LSTM，通过重复更新隐藏状态来捕获照片的特征在获得对整个序列的信息进行编码的最终隐藏状态之后，我们直接将其馈送到我们的分类器（即，单个全连接层）用于识别患有ASD的人。分类器-PThtXthNSiResNet-50 GAPLSTM线性乙状照片：t=1N图像眼睛注视编码器-IVIV类htXtHMSiResNet-50LSTM*线性乙状固定：t= 1μM1184图2：ASD和对照组之间凝视模式的比较。从左到右是四个连续时间步长的注视图和聚合注视图。3.2. 图像查看使用自然场景的ASD研究的最新进展导致了ASD患者与健康受试者的外观不同的几个新见解。例如，对于包含丰富的社会和语义内容的复杂刺激，Wang et al.[36]观察到对语义对象的注视顺序和潜伏期在受试者组之间存在显著差异，这表明了时间信息在筛选任务中的作用。虽然先前的工作[17，22]已经研究了利用视觉注意力对ASD进行分类的可行性，但是有限的努力被放在探索在眼睛运动内编码的时间信息的有效性上图2强调了使用时间信息的重要性，其揭示了ASD和对照组之间的注视模式的显著差异此外，由于临床数据的稀缺性（这防止了过于复杂的模型设计），这些方法通常单独训练特征编码器和ASD分类器，而不明确地将学习的视觉特征与ASD筛选相关联，使得它们难以实现令人满意的性能。在本节中，我们将介绍一个DNN模型来解决这些问题，以便通过图像查看进行更准确的ASD筛查。我们的模型以端到端的方式进行了优化，它自动将视觉特征与ASD筛查连接起来，并采用眼动的时间信息来破译在图像观看期间记录的视觉注意力的更具鉴别力的特征。如图1（底部）所示，所提出的图像查看模型与我们的用于拍照模态的模型共享类似的设计。然而，与目标是基于照片序列对ASD进行分类的拍照不同，对于图像查看，我们的目标是基于在每个特定图像上捕获的ASD的注意力模式（即眼睛移动）来区分患有ASD的人。因此，给定特定主题的图像及其相应的视觉扫描路径，而不是将CNN与GAP对于特征提取，我们首先从CNN中获得有用的视觉特征，然后在每个眼睛注视点附近提取特征（即在最接近每个注视点的位置处的2048维特征向量）。然后将提取的特征顺序地馈送到我们的LSTM（注意，对于为了更好的性能，我们使用类似于[11]的LSTM变体，表示为LSTM*），基于扫描路径内的注视顺序，捕获眼睛运动的时间信息。在每次眼睛注视时，该过程可以表示如下：it=σ （ Wix xt+Wih ht−1+Wic ct−1+bi ）（1）ft=σ（Wfxxt+Wfhht−1+Wfcct−1+bf）（2）o t= σ（W ox x t+ W oh h t−1+ W oc ct−1+ b o）（3）m t= tanh（W mx x t+ Wmhht−1+bm）（4 ） ct=it⊙mt+ft⊙ct−1（5）ht=ot⊙ct（6）其中xt是在第t眼注视附近提取的视觉特征，W和b是LSTM中的可训练参数，σ是sigmoid函数，ht−1和ct−1表示隐藏状态和包含先前眼动时间信息的记忆向量。输入i、f和oLSTM的门、遗忘门和输出门，m进一步基于xt和ht−1编码特征。在视觉扫描路径结束时计算的隐藏状态h被馈送到分类器中，用于预测患有ASD的人。3.3. 通过共享空间的多模态蒸馏利用上述用于在每种模态上进行ASD筛查的模型，这里的关键是有效地整合来自两种不同模态的信息，以进一步改善在它们中的每一种上进行ASD筛查的性能。为此，我们提出了一种多模态蒸馏方法，使模型能够通过共享空间从不同类型的行为数据中学习。我们的方法受到跨模态检索和匹配方法的启发[5，12，25]，然而，它在目标和方法学方面与它们显著不同：1）不同于[5，12，25]，其目标是利用源模态中的数据重新获取目标模态中的样本，我们的目标是创建用于跨不同模态传递知识的共享空间，以用于每种模态上的性能改进，以及2）在跨模态匹配中，例如[5]，在多任务学习框架[4]（不同模态的联合训练）下优化不同模态的模块，其中在两种模态上实现令人满意的性能是困难的。相反，我们提出了一种新的方法，通过联合训练共享空间来提取多模态知识，但通过在学习共享空间后解开不同模态的模型来克服上述困难，因此每个模型都可以专注于自己的模态以最佳地优化它。图3示出了所提出的方法的过程。1185第一阶段：独立培训第二阶段：共享空间学习第三阶段：从共享空间中提炼输入IV输入PT输入混合编码器-IVIV类编码器-PT分类器-PT输出IV输出PT输出混合输入-IV输入-PT编码器-IV编码器-PT嵌入-IV嵌入-PT分类器共享输出-IV输出-PT图3：具有特权模态框架的所提出的ASD筛查的过程。不同的训练阶段在顶部用粗体字突出编码器-IV、编码器-PT、分类器-IV和分类器-PT与图1中呈现的那些相同蓝色模块在训练阶段是固定的，而绿色模块正在优化。我们的方法遵循直觉，首先构建一个共享空间，编码多模态知识，然后鼓励每个模态的模块从这样的空间中学习。具体来说，为了开发一个共享的嵌入空间，对每个模态都有足够的理解，我们的方法首先在相应的模态上独立优化模型（独立训练）。利用学习到的特定于模态的知识，我们然后整合每个模态的模型（共享空间学习），并通过使用以下损失函数L对两个模态进行联合训练来构建共享空间：L=BCE（YI，Y<$I）+BCE（YP，Y<$P）（7）[YI，YP]=Wcls[WIXI，WPXP]（8）其中，YI和YP是图像观察和拍照模式的地面实况注释，YI和YP是图像观察和拍照模式的地面实况注释。相应的模型预测，并且BCE表示二进制交叉熵损失。 X1和Xp是由两个模态的编码器提取的特征（即，W1和Wp表示用于两种模态的嵌入层（即嵌入-IV、嵌入-PT），并且Wcls对应于共享分类器（即分类器-共享）。通过固定模态特定模块（即编码器-IV和编码器-PT）并且仅使用上述等式优化嵌入层以及共享分类器（即嵌入-IV、嵌入-PT和共享分类器），我们通过从两个模态学习基本知识来构建共享空间。为了将多模态知识从共享空间提取到每个模态，同时减轻多任务学习中的训练困难，而不是继续联合训练[4，5]，我们建议解开不同模态的模型具体地，在从共享空间蒸馏阶段期间，嵌入层以及共享分类器（即，嵌入-IV、嵌入-PT和分类器-共享）是固定的，并且只有每个嵌入层的模块被分配到依赖模态（即编码器-IV和编码器-PT）的模块被优化，鼓励每个模态的模块利用多模态知识适应共享空间，并学习两个模态上的对齐特征表示。上述过程通过学习共享空间连接不同的模态，并鼓励模型从中提取多模态知识，以提高每个模态的性能。在我们的上下文中，通过在两种模态之间共享相同的分类器，我们的方法在两种行为模态之间学习对齐的特征表示我们注意到，所提出的方法适用于在测试时仅部分模态（在我们的情况下仅一种模态）可用并且模态之间的一对一成对关系不存在的情况，这在临床环境中是常见的。第4.2节证明了所提出的具有特权模态的方法可以提高ASD筛选模型在两种不同模态上的性能，而第4.3节分析了在共享空间中学习的知识。4. 实验在本节中，我们报告的实施细节和所提出的方法的综合评价。4.1. 执行数据集和评价。我们首先介绍了这项工作中使用的数据。对于拍照，22名ASD患者和23名对照（即，年龄、性别和智商相匹配的健康人他们被要求在室内和室外两种场景下拍照对于图像查看，我们使用了来自20个ASD和19个对照组的眼动跟踪数据。在观看来自OSIE [37]眼动追踪数据集的700张图像时记录了双眼眼球运动，编码器-IV编码器-PT嵌入-IV嵌入-PT分类器共享1186在类似于[17]的评估中将患者的不同眼睛作为两个受试者对待。使用Cluster Fix方法[19]提取眼睛注视。请注意，两种模式之间没有受试者重叠。为了展示我们方法的通用性，我们还对最近的Saliency4ASD [9]数据集进行了实验。为了进行评估，我们采用了广泛使用的leave-one-subject-out交叉验证[17，22]，它能够返回错误概率的几乎无偏估计[33]。请注意，由于Saliency4ASD [9]未提供受试者ID，因此我们在训练数据中使用来自同一组（即ASD或对照）的第i个固定序列来构建第i轮交叉验证的验证数据。与[17，22]类似，我们评估我们的模型的准确性，灵敏度（即真阳性率）、特异性（即，真阴性率）和ROC曲线下面积（AUC）。型号规格。R e s N e t -50 [13]在我们的国防部使用，首先在ImageNet数据集上预训练els [8]，然后与两个模型中的其他模块联合优化。LSTM（LSTM*和LSTM）的嵌入大小为512，而对于多模态蒸馏中的Embedding-IV和Embedding-PT（见图3），我们将其大小设置为1024。对于图像观看，我们使用原始图像连同其所有对应的眼睛注视作为输入，而对于拍照，我们从特定对象的照片池中随机采样12张照片（基于经验结果设置的照片数量）作为单个输入序列。训练为了训练我们的基于注意力的ASD筛选模型，对于拍照，我们遍历所有受试者的样本（不包括用于验证的样本），并且每个受试者与从他的照片池中随机采样的照片序列相关联。而对于图像查看，我们使用与[17]相同的图像选择技术来选择前100个区别性图像，这些图像最好地区分ASD和对照组之间的凝视模式，并为每轮验证训练受试者我们利用Adam [18]优化器和二进制交叉熵损失来训练我们所有的模型。设置权重衰减10- 5和梯度裁剪10。两个任务的批处理大小都设置为12。在独立训练中-对于图像观看和拍照，模型被训练10和180个时期，学习率初始化为10- 4，每2和30个时期除以2。为了学习共享空间，我们联合优化了两者上的模型学习率为5×10−6和单个历元的模态（由于两种模态的数据集大小不同，我们不断训练模型，直到两种模态的数据都是相同的）已处理）。在成功学习共享空间之后，我们分别训练模型查看图像和拍照（图3中的从共享空间中提取阶段），分别为3和60个epoch。主题分类。由于ASD筛查的评估是在受试者的基础上进行的，为了将我们的样本预测（对不同图像Acc.参议员特殊AUCLiu等人[22日]0.890.930.860.89Jiang等人[17个]0.920.930.920.92IV-独立0.971.000.951.00IV-全0.991.000.981.00IV-独立（显著性4 ASD）0.890.860.930.92IV-全（显著性4 ASD）0.930.930.930.98人类专家[35]0.65---PT无关0.760.770.740.82PT-完整0.840.770.910.84表1：ASD筛查的模型间比较。我们的图像查看数据集、Saliency4ASD [9]和我们的拍照数据集的结果按水平线划分，并从上到下列出。IV-独立和PT-独立是我们关于图像查看和拍照的单模态模型对于两种模态，我们的具有多模态蒸馏的完整模型被表示为IV-完整和PT- 完整。使用了四个评估指标，包括准确度（ACC），灵敏度（Sen.），专属性（范围）AUC。最佳结果以粗体文本突出显示。或照片序列）到对象方面的预测，我们对对象的所有样本的置信度进行平均（用于图像查看的前100个区分图像和用于照片拍摄的5个随机采样序列），并利用预定义的阈值，即0.5，来识别ASD。4.2. 结果在本节中，我们报告了实验结果，以证明我们的ASD筛查与特权模态框架的有效性。我们首先在所提出的模型和相关的最新技术之间执行模型间比较。具体而言，对于图像查看，我们将我们的模型与[17，22]进行比较，[17，22]也基于眼睛注视来筛选ASD，而对于拍照，我们使用人类专家表现[35]（三名人类专家同意相同标签的百分比，即ASD或对照）作为参考，因为这是该任务的第一个计算模型。然后，我们在所提出的多模态蒸馏方法的不同阶段表1和表2显示了模型间和模型内比较的定量结果。如表1所示，所提出的关于具有时间信息的图像查看模态的模型能够通过所有评估度量显著优于当前最先进的ASD筛查模型。通过使用一个回流模块扫描通过视觉特征在不同的眼睛固定在他们的时间顺序，我们的模型实现了100%的准确率识别个体ASD（敏感性）和95%的准确率区分健康人（特异性）。在拍照时识别ASD 患者更具挑战性，人类专家的表现为65%。我们的模型在仅使用自己的模态进行训练时表现出合理的性能（总体准确率为76%1187Acc.参议员特殊AUCIV-独立0.971.000.951.00IV-共享0.971.000.951.00IV-全0.991.000.981.00IV-Extra0.971.000.951.00PT无关0.760.770.740.82PT共享0.780.770.780.82PT-完整0.840.770.910.84PT-Extra0.730.730.740.82表2：所提出的多模式蒸馏的模型内比较。在特定模态的每个部分中，前三个结果对应于不同训练阶段之后的模型（参见图3，结果以与训练阶段相同的顺序排列），而最后一行，即- Extra，显示了具有额外层（图3中的Embedding-IV或Embedding-PT）和与-Full相同数量的训练时期的单模态性能将不同的标记（ASD或对照）混合在一起。在共享空间学习之后，不同标签的样本开始朝着不同的方向移动。最后，通过将多模态知识从共享空间转移到独立模态的模块，对齐的特征变得更具鉴别力，并且被很好地分成两个聚类。为了验证所提出的多模态蒸馏方法的贡献，我们在每个单一模态上训练我们的模型，但是具有额外的层（图3中的Embedding-IV或Embedding-PT）和与多模态蒸馏相同的训练时期。我们在表2中将此方法表示为-Extra。结果表明，在单一模态上的额外层和训练具有不显著的（图像查看）甚至负面的（拍照）影响。结果证实，使用所提出的方法跨不同模态提取知识在提高基于注意力的ASD筛查的性能方面起着至关重要的作用，并且我们的改进不仅仅是由于模型修改或额外训练时期的（一）（b）第（1）款（c）第（1）款4.3. 共享空间学到了什么到目前为止，我们已经证明，通过学习跨两种模态共享的空间并从空间中提取多模态知识到每个模态的模块，图4：在所提出的多模态蒸馏方法的三个不同训练阶段在拍照模态上提取的特征的t-SNE可视化。从（a）到（c）是独立训练、共享空间学习和从共享空间蒸馏阶段的结果。红点代表ASD的样品，而蓝点对应于对照的样品。此外，通过将这两种模态与所提出的多模态蒸馏方法相结合，我们能够在这两种模态上实现相当大的改进。具体而言，我们进一步将图像查看的整体准确度从97%（单模态性能）提高到99%，并且将拍照的整体准确度从76%显著提高到84%。根据表2中报告的模型内比较，ASD筛查的性能在三个阶段中单调增加。特别地，在共享空间学习阶段构建共享空间的情况下，我们的多模态提取方法通过在从共享空间提取阶段将多模态知识提取到每个独立模态的模块来显著提高性能我们进一步研究了从多模态知识中学习到的对齐特征，并使用t-SNE [30]可视化比较了在三个阶段（拍照模态）学习到的特征如图4所示，仅从单一模态学习的特征不具有足够的区分性，因此具有不同特征的数据点不具有区分性能够显著提高ASD筛查的准确性。为了更清楚地说明我们的多模态蒸馏方法的有效性，在本节中，我们专注于通过定性和定量评估来分析在共享空间更具体地说，我们研究了共享空间在将两种模式相关联方面学到了什么，以及为什么它能够在每种独立模式上有利于ASD筛查。定性评价。为了理解共享空间如何使两个模态相关，我们首先提取由独立空间中的不同模态的模块计算的特征（在独立训练阶段之后在编码器-IV和编码器-PT中计算的特征）和共享空间中的特征（在共享空间学习阶段之后在嵌入-IV和嵌入-PT处计算的特征）。然后基于它们的对应特征匹配两个模态之间的最接近的输入。我们使用余弦相似度作为匹配最近输入的距离度量，这在自然语言处理中广泛用于匹配不同有意义的单词[26]。通过比较独立空间和共享空间之间最近的输入，我们能够揭示共享空间中模态的对齐。图5示出了匹配示例的定性结果，即，在照片拍摄（整个照片序列，每个具有由一个对象拍摄的12张照片）和图像查看（具有被突出显示的固定每一行代表一对匹配。注意，在图像观看中，仅比较注视区域我们提出以下三个关键意见1188图5：拍摄照片（照片序列，左）和查看图像（具有固定区域的图像，右）之间的最接近输入，最好以数字形式缩放查看。对于每一行，从左到右是整个照片序列（每一个总共具有12个图像，显示在第1列至第12列上）、来自独立空间（第13列）和共享空间（第14列）中的图像查看模态的匹配对应物。在图像观看模式中的眼睛注视被可视化为具有喷射色图的高斯模糊显着图。用于拍照的标签显示在左侧，而用于图像查看的标签显示为彩色框（ASD为红色，对照为蓝色）。• 观察一：在独立空间中匹配的例子通常具有不一致的语义。例如，在行1-2中，在照片拍摄中具有许多非人类对象的照片序列与在图像观看中对人脸的注视相匹配。• 观察二：通过对多模态的学习，共享空间中匹配的样例在高层语义上表现出一致性。第1-2行具有非人类对象的照片序列与包括膝上型计算机和硬币的非人类对象上的注视相匹配，而在第3-4行中，在拍摄照片时具有许多人脸的照片序列与在观看图像时高度聚焦在人脸上的注视相匹配。• 观察结果III：在共享空间中匹配的最近的例子不仅共享相似的语义含义，而且具有用于ASD筛查的一致标签。在在独立空间中，四行示例中的三行在拍照和图像观看之间具有不一致的标签，而在共享空间中，两种模态的标签是相同的。这些观察表明，与独立空间不同，通过我们的方法学习的共享空间能够用高级语义概念桥接两种模态。此外，准确匹配具有一致标签的样本的能力，即观察III，表明我们的方法不仅可以将两种模态与它们的视觉外观（例如语义概念）相关联，而且还可以将它们的预测标签相关联。因此，我们能够在两个模态中将具有相似语义含义和相同标签（即，在我们的上下文中为ASD或Control）的特征对齐，从而允许不同模态通过转移其模态特定知识来彼此补充，从而改善相应的模型性能。定量评价。进一步支持我们在定性评价中的发现，尤其是观察第三，我们进行了一个跨模态匹配和检索实验，以定量评估共享空间对相关的一致性标签的例子的有效性。具体来说，给定来自具有特定预测标签的一种模态（拍照，总共使用45个样本）的源输入，我们计算将它们与具有相同标签的另一种模态（图像查看）中的输入匹配的准确度结果表明，使用我们的多模态蒸馏方法，Recall@5（具有与另一模态中的5个匹配输入中的至少1个一致的标签的源输入的百分比）从62.2%（独立空间）提高到95.6%（共享空间），证实了我们在定性实验中的观察。5. 结论在本文中，我们提出了一个ASD筛查与priv- ileged模态框架，它集成了丰富的信息，形成从两个不同的模态，即拍照和图像查看，并相互提高性能上的每一个。我们的框架进行了三个主要的新颖的关系，包括两个DNN模型的ASD筛选的两种方式和多模态蒸馏方法，蒸馏多模态知识从共享空间到每一种方式。它不需要模态之间的一对一配对关系或测试时所有模态的可用性，提供了一个通用范例，以利用现实世界临床环境中的多个数据源。实验结果表明，所提出的模型可以实现新的国家的最先进的结果，和提取知识的两种方式进一步提高了他们的性能相当大的利润。确认这项工作得到了NSF资助1908711和1849107的支持。1189引用[1] Anna Anzulewicz、Krzysztof Sobota和Jonathan T.德拉菲尔德-巴特关于自闭症运动特征：在智能平板游戏过程中的几何图案识别患有自闭症的儿童。科学报告，2016年6月。[2] 放大图片作者：Jon Baio，Lisa Wiggins，Deborah L.Christensen等人自闭症谱系障碍在8岁儿童中的患病率自闭症和发育障碍监测网络，11个站点，美国，2014年。 MMWR Surveill Summ 2018 ， 67 （ No. SS-6 ）：123.，2018年。[3] 杰西卡·布拉德肖，阿曼达·莫斯曼·斯坦纳，格蕾丝·根古，林恩·克恩·科格尔.对自闭症谱系障碍高危婴儿进行早期干预的可行性和有效性：系统综述。自闭症和发育障碍杂志，45（3）：778[4] 瑞奇·卡鲁阿纳多任务学习。马赫学习. ，28（1）：41[5] LluisCastrejo'n，YusufAytar，CarlVondrick，HamedPirsi-avash，and Antonio Torralba.从弱对齐数据中学习对齐的跨模态表示。在2016年IEEE计算机视觉和模式识别会议（CVPR），第2940-2949页[6] 作者：张永智，叶哲凡，张永智，张永志. Jones，Agata Rozga，and James M.瑞格在自然社会互动中检测对眼睛的注视及其在儿童评估中的应用。过程ACM交互暴徒可穿戴普适技术，1（3）：43：1[7] 放大图片作者：Andrew N. Meltzoff，Julie Osterling，Julie Rinaldi，and Emily Brown.自闭症儿童无法适应自然发生的社会刺激。自闭症和发育障碍，28（6）：479[8] 邓佳，魏东，理查德·索赫尔，李佳。李，李凯，李飞飞。ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议中，2009年。[9] 段惠宇，翟广涛，闵雄阔，车朝晖，方毅，杨小康，Jesu'sGutie'rrez，和PatrickLeCallet。自闭症谱系障碍儿童的眼动数据集。在第10届ACM多媒体系统会议论文集，MMSys[10] 努诺角Garcia，Pietro Morerio，and Vittorio Murino.用于活性识别的多流网络模态蒸馏。在欧洲计算机视觉会议（ECCV），2018。[11] 亚历克斯·格雷夫斯，阿卜杜勒·拉赫曼·穆罕默德，杰弗里·辛顿. 深度递归神经网络语音识别2013年IEEE声学、语音和信号处理国际会议，第6645-6649页[12] 顾久祥，蔡建飞，Shafiq R. Joty，Li Niu，and GangWang.看，想象和匹配：用生成模型改进文本视觉跨模态检索。在 IEEE 计算机视觉和模式识别会议（CVPR），2018。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页，2016年。[14] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean在神经网络中提取知识。在NIPS深度学习和表示学习研讨会，2015年。[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经元计算，9（8）：1735[16] 朱迪·霍夫曼，索拉布·古普塔，特雷弗·达雷尔。通过模态幻觉学习附带信息。2016年IEEE计算机视觉和模式识别会议（CVPR），第826-834页[17] 明江和齐昭。学习视觉注意力以识别自闭症谱系障碍患者。2017年IEEE国际计算机视觉会议（ICCV），第3287-3296页[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。[19] 塞思·D作者声明：Elizabeth A.布法罗使用聚类分析检测注视和扫视的非参数方法：消除了对任意阈值的需要。神经科学方法杂志，227：121[20] John Lambert，Ozan Sener，and Silvio Savarese.使用异方差丢弃的特权信息下的深度学习。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[21] 劳伦·E 托马斯 · 利贝罗放大图片作者： Adrienne C.Lahti，Gopikrishna Deshpande，and Rajesh K.假名使用解剖学、神经化学和白质相关性对自闭症谱系障碍进行基于多模态神经成像的分类Cortex，66：46[22] 刘文博，李明，李毅。基于面部处理异常识别自闭症谱系障碍儿童：机器学习框架。 Autism Research ， 9（8）：888[23] Zelun Luo ， Jun-Ting Hsieh ， Lu Jiang ， Juan CarlosNiebles，and Li Fei-Fei.用于具有特权模态的动作检测的图蒸馏。欧洲计算机视觉会议，2018年9月。[24] 作者： Anne Masi ， Marilena M. DeMayo ， NicholasGlozier，and Adam J.瓜斯特拉自闭症谱系障碍、异质性和治疗选择的概述。Neuroscience Bul-aoke，33（2），183193.，2017年。[25] Arsha Nagrani，Samuel Albanie和Andrew Zisserman。看到声音和听到面孔：跨模态生物特征匹配。在IEEE计算机视觉和模式识别会议（CVPR），2018。[26] Jeffrey Pennington，Richard Socher，Christopher D.曼宁Glove：单词表示的全局向量。在EMNLP，2014年。[27] James M. 放大图片创作者： Michael D. Abowd 和Matthew S.古德温行为成像和自闭症。IEEE PervasiveComputing，13（2）：84[28] 放大图片作者：Noah J. Sasson，Jed T.放大图片作者：Lauren M.放大图片作者：Gabriel S. Dichter和James W.博德菲什简要报告：自闭症幼儿的循环注意力。Journal of Autism and Developmental Disorders ， 41（2

下载后可阅读完整内容，剩余1页未读，立即下载