没有合适的资源?快使用搜索试试~ 我知道了~
基于生理学的高时间分辨率和高粒度精神疲劳水平估计方法
医学信息学解锁24(2021)100594一种基于生理学的高时间分辨率和高粒度精神疲劳水平估计方法Hua,*,Shinji Nakatsurub,Yuki Ban a,Rui Fukui a,Shin'ichi Warisawa aa日本东京大学研究生院前沿科学研究科b日本NTT DATA公司A R T I C L EI N FO保留字:精神疲劳长短期记忆生理信号高粒度实时估计累积局部效应A B S T R A C T精神疲劳(MF)监测对于消除高风险任务中的事故以及在涉及人类操作员的日常工作任务中提供更好的生产力管理至关重要。以往的工作都是建立高时间分辨率或高粒度的中频监测系统。我们提出了一种基于生理的方法,估计MF水平每2秒在回归的方式,一个系统,实现了高时间分辨率和高粒度级别。该方法包括一个准确的MF水平评估方法,使用修改后的N-back任务中的对齐分数,不受诱饵效应的影响,一个长短期记忆(LSTM)深度学习框架,以及一个性能可靠性验证过程。我们使用多种生理信号,包括ECG、呼吸和瞳孔直径。因此,我们提供了可行的估计性能不差于现有的研究,同时实现高的时间分辨率和高水平的粒度。解释分析利用累积局部效应(ALE)来说明黑盒模型如何进行估计,并提高这种方法的可靠性1. 介绍人类操作员在各种任务中发挥着重要作用,从驾驶和空中交通管制等高风险任务到会计员的日常桌面工作。在执行这些任务时,人类操作员通常会经历精神疲劳,这通常会导致安全风险增加和生产率降低。精神疲劳(MF)监测系统不仅可以降低高风险任务中的事故风险,还可以为办公室工作人员提供更好的生产力管理。因此,建立一个心理疲劳的监测系统是必不可少的。许多基于生理学的自上而下的方法,使用机器学习技术已经探索建立这样的系统。(见表1)。然而,以前的研究要么达到了高时间分辨率,[1-时间分辨率是指模型多久可以进行一次估计,而粒度级别是指可区分的MF级别的粒度。如果MF监测系统可以每隔几秒进行一次估计,那么我们认为该系统具有高时间分辨率。估计的粒度由系统采用的模型的输出类型如果模型只能执行区分人类操作员是否精神疲劳的二进制分类,这意味着模型只能提供精神疲劳的粗略估计,那么它将被认为具有低粒度级别。回归模型具有高粒度级别,因为它们估计细粒度的心理疲劳级别并提供最详细的信息。高时间分辨率和高粒度是中频监测系统的必要条件。在生产力管理的日常工作任务的应用中,如会计业务员的工作,更强调粒度的水平。在这种情况下,人类操作员需要根据他们的精神疲劳程度以及当前任务的紧迫性来决定何时休息。因此,期望不同精神疲劳水平的详细信息,而不是疲劳状态的粗略区分。另一方面,这两种性能在高风险任务中是不可或缺的,例如空中交通管制,其中非常重视疲劳,以确保负责安全的人员在任何时候都以最佳状态运行。大多数以前的作品地址根据其系统的使用情况,时间分辨率和粒度之间的权衡的基础上的任何一方。为了提高生产率,不可避免地需要实现具有高时间分辨率和高粒度级别* 通讯作者。电子邮件地址:Xhu@s.h.k.u-tokyo.ac.jp(X. Hu),ban@edu.k.u-tokyo.ac.jp (Y. Ban), fukui@ra-laboratory.com(R. Fukui),warisawa@edu.k.u-tokyo.ac.jp(S.Warisawa)。https://doi.org/10.1016/j.imu.2021.100594接收日期:2021年4月1日;接收日期:2021年4月26日;接受日期:2021年5月2021年5月11日网上发售2352-9148/© 2021由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuX. Hu等人医学信息学解锁24(2021)1005942高风险任务的管理。至于探索MF水平与多种生理特征之间关系的数学模型,在以前的研究中已经采用了各种机器学习方法,包括线性模型[4],支持向量机(SVM)[1,5,6]和随机森林(RF)[7]。在过去的几年里,递归神经网络(RNN)已经成为众所周知的语音识别的成功工具。近年来,生物学 和 医 学 领 域 的 许 多 研 究 也 表 明 , RNN , 特 别 是 长 短 期 记 忆(LSTM),具有处理生物信号的优越能力。这些应用包括生物信号分类[8,9]和基于生理学的诊断[10,11]。 然而,在基于生理学的精神疲劳监测领域,利用RNN或LSTM的潜在深度学习框架尚未得到充分探索。尽管被广泛采用,但机器学习模型仍然存在大部分是黑色的盒子。了解这些black-boX模型做出估计的原因对于评估信任非常重要,这在基于它们采取行动或选择是否部署新模型时至关重要。除线性模型外,以往的研究大多采用复杂的黑箱模型,而没有对黑箱模型进行解释性分析,使得黑箱模型不可信。在这项工作中,我们提出了一种方法来实现MF监测系统,实现高时间分辨率和高水平的粒度与可行的估计性能。我们的方法提供了一个机会,以每2秒一次的回归方式客观地监测MF水平。该方法由三个部分组成。首先,我们采用了一个修改版本的N-back任务与评分方法使用的对齐分数作为评估工具来衡量MF的水平。然后,我们使用一种特殊类型的递归神经网络(称为LSTM)构建了一个计算模型,提供了一种以前从未探索过的深度学习架构。虽然大多数现有的作品停止在提供交叉验证的估计性能的结果,而不解释所利用的黑盒X模型,我们进一步介绍了使用累积局部效应(ALE)图的模型的解释分析。2. 相关工作以往关于MF监测的研究大致可分为三类。前两种实现了高时间分辨率或高粒度级别,第三种类型实现了两者,但基于朴素的假设。因为我们关注的是基于生理学的自上而下的方法,所以系统的属性(时间分辨率和粒度级别)取决于如何定义观察结果(也称为MF级别的地面真值)。2.1. 高时间分辨率,低粒度以前的作品,只有达到高的时间分辨率定义的MF水平依赖于参与者的主观感觉或时间。在孙宇[1]的研究中,实验的前5分钟四分位数被定义为休息状态,实验的最后5分钟被定义为疲劳状态。Trejo Leonard etal同样,Chong Zhang的 工 作 [ 3 ] 使 用 主 观 自 我 报 告 作 为 基 本 事实,表1心理疲劳监测的前期研究。建立了一个SVM分类器来区分两种精神疲劳状态。由于测量的性质,这种方法的粒度级别较低,仅限于二进制分类。牺牲粒度,研究获得了较高的时间分辨率。由于MF的地面真值标签已经预先确定,并且确定标签的方法与任务性能无关,因此可以以相同的方式处理所有小数据段。该方法以帧为处理单元,选取第一帧作为基本数据段,通过在数据上移动窗口一小段时间(通常为几秒)来获得下一帧,从而实现了高时间分辨率。帧之间的间隔可以设置为与采样率的倒数一样小。因此,这种方法通常具有很高的时间分辨率,因为它们每隔几秒钟就做出决定。2.2. 高粒度、低时间分辨率对于以前的工作,只实现了一个高粒度的水平,研究定义的基础真理MF水平的任务性能的下降。在Touryan的工作中[4],任务准确性和反应时间被测量为基础事实。认知任务由6X 10分钟的块组成,每个块之间休息1分钟,表示每10分钟估计一次的时间分辨率。Kunimasa[5]利用收据分类任务的准确性作为基础事实。在5分钟帧中分析数据,帧之间的间隔这些研究获得了高水平的粒度,因为MF水平是通过评分方法评估的,这使得测量的MF水平是细粒度的,并且模型可以以回归的方式进行训练。然而,观察到的任务绩效受到人类MF水平和任务难度的综合影响。为了纯粹地考察MF水平,在任务过程中应控制其他因素换句话说,任务难度应该是一致的。这些先前的工作使帧之间的间隔相对较长,以确保任务难度的一致性不可避免的是,这种方法的缺点是时间分辨率会很低(通常是几分钟),因为帧之间的间隔应该足够长,以确保一致的任务难度。2.3. 高粒度、高时间分辨率很少有研究通过将任务时间(TOT)作为MF水平的基础事实来实现高时间分辨率和高粒度[6,7]。这些研究假设MF水平与TOT呈线性相关,并直接研究了指标与时间之间的关系。这是牵强附会的:在实际情况中,货币供应量水平会受到不确定因素和事件的影响,并会出现波动。显然,由惊吓引起的MF水平的突然变化不能用与时间的线性关系来解释3. 方法在这一节中,我们描述了我们的方法,旨在建立一个MF监测系统具有高的时间分辨率和高粒度级别。 该方法如图1中的流程图所示。 1,包括先前的研究指标法漏磁测量粒度时间分辨率[1]EEG SVM持续注意任务2类秒[2]EEG KPLS数学问题解决2级第二[3]EEG+ HRV SVM算术任务2类秒[4]EEG线性回归驱动回归[5]EEG SVR接收分类任务寄存器分钟[6]EEG SVR驱动regr-[7]HRV+瞳孔随机森林驾驶回归-X. Hu等人医学信息学解锁24(2021)1005943+-Fig. 1. 我们的方法流程图精神疲劳监测系统具有高时间分辨率和高粒度水平。除了使用标准的机器学习方法外,我们最初还提出了三个关键组件,以红色突出显示。(For对本图中颜色图例的解释,读者可参考本文的网络版一个精确的测量方法的MF水平,一个数据处理管道,和一个框架的最佳模式选择,包括交叉验证评估和解释分析。3.1. 人的绩效测量3.1.1. 难度一致性认知任务在这项研究中,我们采用了定量和客观的测量, MF水平,将其定义为认知任务表现的下降。具体来说,我们选择了N-back任务。N-back任务是一种认知任务,广泛用作认知神经科学中的评估,以测量工作记忆[13]以及精神疲劳[12,14]。如图2所示,参与者被呈现一系列刺激,并被要求提供对目标的响应。目标是与序列中前面N步呈现的刺激相匹配的刺激。另一个刺激被称为非目标。有一种特殊类型的非目标称为诱饵。诱饵是在位置N1或N1处匹配的刺激。如第2节所述,基于任务绩效的测量应控制任务难度保持一致。否则,性能的下降将是由任务难度和MF水平的变化的综合影响引起的,这导致MF水平没有被正确测量。在以前的大多数研究中,帧之间的间隔足够长,以确保相同的总难度水平,这可能牺牲了时间分辨率。因此,图二. 原来的2-back任务。在不牺牲时间分辨率的前提下实现MF水平的测量,就是要控制影响任务难度的动态因素,而不是认知任务的系统因素。在我们的案例中,由于我们使用了N-back任务作为评估工具,系统因子是N,表示参与者在任务期间应该拥有的总记忆容量,动态因子是诱饵的数量。许多事实证明,诱饵比其他非目标更难拒绝。与其他非目标相比,参与者对诱饵的反应不太准确,需要更长的时间[15可以说,原始N-back任务的难度由系统因子N和诱饵数量控制[19]。我们建议使用N-back任务的性能下降来测量具有高粒度水平的细粒度MF水平,并修改N-back任务以免受引诱效应,以便我们也可以在高时间分辨率下测量MF水平为了消除诱饵效应以控制任务难度,我们将N-back任务修改为以以下方式消除诱饵效应的版本:参与者被呈现一系列刺激,并被要求在流中输入N步,如图所示。3.第三章。主要修改是参与者不图三. 2-back任务没有诱饵效应。左侧显示刺激,右侧显示参与者的键盘输入。绿色条表示当前呈现的刺激的剩余时间。每个刺激的时间限制为2秒。(For对本图中颜色图例的解释,读者可参考本文的网络版。)X. Hu等人医学信息学解锁24(2021)1005944=|| =|||| = ×||一,[客户端]==()- ---=()=()需要将当前项与后退N步的项进行比较来做出决定。相反,他们只是从工作记忆中检索项目并做出相应的反应。我们将在5.1节中进一步验证在修改的N-back任务中消除了诱饵效应。在实验中,我们设定N2和每个刺激之间的间隔为2s。在消除了诱饵效应的情况下,改进的N-back任务的难度被认为在任何时候都是一致的,我们可以使用滑动窗口,其短间隔正好等于呈现刺激之间的间隔为2s。通过这样做,我们实现了每2s监测MF水平的高时间分辨率。刺激是从1到9的自然数。用户界面的背景色设置为黑色,以消除显示光对瞳孔直径的影响3.1.2. 评分方法在以前的研究中,简单任务准确性通常被用作匹配度和不匹配度的比值,它们的绝对值之比例如,当SMATCHSMIS时,超过50%的不匹配将导致最终得分为零。当处于非常高的疲劳水平时,被试能够间歇性地给出正确答案,而不是完全失去反应,因此我们假设约66%的遗漏作为最低绩效分数,并且参数被设置为满足SMATCH2SMIS。该算法是一种迭代方法,其中所有可能的元素对(每个序列一个)都设置在评分矩阵中。在第一步中,将s的边缘处的值设置为零:如果i=0或j = 0,则s i,j=0。0,其中i,j∈N,0≤i,j≤n。矩阵Xs1, 1的第一个元素被赋值为水平、垂直和对角线值的最大值。水平值s h等于左元素s0,1加上间隙分数SGAP。垂直值s v等于上面的元素s1,0加上差距分数业绩衡量 但是,任务准确性可能不可靠一,一D由于存在不同的响应模式。我们观察到,性能下降是由两种不同的不正确的反应模式。一个是省略,另一个是执行一回任务。遗漏是指参与者在被要求时没有提供任何答复。执行一次返回任务意味着参与者按下了一个步骤之前出现的数字键,而不是两个。使用任务准确性作为测量,这两种类型的响应模式的评估是相同的。然而,我们可以凭经验说,执行一回任务的模式比省略模式意味着更少的疲劳这可能是由于参与者没有正确理解规则的事实造成的执行一回任务的模式。然而,我们通过检查性能数据证实了本研究中的情况并非如此。我们观察到,所有参与者在任务开始时都保持了完美的表现,这表明他们正确理解了执行2-back任务的指令。当他们变得精神疲惫时,上面提到的两种错误模式就会发生。因此,我们建议,执行一个回任务表明更少的疲劳比遗漏。因此,评分方法应该能够区分两种不同的模式。具体来说,完成一回任务的得分应低于正确反应,但高于遗漏。我们建议使用对齐分数来实现这一点。比对得分测量两个序列的相似程度,并且位于0, 1中。我们将输入序列记为A,正确答案序列记为Q,A和Q的长度记为n。当一个参与者提供了正确的答案,那么A与Q完全一致,得分为1。当参与者提供一个回响应时,A可以通过向后移动一步与Q对齐,并且得分高于0但低于1。当一个参与者忽略并且不响应时,则A 0,0,...,0永远不能与Q对齐,并且得分为0。我们使用Needle- man-Wunsch算法[ 20 ](也称为全局比对技术)实施了该评分方法。该算法在生物信息学中广泛用于比对蛋白质或核苷酸序列。它创建了两个序列的端到端对齐,并使用动态编程提供了测量其相似性水平的度量。具有相同长度的密切相关序列非常适合这种全局比对,使得该方法有希望解决我们的问题。图4是如何用以下输入计算比对分数的图示:Q2,3,1和A1,2,3。为了简单起见,我们使用长度为3(n3)的序列。在实现中,序列长度由帧的长度确定。Needleman-Wunsch算法中的超参数的值设置如下:缺口评分保留为默认值S GAP 2,匹配评分设置为S MATCH2,错配评分设置为S MIS 1。当两个序列的长度不一致时,空位的得分用于调整结果,因此该参数在我们的情况下不影响最终得分,因为序列具有相同的长度。对于另外两个超参数,S间隙。 对角线值s1, 1等于左上角元素s0, 0加上当q1和a1相同时SMATCH,或者当两个元素不同时SMIS。以这种方式逐步填充评分矩阵X,右下角的值sn,n将是比对得分。在两个序列完全匹配的情况下,比对得分将等于2n。人的表现被定义为标准化的比对得分。3.2. 数据预处理流水线为了处理生理信号,我们使用了biosppy [21],这是一个广泛使用的Python库,用于生理处理和特征提取。对于预处理,我们对原始生理信号应用低通滤波器。利用biosppy内置的滤波功能对心电和呼吸的原始数据进行滤波,以去除噪声。对于ECG,使用通带为3 Hz、阻带为45 Hz的FIR型带通滤波器。对于呼吸,采用截止频率为5 Hz的黄油型低通滤波器。对滤波后的信号而不是原始信号进行特征提取。瞳孔信号经过处理,以消除闪烁和噪声所造成的设备以下的方法参考。[22 ]第20段。对于特征提取,总共明确提取了20个工程特征。对于ECG,从滤波的ECG信号检测R峰。帧内相邻R峰之间的间隔表示为RRI(R-R间隔)列表,RRI列表的平均值计算为帧的RRI,而RRI列表的方差计算为帧的RRV(R-R变异性)。RRI和RRV被用作ECG的时域特征。对于频域特征,使用LF/HF,定义为低中频(0.04-0.15 Hz)功率与高频(0.15-0.40Hz)功率之比。除了这三个基本特征外,还提取了14个附加特征。更多信息请参见表2。对于呼吸,提取每帧的呼吸速率和呼吸幅度的最大值。对于瞳孔测量,提取瞳孔直径的平均值和方差。基于训练集中的数据,使用最小-最大归一化对所有生理特征进行缩放,并且使用与训练集相同的参数对验证集中的数据进行归一化。对于后处理,我们平滑了生理特征,任务性能,以减少随机噪声,同时保持尖锐的阶跃响应。我们使用汉明窗口加权移动平均(WMA)作为平滑。3.3. 回归模型我们使用长短期记忆(LSTM)[23]作为回归模型架构。对于输入,我们添加了追溯到大约1分钟前的历史信息,并将特征向量连接到特征向量的时间序列中。回归模型的输入和输出可通过以下等式描述X. Hu等人医学信息学解锁24(2021)1005945见图4。 计算比对分数的示例。X. Hu等人医学信息学解锁24(2021)1005946̂̂表2生理信号的特征。(均方根误差)和R(皮尔逊相关系数)。而RMSE告诉我们模型估计偏离了多少生理信号特征描述平均而言,R提供了关于估计序列的变化趋势在多大程度上与ECG RRI平均R-R间期R-R间期的RRV低频带LF功率(0.04中频功率(0.08高频带高频功率(0.15LF_HF(LF+ MF)/HFHF_比率HF/(HF+ MF+ LF)HF_peak_power高功率峰值幅度频带(0.15HF_peak_freq峰值振幅出现的频率高频段的功率那就是地面真相。3.4. 口译分析为了解释黑盒模型,我们应用累积局部效应(ALE)技术[24]来计算特征效应。ALE是针对目前常用的部分相关图(PDP)的缺点而提出的一种方法。PDP假设所有的功能都应该是独立的,否则当功能它们将受到人工数据实例的影响,(0.04N R-R间期L Lorenz曲线在现实中不太可能,这将大大偏离估计的特征效果在这项工作中,由于我们以生理特征作为指标,并且大多数特征在一个T水平方向的标准偏差复杂的方式,我们采用ALE作为解释工具,以解决CSICVI洛伦兹图L/T(心交感神经指数)log 10(L*T)(心迷走神经指数)相关的功能,并显示我们的功能对模型估计的影响。CVNN RRI/RRV(RRI的系数偏差)RMSSD之间差异的平方的平均值的平方根ALE已按照图五.我们将下标表示为样本索引,将上标表示为输入特征向量,将x表示为特征索引,将上标表示为输出p表示为de。呼吸RR呼吸最大值连续相邻RR间期。呼吸速率呼吸振幅编剧我们将讨论某个特征F1的特征效应(例如,它可以是某个时间步长的平均R-R间期中任何样品中瞳孔直径pAVG平均瞳孔直径数据集,模型采用输入特征向量(xF1,xF2,pSTD瞳孔直径i i的标准偏差将估计的MF水平pi。由于我们没有讨论功能,对于特征F1,我们保持它们不变,只扰动特征F1。p=f(x0,x1,x2,ALE对特征F1的扰动方式如下:首先,构造一个步长为10%的分位值表。然后,每个分位数由方程式(1)特征向量xi的下标表示特征向量的相对时间跨度远离估计的人的表现P。i的值越大,表明特征向量在时间上越接近估计的人类表现。例如,向量x30中的特征是在同步帧中作为性能数据计算的那些特征。对于向量x0,生理特征是在性能数据之前1分钟发生的生理特征。我们将下标i表示为时间步长,并将在后面的结果部分讨论时间步长的问题。我们实现了一个具有八个基本LSTM单元的单层LSTM,如表3所示。以均方误差作为损失函数,采用Adam算法进行优化。模型的参数从正态分布初始化。每个模型都训练了100个epoch,这足以使损失收敛。为了消除训练过程可能会不幸地崩溃到局部最小值这一事实的影响,我们对每个模型重复训练了五次,并选择了产生最低损失的模型。我们将LSTM的性能与以前工作中使用的其他机器学习模型进行了比较:l2正则化的线性回归(Ridge),RBF核的支持向量回归(SVR)和随机森林(RF)。这些模型不能像LSTM那样处理二维数据。为了保持相同的信息量,我们简单地将所有时间步长中的特征向量连接为单个长特征向量,作为岭,SVR和RF的输入。LSTM模型以及其他机器学习模型将在20倍交叉验证下进行评估。对于模型评估指标,我们使用RMSE表3LSTM实现的细节。层数据形状神经元激活函数输入-0[?,31,20]/相同LSTM-1[?,31.8]8相同concat-2[?,248]/相同FC-3[?,第1页]/乙状通过平均数据样本的局部效应来计算bin,图五. 如何为特征F1生成ALE图。在这个例子中,为了简单起见,我们使用了25%的步骤。X. Hu等人医学信息学解锁24(2021)1005947∑×p上= f。上,xF2,xF3,=上下的我我输入特征F1在分位数箱的范围内。如果在bin的范围内有n个 上下数据样本,我们计算这些数据样本的所有局部效应值并对其进行平均。特定数据样本的局部效应(LE)等于在用右(上)和左(下)箱边界值替换特征F1的观测丰度时模型估计的变化:我我我LE下-上=n1n上下p上-p下(三)在获得每个分位数的LE之后,我们简单地将所有先前的LE相加以生成如图所示的ALE图。 5显示ALE显示了模型的响应如何根据特定的生理特征而变化。由于输入是包含31帧的特征向量的时间序列,因此将存在总共620(20 31)考虑到那些在不同的时间步骤的功能。一些恐惧- 结果显示,随着丰度的增加,人类绩效评估稳步增加,其他人则相反,与人类绩效评估呈负相关。我们调查了两个方面的模型的可解释性。首先,我们通过检查特征在不同时间步的ALE图,找出特征重要性与时间的关系。从经验上讲,如果模型更重视那些在时间上接近观察的特征,那么模型是有意义的,并且其可解释性很高。其次,我们研究了某些特征的ALE,以确定特征效应是否与生理学文献中的知识一致。至于第二个方面,我们没有应用所有20个功能,只是其中的一部分。我们在20倍交叉验证中选择了在模型中具有高度一致性的ALE。对于某个特征,例如时间步0处的RRI,交叉验证中将从20个LSTM模型生成20个ALE图。我们将20个ALE图分为以下三种类型:• seno阳性(单调递增ALE图)• seno阴性(单调递减ALE图)• 非单调情形一致性是具有最大比例的类型的比率我们只分析了一致性高于80%的特征这种分析可以提供对候选模型(LSTM,ridge,SVR和RF)的可靠性和可解释性的洞察,以及通过评估指标测量的性能4. 实验在控制良好的实验室中进行实验以收集数据。所有的环境因素对所有的参与者都保持不变。实验流程如图6所示。参与者首先阅读并签署了同意书,然后舒适地坐下。然后,他们被要求填写一份问卷,以确保他们中没有人在当天患有任何疾病或不适。问卷调查结束后,参与者被指示安装传感器(图7)。然后,参与者被告知如何进行修改后的2-back任务,而无需见图6。 实验流程。见图7。生理信号采集。引诱效应在这个练习环节中,参与者被呈现尽可能多的试验,直到他们熟悉任务。然后,他们完成了练习,并按下一个键,开始实验30分钟,没有休息。4.1. 参与者18名参与者(6名女性,平均年龄:23.5岁)参加了实验。东京大学伦理委员会批准了本研究的数据采集,并获得了所有参与者的书面知情同意书(编号17所有参与者都很健康,在实验当天没有任何疾病或不适。要求参与者在实验前获得充足的睡眠,并避免摄入咖啡因或酒精,并且在实验前6小时内不进行剧烈运动一些参与者在不同的日子参加了多个30分钟的实验块。我们收集了55个实验数据块。由于修改后的2-back任务简单,没有诱饵效应,我们没有观察到一些数据中的人类表现有任何下降,这可能导致不平衡的数据集并影响学习过程。为了建立一个平衡的数据集,我们只选择那些得分标准差大于0.8的数据集。因此,在55个区块中选择了20个用于机器学习模型的训练和4.2. 生理测量我们使用biosignalsPluX(PLUX wireless biosignals S.A.)[25]记录ECG和呼吸信号。采样率为100 Hz。使用GP3 HD(gazepoint)[26]收集瞳孔直径,这是一种经济实惠的眼动仪硬件,采样率为60 Hz。传感器安装在参与者身上,如图7所示。我们通过将ECG传感器的三个电极连接到参与者的左胸来测量ECG信号。通过可伸缩的弹性带测量呼吸数据。腰带系在参与者的腹部。瞳孔直径是使用设置在监视器前面的凝视点收集的。按照Gazepoint用户界面上的说明,要求参与者调整其坐姿,以确保正确测量瞳孔直径。5. 结果5.1. 消除诱饵效应我们进行了统计分析,以验证在修改后的N-back任务中是否真的消除了诱饵效应。由于在先前的研究中已经证明了在原始的N-back任务中存在引诱效应,我X. Hu等人医学信息学解锁24(2021)1005948(t=-=-=-==-=-=-=-(=)(==)=-=比较诱饵组和对照组的准确性。零假设是平均准确度相等且无显著差异。我们将实验块中的数据分割成多个帧。每帧包含四个刺激。如图8中所示,其中诱饵发生并且目标不等于所呈现的刺激的帧被分组到“诱饵“组中。一帧中,没有诱饵和目标是不等于所提出的刺激,被分组为“控制”组。仅考虑每个帧中的最后响应的正确性并用于计算精度。分析了所有55个数据块。我们应用F检验并检查方差相等性(F54, 54. 八十三岁,p差异显著时,比对得分达到更大的差异和更显著的水平。正如在3.1.2节中所解释的,任务准确性对一回模式的惩罚太大,并将其视为遗漏。受此错误评估案例的影响,使用任务准确性时,两组CSI的差异减小。因此,使用对齐分数的评分方法被认为更有希望区分不同的精神疲劳水平与生理特征。5.3. 估计性能表 4 证明 的 估计 性能 评价. 49)。然后我们应用T检验,没有发现显著差异. 53,p. 60)之间的平均值的两组,尽管引诱组(M。88,SD。17)具有比对照组(M)稍高的准确性 . 86, SD. 18)。因此,我们认为,在修改后的N-back任务中被删除5.2. 使用对齐分数进行初步分析以验证使用比对评分的适当性。如第3.1.2节所述,我们假设一回响应模式的疲劳程度较低,而忽略响应模式的疲劳程度较高。先前的研究结果支持低唤醒状态是精神疲劳的原因一回和遗漏之间最明显的区别是唤醒水平的差异,因为我们假设只有当参与者的唤醒水平非常低时,参与者才会无法提供任何回应。对人的表现的衡量至少应该能够区分这种差异。当个体被唤醒时,交感神经系统(SNS)被激活,因此我们选择SNS激活的指标--心脏交感指数(CSI)进行分析。我们使用两种评分方法比较了高评分组和低评分组我们期望适当的评分方法能获得组间更大的CSI差异。我们 分析 2分钟 帧 在 的 数据集, 这 含有20实验积木性能分数低于0.2的帧被标记为低,性能分数高于0.8的帧被标记为高。我们检查了两组的方差在F检验中不相等,并应用Welch如图9所示,使用两种任务准确度,低得分组和高分组之间的CSI存在显著差异。 不二、第26页. 02和对准分数T19。66,p<.0001.在任务准确性方面,高分组(M5。34,SD1。65)获得了更高的唤醒水平比低分数组(M5。21,SD1。79)。关于对齐分数,高分数组(M 5.37,SD1。66)也达到了更高的唤醒水平比低分数组(M4。77,SD1。40)。与先前的研究一样,两组之间CSI的差异在预期方向上[27]。 虽然这两种方法都显示出四类模型的RMSE和R。值得注意的是,LSTM获得了最低的RMSE 0.13和最高的R 0.70. 图10显示了地面真实人类表现以及LSTM在20倍交叉验证下的估计人类表现。LSTM证明了在30分钟的实验中估计大多数人类表现的可行性,这也表明了除了迭代12和20之外的精神疲劳水平的变化(如图10中的蓝色标题图所示)。关于迭代8、9、10和11(在图10中被可视化为绿色数字),尽管相关系数被认为是小的,但是这被假设是由地面真实人类表现没有经历太多变化而仅具有小波动的事实引起的。这表明LSTM成功地捕捉到了一般的波动,而不是微小的波动。与表5中以前的研究相比,所提出的方法通过每2s估计一次,以高时间分辨率进行MF电平估计,并且通过以回归方式估计MF电平,以高粒度进行MF电平估计。虽然由于采用了各种数据集和评估指标,因此很难纯粹比较MF估计系统的性能,但这项工作已经证明了可比较的结果,与使用估计模型作为回归量构建的结果相比,具有更低的误差或与地面真实值更高的相关性。5.4. 口译分析如第2.4节所述,我们使用ALE图来探索不同模型中的特征效应,提供黑盒模型(LSTM,SVR和RF)的可解释性,作为从候选人中选择的原因的另一个方面,除了它们的估计性能。具体来说,我们只讨论了在交叉验证的20次迭代中显示出一致特征效应的20个特征的子集。我们将不同时间步中的特征视为不同的特征,并为所有这些特征生成ALE图。每个特征的一致性如图11所示。我们选择了N、RRV、CVNN、RR、RespAmpMax和pSTD(详细功能描述请参见表2)。作为稳定的特征来讨论,图8.第八条。 诱饵组和对照组之间准确度的t检验。X. Hu等人医学信息学解锁24(2021)1005949表4图9.第九条。 采用心交感指数(CSI)比较两种评分方法。一致性和一致性的小变化。不同模型类型在20倍交叉验证下的性能(所有模型均与受试者无关)。模型RMSE R嵴0.20±0.08 0.60 ± 0.46随机森林0.14±0.06 0.54 ± 0.48SVR 0.19±0.08 0.64 ± 0.46LSTM 0.13±0.08 0.70±0.37首先,我们研究了相同特征在不同时间步长中的效果。时间步长的较大值指示特征向量在时间上更接近估计的人类表现的时间,并且对于较小值反之亦然。对于单个特征,我们将交叉验证中从20个模型生成的20个ALE图聚合为BOX图。在图12中,我们展示了不同时间步长和不同估计模型下特征N的聚合ALE图。如图12所示,对于LSTM,ALE图的斜率随着时间步长的增加而逐渐增加,表明LSTM见图10。LSTM在20倍交叉验证下的估计黑色实曲线表示指示精神疲劳水平的地面实况任务性能,红色虚线曲线是LSTM的估计。(For对本图中颜色图例的解释,读者可参考本文的网络版。)X. Hu等人医学信息学解锁24(2021)10059410一表5将我们的工作与以前的研究进行比较。参考性能属性在时间步长上,三个黑盒模型中只有LSTM表现出一种规则,即对在时间上更接近估计的人类表现的特征给予更重要的重视。这与将军的说法一致。[28]准确度=0.88(2-二元分类)[5]R2=0.875,MSE= 0.056(回归)低粒度、高时间分辨率低时间分辨率,高粒度理解人类生理反应与人类认知同步。换句话说,在某个时刻发生的生理特征应该与同一时刻的MF水平随着时间的推移,[4]R= 0.3(回归)低时间分辨率,高 时 间 更长,此 相关性将逐渐 削弱。 LSTM成功这工作R¼0.7,MSE联系我们粒度高时间分辨率,高学习了这个特性,让我们相信LSTM比SVR和随机森林更可靠。(回归)粒度另一方面,对于某些特征,不同的模型a使用决定系数R-squared而不是R作为回归量的评价指标。更加重视更接近于估计的人类表现的特征。我们在SVR和RF中没有观察到这种模式。其次,我们给出了最后一个时间步中所有six稳定特征的聚合ALE图(即,该特征在时间上与待估计的人的表现同步)并且在不同的估计模型下。对于特征N、RRV、RR和RespAmpMax,三个模型生成的ALE图方向相同。LSTM和SVR中的特征效应几乎是线性函数,而RF表现出对数ALE曲线,其中效应在大特征值处收敛。对于CVNN和pSTD,LSTM和SVR表现出相反类型的特征效应。在LSTM中,CVNN会对人类的表现产生积极影响,而pSTD会对人类的表现产生负面影响。的在SVR中,这两个特征的作用被逆转。6. 讨论从结果中,我们发现,对于位于不同位置显示了不同的ALE图。 如结果中所述,对于特征CVNN和pSTD,从LSTM和SVR生成的ALE图在方向上是相反的(图1)。 我们发现,从LSTM而不是从SVR生成的ALE图所暗示的知识与以前的研究结果一致。Takahashi [29]定量分析了标记为疲劳组的VDT工人和标记为对照组的学生的HRV差异Takahashi使用了一个名为CVrri的功能,它相当于本研究中使用的CVNN分析结果表明,VDT作业人员在下午5点左右的高疲劳水平时间段内的CVrri显著低于对照组,说明CVrri与精神疲劳水平呈负相关,从而与人的他们关于CVNN与精神疲劳之间关系的发现与LSTM生成的CVNN的ALE图一致。Morad等人[30]检查了根据瞳孔活动计算的参数是否可以识别24小时睡眠剥夺的疲劳受试者和具有整夜睡眠的警报受试者。他们发现,所有瞳孔参数在警觉和疲劳之间都有显着差异虽然大多数参数的值在受试者之间存在差异,但一个参数的绝对值超过25见图11。 特征的一致性。我们选择N、RRV、CVNN、RR、RespAmpMax和pSTD进行后续讨论,因为它们平均具有较高的一致性, 一致性的变化很小。我们认为六个特征在交叉验证模型中是一致图12个。三个模型在不同时间步长上的ALE图 (特征是N,即帧 中R-R 间隔的数量。)X. Hu等人医学信息学解锁24(2021)10059411图十三.针对六个一致特征的三个模型的ALE图(时间步长为30,指示与估计的人类表现在时间上对齐的最后一帧)。累积瞳孔变异率与睡眠剥夺有关,与我们工作中的pSTD相对应。定量上,疲劳组瞳孔直径的累积变异性总是显著大于警觉组。这表明pSTD应该与人类表现呈负相关,再次与LSTM生成的pSTD的ALE图一致。总之,LSTM不仅在估计性能方面更优越,而且是最可靠的,因为它的ALE图与生理学文献中的知识一致。7. 限制和未来的工作本研究的局限性和未来的工作包括以下三个方面:(1)数据是在实验室的受控环境中收集的,其中光照条件是一致的,没有太多的变化,因此,该系统仅适用于室内应用。应收集各种光照条件下的数据,以重新训练模型,使其在各种多变的光照环境下更加鲁棒。(2)该模型是任务特定的,因为它只从N-back任务中收集的数据中学习。为了验证该方法的普适性,还需要进行多种认知任务的实验我们预计在今后的工作中,作为一种独立于任务的方法加以改进。(3) 在 本 研 究 中 , 为 了 保 证 数 据 的 质 量 , 我 们 简 单 地 使 用 了 bio-signalPluX工具包来采集心电和呼吸信号。该工具包将电极和弹性带放置在人体上,这构成了对参与者施加的相当大的负荷。未来的工作应该集中在使用智能手表等可穿戴设备来收集心率和呼吸数据,使系统更加实用。8. 结论本文提出了一种基于生理学的精神疲劳水平估计方法,该方法在可行的性能下实现了高时间分辨率和高粒度水平。 通过每隔2s评估一次消除N-back任务中的心理疲劳水平,实现了高时间分辨率。高粒度水平是通过测量任务性能利用对齐得分。此外,还采用了具有深度学习模型LSTM的标准数据处理方案。我们发现,与以前研究中使
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功