没有合适的资源?快使用搜索试试~ 我知道了~
利用脑信号提高阅读理解的信息检索模型探索
380∗→利用脑信号更好地理解人类阅读理解叶紫怡1、谢晓辉1、刘益群1、王志宏1、陈雪松1、张敏1、马少平11北京国家研究中心人工智能研究所计算机科学与技术系清华大学信息科学与技术学院,中国北京yeziyi1998@gmail.com,xiexh_thu@163.com,yiqunliu@tsinghua.edu.cn,wangzhh629@mail.tsinghua.edu.cn,,chenxuesong1128@163.com,z-m@tsinghua.edu.cn, msp@tsinghua.edu.cn摘要阅读理解是一个复杂的认知过程,涉及到人脑的多种活动。然而,人们对阅读理解过程中大脑的活动以及这些认知活动如何影响信息提取过程知之甚少此外,随着脑成像技术(如脑电图(EEG))的进步,可以几乎实时地收集大脑信号,并探索是否可以将其用作反馈,以促进信息获取性能。在本文中,我们精心设计了一个基于实验室的用户研究,以调查在阅读理解过程中的大脑活动。我们的研究结果表明,不同类型的阅读内容,即,能满足用户信息需求的内容和不能满足用户信息需求的内容。我们认为,各种认知活动,例如,认知负荷、语义-主题理解和推理加工在阅读理解过程中的微时间尺度上支持这些神经反应从这些发现中,我们说明了一些见解的信息检索任务,如排名模型的建设和界面设计。此外,随着便携式EEG应用的出现,我们建议一个主动的现实世界系统的阅读理解状态检测的可能性。为此,我们提出了一个基于电子政务的阅读理解建模(UERCM)的框架为了验证其有效性,我们进行了大量的实验,基于脑电特征的两个阅读理解任务:答案句子分类和答案提取。实验结果表明,利用脑电信号提高两种任务的成绩是可行的。 这些发现意味着,大脑信号是有价值的反馈,以加强人机交互在阅读理解。CCS概念• 信息系统信息检索;用户和交互检索。刘益群为通讯作者。允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上有本声明和完整的引用。必须尊重作者以外的其他人拥有的本作品组件的版权。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。 请求权限请发邮件至permissions@acm.org。WWW©2022版权归所有者/作者所有。授权给ACM的出版权ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511966关键词阅读理解,答案抽取,关联预测,脑电信号,脑电ACM参考格式:Ziyi Ye,Xiaohui Xie,Yiqun Liu,Zhihong Wang,Xuesong Chen,MinZhang,and Shaoping Ma.2022年用脑信号更好地理解人类阅读理解。 在ACM Web Confer-ence 2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,纽约州纽约市,美国,12页。https://doi.org/10.1145/3485447.35119661引言人类阅读理解是一个复杂的认知过程,涉及许多搜索过程,例如,信息寻求和关联判断。在这方面,理解阅读理解有利于更主动的信息检索(IR)系统,例如推断搜索意图[12],设计搜索界面[44]和构建排名模型[30]。 先前的研究已经利用鼠标运动[32]和眼动跟踪[29]研究了人类阅读过程的行为模式和注意力分配机制。然而,这些方法并不能直接揭示阅读理解过程中大脑的实际认知活动和潜在的心理因素。因此,问题是“什么是阅读理解的性质在IR场景?”仍然是一个开放的问题。最近,神经成像技术的快速发展(例如,EEG和功能性磁共振成像(fMRI))使得在IR场景中探索大脑活动变得可行广泛的研究已经应用神经学设备来探索信息需求(IN)[38]和相关性判断程序[1]的出现。这些研究为揭示红外场景中的某些认知过程迈出了重要的一步,并提供了以前的眼动跟踪等技术无法获得的发现。然而,很少有研究对阅读理解中的认知过程进行深入的研究,当用户为他们的IN定位关键信息时,神经反应。在本文中,关键信息指的是答案和语义相关的跨度(示例见表1)。 我们相信,了解这些认知过程是有益的信息检索任务,如排名模型的建设和界面设计。另一方面,最近的研究将大脑信号作为用户反馈,用于预测IN的实现[37]和相关性[14,24]。随着便携式脑机接口(BCI)设备的发展,Liuetal. [33]建议在现实生活中应用BCIBCI可以解决传统信号有噪声的许多情况下的问题,例如,查询太短或不明确,用户381WWW在搜索过程中切换他们的意图然而,大脑信号很少被应用于检测用户用户是否已经找到有用部分(答案句子分类)以及用户是否已经定位了答案短语(答案提取)。 这些将有助于在不久的将来的主动IR系统。本文旨在解释阅读理解过程中的认知过程,探讨大脑信号对阅读理解任务完成的有效性,并提出以下研究问题:在阅读理解过程中,对关键信息和普通信息的反应在大脑活动中是否存在可检测到的如果是,RQ2:这些差异的认知基础是什么?他们对IR的见解是什么?而且,RQ3:是否有可能对答案句子进行分类,并根据这些差异定位潜在的答案单词为了阐明这些研究问题,我们进行了一项基于实验室的用户研究,以调查问答语境在该用户研究中,EEG设备用于收集大脑活动,随后使用事件相关电位(ERP)分析(神经科学中的典型方法)进行检查[34]。 通过分析,我们发现,不同类型的内容会引起大脑活动的变化。值得注意的是,我们发现与认知负荷相关的特定ERP成分N100-P200 [45]在回答词、语义相关词和普通词方面有所不同(ERP成分的定义,例如,N100-P200和P400,见第3.5节)。 回答词有助于较大的P600,这是由推断加工的认知活动引起的。基于神经基础,我们说明了IR社区的几个见解例如,(1)排序模型的构建应考虑细粒度的文档结构,以减少认知负荷并避免误解,(2)结果片段不仅应提供语义相关的内容,还应提供上下文信息,以更好地理解。此外,受脑机接口发展的启发,我们探讨了利用脑信号检测阅读状态的可能性 本文提出了一个基于脑电信号的阅读理解建模(UERCM)框架,它可以利用脑电信号完成两个阅读理解任务:答案句分类和答案抽取。实验结果表明,与未训练的模型相比,UERCM在答案句子分类(平均平均精度(MAP))和答案提取(ROC曲线下面积(AUC))方面分别显著提高了0.179和0.157。它也优于其他基线,特别是在回答句子分类任务中。2相关工作2.1阅读理解阅读理解是在基于文本的搜索场景中获取信息的认知过程,涉及视觉处理、语义理解和信息获取[7]。许多先前的工作研究用户的阅读模式和注意分配在IR场景中与眼动跟踪设备。Gwizdka [12]通过眼球运动研究阅读行为,并指示文本文档处理依赖于相关性和感知相关性。Li等人[29]通过眼动和外显反馈来研究中级阅读理解过程中的注意分配。在此基础上,作者提出了一个两阶段的阅读模式此外,已有的研究成果对阅读理解过程中的内隐反馈进行了例如 , Liu et al.[32] 利 用 鼠 标 移 动 来 研 究 搜 索 引 擎 结 果 页 面(SERP)的检测过程,并预测用户 Cole等人[5]表明阅读过程中的眼动模式可以推断用户的先验知识,以便更好地建模搜索上下文。Zheng等人[53]提取来自阅读任务的眼动特征,以提高机器阅读理解任务中的表现。尽管神经科学技术已经被用于研究一般领域中的阅读行为,例如,词汇识别[17]和句法分析[40],很少有研究文献集中在研究IR场景中的阅读理解,其中涉及信息寻求过程。因此,我们试图从神经科学的角度揭示人们感知关键信息和理解人类阅读理解的2.2神经科学IR越来越多的研究利用神经影像技术来研究IR相关任务。 这些工作主要集中在研究IR中的基本概念(例如,IN和相关性),并利用大脑信号作为隐式反馈。 在IN方面,Moshfeghi et al. [38]使用功能性磁共振成像来检查涉及IN如何出现的神经过程。它们揭示了一个通常与IN相关活动相关的大脑区域的分布式网络。 除了IN,以前的工作使用大脑信号从神经科学的角度来理解相关性。特别是,采用具有更高空间分辨率的fMRI设备来识别哪些大脑区域被激活[36],而具有更高时间分辨率的EEG设备来确定何时发生相关性判断[1]。脑信号作为一种内隐反馈被广泛应用于红外场景中,包括预测红外场景的实现和相关性。Moshfeghi等人[37]提出了通用和个性化的方法来预测使用功能磁共振成像功能的IN的实现此外,Kaughan et al.[22]进行一项关于用脑磁图(MEG)分类器预测视觉对象相关性的可行性研究。对于文本信息相关性,Gwizdka et al.[14]将眼球运动和EEG信号应用于文档相关性的评估。他们的分类模型与EEG特征显示,与随机基线相比,AUC改善20%。最近,随着便携式BCI设备的进步以及它们在教育[39]和游戏[41]中的广泛应用,利用大脑信号来改善搜索性能似乎是合理的通过最新的BCI技术,Chen et al.[4]设计了一个基于BCI的免提搜索系统,说明了在现实生活中用BCI代替键盘和鼠标的可能性。因此,利用脑信号的主动红外系统是有前途的,吸引了很多关注。在上述工作中,Moshfeghi等人进行的一系列研究。[36,37,38]与我们息息相关的主要区别···用脑信号更好地理解人类阅读理解WWW382(1)我们的研究领域是基于文本的阅读理解,而fMRI的研究领域是基于图像的关联判断。我们的发现揭示了人们在寻找关键信息时的大脑活动。表1:用户研究任务示例blod字体和下划线分别表示答案单词和语义相关单词问:世界上最大的哺乳动物是什么阅读和寻求答案的过程。(2)我们得到了不同的发现--由于EEG设备的高时间分辨率,例如,N100-P200认知负荷的发现和语义-主题异常引起的有趣P600现象。(3)我们进行基于EEG的模型来证明实时检测用户阅读状态的可能性。EEG比fMRI具有更好的可移植性,因此将EEG信号用于现实生活中的分类任务更有意义结果表明,构建完全相关相关无关蓝鲸是世界上最大的动物,成年后体积可达33米。世界上最大的动物在超-- -据估计,大约有100亿美元的资本-- 人体内的一个更好的大脑信号人机交互系统3用户研究在用户研究中,参与者被招募来执行几个阅读理解任务。每个试验包括一个事实问题和下面的句子与分级的相关性。在受控的用户研究设置下,为了防止潜在的混淆效应,在读取过程中记录EEG数据我们的代码和数据集的开源在https://github.com/YeZiyi1998/UERCM。3.1参与者我们招募了21名大学生,年龄在18 - 27岁之间(M1= 22.10,SD2= 2.07)。其中,男11人,女10人,主要专业为计算机科学、物理、艺术和工程。每名参加者完成整个任务约需两小时,其中包括40分钟的准备时间。 每个参与者在完成所有任务后获得30美元的报酬。3.2任务准备3.2.1数据集。 对于我们的用户研究,我们首先从WebQA [28]中抽取真实世界的问题,这是一个事实问答数据集,其问题是开放域,答案是封闭的。 我们使用这个数据集的原因如下:(1)它是最大的中文问答数据集之一。(2)为正确答案和相应证据提供人工注释。更准确地说,我们手动抽取了155个问题,涵盖了科学、历史、体育和艺术等主题。我们从这个数据集中为每个问题生成三个句子,并使用相关性标签手动注释每个句子。具体来说,我们选择地面真理句子,顶部句子检索BM 25,但不包含答案跨度,和一个随机选择的句子作为候选句子的完全相关,相关和不相关,分别。进一步注释用于验证和纠正第3.2.2节中的相关性标签,相关性水平定义见第A.1节。然后,一些句子被手动优化以减少长度并解决语法问题。最后,平均问题长度为8.7(SD = 4.0),平均句子长度为9.8(SD =3.0)。表1中提供了具有不同相关性水平的句子的示例。按照上述步骤,我们得到了一个由155个问题和465个句子组成的数据集1平均值。2标准差。句子)。在用户研究期间,参与者将看到从给定问题的三个候选人中随机抽取的3.2.2注释。 在构建了阅读理解数据集之后,我们招募了三名外部评估员来标注句子级别的分级相关性,识别答案词,并标注语义相关词。注释数据示例见表1。 作为每个单词和句子的分类任务,三个注释者之间的Fleiss kappa对于文本级相关性评估为0.9542(几乎完美一致),对于答案单词识别为0.9343(几乎完美一致),并且对于语义相关单词识别为0.7848(基本一致)。3.3程序本用户研究遵循保护人类参与研究的伦理程序,并得到清华大学心理学院伦理委员会的批准。用户研究的程序由6个阶段组成,详见下文。1-4期 在开始时,参与者填写一份报名表以报告人口统计信息并签署关于安全和隐私保护的知情同意书。然后,他们阅读有关用户研究主要程序的用户研究说明。 在主要任务之前,参与者经历具有五个问题的训练步骤,其类似于主要任务。培训步骤确保参与者熟悉主要任务的程序。第五阶段 图1说明了主任务中每个试验的过程。主任务共包含150个试验,分为6组,每组25个试验。 试验遵循相同的步骤顺序,即,图1所示的S1至S4:(S1)参与者查看从数据集中随机选择的模拟问题。 一旦他们完全理解了问题,他们可以按空格键,进入第二步。(S2)在屏幕中央呈现注视十字以吸引参与者的注意力并指示接下来的句子呈现的位置。注视交叉将出现1,000毫秒。(S3)从三个候选者中随机选择的句子将被逐字呈现,并且每个单词将被显示750毫秒。词的顺序呈现是自然句子加工ERP研究中应用的典型方法[25]。阅读速度的设置是基于先前关于刺激诱发的遗留的研究[8]。(S4)参与者对问题进行二元决策测试,WWWYe,etal.383米蓝色的/公司简介S3句蓝鲸是世界上最大的动物,成年后的体积可达33米S4特殊测试蓝鲸可以达到33米长。是否S1问题S2固定世界上最大的哺乳动物是什么屏幕1屏幕2屏幕NS4普通测试这句话能回答前面的问题吗?是否图1:主任务的结构首先,屏幕上会出现一个问题,参与者可以在阅读后按空格键跳过然后,一个固定的十字架和句子中的单词自动呈现在时间序列。第三,提出一个普通测试或特殊测试,参与者应按下一个键来回答。判决随机给出两种测试普通的测试是特殊测试是涉及句子的二元事实判断一般的测试是确认参与者已经仔细阅读了问题,并能够判断给定问题和句子之间的关系虽然特殊测试是为了确保,表2:在所有时间窗及其ROI(见第A.3.3节)中,应答词(A)、语义相关词(S)和普通词(O)之间的统计学显著性差异。表明在p 0水平上具有统计学显著性<。05 0. 001分别使用事后成对Bonferroni检验和重复测量ANOVA检验。即使参与者能够做出普通测试的判断,在此之前,他们也应该阅读整个句子最后,在参与者按下按键(J键表示“是”,F键表示“否”)通过测试后,下一次测试开始。对于每个组,检查测试的准确性,以确保参与者仔细执行任务在整个过程中记录EEG数据,具有预定义的触发以定位不同步骤的时间点第六阶段 在完成主要任务后,他们应该填写一份关于给定问题熟悉程度的事后问卷。3.4试点研究在进行我们的主要用户研究之前,对21名参与者之外的4人进行了初步研究,以确保EEG记录系统和用户研究程序正常工作。 从试点研究参与者获得的详细反馈用于调整用户研究参数设置,包括字体大小、试验次数、休息时间等。此外,在前人工作[21]的基础上,我们采用了普通测试和特殊测试来保证参与者能够认真地完成问题回答任务。为了调整每种测试的概率,我们将特殊测试的比例设置在10%,20%之间,发现10%的比例可以达到90%以上的特殊测试的准确率,而20%的比例没有显着提高该准确率。因此,确定了每种试验的概率:普通试验为90%,特殊试验为10%。3.5ERP方法ERP是大脑结构中响应特定事件或刺激而产生的电压[2]。它通常是指短暂的EEG数据时期,在实验设计的刺激之后不到1,000 ms。事件相关电位(ERP )成分是不同时间窗的诱发电位,包括N100、N400(100 ms、400 ms的负波)和P200、P600(200ms、600 ms的正波)。以前的研究表明,ERP组件与时间窗ROI事后检验ANOVA p120- 320 ms正面A>S* 面顶骨A>O* 骨中央A>S*,A>O**r-时间的 A>O**顶骨A>S*,A>O** 顶骨中央A>S**,A>O**颞侧 A>S** , A>O* , S< O * 顶 叶A>S*,A>O**感觉和认知过程的神经活动ERP分量之间的平均波形变化也被广泛研究,例如从N100分量到P200分量的变化[45]。为了从神经科学的角度深入了解人类阅读理解,我们采用标准的ERP分析方法,包括数据预处理,时间窗口和感兴趣区域(ROI)的划分,以及统计方法,这些方法在第A.3节中详细介绍。4统计分析4.1问卷调查和行为反应使用后问卷收集用户约三分之一的问题被用户报告为熟悉(高度熟悉:21.07%,有些熟悉:16.85%),另外三分之一的问题被用户报告为不熟悉(有些不熟悉:26.9%,完全不熟悉:3.78%)。其余的报告既不熟悉也不陌生(31.4%)。ERP分析表明,在我们的研究中,不同的熟悉水平没有显着差异。这表明,320- 520毫秒520- 750毫秒用脑信号更好地理解人类阅读理解WWW38442024回答词语义相关词普通词语无论用户多么熟悉,阅读过程都会在大脑中唤起类似的模式。行为反应分析的准确率和反应时间的二元决策测试。完全相关、相关和不相关的准确率分别为97.93%、92.03%和89.98%,而完全相关、相关和不相关的反应时间分别为1.00 s、1.29 s和1.39 s。这些结果表明,考虑到句子的等级相关性因此,我们可以推测,这些差异背后存在神经因素,这是研究的必要条件4.2ERP组件观察到的差异的显著性水平见表2。此外,图2提供了中央不同类型(答案词、语义相关词和普通词)的词的总平均ERP波形。具体而言,我们有以下观察结果:120- 320毫秒。在120- 320 ms的时间窗内,不同类型的词产生的P200波形的差异略显著(<额叶和顶叶p0.05)。额叶(F[2,40]= 19.51,p <0.001)、中央(F[2,40] = 20.94,p 0.001)和顶叶(F [2,40]= 29.14,p <0.001<)的N100-P200振幅(从N100到P200的平均波形变化)存在高度显著性差异。Bonferroni<<'s检验显示,回答词的N100-P200波幅显著高于语义相关词(p0.001)和普通词(p0.001)。先前的研究表明,阅读中较低的认知负荷与N100-P200振幅的增加有关[45]。回答词的N100-P200振幅的这种增加可能表明,当用户定位答案时,答案320- 520毫秒。检查了单词刺激开始后320- 520 ms时间窗内的总平均N400分量波形,显示中央(F[2,40] = 12.57,p0.001)、r-颞叶(F[2,40]= 17.34,p 0.001)和顶叶(F[2,40]=15.59,p 0.001)存在显著差异。 Bonferroni<检验显示,N400中回答词的平均否定性显著小于语义相关词(p 0.05)和普通词(p0.001)<。此外,在电极T4和T6中,语义相关词的平均负性显著小于普通词的平均负性(p <0.05)。众所周知,N400与处理即将到来的单词的消息级表示相关联[16,26]。一个词在当前语义语境中的“可预期性”越高 我们的统计分析表明,回答词的N400负性小于语义相关词。语义相关词的N400负性也小于普通词。“预期性”的发现与4.2节中先前关于认知负荷的发现一致,因为“预期性”较高的词可能需要较少的认知资源。此外,我们的研究结果还表明,语义相关的词比普通词有更高的“预期”。0.2 0.4 0.6 0.8时间(秒)图2:按词类型划分的中央(Cz+ FCz + C3 + C4 + FC3 +FC4)的总平均ERP波形520- 750毫秒。在520- 750 ms的时间窗内,对刺激诱发的P600波形进行了总体平均,结果显示在中枢(F[2,40]= 17.45,p<0.001 ) 、 左 颞 叶 ( F[2 , 40]= 15.87 , p <0.001 ) 、 顶 叶(F[2,40]= 20.27,p <0.001)中有显著影响。的Bonferroni<0.001)和普通词(p 0.001)。此外,语义相关词的平均正性显著小于普通词的平均正性(p0.01<)。最近的研究表明P600与语义-主题异常[48]和推理加工[3]有关。 在IR领域,Eugster et al. [9]显示相关的单词会引起更高的P600振幅。Pinkosova等人[43]表明更高的相关性和P600振幅之间的联系可能来自大脑中的话语记忆。在我们的研究中,句子在句法层面上没有问题,经过我们的手工检查因此,我们推测不同内容之间的差异可能是由语义-主位异常和推理加工造成的。正如Pinkosova等人所指出的,这两个方面也与话语记忆有关。更具体地说,有趣的是,发现P600在回答词中最高,其次是普通词,而在语义相关词中最低,特别是在l-时间(与语言识别相关)。对于回答词,很明显,在人脑中启动了内部加工类似地,语义相关的词也可能与推理处理有关,但程度较低。这两类词在语义上是相关的,因此它们与语义-主位异常的关系不大。然而,对于普通词而言,语义-主位异常比语义相关词占主导地位,因为它对语义-主位理解的帮助较小。因此,普通单词导致相对高的P600幅度。 一般来说,语义相关的词汇最有可能消耗相对较低的语篇记忆。然而,这一有趣的现象需要进一步探索,以揭示潜在的神经机制。4.3讨论总之,我们的研究结果朝着揭示阅读理解的本质迈出了重要的一步,VWWWYe,etal.385ABCE回答语义相关普通低认知负荷BC更高的期望更高的期望推理加工语义主位+在当前的搜索界面设计中,我们经常发现SERP上的结果片段包含了大量语义相关的内容,而忽略了普通的信息。虽然提供大量语义相关的内容使搜索结果具有吸引力(如我们的ERP分析所示,期望值更高),但在某些情况下,点击结果后可能会导致 我们的研究结果表明,搜索引擎应该考虑提取片段公平,不仅考虑语义因素,但也相关的内容是否可以提供证据和背景,以更好地理解的因素。0120毫秒320ms 520ms750ms(3)BCI增强搜索系统的洞察。随着脑机接口设备变得低成本和便携3,研究人员建议,认知消息级话语在不久的将来,在线BCI的革命[31],这可以被应用于图3:在条件方面,对于三种单词类型和可能的潜在心理现象,我们可以使用不同的时间窗口来进行A、B、C、D、E和F分别指的是额叶、中央、120- 320 ms时间窗口的下限和上限为±5µ V,其他时间窗口的下限和上限为±3µ搜索系统更加主动和人性化。 一方面,跨时间窗的ERP分析表明,在阅读理解过程中(处理RQ 1),关键信息和普通信息的加工存在神经差异。另一方面,我们认为各种认知活动,例如,认知负荷、语义-主题理解、推理处理是这些神经反应的基础(总结于图3)。 与之前使用眼睛注视数据的研究不同,我们的研究结果建立在更深的认知水平上,涉及人类如何处理文本信息。 这些认知差异可以帮助我们理解阅读理解过程,并说明IR任务(解决RQ 2)的几个见解:(1) 文档排名的见解N100- P200波幅的发现说明,当被试找到答案时,认知资源的需求较少。对认知资源的需求,即认知能力[20],影响用户与外部系统的此外,Jiang et al.[20]认为认知能力下降会导致检测准确性受损,这与阅读理解情景中的误解有关因此,由于阅读答案内容时认知能力的下降,我们认为潜在答案中容易获得的内容是重要的。一种较好的文档结构形式是简明扼要的关键信息内容和详尽的补充内容相结合 在实际应用中,搜索引擎在构建排序模型时,需要考虑到文档的细粒度结构,特别是潜在答案的位置和显示方式。(2) 洞察结果片段的构建。当用户找到答案时,我们推测他们会将额外的认知资源切换到其他神经功能(例如,工作记忆容量的扩展,用于信息回忆和管理)。答案内容的P600效应暗示了人脑推理加工的发生,验证了我们的此外,我们还发现语义-从事在线教育、上网和搜索。特别是在搜索场景中,研究人员已经实现了一个使用BCI进行搜索的徒手系统[4]。由于阅读理解是这些场景中的一项常见任务,因此利用BCI来更好地了解阅读状态是可能的,我们相信这将有利于人机交互。例如,通过BCI,搜索引擎可以了解哪些内容令用户满意,并进一步提供更多有用的信息,特别是在用户意图不明确的情况下。随着这些可检测差异的发现,我们被鼓励探索使用大脑信号作为阅读理解任务的内隐反馈的有效性,这将在第5节中详细阐述。5实验与实验为了探索阅读过程,我们进行了两个实验任务,即,答案句子分类和答案提取,在我们的用户研究中收集的EEG数据的基础上。这些任务在机器阅读理解[28,47,51]和IR [29]的研究注意,我们的目标是证明EEG信号作为隐式反馈的有效性和可解释性,构建考虑脑信号和其他交互特征的更复杂模型的研究是未来的工作。5.1模型给定单词级别的EEG特征(细节可以在第A.4节中看到),答案提取任务是一个二进制分类问题,以估计单词是答案的可能性。而答案句分类任务是一个估计句子完全相关概率的分类问题。为了用一个统一的框架来解决这些问题,并展示脑电信号的有效性,我们提出了一个基于脑电信号的阅读理解建模(UERCM)的统一框架。该框架为这两个任务提供了一个通用的结构,它考虑了可学习的位置编码和注意机制,以捕获句子中EEG特征的局部相互作用。 尽管注意机制已广泛应用于各种自 然语 言处 理(NLP)任务[49],但很少有研究表明其在基于EEG的场景中的有效性。因此,我们的目标是说明大脑信号的有效性,利用注意机制,设计更复杂的模型是留给未来的工作。呼叫相关内容需要很少的推理处理功能,因此其P600效应甚至比普通内容物的P600效应更小3 https://the-unwinder.com/reviews/best-eeg-headset/F异常D-1995DBC用脑信号更好地理解人类阅读理解WWW386.∈ ∈ ∈∈∈∈∈∈∈()下一页∈[]∈[]Lo=−(yoilogyoi+(1−yoi)log((1−yoi)[yo,1,yo,2,. . ,y=0,t]),具体如下:y= sof tmax(Ws ReLU(Concat(z1,z2,.,(zt))+bs)y≠ 0,i=sof tmax(WoReLU(zi)+bo),i=1,2,. . 得双曲余切值.其中W Rth×1,bsR1,Wo Rh×1,bo R1是线性输出层的参数。最后,我们采用交叉熵函数作为学习目标,样本句子的损失Ls(在答案句子分类任务中)和Lo(在答案提取任务中)为:Ls=−yslogys+(1−ys)log((1−ys))图4:UERCM的拟议框架、、我1 1其中ys∈R,yo,i∈R是句子标签的基础真值拟议框架见图4。 对于特定的词级EEG序列XRt×d = x1,x2,.,xt,其中t是句子长度,d是单词级EEG特征的长度,我们首先应用输入层将其线性投影到h维向量空间上,其中h是Transformer模型序列元素表示的隐藏维度:U=WhX+bh其中Wh Rd×h和bh Rt×h是可学习参数,URt×h是隐藏向量,稍后将其用作多头注意力层的输入。之后,我们添加位置编码PRt ×h = p1,p2,., pn转换为向量U,并获得U JRt ×h = U +P。代替正弦编码[49],我们应用可学习的位置编码,因为它们性能更好。然后,我们应用多头注意力层来计算本地交互序列:Z=多头(UJ,UJ,UJ)其中ZRt×h是输出向量。接下来,我们应用一个批量归一化层来 加 速 训 练 过 程 , 并 得 到 ZJ=BatchNormalization Z 。Vaswani等人[49]建议在多头注意层之后使用层规范化,这导致在各种NLP任务中比批规范化的性能提高。尽管如此,我们发现批量归一化的性能优于在我们的任务层规范化 我们认为原因是批量归一化可以减轻EEG特征不稳定的影响,这是一个在预训练的NLP单词嵌入中不会出现的问题。除了批量规范化的设计之外,我们框架的另一个不同之处在于注意层的数量(与NLP任务中注意机制的应用相比)。在实验中,我们没有使用多个注意力层来提高表现能力,而是简单地使用一个注意力层来避免参数的增加,这在我们的实验中表现得更好。由于我们的目标是验证注意机制和序列建模在新的基于EEG的阅读理解任务中的有效性,因此NLP中参数敏感性的讨论和Transformers [49]之间的深入比较将作为未来的工作。然后,在给定表示Z的情况下,对两个任务采用不同的策略进行聚合,得到句子分类的预测值(y∈s∈R1)和句子抽取的预测值(Y∈o∈Rt= 0)。和单词标签。对于训练过程,我们优化了两个任务(1)独立和(2)联合,除了最后一个输出层。他们的表现是相似的,因此,我们只报告独立训练程序的实验结果 对于基线,我们采用未经训练的模型,支持向量机(SVM),多层感知器(MLP),梯度提升回归树(GBDT)和递归神经网络(RNN)(具有特定的线性链条件随机场(CRF)模块用于答案提取任务)。 详情见第A.5节。 我们没有使用其他复杂的模型作为基线,因为:(1)以前没有专门为这项任务设计的神经模型;(2)我们的目标是显示大脑信号的有效性并提供统一的解决方案,与更多模型的比较将作为未来的工作。为了验证在不同环境下的有效性,我们执行两种数据分割策略来处理看不见的问题和看不见的用户:10倍交叉验证任务(CVOT)和留一参与者(LOPO),分别。至于评估指标,与先前的工作保持一致[46,51],我们使用AUC进行答案提取和答案句子分类,并使用MAP进行答案句子分类,因为它也可以被视为排名问题。我们还计算了其他模型与未经训练的模型的差值(AUC和MAP),以说明大脑信号的有效性。更详细的实验设置(即,参数设置和数据集分割策略)在第A.5节中详细说明。5.2结果和讨论表3分别给出了两种数据集分割策略(CVOT和LOPO,见第A.5节)下答案提取任务和答案句子分类任务的实验结果。 一般来说,可以看出,所有基于EEG特征的模型都明显优于未经训练的模型。这些结果证明了利用脑电数据定位答案词和监测用户寻找答案过程的可行性。此外,UERCM取得了最好的性能,特别是它提高了大幅度的答案句子任务相比,在不同的数据集分裂策略的所有基线这表明注意机制和脑信号序列建模的策略使UERCM能够大大优于机器学习 基 线 ( SVM 和 GBDT ) 和 神 经 基 线 ( MLP 和 RNN(+CRF))。现在,我们将分别深入研究不同模型在这两个任务中的性能。我们注意到:句子分类的答案抽取输出层1输出层2批次归一化多头注意位置编码p1p2u1u2p3ptu3ut输入层x1x2x3的蓝鲸Xt米WWWYe,etal.387∗ †表3:答案提取和答案句子分类的实验结果 /表示与未经训练的模型相比的差异(参见第A.5节),UERCM具有显著性,p值为<0。05,分别。模型答案抽取AUCCV OTAUCLOPO答案句子分类AUCCVOTSVM0。072∗†0。069∗†0。092∗†0。065∗†0。103∗†0。078∗†MLP0。079∗†0。084∗†0。141∗†0。077∗†0。122∗†0。086∗†GBDT0。086∗†0。077∗†0。097∗†0。079∗†0。125∗†0。074∗†RNN(+CRF)0。146∗†0。151∗0。132∗0。089∗†0。165∗†0。101∗†UERCM0.152磅0.157磅0.173米0.147磅0.236磅0.179米(1) 对于答案提取,SVM、MLP和GBDT的基线模型的表现明显不如UERCM。原因可能是他们将任务视为每个单词的二元决策,而遗漏了序列信息。相反,采用序列建模策略的模型,即,具有条 件 概 率 估 计 的 RNN ( +CRF ) 和 具 有 局 部 交 互 作 用 的UERCM,实质上优于其他基线。 虽然UERCM在这个任务中没有明显更好的RNN(+CRF),但我们建议它将是一个更好的解决方案,因为它可以实现并行计算,而RNN由于其迭代性质而不能。对于实时BCI设备,UERCM可以利用这种隐式反馈加速推理过程并节省后续计算的时间(2) 对于答案句分类,UERCM导致了一个显着的改善,并在两个 数 据 分 裂 策 略 的 CNOMAP 上 特 别是 , 我 们 发 现 RNN(+CRF)的表现明显不如UERCM,尽管它也考虑了序列建模。这种现象可能是由大脑信号的特异性大脑信号通常包含诸如眨眼和心跳之类的波动虽然我们使用标准的预处理方法,但对于与某些单词相关的脑信号,数据质量仍然不稳定对于RNN模型,性能受到迭代过程中的坏信号的影响 但我们的UERCM是稳定的,因为它可以自动miti-门坏信号的影响,并提取有价值的信息,从其他数据的序列与本地的相互作用。回答RQ3。答案抽取和答案句子分类任务的实验结果表明,脑电信号可以被利用来分类答案句子和提取答案词。此外,我们提出的框架UERCM优于其他基线在CVOT和LOPO设置。6结论本文研究了阅读情景下的脑活动。我们研究了用户在定位不同文本内容时的认知反应,包括答案跨度内容、语义相关内容和其他普通内容。我们的分析有助于更好地理解阅读理解。信息检索的主要发现和启示包括:(1)能满足信息需要的内容和不能满足信息需要的内容之间的神经活动存在可检测的差异。这些差异与认知负荷、推理处理和其他方面。(2)N100- P200波形与认知能力相关的研究结果表明,在构建排序模型时应考虑细粒度的文档结构,以减少认知负荷,避免误解。(3)推理加工在人类阅读理解中起着至关重要的作用,在我们的分析中表现为P600效应。因此,搜索引擎在提取SERP上的片段时,应该考虑语义相似度以外的因素,以获得更好的用户体验。随着EEG设备变得低成本和便携式,研究人员建议将BCI应用于教育,互联网冲浪和搜索等场景。因此,我们认为,脑机接口可以用来检测用户的阅读和答案寻求状态,以更好的人机交互。为了解决这个问题,我们提出了一个新的框架UERCM,它可以有效地分类答案的句子和提取答案在阅读理解。据我们所知,这是第一项利用大脑信号完成这些任务的工作 实验结果表明,大脑信号在阅读理解过程中可以作为有价值的内隐反馈。我们的研究是在实验范式下的一个基于实验室的阅读理解水平的情景 这些局限性对今后的工作有指导意义,如:(1)虽然便携式EEG设备比实验室设备含有更多的噪声,但我们相信在不久的将来,该技术将发生一场革命。因此,在现实生活中的阅读理解任务中收集大脑信号并考虑其他交互特征(例如, 查询生成、鼠标移动)来构建BCI增强的信息系统。(2)我们对人类阅读理解的认知发现提供了一些见解,以促进排名模型的构建和搜索界面的设计。 使用真实世界搜索引擎的实证研究旨在超越神经科学的视角来验证我们的发现。(3)我们提出了一个新的框架UERCM,作为利用脑信号检测人类阅读理解的第一步。有趣的是,探索其他实际的IR任务与BCI和设计更复杂的模型,以获得更好的性能。致谢国家自然科学基金(批准号:20000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功