没有合适的资源?快使用搜索试试~ 我知道了~
339Socialformer:基于社交网络的长文档模型周玉佳2、窦志诚1、4、袁华英3、马正义21中国人民大学高陵人工智能学院2中国人民大学信息学院3南开大学计算机学院4大数据管理与分析方法北京市重点实验室{zhouyujia,*dou}@ruc.edu.cn摘要利用预先训练的语言模型在神经文档排名方面取得了巨大 受计算和内存需求的限制,长文档建模成为一个关键问题。 最近的工作提出修改Transformer中的全注意矩阵,通过设计稀疏的注意模式。然而,它们中的大多数仅关注固定大小窗口内的术语的局部连接。如何在术语之间建立合适的远程连接以更好地建模文档表示仍然有待探索。在本文中,我们提出了模型Socialformer,它引入了社交网络的特点,设计稀疏的注意模式,为长文档建模的文档排序。具体来说,我们考虑了几种注意力模式来构建一个像社交网络的图这种图具有社交网络的特点,在保证稀疏性的前提下,大多数节点对可以通过较短的路径到达。为了便于高效计算,我们将图分割成多个子图来模拟社交场景中的朋友圈 实验结果证实了该模型在长文档建模中的有效性。CCS概念• 信息系统→检索模型和排名。关键词文档排序;社会网络;长文档建模ACM参考格式:周玉佳,窦志成,袁华英,马正义2022年社会-前:社会网络启发长文档建模的文档排名. 在ACM Web Conference 2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,New York,NY,USA,9页。https://doi.org/10.1145/3485447.35119621引言文献排序是信息检索中的一项重要任务 它的重点是生成一个有序的文档列表,以响应用户的查询。近年来,预先训练的语言模型,如允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上有本声明和完整的引用。必须尊重作者以外的其他人拥有的本作品组件的版权。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。 请求权限请发邮件至permissions@acm.org。WWW©2022版权归所有者/作者所有。授权给ACM的出版权ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511962如BERT [9],在自然语言处理和信息检索方面取得了令人印象深刻的进展 其强大的上下文表示学习能力适合于在语义空间中对文档进行建模,并已广泛应用于信息检索[7,24,46]。然而,由于二次注意力矩阵的记忆约束,基于BERT的模型的输入序列被限制为512个标记[2]。因此,如何将BERT应用于长文档仍然是文档排名的挑战。为了解决这个问题,一些早期的研究[7,15,46]将文档划分为具有固定大小窗口的多个段落,将查询与每个段落进行匹配,并聚合文档等级的相关性信号。这些研究集中在每一个篇章的语义建模上,而忽略了篇章之间的词汇层面的相互作用。这会阻止模型学习全局文档表示。随后,另一组作品提出在Transformer[33]中处理具有稀疏注意力模式的长文档,例如滑动窗口注意力[3,16,44,47],扩大窗口注意力[3,50]和全局注意力[3,44]。这些模式扩大了每个术语的感受野,以与更远的术语相互作用,同时确保稀疏性。以前的方法在减少具有稀疏连接的自注意层的复杂性方面取得了很大进展它们中的大多数主要集中在建立术语的局部连接,以在固定大小的滑动窗口内对语义依赖进行建模。然而,在这些方法中,术语之间的远程连接被忽略或被简单模式捕获[3,44]。事实上,根据小世界理论[21,34],稀疏社交网络中合适的远程连接可以缩短大多数节点对之间的路径。Bigbird [44]首先在构建随机注意远程连接时引入了小世界图。但在现实社会网络中,人与人之间的远程连接的形成并不是随机的,而是与他们之间的距离以及他们在社交网络中的地位有关。受此启发,我们试图利用社交网络的特点,在一个长文档中建立精心。通过社会网络启发图,我们能够实现更好的信息传播能力,并最终产生更好的文档表示的Web文档排名。社交网络已经被许多研究者深入研究。有三个主要特征可以确保信息的有效传递[11,17,32]。(1)随机性。任何两个人都有一定的概率建立新的(2)距离感知。 在一个小世界网络中,两个人之间建立联系的概率应遵循与距离的平方反比律[21]。(3)中心性。一些340WWW名人在社交网络上拥有更大的影响力,并且通常与更多的人联系。这些特性确保了即使图是稀疏的,大多数节点对也可以通过短路径到达。 这将确保在稀疏的社交网络上进行有效的信息交换。受这些特点的启发,我们提出了一个类似的范式,形成稀疏注意力矩阵在长文档建模。 与传统的固定注意模式不同,所有词与词之间的连接都是根据概率抽样的。这使我们能够根据文档长度和内容动态调整边缘分布概率的计算遵循社会网络的特点,考虑了词距离和词中心度。在这种策略下,我们构造的模仿社交网络的图可以在保证稀疏性的同时增强文档中的信息传递。由于概率抽样图的随机性,如何实现快速计算成为一个新的挑战。以前的稀疏注意力矩阵可以处理长文档的原因是它们可以很容易地分成多个小的自注意力块。为了便于计算,我们建议将图分割成多个子图,同时保留尽可能多的信息。在社交网络中,人们之间的关系通常依赖于朋友圈[10,13],并且每个圈子中通常有一个中心人物[52]。 基于这一观察,我们提出了一个图划分算法,其重点是在图中找到中心节点。根据这些中心节点,我们可以形成多个子图来模拟社交场景中的朋友圈。一般来说,朋友圈内的成员通过频繁互动的强关系联系在一起[13,18]。相比之下,朋友圈之间通过弱关系进行的互动相对较少[35]。 为了模拟这种交互,我们提出了一个两阶段的信息传输方法. 在第一阶段,圈内交互应用于每个子图内的术语之间的语义依赖建模。其次,对于圈与圈之间的信息传递,我们在多子图的中心节点上进行圈与圈之间的交互。在这种策略下,文档中的大多数词对可以通过直接的连接或多个迭代堆叠块。更具体地说,我们提出了Socialformer,一个社会网络启发的长文档建模方法的文档排名。Socialformer由四个步骤组成 首先,根据社交网络的特点,设计了四种稀疏注意模式,构造了一个概率抽样图。其次,我们提出了两个基于朋友圈的图划分策略,以减少内存和计算复杂度。第三,我们设计了一个两阶段的信息传输模型,以捕捉与增强的Transformer结构的条款之间的最后,通过聚合段落和子图的表示,形成一个全面的文档表示文档排序。 我们在广泛使用的TREC DL和MS MARCO数据集[5]上进行实验,以进行文档排名。实验结果表明,我们提出的模型Socialformer显着优于现有的文档排名模型。现将这些捐款概述如下。(1)将社会网络理论引入到长文档建模中,为增强信息传递提供了理论基础在长文件中。(2)受社会网络特点的启发,我们设计了几种具有社会意识的稀疏注意模式来构建概率抽样图。(3)为降低复杂度,借鉴社交网络中朋友圈的概念,提出了一种图划分算法。(4)采用两阶段信息传输模型,通过增强的Transformer实现圈内和圈间的交互。2相关工作通过级文档排名。基于Transformer [33]的模型的一个主要缺点是,由于二次内存复杂性,它们无法处理长文档。 受使用文档分级的证据的启发[4],一个直观的想法是将文档文本分割成多个小块,将查询合并到所有段落[1,7,15,25,27,31],然后聚合每个段落的信息[22,41]。一些早期的研究侧重于将文章排名分数与不同的策略相结合。Dai和Callan[7] 设计了三种方法(MaxP,FirstP,SumP)来从所有级别的分数中获得文档排名分数Hofstätter等人[15]提出了一种具有知识蒸馏的文档内级联排序模型,以加快选择通道。然而,这些方法忽略了段落之间的信息传递这将阻止模型学习全局文档表示。 为了解决这个问题,提出了几种表示聚类方法来学习全局文档嵌入。Wu等人[37]使用LSTM [14]对隐藏在段落中的序列信息进行Li等人[22]尝试了一系列表示聚合策略,包括最大池、注意力池、Transformer等。 为了进一步加强通道之间的信息传递,提出了一些分层Transformer结构来模拟通道内和通道间的相互作用[36,39,40,48]。 为了进一步学习嵌入全局视图的文档,一些研究使用迭代注意力块逐层扩大每个术语的感受野,例如Transformer-XL [8]和Transformer-XH [49]。虽然这些努力取得了一定的成效,但如何合理引导信息传播仍有待探索。长文档变压器。解决长文档表示问题的另一个想法是设计稀疏注意力模式[3,20,30,51],以避免计算全二次注意力矩阵乘法。最直观的注意力模式之一是滑动窗口注意力[3,16,28,44,47],它只保留与周围术语的链接。此外,设计了扩大的滑动窗口[3,47,50],以进一步增加感受野,而无需额外的计算成本。 为了适应特定的任务,一些工作提出使用全局注意力[2,3,12,44]来突出某些标记的影响。 在信息检索领域,查询词通常被设置为全局令牌以关注所有令牌[19]。为了对文档结构进行建模,提出了一些基于图形的Transformer方法[42,43]以降低计算成本。然而,文档中的任何两个单词都应该有连接的概率[34]。 为了实现这一想法,Zaheer等人。[44]将随机注意力应用于稀疏注意力矩阵的构造,与结构化模式相比,本文结合社会网络理论对长文档进行远程边的构建Socialformer:基于社交网络的长文档模型WWW341(·)(·)(·)(·)我的天我1J12n我我J我JJ建模我们的模型可以提高信息传输和学习全面的表示文档排名。3方法文档排序已经成为许多搜索引擎中不可或缺的组成部分。最近,基于BERT的模型被应用于对文档进行编码,从而更深入地理解文本。 对于较长的文档文本,以前的研究设计了各种具有稀疏注意模式的长文档转换器,以减少COM。其中p是控制概率范围的超参数,在实验中设置为50。静态中心在社交网络中,一些名人通常与更多的人有联系,影响力更大类似地,文档中的每个单词对表达文档的语义有不同的我们试图提取文件中的“名人”,并突出他们的影响力。我们选择一个共同的指标,TF-IDF权重,以表明每个单词的静态中心性,表示为{wsc,···,wsc}。静态1L基于中心性的概率Psc(i,j)复杂性然而,他们中的大多数人只关注当地术语的连接受社交网络的启发,我们认为,令牌ti和tj。我们有:是与术语之间的远程边缘对于有效信息至关重要Psc(i,j)=f(wsc·wsc),(2)整个文件的传输图1显示了Social-former的概述。 为了构建具有合理远程边的图,我们结合了社交网络的特征其中函数f用于将权重乘积映射到概率。它由平滑层和归一化层组成s(i,j)=smooth(wi·wj),考虑词距和词中心性的影响为了便于计算,我们根据朋友圈的特点将整个图分割成多个子图然后,s(i,j)−mins(i,j),maxs(i,j)−mins(i,j)(三)我们设计了一种两阶段的信息传输方法来模拟社会场景中的信息流。 在本节的剩余部分,我们将介绍细节。3.1基于社交网络的图构建正如我们在第1节中所述,社交网络的特征(即,随机性、距离感知和中心性)确保大多数对稀疏图中的节点可以通过短路径到达高效信息传输和稀疏性符合我们的需求,其中smooth是平滑函数,其在实验中由sqrt 它可以在未来被更复杂的方法所取代。动态距离给定查询q,我们假设文档中包含的查询词对文档建模更重要,并且文档中它们周围的词通常对查询更有信息性。形式上,我们将文档中与查询完全匹配的单词{tq,tq,···,tq}。第i个文档词wdd的权重是相关的设计注意力模式在本节中,我们将介绍如何到这些核心词的距离我们有:结合社交网络来构建一个图表。dd1.n1受社交网络随机性的启发,我们放弃了传统的固定注意力模式。相反,我们对wi=nj=11+ |i − pos(tq)|(4)根据社会感知概率的边缘。这使我们能够为文档构建多样化的社交网络 为了计算概率,我们考虑了词距离和词中心度。除了静态概率,其中pos用于计算文档中的原始位置并且p是与等式中相同的超参数(一). 基于动态距离的概率的计算类似于上面:Pdd(i,j)=f(wdd·wdd).(五)与文档相关,我们还考虑了响应于特定查询的动态概率。事实上,面对不同的查询,文档中每个词的贡献不应该是一样的。如图1所示,我们设计了四种社交意识注意模式来计算概率矩阵。它们是:静态距离。除了本地连接,Watts和Stro-gatz [34]认为远程边缘对于信息传输是必要的。 他们提出了Watts-Strogatz模型来随机采样远程边缘,该模型被BigBird应用于长文档建模[44]。然而,Kleinberg[21]指出,随机策略与真实的社交场景并不他们声称两个人联系在一起的概率与他们的距离通常遵循平方反比定律。受此启发,我们认为这一规则也符合长文档建模。两个词之间的距离越远,它们具有语义依赖性的概率越低。形式上,给定长度为l的文档d,表示为d = t1, ,t1,在令牌ti和tj之间建立边缘的概率是:Psd(i,j)=(1 + |i − j|(p)2,(1)动态中心。在与查询匹配时,一些不常见的词将在语义上发挥重要作用 具体地说,基于BERT的模型在文档排序任务上表现良好,并且在特殊标记“[CLS]”位置处的注意力权重可以反映每个词的贡献。然而,由于长度限制,我们无法将长文档的所有单词都输入BERT。 为了解决这个问题,我们提出使用简单的模型来选择几个相关的词,并应用BERT模型来计算它们的准确权重。在第一阶段,余弦相似度用于确定文档中每个词与查询的相关性。然后,我们选择前512个相关词,并将它们输入BERT模型,输入格式如下[CLS] query [SEP] rel 1 rel 2···rel n [SEP].(6)我们用相关词的余弦相似度权重替换为BERT权重。类似地,基于动态中心性的概率与每个项的权重相关:Pdc(i,j)= f(wdc·wdc)。(七)最 后 , 基 于 这 四 种 策 略 , 我 们 取 四 个 概 率 矩 阵P=λ1Psd+λ2Psc+λ3Pdd+λ 3Pdd+λ 4的加权f(i,j)WWW周玉佳,窦志成,等。342图分区iµ,jE.( )=G {N E}NG--G社会意识注意模式文件(a) 静态距离(b) 静态中心性(c) 动态距离(d) 动态中心性查询概率采样图划分信息传输概率矩阵抽样图子图文档表示图1:Socialformer的概述。对于一个长文档,我们结合了四个社会意识的注意力模式来采样一个令牌级图。颜色越深表示概率越高。设计了图形划分模块和信息传输模块,方便计算。最后,获得用于排序的全局文档表示节点级划分抽样图边级划分123中心节点子图节点已删除节点剩余节点端采样图,边缘分布是非结构化的。我们建议将其分割成多个子图进行计算。我们希望这些子图保留尽可能多的节点和边,以尽量减少信息的丢失 为了确定图划分的方式,我们参考了社交网络的另一个特征:人们之间的关系通常是基于朋友圈形成的。在社交场景中,朋友圈是常见的关系结构,例如同学和亲戚。朋友圈的一个特点是,往往有一个人处于核心,负责连接整个圈子里的人[52]。这个功能为我们提供了一种提取朋友圈的方法具体来说,我们设计了两个分区策略,如图所示图2:图分区的概述受朋友圈的启发,提出了节点级划分和边级划分的方法,将图划分为多个子图。λ4Pdc用于采样。 为了控制生成的图的稀疏性,我们设置一个超参数μ来缩放概率,如下所示:.Pij= l 2(1-稀疏性),(8)其中l是文档的最大长度图的邻接矩阵M在缩放的概率矩阵P上被采样为:图2:节点级分区和边缘级分区。前者假设一个节点只出现在一个子图中,而后者允许每个节点属于不同的子图。 在有限的子图数目下,节点级策略可以记录更多的节点信息,而边级策略保留更多的边。形式上,给定整个图=、得双曲余切值.是包含文档单词的节点集,表示单词之间的连接,我们的目标是找出前k个信息子图。具体来说,我们首先选择度最高的节点作为第一个子图的中心节点然后,中心节点和它的相邻节点形成第一子图<$1。到Mij1, 如果随机0, 1Pij;<0,否则,为了保证不同子图之间的区分,有两种划分策略。对于节点级分区,我们删除所有节点其中random(0,1)表示从0到1的随机数然而,由于我们的采样策略的随机性,采样图的边是非结构化的。传统的注意模式难以计算自我注意矩阵. 为了解决这个问题,我们尝试将整个图划分为多个子图,同时保留尽可能多的信息。3.2图划分之前的稀疏注意模式可以降低复杂度的原因是它们可以很容易地被分成多个小的自我注意块[3,44]。然而,由于我们的随机性,在子图<$1中,重复上述过程以形成其他子图。对于边级划分,我们只去掉了图中的<$1条边,而一些节点仍然有机会出现在其他子图中。最后得到了k个子图G =<$1,. 这将在下一节中对信息传输起作用3.3迭代信息传输在社交网络中,朋友圈内的联系通常是密集的,这被称为强联系[13,18]。 它们有助于人与人之间的互动,而通过强关系传递的信息往往是多余的。[35]第35话有一个人1234Socialformer:基于社交网络的长文档模型WWW343MLP池化层我的天我∈(·)∈loiw我L−1i、j1K+m文档嵌入MLP相关性分数× L[CLS]1,11,查询[CLS]查询 ,1 个查询, 1个查询1,0美元1,12011年,2011年查询2000年,0 中国,1联系我们油道1···通道n子图1···子图k固定通道数的基于圆的子图图3:信息传输模型的架构。结合固定大小的通道和社会感知子图,圈内和圈间的相互作用,以加强信息的传输。最后,通过聚集中心节点的信息,我们得到的综合文档嵌入计算相关性得分。对群体层面的信息传播影响更大模仿输出Chigh={chigh,···,chigh}考虑了以下信息如图3所示,我们设计了长文档中的这种模式,1千+百万在所有子图和通道上建立了一个两阶段的信息传递模型,包括圈内交互和圈间交互。 通过L个迭代堆叠块,可以传输大多数节点对之间的信息以学习全局文档嵌入。具体介绍如下。圈内互动。属于同一个朋友圈的人,往往有一定的相似性。Triadic闭包理论[10]在所有子图和通道上传输,并将在下一次迭代中将全局信息带到其相邻节点迭代堆叠块。 为了促进全球信息传播到每一个节点,圈内和圈间的互动是更合理的交替。整体结构由L个堆垛块组成 每个块包含一个圈内和一个圈间交互层。两个Transformer的输出层将被聚合为下一个块的输入表明同一个圈子里的两个人. [{c低,c高}]·WC,如果c 是中心节点;Transformer层实现各个子图中的信息传递形式上,对于子图<$i,假设它由一个中心节点ci,0和ni个相邻节点组成,即. ,Ci = Ci,0,Ci,1,,Ci,ni ,与低层Transformer的圈内交互定义为:Clow = Trm({ci,0,ci,1,···ci,ni,query}),(9)其中Trm(·)是r的Transformerenc o。此层的输出表示为C低={c低,c低,···,c低}。在剩下的{ci,j}L−1,否则,其中WCR2E×E是投影矩阵。在L层的迭代过程中,中心节点充当全局信息传输的桥梁。 整个过程与社交网络中的信息交换高度一致。聚合来在L堆叠块之后,我们聚合所有通道和子图来学习文档嵌入全局信息,i i,0一,1i,nimation。根据先前的工作,如PARADE [22],我们汇总了在本节中,我们使用clow来表示中心节点clow,我代表了这个圈子的内部互动。i,0通过池化层将对应于中心节点的表示进行处理,以得到文档嵌入d,定义为:圈内互动。不同朋友之间的联系高高圆圈可以帮助信息传递到更远的地方。为了将文档中每个单词的语义传递到所有位置,我们在中心节点上设计了一个具有高级Transformer的圈间交互层。为了保持句子结构信息,我们将固定大小的段落与子图结合在一起进行信息传输。假设有m个通道和k个子图,我们取每个子图和通道的中心节点(将“[CLS]”视为d=池化({c1,···,ck+m}L),(11)其中Pooling是聚合函数,可以通过Mean、Max、Attention、Transformer等实现。由于文档嵌入已经对查询信息进行了编码,因此我们可以通过将文档嵌入到线性层中来直接计算相关性得分:评分(d)=vTd,(12)中心节点)作为输入,即,,C低={c低,···,c低}中。我们有:哪里是一个线性函数来投影文档嵌入-1C高=Trm({c低,···,c低K+m})中。(十)vRE变成一个标量分数。············MLPMLPMLP圈际互动············圈内互动···圈内互动 ···圈内互动············MLP来的朋友基于这样的观察,我们使用一个完全连接的{ci,j}L=WWW周玉佳,窦志成,等。344=−logexp( score(d))(1用两种不同的图划分策略发送模型3.4培训对于每个查询q和一组文档Gq,我们选择列表交叉熵作为损失函数[7]:全局注意力、局部注意力和随机注意力共同构成了一个通用的序列编码器框架我们的方法,这是所谓的Socialformer1,结合广告-基于XML的模型和长文档TransformerQ. exp(评分(d+))d∈GQ模型我们使用Socialformer节点和Socialformer边缘来表示-其中d+是正样本的文档嵌入,d是文档d∈Gq的文档表示。4实验设置4.1数据集和评估为了证明我们提出的Socialformer的有效性,我们对2019年TREC深度学习跟踪文档集进行了实验[5]。该集合是用于Web文档检索的大规模基准数据集它包含320万份文件,平均文件长度为1,600字。我们进行实验,在现有的作品中广泛使用的两个代表性的查询集MSMARCO文档排名(MS MARCO)[26]:它包含367,000个训练查询和5,000个用于评估的开发查询。相关性评级为0/1。TREC2019 Deep Learning Track(TREC DL)[6]:它用一组新的43个查询取代了MS MARCO中的测试查询。虽然它比MS MARCO 小, 但它具有 更全面的 符号,相关性得分为0/1/2/3。我们使用官方指标来评估排名靠前的结果,例如MRR@100和nDCG@10。此外,我们还分别报告了MS MARCO和TREC DL的MRR@10和nDCG@100。4.2基线我们通过将其与三组用于建模长文档的方法进行(1) 传统的IR模型。BM 25[29]是一种基于IDF加权计数的高效概率检索模型 QL [45]是另一个著名的模型,它用Dirichlet先验平滑来度量查询的查询可能性。(2) 基于通道的模型。这些方法首先使用固定大小的窗口将长文档分割成多个段落,然后使用标准的Transformer架构来预测每个小段落的相关性。 BERT-FirstP [7]用BERT模型独立预测每个段落的相关性,用第一个段落的得分来表示整个文档的相关性。BERT-MaxP[7]将每个通道的独立得分与最大池化层相结合,以集成全局相关性信息。 IDCM [15]是一种具有有效段落选择策略的文档内级联排名模型。PARADE [22]提出了将文档段落的表示聚合到全局文档嵌入中的策略,并计算最终得分。(3) 长文档Transformer模型。这些方法通过在Transformer中设计稀疏注意模式来处理长文档排名Longformer[3]将局部窗口注意力与任务驱动的全局注意力相结合。我们尝试了这两种变体,即,标准Longformer和LongformerGlobal4.3实现细节我们对高级检索模型ANCE检索到的Top100结果中的文档进行了重新排名[38]。在训练过程中,对于每个查询,我们以1:7的比例选择阳性样本和阴性样本。从候选文档中随机选择阴性样本。考虑到时间成本和效果的平衡,所有模型都训练一个epoch,批量大小为8。 我们使用AdamW [23]来优化学习率为1e-5的参数。对于该模型,我们使用超参数μ通过等式将社交图的稀疏度控制在约0.93水平。(八)、文档长度和窗口大小被设置为2048和128用于实验,更大的窗口大小不会带来更多的改进[15,19]。为了控制存储复杂度,子图的最大数量k被设置为16,这可以保留用于信息传输的关键节点或边 我们将层的数量L设置为12,并且圈内交互层由BERT基础模型初始化。考虑到时间成本,池化层被设置为最大池化操作,这也被应用于基线模型PARADE。5实验结果5.1总体结果MS MARCO和TREC-DL 2019数据集的实验结果如表1所示。现提出以下一些意见。(1) 在所有模型中,我们的社会意识模型在所有评估指标方面都优于具有相同设置的所有基线 与最好的基线模型相比,我们的模型在两个数据集上都有显著的改进,在p 0处进行配对t检验<。05层。具体而言,对于MS MARCO数据集,我们的最佳模型Socialformeredge 在 MRR@100 上比PARADE 提高了2.37% 以上,而对于TREC DL数据集,在nDCG@10上比BigBird提高了4.70%。这些结果表明,将社交网络的特征引入到注意模式中可以提高排名质量。(2) 通过比较不同的模型类型,我们发现段落间的信息传递在学习全局文档表示方面是有效的。具体来说,聚合所有段落的表示的PARADE优于BERT-MaxP等分数聚合方法 这表明聚合文档表示可以缓解文档嵌入中缺乏全局信息的问题。此外,长文档Transformer模型设计了不同的注意模式来实现段落之间的信息传递,表现出可比性。 我们的模型Socialformer在设计注意模式时参考了社交网络,从而实现文档内部更有效的信息传递。(3) 比较不同版本的Socialformer,可以观察到较长的文档输入(2048与512.第512章明显全球关注。QDS-Transformer [19]设计IR公理Transformer中的结构自注意。[44]第四十四话1代码可在https://github.com/smallporridge/Socialformer上获得··LSocialformer:基于社交网络的长文档模型WWW345†表1:所有模型在两个文档排名基准上的结果“<“表示在t检验中,结果显著优于相同设置的其他模型,p <0。05层。最好的结果用粗体表示,第二好的结果用下划线表示。型号类型型号名称单据窗口MARCOTREC DL女士我们的模型SocialformeredgeSocialformernodeSocialformeredge0。4313×0。4258×0。4950×0。6212†0。4483×0。4402×0。5087×0。6534†0。4490 ×0。4411 ×0。5119 ×0。6615†改善成果。这一结论也可以在BERT-MaxP上得到 这揭示了较长的上下文包含更多有用的信息来理解文档的语义。此外,Socialformer节点和Socialformer边的性能对于2048文档长度是相似的,但是当我们将输入长度限制为512时,Socialformer边表现出更大的优越性。 这表明,当社交图中的节点数量相对较少时,边缘级划分保留了大量信息。综上所述,实验结果表明,将社交网络的特性引入到稀疏注意模式的设计中,有利于在长文档建模。5.2在生成图形的过程中,我们从动态-静态和距离-中心维度计算概率分别 为了验证我们每个注意模式的必要性,我们探索了每个策略的作用,包括静态距离、静态中心性、动态距离和动态中心性的概率矩阵。为了直接观察每种注意模式的效果,我们以0.9的稀疏度可视化了每种策略产生的邻接矩阵 如图4所示,每个策略都突出显示邻接矩阵的不同部分,以模拟单词之间的关系。为了进一步分析,我们一次删除一个策略,以观察对MS MARCO数据集的影响此外,我们使用随机抽样,建立每个边缘的概率是相等的比较。其结果示于表2。 我们发现,删除每个注意模式将损害所有评估指标的结果。具体地说,删除动态模式对性能的影响最为明显这表明基于查询建立文档的语义依赖关系更有助于学习全局文档表示。同时,静态模式也对结果有一定的贡献这四种策略共同构建了一个类似于社交网络的图,表2:在MS MARCO数据集上注意力患者消融研究的性能。模型MRR@100MRR@10游行0.4382-2.41%0.4302-2.47%社交前边缘0.4490-0.4411-w/o。静态距离0.4469-0.47%0.4380-0.70%w/o。静态中心性0.4478-0.27%0.4392-0.43%w/o。动态距离0.4447-0.96%0.4359-1.18%w/o。动态中心性0.4450-0.89%0.4364-1.06%随机边缘0.4398-2.05%0.4320-2.06%文件此外,使用随机构建边缘的策略而不是我们的注意力模式会导致结果严重下降。这说明利用社交网络的特性可以促进文档中信息的传递。去除社会性特征后,该模型主要通过通道进行两阶段信息传递,与PARADE的表现相似。5.3稀疏度对图划分的影响稀疏度是图构造过程中的一个重要超参数。较低的稀疏度可以增强信息的传输。但是,它也会导致更高的计算复杂度,从而导致更多的子图在图划分。 为了比较不同稀疏度对图划分的影响,我们选择了一个具有2,000个标记的文档,并根据等式将图的稀疏度分别设置为0.99,0.97,0.95,0.93水平。(八)、我们观察了前32个子图的节点数(最大值为128)与稀疏度之间的关系。两种图划分策略的结果如图5所示。 我们观察到,随着稀疏度的增加,前32个子图中的节点数量也会增加。当稀疏度达到0.93时,边级划分的前16个子图中的节点数达到上限。如果我们将子图的最大数目设置为16,则较低的稀疏度不能带来更多的信息。这长度大小MRR@100MRR@10nDCG@100nDCG@10传统BM 25--0。25380。23830。46920。5411IR型号QL--0。24570。22950。46440。5370BERT-FirstP5125120。43210。42680。49490。6202基于通道的BERT-MaxP5121280。41730。40880。48350。6014型号BERT-MaxP20481280。43260。42720。49520。6215IDCM20481280。43670。42800。49600。6235游行20481280。43860。43120。49750。6280隆福尔默20481280。42630。41920。49420。6208LongformerGlobal20481280。43810。43020。49820。6292Transformer型号QDS-Transformer20481280。43790。43000。49880。6315BigBird20481280。43850。43110。49850。6318社交前体节点5121280。4290†0。4231†0。4902†0。6084†51212820481282048128WWW周玉佳,窦志成,等。3460.990.970.950.930.990.970.950.930 500 1000 1500200000 500 1000 1500200000 500 1000 1500200000 500 1000 1500 20000500500500500100010001000100015001500150015002000200020002000(a) 静态距离(b) 静态中心性(c) 动态距离(d) 动态中心性图4:使用每个注意模式的邻接矩阵,黄色部分表示有边。120100806040200051015202530子图ID(a) 节点级划分120100806040200051015202530子图ID(b) 边级划分0.550.500.450.400.35游行Socialformer-edge<512 512-1024 1024 - 2048查询集图5:子图节点数与图的稀疏度之间的关系这就是为什么我们在实验中选择0.93作为稀疏度 比较两种策略,我们发现节点级划分的节点数量下降很快。原因是每个子图的节点之间没有重叠。在边级划分中,保留了更多的连接,但有许多非中心节点不能包含在前32个子图中。为了进一步探讨这两种策略的利弊,我们将在下一节探讨不同文档长度的效果为了观察该模型适用于哪种类型的查询集,我们将MSMARCO上的整个查询集根据对应的肯定文档的长度l分为四个子集:(a)512;(b)512-1024;(c)1024-2048;(d)>2048。我们选择一个基线模型PARADE和我们的两个模型进行比较。5.4使用文档索引进行实验从图6中,我们发现我们的社交感知模型在所有查询集上的性能都优于基线模型具体来说,Socialformer和PARADE之间的差距随着文档长度的增加而扩大。 这表明基于社交网络构建直接远程边使模型能够更好地理解长文档。此外,比较两种图划分策略,边级划分在文档长度较短时表现出优越性,而节点级划分在较长文本时表现出更好的性能。一个可能的原因是Socialformer边缘的前k个子图可以比Socialformer节点保留更多的短文本边缘信息。当文档长度增长时,更多的节点信息被丢弃在前k个子图中。但是对于节点级分区,无论文档的长度如何,大多数节点都可以保留图6:与文档长度相关的不同查询集的性能。6结论在本文中,我们提出了一个社会网络启发的方法,长文档建模。具体而言,我们设计了四种与社交网络相关的注意模式,并使用概率抽样构建了一个类似社交网络的图。为了降低计算复杂度,采用两种划分策略将图划分为多个子图然后,为了促进语义在长文档中的充分传输,我们提出了一种迭代的信息传输方法,该方法包括圈内和圈间的交互。最后,我们可以得到一个全局文档表示的聚合层重新排名的结果。我们进行了大量的实验来验证Socialformer的有效性。未来,我们将根据网页文本的特点,探索更复杂的注意模式和图划分策略致谢感谢评论者的宝贵意见。窦志诚为本文作者. 本研究得到了国家自然科学基金项目(编号:61872370)、北京市杰出青年科学家计划(编号:200000000)的资助。BJJWZYJH012019100020098,中国联通创新生态合作计划,中国人民大学2020年杰出创新人才培养资助计划,中国人民大学“双一流”重大创新&规划跨学科平台智能社会治理平台。 我们也感谢中国人民大学公共政策与决策研究室提供的支持和做出的贡献。节点数节点数MRR@100Socialformer:基于社交网络的长文档模型WWW347引用[1] 艾庆耀,布兰登·布鲁斯·克罗夫特。2018年一种用于Ad-hoc文档检索的神经通路模型 在ECIR(计算机科学讲义),第10772卷。斯普林格,537[2] JoshuaAinslie、Santiago Ontañón、Chris Alberti、Vaclav Cvicek、ZacharyFisher 、 Philip Pham 、 Anirudh Ravula 、 Sumit Sanghai 、 Qifan Wang 和 LiYang。2020年。ETC:在变压器中编码长的结构化输入在EMNLP(1)中。计算语言学协会,268-284。[3] 放大图片作者:Matthew E.彼得斯和阿曼·科汉2020年。Longformer:长文档Transformer。CoRRabs/2004.05150(2020)。[4] James P. 卡 伦 一 九 九 四 年 文 献
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功