基于轻量级微调的双编码器神经排序模型的性能提高方法研究.

132 浏览量更新于2023-11-29 收藏 933KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

502基于轻量级微调的半连体双编码器神经排序模型郑尤娜GSCST首尔国立大学韩国首尔xlpczv@snu.ac.kr崔载首尔国立大学Naver公司韩国首尔jaekeol.snu.ac.kr李元宗GSCST、GSAI、AIIS韩国首尔国立大学e@snu.ac.kr摘要基于BERT的神经排序模型（NRM）可以是交叉编码器或双向编码器。在这两者之间，bi-encoder效率很高，因为所有文档都可以在实际查询时间之前进行预处理在这项工作中，我们展示了两种方法来提高基于BERT的双编码器的性能第一种方法是用轻量级的微调来代替完整的微调步骤。我们研究轻量级的微调方法，是基于适配器的，基于FPGA的，和两者的混合。第二种方法是开发半连体模型，其中以有限的差异处理查询和文档。有限表1：查询和文档长度-针对三个IR数据集示出了字数的平均和标准偏差。数据集查询字数文档字数Robust04网站地图2.66（±0.69）912（±2114）MS-MARCO 6.00（±2.58）2454（±4761）2.40（±0.98）2346（±2128）表2：查询示例-Robust 04和Cocktail Web 09 b主要包含简短和基于关键字的查询，但MS-MARCO主要包含长查询和描述性查询。数据集查询示例差异是通过学习两个轻量级的微调模式来实现的，ules，其中BERT的主要语言模型对于查询和文档都是通用的。我们为monoBERT，TwinBERT和ColBERT提供了广泛的实验结果，其中三个性能指标在Robust 04，Cocktail Web 09 b和MS-MARCO数据集上进行了评估结果证实，轻量级微调和半暹罗是相当有帮助的改善基于BERT的双编码器。事实上，轻量级的微调对交叉编码器也有帮助。1CCS概念1介绍随着大规模语言模型的出现，基于BERT的神经网络• 信息系统→语言模型;·计算方法-排名模型（NRM）[8，16，19]已经开发并显示逻辑→神经网络。关键词信息检索;神经排序模型;双编码器;轻量级微调;前缀调整; LoRA;ACM参考格式：Euna Jung，Jaekeol Choi，and Wonjong Rhee.2022年使用轻量级微调的半连体双编码器神经排名模型。在ACM Web Conference 2022（WWW'22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，10页。https://doi.org/10.1145/3485447.3511978两位作者都对本研究做出了同等的贡献。1代码可在https://github.com/xlpczv/Semi_Siamese上获得允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会。ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511978以达到最先进的性能。基于BERT的NRM可以被分类为交叉编码器或双向编码器。虽然交叉编码器通常优于双编码器，但双编码器在计算效率方面更优越，因为它们允许对长文档进行一次性预处理。因此，双编码器倾向于受到工业实践者的更多关注。为了处理查询和文档，双向编码器使用具有固定权重值集的公共BERT模型。这被认为是一个强制性的要求，因为底层的语言模型被期望在处理查询和文档时是相同的，并且因为异构模型确实表现出非常差的性能。因此，所有现有的双编码器模型都是连体模型。学习排名模型是一项特殊的任务，因为涉及到-查询和文档的部分特别地，查询和文档可以具有不同的特征。表1总结了三个流行的信息检索（IR）数据集的查询和文档的可以立即注意到查询和文档之间的长度差异非常大。Robust04和CocketWeb 09 b包含非常短的查询，而MS-MARCO具有相对较长的查询。尽管没有在表中显示，但许多CNOWWeb09b查询每个查询仅包含一个另一方面，文档通常包含更多Robust04CocktailWeb09bMS-MARCO新燃料最危险车辆恐龙航空旅行维生素D缺乏和皮肤病变当血液通过肺部时会发生什么503·WWWEuna Jung，Jaekeol Choi，Wonjong Rhee超过1,000个单词。表2显示了查询的示例可以看出，Robust04和CocketWeb 09 b具有基于关键字的查询，而MS-MARCO具有完整或几乎完整句子格式的由于三个数据集的文档通常是完整的句子格式，因此可以得出结论，Robust 04和CNOWWeb09 b具有不同的查询和文档句子格式，而MS-MARCO具有相同的在这项工作中，我们假设一个高性能的双编码器应该处理查询和文档与两个不同的网络，因为他们往往有不同的特点。由于异构网络的性能不好2，我们赞成-提出了能够正确反映查询和文档不同特征的半连体（SS）双编码器神经网络排序模型我们的半连体网络基于一个普通的预训练BERT模型，该模型根本没有进行微调相反，查询网络和文档网络之间的轻度重调是通过一种轻量级的微调方法实现的，包括重调[11]，前缀调[12]和LoRA [6]。由此产生的半连体网络在不同参数的数量方面的差异小于1% 我们还介绍了LoRA+，它允许一个小的额外的差异，也考虑了两个顺序的混合前缀调整和LoRA。虽然双编码器的半连体学习是我们的主要任务，cus，我们还调查了暹罗交叉编码器和暹罗双编码器的轻量级微调的好处凭借我们最好的知识，我们是第一个应用轻量级微调来改进NRM的人。最初，开发轻量级微调方法以减少特定于任务的参数存储/存储和计算成本。但是，我们将表明，他们也可以通过他们的正规化作用的NRM提供与完全微调相比，NRM的轻量微调仅允许修改有限数量的参数，并且通过选择适当的轻量微调方法来获得性能改进。我们的方法提高了双编码器，在真正的网络搜索环境中是实用的。我们的贡献可归纳如下。对于交叉编码器，我们证明了基于适配器的轻量级微调方法（LoRA和LoRA+）可以将性能提高0.85%-5.29%。对于双编码器，我们表明，前缀调优性能良好的Robust04和Cocktail Web09b，有短查询。TwinBERT的改进可能非常大，ColBERT实现了0.12%-3.90%的适度增益。对于双编码器，我们证明了半暹罗学习是有效的，其中ColBERT实现了1.46%-16.23%的总体增益。2相关作品2.1基于BERT的NRM随着BERT和GPT等大规模语言模型的出现，对这种预先训练的语言模型进行微调已经成为处理文档排名任务的标准方法。为2我们通过独立地微调查询和文档模型证实了这一点。例如，在Robust04上对ColBERT进行异质完全微调，结果为0.3233（P@20），而Siamese完全微调结果为0.3355（P@20），其中p值为0.014。神经排序模型，已经开发了各种基于BERT的NRM。例如，monoBERT [19]通常被认为是一个强大的基线，它将一对查询和文档作为BERT模型的输入。然而，这种交叉编码器模型在计算上要求很高，因为需要为查询和文档的每个组合计算BERT的输出表示。如果我们有Nq个查询要对Nd个文档进行评估，这意味着BERT表示需要评估NqNd次。相比之下，双编码器模型在计算上是高效的，因为它们的BERT模型不联合处理每对查询和文档。利用双向编码器，所有的Nd个文档仅被预处理一次，并且它们的BERT表示被预存储。对于每个查询，计算查询因为文档比查询长得多（见表1），所以与交叉编码器相比，文档的预处理使得双编码器非常高效。TwinBERT [16]和ColBERT [8]是两种流行的双向编码器模型。 TwinBERT聚合查询和文档的CLS向量以用于相关性得分估计。ColBERT利用BERT表示之间的交互。2.2轻量化微调（LFT）传统上，微调是指更新神经网络的所有预训练权重因为所有的权重都被更新了，所以我们在这项工作中将其称为完全微调一个完整的BERT FT并不总是实现高性能所必需的相反，可以采用部分微调方法来减少特定于任务的参数存储和计算成本。Lee等人[10]研究了一种部分微调策略，其中仅对最终层进行微调，并表明仅需要对最终层的四分之一进行微调，以实现原始下游任务质量的90%。Radiya-Dietyya和Wang[20]表明，仅微调最关键的层就足够了。类似的结果可以在[15，22]中找到。虽然部分FT可能优于完整FT，但它们都需要修改预训练的BERT这在需要处理多个下游任务时尤其不可取最近，另一种类型的微调称为轻量级微调（LFT）已经出现。使用LFT，所有BERT参数保持冻结。为了实现微调的效果，LFT反而用小的可训练元素来增强BERT模型两种类型的LFT已被证明是非常有用的。在我们的工作中，第一种类型被称为基于适配器的LFT，它用小权重模块增强了BERT这样的语言模型。第二种类型称为基于嵌入向量的LFT，它用少量的输入嵌入向量或中间层激活向量来增强语言模型的表示向量。据我们所知，LFT以前从未应用于神经排名模型，我们是第一个证明其对NRM有效的人。2.2.1基于适配器的LFT。 Houlsby等人[5]提出了一种完全FT的替代方案，其中在预训练语言模型的层之间插入特定于任务的适配器的有效性在26个不同的文本分类任务中得到了···基于轻量级微调的半连体双编码器神经排序模型WWW504||||›→ ∈埃波斯每个任务3.6%的附加参数后来，He et al.[4]表明，适配器FT可以减轻由于较小的权重偏差而导致的完全FT的遗忘问题。 LoRA[6]是基于适配器的LFT的另一个例子，其中增强是用不同的小重量模块设计实现的。LoRA没有插入层，而是用线性低秩残差矩阵扩展了查询和值投影权重矩阵。由于其简单性和小尺寸，我们只调查LoRA之间的适配器为基础的LFT。2.2.2基于LFT。GPT-3 [1]是一个非常大的模型，它以其仅使用文本提示执行少量或零次学习的能力而闻名。在[ 14 ]中可以找到一个基于学习的调查。根据基于学习的思想，莱斯特等人。[11]介绍了通过反向传播学习软提示的快速调优。软提示是微调的嵌入，它们不对应于离散文本嵌入。Li和Liang[12]将这个概念扩展到输入层之外，引入了前缀调优，其中它与前缀调优的不同之处在于它为包括输入层在内的所有层在我们的工作中，我们研究了用于增强神经排名模型的前缀调整和前缀调整。基于适配器的LFT与基于提示符的LFT有根本的不同。基于适配器的LFT根本不增加表示，并且基于适配器的LFT根本不增加权重。正如我们将在实验部分中展示的那样，这种差异对NRM有很强的影响。尽管存在差异，但两者都是微调方法，因为它们的增强是特定于任务的，即不依赖于输入示例，其中可训练增强元素针对特定的下游任务进行微调。2.3半暹罗（SS）模型所有现有的双编码器NRM都是Siamese模型，其中单个版本的微调BERT用于处理查询和文档。学习异构双编码器模型也是可能的，其中可以学习两个不同版本的微调BERT模型，一个用于处理查询，另一个用于处理文档。然而，这样的异构双编码器，是已知的，遭受从一个大的性能下降，由于处理查询和文档的两种语言模型的偏差。但是，当查询很短或者查询与文档相比具有显著不同的特征时，允许一定程度的偏差以更好地处理查询是有意义的。学习的一个可能的解决方案是引入半连体（SS）模型。半连体模型从未被用于信息检索任务，但它们已经被用于图像，视频和推荐领域。Du等[3]使用半连体模型来防止在具有少量数据示例的人脸识别任务中的过度拟合该模型有两个结构相同的网络，同时使用不同的输入进行训练。Zhang和Duan[24]提出了一种用于语音模仿搜索的半连体CNN网络为了对声音模仿和真实声音进行编码，需要两个CNN网络，它们共享较低的层。Li等人[13]使用半连体模型进行方向性推荐。首先，用无向数据训练两个相同的网络，然后用不同的方法训练这两个有方向的数据使它们半连体。在以前的工作中，当需要训练两个略有不同的网络时，使用半暹罗网络。在我们的双编码器NRM的情况下，我们专注于查询和文档之间的不同特性，并设计半连体模型，以提高性能。3方法3.1文件重新排序文档重新排序是根据相关性得分估计对给定查询的一组预选文档进行排序，其中为每对查询和文档估计相关性得分设Q是一个由标记q1，q2，.组成的查询，q Q，设D是由令牌d1，d2，.，d D. 查询和文档Xpos的正对由相关Q和D而负对Xne <$由不相关的Q组成，D. 基于BERT的NRM由BERT和排序器两部分组成BERT处理查询和文档对X以输出上下文化表示向量Z。秩是一个函数f：ZsR，其使用BERT估计相关性得分s输出. spos和sneд分别表示正对和负对的相关性得分NRM通过最小化三联体数据的铰链损失来训练SJ（W）=E（1−espos+esne <$）（1）为了使用从预训练任务中学习到的知识，我们使用预训练的权重初始化BERT，并随机初始化排名器。在训练过程中，我们对可训练参数进行梯度更新，以减少上述损失。当执行完全微调时，我们同时更新整组BERT和排名权重。3.2轻量化微调（LFT）与为下游任务训练所有BERT权重的完全微调不同，轻量级微调仅训练增强元素。虽然只训练了一小部分参数（BERT权重的1%或更少），但一些LFT方法已被证明表现良好，特别是对于NLG（自然语言生成）任务。在本节中，我们将讨论前缀调整和LoRA，并解释如何将这些LFT方法应用于基于BERT的NRM。3.2.1前缀调谐。Prefix-tuning [12]训练网络生成前缀激活向量，前缀激活向量前置于变压器的正常激活向量。与在输入词嵌入之前添加提示的前缀调优不同，前缀调优将前缀插入到包括输入层在内的所有层。在何处添加前缀是一个可能影响性能的设计选择。 Li和Liang [12]将前缀前置到键和值表示中，但我们选择将前缀前置到自我注意投影之前的表示中，因为我们对两种选项进行了实验，发现我们的修改方法提供了更好的性能。如图1（a）所示，从源生成的前缀嵌入向量PθPθ′是层的正常激活的前提行动--如果i∈Pidx，则每层中的第i个令牌hi的vation变为Pθ[i，：]其中，Pidx表示前缀索引的序列，并且Pθ[i，：]是WWWEuna Jung，Jaekeol Choi，WonjongRhee505（）下一页×[]θ[]θ∈ ∈∈≪ ()（）下一页（△）△(a) 前缀调谐（b）LoRA图1：前缀调整和LoRA。（a）前缀调整将前缀嵌入添加到每个层。每个嵌入都是通过依赖于层的MLP从相同的源生成的(b)LoRA影响自注意模块中涉及的三个权重中的Wq和Wv，其中Wq={Aq，Bq}和Wv={Av，Bv}分别是查询和值的LoRA权重除了两个权重之外，LoRA+还影响Wd，其中Wd={Ad，Bd}是密集层的LoRA权重计算为源向量P'i的MLP输出：在低维中（为了简单起见，我们省略层索引）：hi = Pθ [i，：]= MLPθ（Pθ′ [i，：]），如果i∈Pidx（2）在前缀调谐过程中，我们同时训练源Pθ′和MLP θ的参数。我们将前缀的长度设置为10，尺寸为768。MLPθ由两个线性层组成，其间存在ReLU层第一线性层将对应于每个索引P′i的源向量向下投影到256维的空间中，并且第二线性层将向量向上投影回来768维的空间前缀引起的推理开销小于0.5%。当在Siamese NRM上应用前缀调优时，我们在查询和文档模型中添加相同的前缀：hq，i=hd，i=Pθ[i，：]（3）对于半暹罗NRM，hq，i和hd，i不限于相同。3.2.2洛拉 LoRA代表Low-Rank Adaptation [6]，它是一种LFT方法，冻结预训练的权重W0，仅训练W=BA的秩分解矩阵部分。如图1（b）所示，表示h被计算为h=W0+W x=W0+BAx，其中x是前一层W0Rd×k，BRd×r，ARr×k是权重矩阵，和r min d，k。因为r比d和k小得多，所以对于每个投影过程，可学习参数的数量从d k显著减少到r d +k。由于LoRA仅应用于查询和值矩阵，因此可学习参数的数量进一步减少。此外，我们可以在训练完成后将额外的LoRA权重相加到原始权重，因此可以强制推理开销为零。3.2.3LoRA+。 NRM是一项复杂的任务，并且可能期望增加可训练参数的数量。在研究了几个选项之后，我们设计了LoRA+，它与LoRA相同，除了额外地将秩分解矩阵应用于3.2.4序贯杂交。我们还提出了一种新的LFT方法，结合前缀调谐和LoRA。我们基于前缀调整和LoRA可以相互补充的假设设计了请注意，它们涉及BERT的不同部分。前缀调优通过前置激活向量将特定于任务的信息插入模型。另一方面，LoRA通过残差连接修改投影权重来微调模型。将两者结合起来有很多可能性，但我们选择按顺序将它们结合起来，这样它们的学习动力就不会混合在一起。在用两个LFT模块中的一个微调m个历元之后，我们冻结模块。然后，我们训练另一个LFT模块n个epochs。对于robust04和CNOW Web09b，我们使用m=30和n=10。对于MS-MARCO，我们使用m=10和n=3。根据前缀调整和LoRA首先进行微调，我们最终得到两个不同的顺序混合LFT。我们在算法1中提出了Prefix-tuning→ LoRA，LoRA → Prefix-tuning除了顺序之外是相同的。算法1顺序混合：前缀调整→LoRA1. 训练mepoch的前缀调优参数，并保存具有最佳验证性能的epoch的前缀2. 使用保存的前缀冻结前缀。3. 训练n个epoch的LoRA参数，并保存具有最佳验证性能的epoch的LoRA权重4. 使用保存的LoRA权重冻结LoRA权重3.3半连体神经排序模型我们提出了三种类型的半暹罗LFT的双编码器NRM。3.3.1SS前缀调谐。为了允许双编码器模型有效地处理特定于查询和特定于文档的信息，我们设计了半连体前缀调优。如图2（a）所示，我们通过将公共前缀与特定于查询或特定于文档的前缀相加来生成SS前缀：致密层Wd.这里的密集层是指变压器中自关注层之后的一层LoRA+允许模型hq，i=Pθ[i，：]+Pθq[i，：]i fi∈PIDX（四）额外的微调空间。hd，i=Pθ[i，：]+Pθd[i，：]i f i∈Pidx（5）基于轻量级微调的半连体双编码器神经排序模型WWW506[]d(a) SS前缀调谐（b）SS LoRA图2：半暹罗前缀调谐和半暹罗LoRA的架构（a）SS前缀调整利用公共前缀和查询/文档特定前缀两者（b）SS LoRA利用公共查询权重Wq和查询/文档特定值权重Wv和Wv。Qd其中Pθ[i，：]表示公共前缀，Pθq[i，：]是查询前缀，Pθi，：是文档前缀。通过这种方法，查询前缀和文档前缀可以共享信息，普通的前缀，同时在特定的前缀中保持自己的特点。MLP的源输入Pθ′由θ、θq和θd共享。我们探讨了SS前缀调优的几个选项他们讨论在附录A中，最佳性能选项在此处列出3.3.2洛拉号我们还设计了半暹罗LoRA，如图2（b）所示。因为有两种类型的LoRA权重，一种用于查询，另一种用于值，所以我们选择使用公共LoRA权重进行查询投影，并使用异构LoRA权重进行值投影。换句话说，我们训练Wv，Wv和Wq在MS-MARCO中，我们使用预先分配的数据集进行训练、验证和测试。我们使用来自Robust04的TREC光盘4和5 4以及WebTrack2009的Ctrude Web09b 5的文档集。我们还使用MS-MARCO文档集。6对于评估指标，我们使用P@20、nDCG@5和nDCG@20。4.1.2 基线模型。我们实现了三个基于 BERT 的 NRM ，monoBERT [19]，ColBERT [8]和TwinBERT [16]。monoBERT是交叉编码器模型，另外两个是双向编码器模型。我们将这些模型的完全微调性能作为基线性能。我们比较了LFT和全FT，通过检查LFT相对于全FT的改进。其中v vqd4.1.3训练和优化。当微调基于BERT的Wq和Wd分别是查询和文档的自注意查询和文档的矩阵3.我们还为SS LoRA探索了一些选择。附录B中讨论了这些问题，此处介绍了性能最佳的选项。3.3.3 SS序贯杂交。顺序混合可以修改为学习半连体网络。因为我们在顺序混合方法中有两个单独的LFT，所以我们有三个应用半连体的选项：仅将半连体应用于前缀调谐、仅将LoRA应用于前缀调谐或两者。我们在没有任何调优的情况下对所有三个选项进行了简单的研究，并发现它们实现了相当的性能。在我们的实验部分中，我们只展示了将SS应用于LoRA的结果。因此，SS LoRA的评价结果提供前缀调谐和前缀调谐→SS LoRA。4实验4.1实验装置4.1.1数据集和指标。我们在Ro-bust 04 [21] ，WebTrack2009（CNOW Web 09 b）[2]和MS-MARCO [18]数据集上进行实验，如[17]中所示。根据Huston和Croft[7]，我们将Robust04和CNOW Web09b分为五个折叠，并使用三个折叠进行训练，一个用于验证，剩下的一个用于测试。为3上标中的q表示自我注意力的投影矩阵类型另一方面，下标中的q表示NRM的输入类型。在下游任务的模型中，仅训练三个时期的惯例被证明是不够的[23]。我们将Robust 04和CNOW Web 09 b的最大历元设置为30，将MS-MARCO的最大历元设置为10。我们在所有时期的检查点中选择验证分数最高的检查点对于所有实验，我们使用Adam [9]优化器。对于每种方法，我们使用了适当选择的超参数。为了进行微调，我们将排名器的学习率（lr）设置为1 e-4，BERT的lr设置为2 e-5。对于前缀调整，我们使用lr为1 e-4的前缀参数和排名权重。对于LoRA，我们对LoRA权重和排名权重都使用lr =1 e-4。超参数的详细设置见附录C中的表8我们用三种不同的随机种子重复每个实验三次表中的结果是通过对三次实验的所有折叠的测试分数求平均值来计算的对于统计学分析，我们在假设方差齐性的情况下进行了单侧t检验我们将每种LFT方法的三个性能值与相应的完全微调的三个性能值进行了比较。4.1.4执行。我们的实验使用Python 3和PyTorch 1实现。我们使用一个流行的Transformer库7，4个520K文档，7.5K三元组数据样本，https://trec.nist.gov/data-disks.html5个5000万网页，4.5K三元组数据样本，https://lemurproject.org/clueweb09/6个22 G文档，372 K三元组数据样本，https://microsoft.github.io/msmarco/TREC-Deep-Learning-20197https://github.com/huggingface/transformersWWWEuna Jung，Jaekeol Choi，WonjongRhee507表3：轻量级微调的评估结果：交叉编码器。注：≤ 0。05，则αp ≤ 0。01（1尾）。模型微调可训练人数方法参数P@20 NDCG@5NDCG@20Robust04网站地图P@20 NDCG@5NDCG@20P@20 NDCG@5NDCG@20MS-MARCO全FT110M0.39660.53100.46460.30590.31010.29380.57250.65360.5785自动调谐8K0.35480.47330.41610.29170.27150.27150.51550.50750.4937单BERT前缀调谐0.1M0.39360.51950.46020.30740.30400.29140.55310.59790.5435Lora0.6M0.39380.52960.46160.3150磅0.3256米0.3054米0.57560.66560.5835（交叉）Lora+0.9M0.40120.53550.46910.3175磅0.31540.3029米0.5826米0.66620.5887前缀调谐→LoRALoRA→前缀调谐0.7M0.7M0.39800.39600.52410.52860.46360.46280.30460.3163米0.30430.3265磅0.29110.3070米0.55700.57480.60550.65450.54780.5809改善（%）-1.16%0.85%0.97%3.79%5.29%4.49%1.76%百分之一点九三1.76%预训练的BERT模型。我们使用了10个RTX3090 GPU，每个GPU都有25.6G内存。4.2交叉编码器的LFT结果表3显示了monoBERT的评价结果在这里，我们比较了全微调和轻量级微调的性能。我们还显示了每种微调方法的微调参数的数量。调优训练最少的参数为8K，LoRA+训练最多的参数为0.9M。所有LFT方法训练的参数都不到1M，因此不到BERT的110M权重参数的1%4.2.1前置调谐和前置调谐。微调简单地通过仅训练8K参数将前缀附加到输入，并且性能比完全微调的基线差约10%。Lester等人[11]表明，在SuperGLUE任务上，快速调整可以实现与完全微调相当的性能，但我们可以观察到，仅训练提示对于NRM是不够的至于前缀调整，它降低了MS-MARCO全微调的性能约3%，但它实现了其他两个数据集的性能从结果中，我们可以观察到，前缀调优实现了与具有短查询的Robust 04和Cocktail Web 09 b 的完全微调相当的性能但不适用于 MS-MARCO。4.2.2LoRA和LoRA+ 对于交叉编码器，LoRA和LoRA+在所有三个数据集上的表现明显优于完全微调，最多可提高5%。特别是，LoRA+在9个评估案例中的7个案例中实现了最佳性能我们可以用两个原因来解释这个结果。首先，由于LoRA方法冻结了预训练的BERT，并且只训练了少量的增强权重，因此它们可以作为具有更好泛化能力的正则化器其次，我们可以推断，可训练参数的数量对于LoRA来说从表3中可以看出，性能随着参数数量的增加而增加LoRA的可训练参数比前缀调整多，LoRA+的可训练参数比LoRA多1.5倍。4.2.3混合动力LFT。前缀调整和LoRA可以一起使用，因为它们分别在表示维度和权重维度上训练参数。我们通过采用BERT的顺序增强来结合这两种LFT方法。总的来说，混合LFT方法表现出比前缀调整更好的性能，但没有优于LoRA+。4.3双编码器的LFT结果表4示出了双编码器、Twin-BERT和ColBERT的 LFT的评估结果与交叉编码器的情况相比，LFT方法的有效性表现出完全不同的模式，下面提供了结果及其解释4.3.1前置调谐和前置调谐。如在交叉编码器中，与完全微调基线相比，微调示出退化结果。唯一的例外是CNOWWeb09b上的TwinBERT，但这可能是由于基线性能差。因此，我们确认，自动调优对于文档排名任务是不够的，我们将其从下一节的半连体实验中排除。与交叉编码器的结果相比，前缀调优在具有短查询的Robust04和Cocktail Web09b的数据集上实现了显著的改进它还实现了与MS-MARCO完全微调相当的性能。我们首先关注Robust04 和Cocktail Web09b的结果，这些结果包括简短的和基于关键字的查询。前缀调优在大多数情况下表现出最佳性能，与完全微调相比，性能提高了76.65%。前缀调优也优于LoRA和LoRA+。我们将这种现象归因于双向编码器的编码方式和数据集的特点。如表1所示，Robust04和Cocktail Web09b中的查询相对较短，并且基于关键字。由于双编码器模型分别对查询和文档进行编码，因此该模型需要从查询或文档中提取上下文信息然而，对于查询，它可能非常短，因此BERT可能无法提取任何有意义的上下文信息。在这种情况下，前缀调优的优点是将特定于任务的有意义的上下文信息添加到表示嵌入中。然而，对于MS-MARCO的数据集，查询相对较长，前缀调优的好处变得较小。我们将在第5节中进一步讨论这个结果。4.3.2LoRA和LoRA+ 与交叉编码器的情况不同，LoRA和LoRA+并没有明显优于其他方法。 LoRA和LoRA+根据数据集的特性显示出不同的性能。在交叉编码器的结果中，LoRA+显示出Robust04和Cocktail Web09b的最佳性能然而，对于双编码器，与前缀调谐相比，LoRA和LoRA+的性能相对较差对于具有长查询的MS-MARCO，LoRA或LoRA+可以比完全微调和前缀调优更好地执行。有趣的是，对于交叉编码器，LoRA+的性能优于 LoRA ，但对于双向编码器， LoRA 的性能优于LoRA+LoRA+比LoRA多使用50%的权重进行学习，这表明这种差异对学习有积极作用。基于轻量级微调的半连体双编码器神经排序模型WWW508改善（%）-百分-百分32.56%84.35%49.01%2.24%-1.28%改善（%）2.84%2.64%3.09%33.48%85.63%49.35%2.24%-1.28%表4：轻量级微调的评估结果：双编码器。注：≤ 0。05，则αp ≤ 0。01（1尾）。模型微调可训练人数方法参数Robust04P@20 NDCG@5NDCG@20P@20 NDCG@5NDCG@20 P@20 NDCG@5NDCG@20MS-MARCOTwinBERT（双）全FT110M0.33350.39900.37600.26590.25070.25410.55660.61210.5484自动调谐8K0.30770.34460.34040.24400.19650.21770.52750.49420.4965科尔伯特前缀调谐0.1M0.3429米0.40840.3865米0.26950.25710.25440.55770.62210.5556Lora0.6M0.33860.40210.38180.26440.23730.24980.56010.6360磅0.5566（二）Lora+0.9M0.33850.39970.38040.26060.24530.24810.55740.6292米0.5543前缀调谐→LoRALoRA→前缀调谐0.7M0.7M0.34110.33600.41030.40250.3855磅0.38030.26750.26390.25110.24360.25120.25250.56050.56200.62000.63310.55800.5595磅改善（%）-2.82%2.83%2.79%百分之一点三五2.55%百分之零点一二0.97%3.90%2.02%表5：双编码器的半连体（SS）轻量级微调（LFT）的评估结果-半连体为查询较短的Robust 04和Cocktail Web 09 b数据集的大多数评估案例提供了积极的改进对于查询在三个数据集中最短的CNOWWeb09b，收益非常大注：≤ 0。05，则αp ≤ 0。01（1尾）。微调可训练Robust 04的数量，方法参数P@20 NDCG@5NDCG@20 P@20 NDCG@5NDCG@20 P@20 NDCG@5NDCG@20TwinBERT（双）科尔伯特（二）全FT110M0.33350.39900.37600.26590.25070.25410.55660.61210.5484LFT（最佳）≤0.9M0.3429米0.41030.3865米0.26950.25710.25440.56200.6360磅0.5595磅SS前缀调谐洛拉号前缀调谐→SS LoRASS LoRA→前缀调谐0.1M0.9M1M1M0.3442米0.3406米0.34170.34200.41130.40420.40830.40940.3883米0.38230.3850磅0.38450.2950万美元0.26150.26790.26420.2914磅0.24700.25120.24740.2835米0.25000.25140.25200.55540.56470.55930.55770.61250.62890.62510.61730.55260.55870.55960.5545改善（%）3.21%3.08%3.27%百分之十点九四百分之十六点二三11.57%1.46%3.90%2.04%交叉编码器和负的双向编码器。由于交叉编码器模型在查询和文档之间进行自注意，因此学习可能比在查询和文档之间不使用自注意的双编码器模型中更复杂。因此，可以假设，对于交叉编码器模型使用更多参数是有利的。4.3.3混合动力LFT。由于前缀调整显示出出色的性能，LoRA也比完全微调更好，两种LFT方法的组合可能会导致额外的性能改善。在表4中，我们包括了混合LFT方法的性能结果表明，混合方法的可能性，以提高性能的单一LFT方法。4.4双编码器的半连体LFT结果LFT方法在文档排名上轻松优于完全微调。我们通过应用半连体网络进一步改进了LFT方法SS LFT可以处理查询和文档略有不同，以反映其不同的特点，同时保持原始BERT没有任何修改，使查询和文档的编码一致。表5显示SS LFT方法在大多数情况下，可以提高最佳性能的LFT或完全微调4.4.1SS前缀调谐。当在Robust04和CocketWeb09b上对ColBERT采用SS前缀调整时，其性能明显优于其他方法，将LFT的最佳性能从3.08%提高到16.23%。此外，在其他情况下，SS前缀调谐显示了改进前缀调谐的可能性。我们可以说，半连体网络帮助双编码器模型有效地处理查询和文档中的信息4.4.2洛拉号如表5 所示，SS LoRA 在大多数情况下优于LoRA，表明半连体网络允许双编码器模型的LoRA更好地估计相关性分数。我们推断，使用不同的LoRA权重的查询和文档表示诱导性能的提高，使查询和文档更多的能力，专注于查询特定或文档特定的信息。4.4.3SS Hybrid LFT。我们已经证明了SS LoRA和SS前缀调整可以提高文档排名性能。我们还表明，前缀调优和LoRA可以相互补充，一起使用时可以提高性能。因此，我们认为，模型全FT110M0.30590.37110.34680.18460.11690.14710.52170.58070.5141自动调谐8K0.25620.26660.27560.19000.12480.15580.44190.36590.3797前缀调谐0.1M0.31170.36470.34960.2437米0.2065米0.2168米0.51320.56300.5014Lora0.6M0.30900.36390.34840.18510.12240.15300.53260.54580.5154Lora+0.9M0.30560.36560.34510.2028米0.1740米0.1814米0.53180.57300.5207前缀调谐→LoRALoRA→前缀调谐0.7M0.7M0.31070.31020.36670.36850.34840.35080.2447米0.19640.2155米0.1402米0.2192米0.1647米0.52210.53340.54850.55150.50480.5184全FT110M0.30590.37110.34680.18460.11690.14710.52170.58070.5141LFT（最佳）≤0.9M0.31170

下载后可阅读完整内容，剩余1页未读，立即下载