没有合适的资源?快使用搜索试试~ 我知道了~
International Journal of Information Management Data Insights 1(2021)100025自然语言处理赫曼特·帕利韦拉印度,孟买,马哈拉施特拉邦aRT i cL e i nf o保留字:释义识别释义生成自然语言生成语言模型编码器解码器Transformera b sTR a cT释义生成是自然语言生成领域中最重要和最具挑战性的任务之一。释义技术有助于识别或提取/生成表达相似含义的短语/句子。释义任务可以分为两个子任务,即释义识别(PI)和释义生成(PG)。大多数现有的最先进的系统都有可能一次只解决一个问题。本文提出了一个轻量级的统一模型,该模型可以同时区分给定的句子对是否是彼此的释义,并且该模型还可以在给定一个输入句子的情况下生成多个释义。释义生成模块旨在生成语义相似的释义,释义识别系统旨在分类句子对是否为彼此的短语。所提出的方法使用数据采样或数据种类与粒度微调的文本到文本传输Transformer(T5)模型的融合。本文提出了一种统一的方法,旨在通过使用精心选择的数据点和微调的T5模型来解决释义识别和生成问题。本研究的亮点是,通过保持释义生成目标而训练的相同轻量级模型也可以用于解决释义识别任务。因此,所提出的系统在模型的大小以及用于训练模型的数据方面是轻量级的,这有助于模型的快速学习,而不必与结果妥协。然后,针对流行的评价指标,如BLEU(双语言评价研究):,ROUGE(面向回忆的替代评估),METEOR,WER(单词错误率),和GLEU(Google-BLEU)的释义生成和分类指标,如准确率,精确度,召回率和F1分数的释义识别系统进行评估。该模型在释义识别和释义生成两个任务上都取得了最先进的结果。1. 介绍自然语言生成是自然语言处理(NLP)的一个子领域或分支。NLG有时与自然语言理解(NLU)密切相关,这是NLP的另一个子领域。人类的大脑在从无到有或通过使用给定的上下文生成语言或句子的过程中需要深入的理解和思考。计算机系统生成有意义的、简洁的句子是比较困难的。 因此,对于一个系统,NLG比NLU更难。一个理想的NLG系统旨在完全取代人类的任务,如文章写作,快速创建总结/叙述,实时问答,报告生成,并简化操作。一些最重要的应用(Gandomi Haider,2015; He , Zha , Li , 2013; Kumar , Kar , Ilavarasan , 2021;Kushwaha,Kar,Dwivedi,2021)是商业智能仪表板分析,生成财务投资组合摘要,学术论文,语音机器人和聊天机器人中的剽窃去除器。典型NLG系统的重要阶段如下:1. 沟通的理由(为什么要沟通?)2. 文本的内容(具体要说什么?)3. 如何表述或说?(怎么说呢?- -4. 最终制剂自然语言生成(NLG)可以被看作是一个任务,开发系统,可以自动编写摘要,解释,或叙述,无论是英语或其他语言。这些NLG系统旨在生成或产生明确和清晰的自然语言,就像人们相互交流的方式一样。目前,有许多实际应用可以使用NLG。这些应用程序可以从聊天机器人(Kushwaha Kar,2020; Kushwaha,Kar,&Ilavarasan,2020)或问答系 统(Harabagiu , Maiorano , &Pasca ,2003; Mollá Vicedo , 2007;Voorhees,2001)进行交互,∗ 通讯作者。电子邮件地址:hemant. outlook.comhttps://doi.org/10.1016/j.jjimei.2021.100025接收日期:2021年5月23日;接收日期:2021年6月27日;接受日期:2021年6月28日2667-0968/© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页:www.elsevier.com/locate/jjimeiH. 帕利韦拉International Journal of Information Management Data Insights 1(2021)1000252Fig. 1. 释义系统。文本通信或生成天气报告或为图像添加字幕,以及从研究或学术&&论文、新闻文章和故事以及机器翻译系统(Koehn,2009)中生成类似人类 的 摘 要 ( Cohn Lapata , 2008; 2009; Galanis Androutsopoulos ,2010)。1. XYZ先生写了一本关于人工智能的2. 一本关于人工智能的书是由先生写的。XYZ3. XYZ先生著有《人工智能》一这些句子表达了几乎相同的意思,因此它们是彼此的释义,即使句子1和2描述了这本书已经完成,但句子3却不能这么说图1描绘了关于释义系统的一般思想。本文提出了一种统一的方法来解决Para-短语生成和identification使用相同的模型的子任务。已经开发了各种各样的系统来解决释义识别和释义生成的任务。释义识别任务被视为一个有监督的机器学习问题,可以通过使用传统的基于语义相似的技术和最先进的深度学习算法来解决,如卷积神经网络(CNN),递归神经网络(RNN),长短期记忆(LSTM),释义生成问题可以通过使用简单的词汇特征和单词排序或重构方法或通过使用从WikiAnswers库提取的模板来解决。解决释义生成任务的最新进展涉及使用生成对抗网络(GAN),seq-to-基于seq的模型和基于编码器-解码器的模型本文提出了一个统一的系统,该系统将数据选择变化参数与自定义微调的T5模型相结合,特别是用于释义生成任务,该任务还解决了释义识别问题。T5型号的一个重要特点是,它可以同时接受多项任务的训练。所提出的系统同时在释义识别和释义生成任务上进行训练,因此与一次训练多个模型相比,节省了大量的计算时间和资源。本文的结构是通过对释义识别和生成系统的详细文献调查。然后,对于这两个任务,完成了数学问题的制定,并讨论了拟议的统一系统架构。本文给出了一个全面的结果分析,并得出结论,未来的范围和方向,以改善。任务研究学者面临的主要挑战之一是消除在各自的文章中抄袭。该系统的目标是识别抄袭的句子,然后自动释义这些通过使用一个统一的模型来选择抄袭的句子。本文的研究旨在解决以下两个研究问题。1. 一个系统如何能自动突出显示给定文章中的抄袭句子(释义识别)2. 一个系统如何改写前一步中突出显示的句子,从而从原始句子中删除剽窃?(Paraphrase Generation)本文从2开始,其中解释了问题陈述(释义识别和释义生成)的正式数学公式。第2节之后是第3节,详细描述了为解决这两项任务而提出的现有系统。此外,这些系统被分为适当的类别,以便更好地理解。然后,在第4节中给出了本文提出的方法以及系统架构图。第5节以逐步的方式解释了所提出的方法,解释了各种评估指标以及用于评估手头任务的原因。 然后,对本文中获得的结果进行分析,并与第6节中的最新最先进的现有系统进行比较。关于结果的讨论和a深入的贡献载于第7节。最后,本文在第八节中总结了本文的结论,并对未来的研究范围提出了建议。2. 数学问题公式化释义可以分为两个任务,即释义识别和释义生成。释义识别任务可以被看作是一种区分性的任务,它判断一对句子是否指向相同的意思。在该任务中,系统可能输出0和1之间的概率,其中趋于1的值将句子对描述为彼此的释义,否则不是。在某些情况下,识别系统输出语义得分,当标准化时,该语义得分可以帮助区分句子对。释义生成任务的目标是在给定参考或输入句子的情况下自动生成一个或多个候选释义。其目的是生成语义相同和连贯的释义。2.1. 释义识别任务PI任务被看作是一个有监督的机器学习任务,建模如下:给定一个句子对(1,2),目标是找到目标(1或0,分别描述给定的句子对是否是彼此的释义),其中句子1={1,2,2,3,...,2},2 = {1,2,2,3,...,���������������������������它描述了两个句子的长度可能会有所不同。输出可以是0到1之间的概率或某种规范化的语义评分机制。2.2. 释义生成(PG)任务在PI任务中,目标是在给定输入句子的情况下生成候选句子。给定 输 入 句 子 或 参 考 句 子 ���1 , 其 中 ���1 = {���1 , ���2 , ���3 ,������������������������������������������...,},目标是生成一个或多个候选句子2 ={ 1,2,3,...,},3 = { 1,2,3,...,},...。���4=���������������在该任务中,生成的候选句子和输入或参考句子的句子长度也可以变化。3. 文献复习的释义一代日期回来到的1983年(McKeown,1983)。Quirk,Brockett,&Dolan(2004),Zhao,Niu,Zhou,Liu,&Li(2008)和 乌本 Van Den 博世, & 卡- mer(2010)试图通过使用机器翻译来解决释义生成任务,而Bolshakov &Gelbukh,2004)H. 帕利韦拉International Journal of Information Management Data Insights 1(2021)1000253和Kauchak Barzilay(2006)提出了基于词汇的方法,通过词替换生成释义。近年来,由于深度学习领域的进步,Gupta,Agarwal,Singh,Rai(2018)和Fu,Feng,Cunningham(2020)提出了基于神经网络的方法。释义生成技术可以大致分为以下两大类:1. 受控释义生成方法这种方法背后的思想是生成由一些模板控制的释义或句法树(Iyyer,Wieting,Gimpel,Zettlemoyer,2018)和Chen , Tang , Wiseman , Gimpel ( 2019 ) 。 Kumar , Ahuja ,Vadapalli,Taluk-dar(2020)提出了一种生成释义的方法,该方法使用长短期记忆(LSTM)神经网络的语法树和树编码器的混合。主要的限制是,当输入数据集有噪声且语法不正确时,它会失败。Kazemnejad,Salehi,Baghshah(2020)提出了一种基于检索器编辑器的方法来生成释义。在这种方法中,最相似的源-目标对被选择通过使用嵌入距离有关的源。那么编辑器的作用就是使用一个Transformer来修改输入的句子。检索器首先基于与源的嵌入距离选择最相似的源-目标对。然后,编辑器基于Transformer相应地修改输入(Vaswani等人,2017年)。这个模型的局限性在于它需要从头开始训练 即使该模型可以重构句子并引入新词或者可以执行词替换。2. 预训练语言模型微调大型语言模型,如GPT-2(Radford et al.,2019 ) 可 以 用 于 在 释 义 任 务 中 生 成 句 子 。 通 过 使 用 GPT-2 ,Witteveen& Andrews(2019)和Hegde&Patil(2020)提出了一种释义生成方法,该方法利用GPT-2理解语言的能力,因为GPT-2是在大型开放域语料库上生成训练的。这种方法旨在微调GPT-2预训练模型的权重。主要的限制是在输出中观察到源代码复制。本文提出的系统(统一模型)考虑了释义识别系统将PI的任务视为分类任务,释义生成系统将PG的任务视为语言生成任务。由于这些完全不同的目标,提出一个能够按照设定完成两项任务。4.统一系统架构本文提出了一个统一的系统架构,能够执行两个释义识别和生成的任务。以下是系统的主要组成部分:1. 数据收集/获取2. 数据采样选择与预处理3. 文本到文本的Transformer超参数调整4. 文本到文本Transformer培训5. 评价1. 释义识别2. 释义生成4.1. 数据收集/获取数据收集自迪塞贝伦特来源像PARANMT-50 M(Wieting&Gimpel,2017),Quora重复问题对(Ansari&Sharma,2020)和微软释义研究数据库(MSRP)(Dolan& Brockett,2005)。ParaNMT数据库包含了5000多万个英语中的重复释义对。为了生成庞大的ParaNMT语料库,使用了回译系统。捷克语到英语的神经机器翻译(NLT)系统用于提取用捷克语写的句子到英语。Quora重复问题对数据集由404,290个句子对组成。这些数据被分成70- 30%的训练集和测试集。对于训练,数据由283,003个句子对组成,而在测试数据中,有121,287个句子对。MSRP数据集是从一个包含约9,516,684个句子的大型句子对数据库中筛选出来的。这些句子是从万维网(WWW)上跨越2年的新闻集群中提取的。最终的MSRP数据库由大约5800个句子对组成。训练集包含4076个句子对,测试集包含1725个句子对。这三种类型的数据用于训练释义模型。4.2. 数据采样选择和预处理目的是通过过滤和抽样原始数据来促进数据的多样性。据观察,释义生成模型通过最大化增加训练中使用的数据中的词汇、语义和句法多样性来输出正确的释义而没有重复。这使得释义模型能够生成更多的意义相同但词汇丰富多样的释义。将以下转换应用于训练数据以增加数据多样性:1. 删除具有超过60%的unigram、bi-gram或tri-gram重叠的句子对。这阻止了最终训练的模型复制输入句子,并最大化生成不同释义的概率。2. 通过使用Sentence-BERT(Reimers Gurevych,2020)删除具有非常少语义的句子对。这迫使最终训练的模型生成语义相似的句子。3. 在Quora和MSRP数据集中,只选择标记为1的句子对。(Here 1表示句子对是彼此的释义)通过执行该步骤,保留了多样性、语义相似性和重复性这三个主要重要参数。通过限制复制来保持多样性。通过不允许模型在语义不相似的句子上训练来保留语义相似的参数。通过确保生成的释义在语法上是正确的,从而保留了最终的参数“重复性”。这是自动处理的,因为在所有的训练数据源中,句子对在语法上是一致的。在应用所有这些过滤器之后,数据大小缩小到大约200万对。4.3. 释义生成模型的建立系统以释义生成为目标进行训练。为了在句子对数据上训练系统,文本到文本转换器Transformer(Ra Gesel等人,2019)算法。 在这项研究中,使用了一个基于T5的预训练模型,然后在释义生成任务上进行微调。在对释义任务进行微调的同时,超参数也通过使用语法学进行微调。然后,通过指定波束搜索和核采样等,使用训练好的模型来生成释义。通过从模型中提取句子向量表示,使用相同的训练好的模型来进行释义识别。4.4. 为什么要使用文本到文本传输Transformer?迁移学习已被证明是自然语言处理(NLP)领域中非常强大的技术。在迁移学习中,算法首先在数据丰富的任务(通用/开放或封闭域数据)上进行训练,然后在另一个下游任务上对训练模型进行微调。文本到文本转换Transformer(T5)算法旨在将每个语言问题转换为文本到文本格式。 T5在混合的标记(Colossal Clean Crawled Corpus)和未标记数据上进行训练。T5模型在20多个NLP上给出了最先进的结果H. 帕利韦拉International Journal of Information Management Data Insights 1(2021)1000254∑,������,������‖ ‖‖ ‖任务几乎没有任何技术表现一致的T5,而T5-������������������������������������������������������������������������������������������������(在任何下游任务上进行培训的灵活性。本文研究了T5基的自适应滤波器,模型用于微调和超参数微调。这一次-T5模型的版本包含近似的220M参数,���������������������������������������������������������������������������������������������������(12层、3072个前馈隐藏状态、768个隐藏层和12个前馈������隐藏构造标准部件.4.5. 模型结构和数学表示本研究中使用的T5模型仅针对一个任务进行训练,用于文本或释义生成。Transformer采用自注意技术,输入一个输入序列,产生一个与输入长度相同的输出序列。在这种情况下,通过计算所提供的输入序列的加权平均值来计算输出序列中的每个元素。在这里,“”表示输出序列中的“���”元素,类似地,���如上所述,这个输出softmax层输出下一个令牌的概率分布。在生成释义时,或在推理阶段,这些输出状态被存储,以便在生产模式下获得更快的预测并避免冗余计算。然后,使用相同的模型架构来识别双对是否是彼此的释义。在提取向量列表之后,计算向量之间的余弦相似度并且基于余弦相似性得分,做出关于重复对是否是彼此的释义的决定。余弦相似度通过使用来计算������ ⋅������������输入序列中的一个元素此外,每个元件的电阻可以是������������������������������(������1,������2)=1 2(七)计算为- 是的���是要优化的权重,这是权重和权重的函数。������在这种架构中,编码器采用������1×������2输入项目序列(文本标记),解码器生成输出。∑���������1���×������2���put sequence(文本标记)。������������������������������(������1,������2)=√∑���=1������2× √∑���������2(八)本文中使用的编码器和图中所示。 3使用A=11���=12���完全可见的注意力面具这种完全可见的注意力掩蔽允许自我注意力系统在一个接一个地顺序产生输出的同时查看输入的任何条目。由于该模型用于生成释义,因此在模型中添加了一个特殊的前缀,该前缀告诉模型生成文本。因此,当有特定的前缀提供给模型时,这种类型的掩码是合适的。这个前缀也可以说是为模型提供了一个上下文。在推理阶段,这个前缀再次被使用。本文采用的模型架构是基于Transformer架构的编解码器组件。为了给出关于模型的概述,编码器生成输入序列的连续表示。此表示(由编码器生成)表示关于输入序列的所有学习信息。解码器逐步地采用所生成的连续表示,并且每个时间步生成输出(也馈送先前的步骤输出)。此外,为了生成序列,在由以下双分量组成1. 自我注意层2. 前馈层序列(释义)以自回归自我注意方式生成,其可以总结如下:������������������������������������������������������������������������������������������������(其中,句子1和句子2分别是向量。���������������������存在用于计算两个文档之间的相似性的各种可用度量。本研究使用余弦相似性作为相似性度量的原因之一是因为句子的向量表示在大小上不同,并且高度依赖于句子长度。在这种情况下,我们的想法是测量在多维空间中投影的训练模型生成的两个句子向量之间的角度。使用余弦相似度的另一个原因是,即使两个句子向量之间的欧几里得距离很高,同一个句子向量对在现实中仍然有可能更接近。在余弦相似度中,角度越小,两个句子向量之间的相似度越高。从生产的角度来看,余弦相似性非常快,即使数据稀疏,它也能生成准确的结果。Reimers Gurevych(2019)还使用余弦相似度作为度量标准来计算句子之间的语义相似度向量对所提出的模型架构的整个工作如下:1. 给定一个输入序列,第一步是将序列馈送到单词嵌入层。在该步骤中,对于每个令牌,获得向量表示。2. 位置嵌入应用于前一层输出。这一步向输入嵌入添加关于位置的信息。���(=)���������������(=)���������������()���(=)���������������()()3. 然后将前一步的输出馈送到编码器层,编码器层计算输入序列的连续表示以下是������������...������ =���������,��������� ������中国(2)������������������������������������������������������������������������������(计算如下操作:多头注意力(查询、关键字、值向量、查询和关键字的点积、缩放注意力分数、softmax缩放分数、softmax乘以值������−1������向量)4. 编码器���������������������������������������������������������������������������������(������������除了输出prob的最终softmax层之外在这里,x2,x3,x4表示查询,键和值权重,或者它们也被称为投影矩阵。为了生成具有长期依赖关系的句子的释义,这些查询、键和值矩阵起着重要的作用。查询矩阵X来自解码器隐藏状态,而键和值来自编码器隐藏状态。查询和键之间的点积表示键和查询之间的兼容性得分。然后,这些分数被输入到softmax函数,以产生下一个令牌的概率分布(权重集)(总和为1)。由此获得的每个权重值是 然后与其对应值相乘以获得利用输入隐藏状态的上下文向量。最后,将输出(=)���������������馈送到���下一个token的能力分布4.6. T5模型的超参数整定由于大量参数和模型大小,无法使用网格搜索技术微调T5模型。 因此,进行基于进化论的超参数调整。被微调的重要参数是学习率、最大序列长度、训练批量大小和训练时期的数量。表1描述了用于训练T5释义的超参数前馈神经网络,二代模型。H. 帕利韦拉International Journal of Information Management Data Insights 1(2021)1000255图2. 释义识别流程。表1最终超参数列表用于为释义生成和释义识别任务优化T5模型。超参数值的adam_adam 1e-08best_model_dir输出/bestmodel缓存目录缓存目录/cosine_schedule_num_cycles 0.5do_lower_case假dynamic_parameter假early_stopping_consider_epochs假early_stopping_metriceval_lossearly_stopping_metric_minimize真early_stopping_patience 2adafactor_eps(1e-30,0.001)adafactor_clip_threshold 1.0adafactor_decay_rate-0.8adafactor_scale_parameter Falseadafactor_relative_step假adafactor_warmup_init Falseeval_batch_size 8evaluate_during_training假evaluate_during_training_silent真evaluate_during_training_steps2000evaluate_during_training_verbose错误evaluate_each_epoch正确4.7. 释义识别本文的主要亮点是使用相同的模型来进行短语生成和释义识别任务。利用相同的超参数微调T5模型来解决Para短语识别问题其目的是从句子对中提取句子向量,然后计算句子对之间的语义相似度。图 2描述了释义识别工作流程。那个人句子对之间的语义相似度计算如下:1. 首先,在释义生成任务中加载经过训练的T5模型2. 将句子对标记化并提取标记id,然后向其添加填充标记。3. 注意力掩码和分段标记的吸引力。图三. 编码器解码器模型示意图。4. 在标记id、注意掩码和分段标记的帮助下,计算句子向量。在这一步中,我们需要计算表示句子中每个单词嵌入的池化句子表示。4.8. 培训时间和系统配置整个模型在具有120GB RAM的系统上训练了200个epoch。使用的GPU是具有40 GB RAM的A-100-PCIE。该算法在释义生成任务上训练了74小时。该系统重量轻,效率高,可以部署到实际的生产环境中。 通过优化波束搜索参数和采样参数,可以进一步提高产生阶段的性能。目前,该系统可以利用多个GPUH. 帕利韦拉International Journal of Information Management Data Insights 1(2021)10002565. 评估指标在本文中,单独的评价指标用于释义生成和释义识别任务。以下是用于释义识别任务的指标:1. 准确性:在进入准确性,精确度和F1分数之前,以下术语对于释义识别任务很重要。• 真阳性(TP):模型预测双对是彼此的释义,实际上也是如此。• 真否定词(TN):模型预测双对不是彼此的代短语,并且在现实中,它们也不是彼此的释义。• 假阳性(FP):模型预测双对是彼此的释义,但它们不是彼此的释义(类型I错误)• 假否定词(FN):模型预测双对不是彼此的代短语,但它们是彼此的释义。(第二类错误)准确性是我们的模型正确预测的分数。2. 精度:精度是表示模型表2释义生成任务的评估结果。评估测试数据集ParaNMT MSRPQuoraROUGE-1精密度0.5236 0.6350 0.6396ROUGE-1召回ROUGE-1 F1-得分0.5257 0.5524 0.6286ROUGE-2精密度0.3579 0.4827 0.5448ROUGE-2召回ROUGE-2 F1-得分0.3591 0.4204 0.5409ROUGE-3精密度0.5074 0.6154 0.6346ROUGE-3召回ROUGE-3 F1-得分0.5060 0.5387 0.6247(a)在2004年12月31日之前,蓝色0.2933 0.3235 0.5033BLEU-1 0.5454 0.4830 0.6428BLEU-2 3.70E-01 0.3716 0.5431BLEU-3 3.01E-01 0.3167 0.5089BLEU-4 0.2664 0.2817 0.4933GLEU2005年12月31日表3释义识别任务的评估结果。是正确的,如果该模型预测,特定的双彼此的转述。精密度可表示为:TP/预测值(是)3. 回忆:回忆告诉我们,当重复对实际上是彼此的释义时,模型多久预测一次“是”。 回忆率也可以称为敏感度或真阳性率。表示为TP/实际(是)。4. F1分数:F1分数是精确率和召回率的调和平均值(真阳性率)。通过使用以下度量来评估释义生成任务:1. ROUGE ( Recall-Oriented Understudy for Gisting Evaluation ) :ROUGE仅基于召回,是用于摘要任务的最常见指标之一。但它也可以用来评估释义。根据不同的功能,有ROUGE-1、ROUGE-2、ROUGE-N、ROUGE-(L/W/S)等多种型号。 ROUGE- N是基于克数。如果设置了unigram,则ROUGE-1通过分析匹配的unigram来计算召回率。ROUGE- L/W/S分别表示最长公共子序列(LCS)、加权LCS和跳过二元组共现统计的ROUGE。本文使用ROUGE-1、ROUGE-2和ROUGE-L。2. BLEU(双语评估替代):BLEU将生成的翻译中的匹配N元语法计数为黄金或参考文本中的N元语法。这里的unigram是token-wise,bi-gram是单词对。为了惩罚生成大量合理单词的翻译或释义,修改了n-gram计数。本文使用BLUE-1/2/3/4进行评价。3. GLEU(Google-BLEU):GLEU是一个 变体 Bleu 评分 和 其目的是使评价更接近人类的判断。GLUE克服了BLUE的每句奖励目标的缺点。GLUE通过计算gold/truth/reference释义上的n-gram精度来工作,但是在这里,更多的权重被分配给从源改变的N-gram4. WER(单词错误率)WER是自动语音识别(ASR)中最常用的度量之一,但也可用于评估释义生成。WER可以总结为,单词错误率=(替换+插入+删除)/说出的单词其中替换表示替换一个词,插入表示添加一个词,删除表示删除的词。5. METEOR ( Metric for Evaluation of Translation with EX plicitOrdering)METEOR通过修改查准率和查全率计算来工作。它用加权的F分数代替它们。这个F分数是数据集(阈值= 0.726)准确度精确度召回率建议零售价82.05 73.68 87.5Quora 87.17 78.9 93.75表4Quora数据集释义生成的比较分析作者:ROUGE-1 ROUGE-2Seq2Seq Li et al. (2017年)58.7731.47Li et al. (2017年)59.2132.43指针生成器Li et al.(2017)61.93 36.07RL-ROUGE Li et al. (2017年)63.3537.33Li et al. (2017年)64.3938.11Li et al. (2017年)64.0237.72统一方法(我们的)62.8682 54.0932基于映射1-gram或unigram以及每当遇到不正确的词序时6. 结果和比较分析释义生成和释义识别在同一模型上进行评估,但使用不同的评估指标,因为前者是生成任务,后者被视为分类任务。表2描述了副短语生成任务的评估结果。在ParaNMT、MSRP和Quora三个测试数据集上对ROUGE-1、ROUGE-2、ROUGE-L、METEOR、BLEU、BLEU-1、BLEU-2、BLEU-3、BLEU-4、BLEU-5、BLEU-6、BLEU-7、BLEU-8、BLEU-9、BLEU-10、BLEU-10、BLEU-14、GLEU和WER。表3表示释义识别任务的评估结果。释义识别任务的评估是在MSRP和Quora数据集上进行的,评估指标包括准确度、精确度、召回率和F1分数。为了评估PI任务,将阈值设定为0.726。此阈值表示将分配的优先级对为1(是彼此的释义)如果语义得分(从统一模型计算)大于阈值(0.726),则预测将被分配为0。经过反复试验,这个阈值在准确率、召回率、 以及两个测试数据集的两个类的f1-score。可以看出统一的训练模型在释义生成和识别两项任务中都表现得很好。此外,还对这两项任务与现有的不同数据集的可用系统表4和H. 帕利韦拉International Journal of Information Management Data Insights 1(2021)1000257表6表5MSRP数据集释义生成的比较分析。BLEU方法迁移学习(Brad Rebedea,2017)12.91ParaSCI(Dong,Wan,Cao,2021)27.18统一办法(拟议)使用BERT(Devlin,Chang,Lee,&Toutanova,2018),RoBERTa(Liu等人,2019年)等,通过将任务视为传统的配对分类。在句子对分类中,像BERT或RoBERTa这样的语言模型(主要是预训练的)在由句子对及其标签组成的数据集上进行微调。在这里,当标签为1时,则双对是彼此的释义,否则不是。这种模型架构设置需要预先训练的语言模型单独进行微调,以用于双对分类任务。的局限性MSRP数据集释义识别的比较分析工作精度%准确性(百分比)Mihalcea等人Mihalcea,Corley,Strapparava等. (2006年)03 The Dog(2006)02 The Dog of the Dog(2011)Hu等人ARC-IHu,Lu,Li,Chen(2015)69.6Hu等人 Hu et al. (2015年)69.9Rus等人03 The Dog(2008)-7.6分伊斯兰教与墨水Islamand Inkpen(2009) 72.6Yin et al.Yin Schütze(2015) 72.5费尔南多和史蒂文森Fernando Stevenson(2008)Wan et al.03 The Dogof the Dog(2006)Pang et al. Pang et al. (2016年)75.94Socher等人Socher,Huang,Pennington,Ng,Manning(2011)76.8Madnani等人第50集9.4 TheFamous Famous(2012)Zhang et al.Zhang,Rong,Liu,Tian,Xiong(2017) 77.5Word2vector+混合深度学习Kubal Nimkar(2018)77.66GloVe+混合深度学习Kubal Nimkar(2018)78.49Context2vec+混合深度学习Kubal Nimkar(2018)79.88DeepPairwiseWord Lan等. (2017年)83.4统一方法(建议)82.0513表7Quora数据集释义识别的比较分析准确度(单位:当需要添加新数据时,这种设置是对模型的重复训练和评估。所提出的系统通过防止模型被单独训练用于双对分类任务来解决这个问题。因此,在时间和计算资源方面节省了资源,因为这些语言模型如第6节所述,通过对不同系统的比较分析,针对不同指标对所提出的系统进行了全面评估,其性能优于主要的最先进系统。亮点是从训练生成释义的模型中导出的分类模型也执行下降。结果表明,该模型生成的句子向量具有上下文信息。在生成释义时,可以看到输出句子是多样的,而不仅仅是输入句子的副本。这种多样性的输出,但同时保持意义的完整是可能的数据采样步骤,确保有各种各样的输入和输出。这使得所提出的系统在释义具有技术术语或单词的句子中是有用的。因此,所提出的系统提供了一个单一的统一微调模型,能够执行释义识别和释义生成的任务。的方式第4.2节中生成的数据被证明是重要的一步,不鼓励复制输入的句子作为输出。此外,训练文本到文本转换器Transformer模型的独特方法是工作百分比)生成具有微调参数的句子,03.第75集75. 39节:钱德拉·斯特凡努斯pt-DECATTTomar,Duque,Täckström,Uszkoreit,Das(2017) 88.4第50集9.4 TheDog(2020)XLNetCorbeil Ghadivel(2020) 8603.罗伯特·科贝尔·加迪韦尔(2020)88.6阿尔贝特·科贝尔·加迪韦尔(2020)86.7统一方法(建议)87.17948表5表示分别针对Quora和MSRP数据集的Para短语生成任务执行的比较分析。可以观察到,与现有系统相比,所提出的系统获得了更高的分数。该系统的ROUGE- 1评分为0.628,ROUGE 2评分为0.54,BLEU评分为0.5037,METEOR评分为0.6143。表4中的RbM-IRL(Li,Jiang,Shang,Li,2017)获得了64.02的最佳ROUGE-1评分,但所提出的系统在其他指标中远远超过了它和其余系统。将释义识别系统与2006年以来的现有系统进行比较表6和表7描述了基于释义识别系统任务的准确性的在表5中,可以看出,所提出的系统实现了82.0513%的准确度,这超过了其他现有系统,除了深度
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功