没有合适的资源?快使用搜索试试~ 我知道了~
基于生成对抗网络的情感对话生成在虚拟现实智能硬件中的应用
虚拟现实智能硬件2021年12月3日第1引文:陈伟,陈新苗,孙晓。基于生成对抗网络的情感对话生成。虚拟现实智能硬件,2021,3(1):18-32DOI:10.1016/j.vrih.2020.12.001·文章·基于生成对抗网络的WeiCHEN,XinmiaoCHEN,XiaoSUN*合肥工业大学计算机与信息学院,合肥230601*通讯作者,sunx@hfut.edu.cn投稿时间:2020年5月14日修订日期:2020年6月16日接受日期:2020年6月22日摘要 背景 人机对话生成是该领域的一个重要研究课题 自然语言处理。生成高质量、多样化、流畅和情感化的对话是一项具有挑战性的任务。基于人工智能和深度学习的持续进步,新方法近年来已经走到了前列。特别是,端到端神经网络模型提供了一个可扩展的会话生成框架,该框架有可能使机器能够理解语义并自动生成响应。然而,神经网络模型也有自己的一系列问题和挑战。基本的会话模式框架往往会产生普遍的、无意义的、相对“安全”的答案。方法基于生成对抗网络(generative adversarial networks,GANs),提出了一个新的情感对话生成框架EMC-GAN。该模型包括一个生成模型和三个判别模型。该生成器基于基本序列到序列(Seq2Seq)对话生成模型,并且用于整体框架的聚合判别模型包括基本判别模型、情感判别模型和流畅度判别模型。基本判别模型将生成的假句子与训练语料库中的真实句子区分开。情感判别模型评估经由所生成的对话传达的情感是否与预先指定的情感一致,并且指导生成模型生成对应于预先指定的情感的类别的对话。最后,流畅性判别模型为生成的对话的流畅性分配分数,并指导生成器生成更流畅的句子。 结果基于实验结果,本研究证实了该模型优于类似的现有模型的情感准确性,流畅性和一致性。结论所提出的EMC-GAN模型能够生成一致、流畅和流畅的对话,传达预先指定的情感,并且与其竞争对手相比,在情感准确性、一致性和流畅性方面表现出更好的性能。情感对话生成;序列到序列模型;情感分类;生成对抗网络;多分类器2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。www.vr-ih.comWei CHEN et al:基于生成对抗网络的多分类器情感对话生成191引言与人机对话相关的技术用于多种类型的产品,包括智能语音助手和在线客户服务。随着时间的推移,对人机对话成熟度的要求和期望急剧增加。相关的几个主题已经得到了广泛的研究,例如具有常识知识的对话系统[1],具有音频上下文的对话系统[2],潜变量面向任务的对话系统[3],结合文本和图像的对话系统[4]等。有关相关研究的详细说明,请参见Ma等人进行的调查[5]。目前,对话生成主要包括三种类型的方法:基于规则的系统[6],信息检索系统[7]和基于生成的系统。本研究是基于最终的方法。Seq2Seq模型在机器翻译问题的背景下得到了广泛的研究,包括其基于递归神经网络(RNN)[8],长短期记忆(LSTM)[9]和注意力机制[10]的实现。Vinyals等人是第一个将Seq2Seq结构应用于对话框生成问题的人[11]。基本的Seq2Seq模型在用于生成会话- 对模型性能的评估通常在句子一级进行。自从Seq2Seq最初应用于这一主题以来,一些研究人员试图通过使用生成对抗网络(GAN)来解决这个问题,GAN在计算机视觉方面取得了巨大成功。Yu等人提出了一个更合适的框架来生成基于GAN的对话,称为SeqGAN[13]。通过将数据生成器建模为强化学习中的随机策略[14,15],SeqGAN通过直接更新其梯度策略来避免生成器之间的差异。Li等人提出了使用基于强化学习的对抗训练来生成开放域对话[16]。Cui等人提出了双重对抗学习(DAL)框架,该框架提高了生成的响应的多样性和整体质量[17]。高情商的人能够识别和表达自己的情绪,识别他人的情绪,控制自己的情绪,并利用感觉和情绪来刺激适应性行为[18]。同样重要的是赋予机器以情感, 人机对话的语境。Ghosh等人提出了一种基于LSTM的模型来生成具有情感的文本[19]。Rashkin等人引入了一个带有情感注释的新数据集,用于提供检索候选项或微调对话模型,从而产生更多的移情响应[20]。由Zhou和Zhang提出的情感聊天机能够生成具有适当内容和情感的对话[21]。Wang等人提出了SentiGAN框架,该框架使模型能够通过惩罚机制生成具有特定情感标签的多样化,高质量的文本[22]。在我们之前的工作中,我们提出了一个基于LSTM的模型,其中我们改变了训练语料库来解决对话中的情感因素。在该模型中,输入适应于原始句子和带有情感标签的句子,带有情感标签的句子用作输出[23]。在这项研究中,我们引入了一个新的情感对话生成模型(EMC-GAN)的基础上生成对抗网络。由于基本的对话生成模型难以表达对话中的情感特征,我们通过分解情感对话生成任务来解决这个问题。几个不同的模型被训练来生成具有不同情感的对话。每个模型都专注于创建一种情感对话。通过引入这种模块化结构,该方法成功地排除了在生成具有特定情感的对话时其他情感的干扰和影响,从而提高了具有预先指定的情感的对话生成的准确性。该框架包括一个生成模型和多个判别模型。生成模型是基于基本的Seq 2Seq对话生成模型[24]构建的;并且框架的聚合判别模型包括基本判别模型、情感判别模型、情感判别模型和20虚拟现实智能硬件2021年12月3日第1GGGGDeeDeDee模型和流畅性判别模型。它们一起帮助区分生成的文本和原始文本,并指导生成器生成更流畅的对话,更准确地传达特定的情感。EMC-GAN模型能够产生表达特定情感的连贯、流畅和流畅的对话,并且在情感准确性、连贯性和流畅性方面比现有系统表现更好(图1)。图1EMC-GAN的总体框架2方法所提出的情感对话生成框架EMC-GAN包括一个生成模型和三个判别模型。生成模型G e(Y|X;θ e)是基于基本Seq 2Seq架构的对话生成模型。它基于输入的源句子生成与指定的情感类别e相对应的连贯且流畅的EMC-GAN的聚集判别模型包括基本判别模型De(X,Y;θe)、情感判别模型Demotion(X,Y;θe)流利度判别模型D流利度(X,Y;θe)。 基本判别模型与通用对话生成模型,它基于生成对抗网络,并在训练语料库中区分生成的假句子和真实句子。它还指导生成器生成更接近人类对话框的对话框。情感判别模型是文本序列的二元分类器,其能够确定由生成的对话表达的情感是否与指定的情感e一致。它为输入对话的情感类别提供与预先指定的情感类别相同的置信概率。流畅性测试评估输入对话的流畅性,并指导生成器创建更流畅的对话。2.1面向生成模型的情感对话生成模型G e(Y)的目标|X;θ e),是通过赋予其预先指定的情感e来生成与每个输入源序列相对应的目标序列。θe是生成模型的参数。在每个时间步t,G e(Y|X;θ e)产生句子S t=Y1:t= {y<1>,y<2>,<<.,y t > },其中y t >表示现有词汇表中的单词标记。当量1和等式2提出了基于惩罚的损失函数[22]:VG(St,yt+ 1 >)=λ1<$Ve(St,yt+ 1 >)+λ2<$V情感(St,yt+ 1 >)+λ3<$V流畅性(St,yt+ 1 >)(1)<<<)表示由多个判别模型计算的句子序列的总惩罚分数,Ve(St,yt+1>)表示由基本判别模型计算的惩罚分数,21Wei CHEN et al:基于生成对抗网络的多分类器情感对话生成GDeeDe不eDGeeGGet= 0时1∑N1-D<D模型,De(X,Y;θe),V情感(St,yt+1>)表示由情感判别模型模型,D情感(X,Y;θe),其反映由生成的对话传达的情感,V流畅性(S,yt+1>)表示由流畅性判别模型D流畅性(X,Y;θe)计算的惩罚分数,其反映了句子的流畅性,λ1+λ2+λ3= 1。 在本研究中,我们设置λ1= 0.5和λ2=λ3= 0.25。 因此,基于惩罚分数,损失函数Lyt+1>t定义如下:Ly|St;θeV GSt,y|S t;θ e)表示选择第(t +1)个单词的概率,其取决于序列S t。生成模型参考惩罚定义如下,以最小化损失:t=Ty- 1JGθe=E YP <(三)罚款按以下公式计算:VS,yt+1=Nn= 1e t dy(四)东印度群岛1-De其中Ty表示靶序列的最大长度,N表示蒙特卡罗搜索样本的大小。通过对多个样本对应的惩罚分数进行平均来计算部分序列的惩罚分数,以减少采样造成的损失。2.1.1对话生成的基线模型基本的Seq2Seq模型在本研究中被用作基准模型。该模型使用具有深度LSTM单元的编码器-解码器网络作为对话生成的底层架构。在模型中加入有效的注意机制可以帮助提取出更多的源句和目标句之间的对应信息。该模型的总体结构如图2所示。本研究中提出的对话生成模型与Seq2Seq基线模型共享其网络结构。图2具有注意力机制的编码解码器。编码器和解码器都使用LSTM实现。对应于每个时间步,源序列的令牌被视为编码器网络的输入。在输入完成之后,编码器生成对应于每个时间步输入的语义向量C,其表示虚拟现实智能硬件2021年12月3日第122→at输入源序列。解码器的初始状态由生成的语义向量C确定。解码器对语义向量进行解码,并输出对应于每个时间步的令牌。因此,我们获得输出序列Y(y1>,y2 >,x1,y2>, x1 , y2>),其使用基于编码器-解码器网络的数据生成框架来对应于输入序列X(x1>,x2> ,x1,x2>,x1,x2>,2.1.2生成模型注意机制的基本功能是计算上下文向量。上下文向量context通过突出显示输入句子的工作标记来引导解码器yi,其中输入句子的工作标记应当由解码器经由上下文向量来关注。图3描述了图3注意机制中的语境向量。注意力机制中上下文向量的计算。为了保存源序列隐藏层的状态,具有注意力机制的Seq2Seq模型使用双向LSTM网络[25]来提取源序列在每个时间步的隐藏状态。双向LSTM网络由Eq. 五、at>=←at>(五)当acomprise s→aand d <$a时,分别代表了其位置序列特征和对应的层序特征。通过以下公式计算隐藏状态向量的两个部分。→at>=BiLSTMPre→at-1>,xt(6)<$at>=BiLSTMPost<$at+1>,xt(7)除了提供时间步t之前的序列的历史信息之外,中间状态向量还提供序列的未来信息。为了区分解码器的中间状态向量与编码器的中间状态向量,我们在时间步长t处将前者表示为St>。解码器在前一时间步的中间状态向量与编码器在每个时间步的中间状态向量级联。et,t'>=(St-1>,at'>)(8)其中,矢量et,t′>表示通过将对应于第t-1个时间步的解码器的中间状态矢量和第t ′个时间步的编码器的中间状态矢量连接而获得的矢量。从Eq.在图9中,注意向量αt,t'>表示在时间步长t处解码器关注在时间步长t'处编码器的中间状态向量αt'>的程度。此外,从Eq.10中,通过将注意力向量αt,t'>乘以其对Wei CHEN et al:基于生成对抗网络的多分类器情感对话生成23应的隐藏状态向量αt'>,然后对时间范围内的乘积求和,获得上下文向量contextt>虚拟现实智能硬件2021年12月3日第124∑Txe×p(e)(=∑DGGGDGGGGDeDeDGDeDeDGD步骤-从1到Tx。2.2所述判别模型αt,t'>=exp(et,t'>)<<τ= 1Tx上下文t>αt,t'>at'>(10)t'= 1由卷积神经网络(CNN)[26]和递归卷积神经网络(RCNN)[27]实现的深度判别模型在复杂序列分类任务中表现良好。我们使用CNN作为本研究中提出的判别模型的基本结构。此外,公路网络[28]被添加到判别模型中以提高其训练速度。情感判别模型和流畅度判别模型都是预先训练的模型,不参与模型的对抗训练过程。2.2.1基本判别模型基于CNN的文本分类模型最初由Zhang和LeCun[29]提出,它被用作基本判别模型De(X,Y;θe)的基本结构,用于区分训练数据集中生成的假句子和真实句子。基本判别模型的损失函数可以表示如下。JDθe=-lo+1-yog1-p(11)所提出的情感对话生成模型EMC-GAN的对抗训练过程已在表1中呈现。2.2.2情绪判别模型情感判别模型Demotion(X,Y;θe),表1EMC-GAN的对抗训练过程引导生成模型基于输入的源句子生成具有指定情感的目标句子。情感判别模型能够确定输入对话的情感类别是否与指定的情感类别一致。情绪判别模型的训练过程在表2中列出。 真正的对话算法1模型的对抗训练输入:G e(Y|X; θ e); D e(X,Y; θ e),D情感(X,Y; θ e),D流畅性(X,Y; θ e);真实对话(目标句子Y的情感类别为e):R{X,Y}输出:训练的对话框生成器:G e(Y| X;θ e)1:初始化G e(Y| X;θ e)和D e(X,Y;θ e); 2:预训练G e(Y| X;θ e)对训练数据R {X,Y}使用MLE;3:使用G e(Y)生成伪对话框F {X,Y} |X;θ e)4:使用{R,F}预训练De(X,Y;θe)情感类别e由R={对话e3}5:当模型不收敛时,6:对于每个生成步骤,并且具有情感类别的伪对话被表示为通过F={对话e1,对话e2,情感识别器用于区分真实对话R和伪对话F,并为输入对话与真实对话相同的事件分配置信概率。该模型类似于基本判别模型和是 训练 在 提前 所实现的情感上的准确性,7:使用G e(Y)生成伪对话框(F)|X;θ e)8:计算惩罚V使用等式1e9:更新G e(Y| X;θ e),使用Eq.310:结束11:对于每个判别步骤,12:使用G e(Y)生成伪对话框(F)|X;θ e)13:使用{ R,F }和等式(1)更新D e(X,Y;θe)。1114:结束15:结束16:返回Wei CHEN et al:基于生成对抗网络的多分类器情感对话生成25eDeDeded类别范围在70%- 85%之间,实验结果表明,这足以指导生成模型生成具有足够准确情感的句子。2.2.3流利度判别模型本研究提出的句子流畅性评价算法是基于Liu[30]提出的句子流畅性评价方法。句子流畅性评估的训练过程如表3所示,该算法采用N-gram统计语言模型[31],该模型使用三个元组的转移概率来衡量整个句子的流畅性。表2情绪判别模型算法2情绪辨别模型训练输入:D情感(X,Y;θe);具有情感类别e的真实对话(R):R{对话e},具有不同情感类别的虚假对话(F):F{对话e1,对话e2,.};输出:训练的情感判别器:D情感(X,Y;θe);1:用随机权重初始化D情感(X,Y;θe); 2:当模型不收敛时,3:对于每一个情感判别步骤,4:使用{R,F}和等式4更新D情感(X,Y;θe)。115:结束6:结束7:返回句话首先,我们统计数据集中存在的对话框中二元元组的数量和相应的出现频率,将结果保存在n_gram2_count中,采用二元元组作为字典的键,并将二元元组的出现频率作为值。然后,以类似的方式计算所有三元组及其对应的出现频率,并将结果保存在n_gram3_count中。所有三元元组的转移概率使用字典n_gram2_count和n_gram3_count计算,如下所示。表3通过流利度判别模型算法3计算流畅度分数输入:语料库,待评估句子;输出:输入句子的流利度评分; 1:统计对话语料库2:二元语法计数dictn_gram2_count ={“"[xi,xj]”“:语料库中[xi,xj]3:统计对话语料库的三元组个数。4:三元语法计数dictn_gram3_count ={“[xi,xj,xk]":语料库中[xi,xj,xk]的数量}5:126:三元语法转换概率dictn_gram3_prob ={"[xi,xj,xk]":p(xi,xj,xk)}7:按照转移概率对n_gram3_prob进行排序,并将排序后的概率保存到列表sorted_n_gram3_prob中8:排序概率列表的大小为:size=len(sorted_n_gram3_prob)9:reward_prob=sorted_n_gram3_prob[ int(size*0.4)]10:penalty_prob=sorted_n_gram3_prob[ int(size*(1- 0.2)]11:p(x i|)= p(xi,xi+1,xx+2)12:流畅度(X)=流畅度({x1,x2,13:如果Tx<3,则14:返回流畅度(X)15:对于i= 1至m-2,16:如果p(())≥reward_prob,则17:fluencyx()+=p(() )/reward_prob18:否则,如果p((i))≤penalty_prob,则19:fluency (i)-=p(x() )/penalty_prob20:结束21:流畅度(X)=流畅度(X)/(m-2)22:返回流畅度(X)虚拟现实智能硬件2021年12月3日第126我JXyp$x,x,x=px|x,x=countxi,xj,x(十二)i j kKIj计数x,其中,xi、xj和xk表示句子中的相邻词。计算结果保存在n_gram3_prob中。最后,按照相应转移概率的降序对三元元组进行排序,并将结果保存到列表sorted_n_gram3_prob中。一般来说,对应于n-gram元组的较高转移概率的句子更流畅。两个转移概率,reward_prob和penalty_prob,用于判断生成的句子是否流畅。sorted_n_gram3_prob中前40%的三元元组比其余的更平滑,最后20%的构造更笨拙。reward_prob表示元组的前40%中的最小转移概率,而penalty_prob表示元组的后20%中的最大转移概率。在句子X= {x1,x2,...,x m }的流畅性的评估期间,初始流畅性分数0被分配给流畅性X = { x 1,x 2然后,遍历所有三元元组如果句子的长度小于3,该算法直接将其流畅度分数设置为0,因为我们不期望模型使用短句作为对输入源句子的响应。如果当前三元元组的转移概率高于reward_prob,则暗示三元元组是相对平滑的。在这种情况下,scorefluency将转换概率的比率添加到reward_prob。如果转移概率如果当前三元元组小于penalty_prob,则意味着当前三元元组相对笨拙。在这种情况下,当前流畅度分数fluencyX_x_x_y减去penalty_prob中的转移概率的比率。如果与三元元组对应的二元元组不存在,则三元元组为在流畅度的计算过程中,分配了可忽略的转换概率(0.02)。最后,将计算出的流畅度分数fluencyX_除以句子中的三元元组的数量,以获得最终结果。3实验在情感对话生成过程中,生成模型生成与每个输入源句子和指定的情感类别相对应的目标句子。这是至关重要的,产生的句子序列是一致的,流畅的,并属于指定的情感类别。3.2数据集对话数据集包括具有情感类别标签{X,Y}的一系列对话对,其中X={ X,Y }。{e,x1>,x2>,序列(对话响应),并且ex和ey分别是源句子和目标句子的情感类别标签。生成模型的目的是生成一个目标句子与指定的情感对应的每一个输入的源句子与任何情感。为了构建不同情感生成模型对应的数据集,我们根据目标句子所传达的情感将数据集划分为多个子数据集。属于同一数据集的所有目标句子序列共享相同的情感标签ey。NLPCC微博(NLPW):该数据集基于从微博中提取的对话构建评论和包括1119200对话对六个情感类别标签(愤怒,厌恶,快乐,喜欢,悲伤和其他),类似于我们以前的研究[23]。Xiaohuangji(XHJ):这个数据集总共包含454130个对话对。然而,其语料库不包括相应的情感标签。我们使用开源的自然语言处理工具Wei CHEN et al:基于生成对抗网络的多分类器情感对话生成27HanLP[32],用于训练情感分类模型,该模型本质上是在NLPW数据集上训练的朴素贝叶斯分类器。情感分类模型能够将句子分类为NLPW数据集中的六个情感类别。两个数据集NLPW和XHJ相对于不同情绪类别的频率分布如图4所示。表4呈现了对应于不同情绪的子数据集的情绪分布。图4两个数据集关于不同情绪类别的频率分布。表4子数据集中的情绪分布目标情绪数据集源情感其他喜欢悲伤厌恶愤怒幸福其他0.4190.2710.2900.3010.2910.276喜欢0.1870.3810.1820.1800.1590.276悲伤NLPW厌恶0.0950.1490.0830.1100.2120.1450.0980.2590.1110.1990.0990.120愤怒0.0650.0400.0640.0800.1470.057幸福0.0850.1150.1080.0820.0940.171其他0.4500.3930.3770.3880.3740.382喜欢0.1320.2270.1190.1240.1090.144悲伤XHJ厌恶0.0870.1730.0790.1550.1720.1700.0800.2460.0720.1830.1060.160愤怒0.1020.0910.1090.1100.2120.101幸福0.0560.0530.0530.0520.0490.1083.4实验装置基本的Seq2Seq对话框生成模型在实验比较期间用作基准模型。基于混合神经网络的情感对话生成模型EHMCG[23]和情感对话生成模型EM-SeqGAN[33]的性能与所提出的EMC-GAN模型的性能进行了比较。本研究主要基于三个指标:情感准确性、连贯性和流利性,对三种不同模式生成的对话进行分析和评价。在构建模型的过程中使用了Tensorflow[34]。在基于如等式1中定义的λ系数λ计算惩罚分数期间,λ1、λ2和λ3之间的比率取为2: 1: 1。这充分约束了三个评估参数的权重,并适当地指导生成模型的训练。生成模型和判别模型的训练迭代分别取为5次和10次。3.5情感准确在生成对话之后,我们通过HanLP中使用的情感分类器用相应的情感类别对其进行注释。如果生成句子的情感类别与目标句子的情感类别相同,则认为生成句子的情感类别符合期望。表5描述了由不同对话生成模型生成的对话的情感准确性Wei CHEN et al:基于生成对抗网络的多分类器情感对话生成27与其他模型相比,所提出的EMC-GAN模型表现出与每个情感相关的每个子数据集相对应的最高情感准确性。在NLPW数据集的情况下,EMC-GAN模型表现出对应于情感“其他”、“喜欢”、“悲伤”和“厌恶”的高情感准确度,其在0.588- 0.740的范围内,而其对应于情感“愤怒”和“幸福”的情感准确度被观察到分别仅为0.392和0.236。在XHJ数据集的情况下,EMC-GAN模型表现出对应于每种情绪的更高的情绪准确度,并且准确度在0.701- 0.870的范围内。与其他情感类别相比,情感“其他”一致地对应于两个数据集上的最高情感准确度,并且这可以归因于它对应于最高数量的训练数据的事实。由于情感“其他”表示与所列出的情感不同的任何情感,因此情感分类模型倾向于将大多数输入句子的情感类别判断为“其他”。表5生成对话情绪准确性数据集模型其他喜欢悲伤厌恶愤怒幸福Seq2Seq0.2860.1210.0890.1280.2120.191EHMCGNLPWEM-SeqGAN0.4210.5720.3540.4870.3740.5480.2890.3760.2110.2950.1950.201EMC-GAN0.7400.6870.7230.5880.3920.236Seq2Seq0.2930.1760.0640.2270.1770.094EHMCGXHJEM-SeqGAN0.5630.6470.3790.5630.3740.4870.4580.5670.3850.4260.2950.375EMC-GAN0.8700.7940.7610.7320.7650.7013.6一致性评价在评价对话生成模型的性能时,最基本的参数之一是所生成的对话的连贯性,其表示对话是否与源句子的上下文一致。目前,令人满意的模型,能够充分评估生成的文本的连贯性是不可用的。因此,我们采取人工判断来评估其一致性。表6总结了用于评价的选项和相应的评价评分。评估分数的范围从1到5,更高的评估分数对应于对话的更高的连贯性。表6通过人工评估选项非常好好正常坏非常糟糕评分54321由不同生成模型生成的对话的一致性评估分数已在表7中描绘。与其他模型相比,所提出的EMC-GAN模型对两个数据集的所有情感类别都表现出更高的一致性评估分数。此外,EMC-GAN在XHJ数据集上表现出比在NLPW数据集上更高的一致性评价分数。生成的对话文本对应于情绪“其他”,“喜欢”和“悲伤”反映了两个数据集的较高的一致性评价分数。值得注意的是,EMC-GAN在“其他”和“悲伤”类别中分别获得了3.407和3.180的一致性评估分数。这表明,所提出的模型生成的对话表现出令人满意的一致性。虚拟现实智能硬件2021年12月3日第128表7生成对话一致性评价评分数据集模型其他喜欢悲伤厌恶愤怒幸福Seq2Seq1.3061.0671.4511.0851.1811.051EHMCGNLPWEM-SeqGAN1.4031.7321.1921.5631.3871.7341.2361.5221.3351.4031.0961.225EMC-GAN2.2772.8752.1151.8811.9721.245Seq2Seq1.1271.3611.2291.1111.1471.263EHMCGXHJEM-SeqGAN1.2561.8201.4521.7261.2481.3391.3241.5141.2231.3301.3711.207EMC-GAN3.4072.5423.1801.9311.5612.2553.7流畅性评价除了连贯性之外,生成文本的流畅性也是评估对话生成模型性能的重要参数。流畅性反映了生成器的文本生成能力。流畅性判别模型评估生成的对话的流畅性,其底层算法已在算法3中概述。此外,为了提高流畅性评价的准确性,我们还采用了人工的方法。通过流利性判别模型将流利性分数分配给每个生成的句子。从表8中呈现的数据可以明显看出,与对应于每个数据集和情感类别的其他模型相比,所提出的EMC-GAN模型表现出更高的流畅性分数。在NLPW数据集的情况下,所提出的模型表现出对应于情绪“悲伤”和“愤怒”的较高流畅性分数,并且对应于情绪“其他”获得的流畅性分数相对较低。在XHJ数据集中生成的对话对应于比NLPW数据集更高的流畅性分数,并且观察到句子的流畅性明显提高。在XHJ数据集的情况下,还观察到对应于情绪“其他”的流畅性分数相对较低。表8通过算法3流利度评分数据集模型其他喜欢悲伤厌恶愤怒幸福Seq2Seq-0.189-0.193-0.192-0.193-0.192-0.194EHMCGNLPWEM-SeqGAN0.4050.5860.7270.8751.1331.8750.5261.0341.2381.3370.9431.237EMC-GAN0.8541.7102.6171.5122.4981.706Seq2Seq-0.124-0.123-0.124-0.125-0.124-0.123EHMCGXHJEM-SeqGAN3.3564.6525.5287.2387.5268.8326.7767.7745.8826.2374.5816.735EMC-GAN6.3009.23911.3310.3310.2611.26表9描绘了由人类判断分配的不同代模型的流畅性分数。观察到这些分数与一致性评价分数相似。与其他模型相比,EMC-GAN模型对每个数据集和情感类别都表现出更高的流畅性。此外,EMC-GAN表现出比NLPW数据集中的那些更高的对应于XHJ数据集的每个情感的流畅性分数。在XHJ数据集上,EMC-GAN表现出对应于情绪“悲伤”的最高流畅性评估分数4.480,并且观察到对应于“厌恶”和“愤怒”的流畅性评估分数相对较低,分别为2.835和2.960。Wei CHEN et al:基于生成对抗网络的多分类器情感对话生成29表9人工评估生成对话的流畅性分数流畅度评估评分数据集模型其他喜欢悲伤厌恶愤怒幸福Seq2Seq1.1931.2671.2511.2021.1141.351EHMCGNLPWEM-SeqGAN1.2532.0131.1962.1621.3252.0671.2691.8491.1561.7581.1831.657EMC-GAN2.4242.8752.3652.4762.2721.984Seq2Seq1.2871.1111.5671.3111.2651.187EHMCGXHJEM-SeqGAN1.2572.4711.2842.6481.7322.7411.4551.8461.3251.7751.1732.659EMC-GAN3.7173.7604.4802.8352.9603.3263.8结果分析这个实验所揭示的情感准确性的错误可以主要归因于数据集和情感分类模型的错误。由于在NLPW数据集上观察到情感分类的准确率为64%,因此在所生成的对话的情感类别中引起了一些错误。由于XHJ数据集中的对话没有相应的情感类别标签,因此使用HanLP工具通过使用NLPW数据集作为训练语料库来训练情感分类器,从而为XHJ数据集中的对话添加情感标签。此外,为了减少情感分类模型对对话情感评价的影响,我们使用相同的情感分类模型对所有生成的文本进行分类。实验结果表明,该模型在XHJ数据集上的性能优于NLPW数据集。NLPW数据集中对话的句子质量通常被评估为较差。NLPW数据集中的句子长度被观察到比通常的对话中的句子更短,并且句子更笨拙,这可能归因于微博评论的不规则性。在NLPW数据集中,大量的二元和三元元组以奇异频率出现,这不利于语言模型的构建,因为这使得对话生成模型更难以实现收敛。对基线模型生成的对话的分析表明,在这种情况下,生成的句子大多数是随机单词的序列,并且生成的句子的流畅性特别差。从表8中可以明显看出,Seq2Seq模型生成的对话表现出较低的流畅性分数,并且对应于不同情绪的句子的流畅性分数大致相同。这可以归因于这样一个事实,即在流畅性评估过程中,当相应的二元元组不存在时,我们将可以忽略的转移概率(0.02)分配给三元元组。因此,由于生成的对话的流畅性非常差,大多数三元元组的转移概率接近最小值。从测试集中获得了生成的对话框的某些样本。表10描述了Seq 2Seq和EMC-GAN生成的对话框。标题为“情感”的列描述了对话框要生成的预先指定的情感类别。显然,Seq2Seq生成的响应在情感和内容一致性方面较差,因此,它们在各种评估参数方面表现不佳。观察到所提出的模型在情感准确性,连贯性和流畅性方面表现更好。虚拟现实智能硬件2021年12月3日第130表10Seq 2Seq和EMC-GAN模型Seq2SeqEMC-GAN员额(翻译)I'm sorry. I'm sorry.我的命运是多么的坎坷,你从来没有看到它的到来!懒得理你。和手说话。你吹牛。你吹牛。我也要参加。我也会去的牙齿不痛了?你的牙齿不痛吗?来的话,如何找你?如果我来了怎么去找你?不是我吓你,你晚上真的会做噩梦,小狗会变成鬼找你。我不怕我会伤到 你,你真的很害怕 ,小狗会变成鬼来 找你。青岛,一座城市来了就不会再想了!青岛,一座来过却再也不想再来的城市!又是第一名。又是第一我爱你。我爱你我不是故意的亲爱的。我不是故意的,亲爱的。你是机器人嘛?回复这么快。你是机器人吗回复这么快。情绪愤怒厌恶快乐喜欢悲伤和愤怒厌恶快乐喜欢悲伤其他回应(翻译)关我什么事?关我什么事?切~,我是enthalo。停~,我真笨。就是啊、已经注意到了。是的,我注意到了。Thank you for yourattention!祝您周末愉快。感谢您的关注!周末愉快我在山上好开心.爬山很痛苦...星期六晚。周六晚上快来找我!吓死我了!你怎么这么说话呢?赤裸裸的羡慕嫉妒。你为什么这样说话?赤裸裸的羡慕和嫉妒。感觉心情不错很好。我心情很好。I 'm sorry. I'm sorry.真的,超级无敌帅。太伤心了…太可悲了...我又不是,我怎么知道。我不是,我怎么知道。4结论在这项研究中,提出了一个新的情感对话生成框架(EMC-GAN),它使用多个分类器来生成更好的对话相对于各种评估参数。生成模型为每个输入的源句子生成目标句子。基本判别模型将生成的假句子与训练数据集中的真实句子区分开来。情感判别模型评估所生成的对话的情感是否与预先指定的情感一致。最后,通过流利度判别模型对输入对话的流利度进行评估,并赋予其流利度分数。根据实验结果,EMC-GAN能够生成具有预定义情感的对话。与其他模型相比,EMC-GAN生成的对话框被观察到更流畅和平滑。然而,情感分类器的准确性需要提高,以获得更真实的对话。此外,还需要考虑句子的其他特征(如新颖性和可变性),以使最终对话更加流畅和自然。竞合利益我们声明我们没有利益冲突。引用[1]杨文,黄明,周宏,黄明,张文。增强端到端对话系统,31Wei CHEN et al:基于生成对抗网络的多分类器情感对话生成常识性知识。第32届AAAI人工智能会议。新奥尔良,路易斯安那州,美国,2018,4970-49772杨T,潘德利亚V,马里斯,坎布里亚E.具有音频上下文的对话系统神经计算,2020,388:102DOI:10.1016/j.neucom.2019.12.1263徐洪涛,彭海燕,谢海荣,康布里亚,周丽燕,郑文国.具有精确对数似然优化的端到端潜在变量面向任务的对话系统。万维网,2020,23(3):1989DOI:10.1007/s11280-019-00688-84张志,廖良智,黄明林,朱晓宇,蔡天生.用于对话系统的具有自适应注意力的神经多模态信念跟踪器。在:万维网会议上-WWW '19。美国加利福尼亚州旧金山,ACM出版社,2019年,2401–2412DOI:10.1145/3308558.33135985马延康,阮国梁,邢福忠,坎布里亚.移情对话系统研究综述。信息融合,2020 DOI:10.1016/j.inffus.2020.06.0116Paschke A,Boley H.规则响应者:语义-实用网络的基于规则的代理。International Journal on Artificial IntelligenceTools,2011,20(6):1043-1081DOI:10.1142/s02182130110005287徐明辉,李平杰,杨华荣,任平杰,任正春,陈志明,马军。一种用于非结构化面向人物角色对话生成的神经主题扩展框架。20208Cho K,van Merrienboer B,Gulcehre C,Bahdanau D,Bougares F,Schwenk H,Bengio Y.使用RNN编码器-解码器学习短语表示用于统计机器翻译。2014年自然语言处理经验方法会议(EMNLP)。多哈,卡塔尔,计算语言学协会,2014年,1724DOI:10.3115/v1/d14-11799Sutskever I,Vinyals O,Le Q V.用神经网络进行序列到序列学习。201410作者:Jiang Jiang,Jiang Jiang.通过联合学习对齐和翻译的神经机器翻译。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Ansys Comsol实现力磁耦合仿真及其在电磁无损检测中的应用
- 西门子数控系统调试与配置实战案例教程
- ELM多输出拟合预测模型:简易Matlab实现指南
- 一维光子晶体的Comsol能带拓扑分析研究
- Borland-5技术资料压缩包分享
- Borland 6 技术资料分享包
- UE5压缩包处理技巧与D文件介绍
- 机器学习笔记:深入探讨中心极限定理
- ProE使用技巧及文件管理方法分享
- 增量式百度图片爬虫程序修复版发布
- Emlog屏蔽用户IP黑名单插件:自定义跳转与评论限制
- 安装Prometheus 2.2.1所需镜像及配置指南
- WinRARChan主题包:个性化你的压缩软件
- Neo4j关系数据映射转换测试样例集
- 安装heapster-grafana-amd64-v5-0-4所需镜像介绍
- DVB-C语言深度解析TS流
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功