没有合适的资源?快使用搜索试试~ 我知道了~
11450找到终止对话的帖子的预测性研究0Yunhao Jiao 浙江大学jiao_yunhao@zju.edu.cn0Cheng Li 密歇根大学lichengz@umich.edu0Fei Wu 浙江大学wufei@zju.edu.cn0Qiaozhu Mei密歇根大学qmei@umich.edu0摘要0如何提高在线社区对话质量最近引起了相当大的关注。参与的、文明的和反应迅速的在线对话对互联网用户的社交生活有着重要影响。在这项研究中,我们特别关注识别多方对话中不太可能进一步回复的帖子,从而终止对话的线程。为此,我们提出了一种名为ConverNet的深度学习模型。ConverNet之所以具有吸引力,是因为它能够对长对话的内部结构进行建模,并通过有效整合注意机制来适当编码对话的上下文信息。对真实世界数据集的实证实验证明了所提出模型的有效性。对于广泛关注的话题,我们的分析还为如何提高在线对话的质量和用户体验,或如何通过与聊天机器人进行对话来吸引用户提供了启示。0关键词0在线对话;对话预测;深度学习0ACM参考格式:Yunhao Jiao,Cheng Li,Fei Wu和QiaozhuMei。2018年。找到对话终结者:对线结束帖子的预测性研究。在WWW2018:2018年网络会议上,2018年4月23日至27日,法国里昂。ACM,美国纽约,10页。https://doi.org/10.1145/3178876.318601301 引言 1越来越多的人依赖在线社区获取最新信息,交流思想,表达观点和参与社会讨论。促进在线社区中的这些自然对话变得越来越重要。一方面,决策者利用这些对话来优化他们的在线营销策略;社会科学家研究意见如何通过讨论形成和传播;政治家分析用户如何对某些政府政策做出反应。另一方面01 本工作是第一作者访问密歇根大学时完成的。0本论文发表在知识共享署名4.0国际许可证(CC BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860130另一方面,有效和健康的对话会增加用户的满意度和参与度;低质量和不良的对话会损害用户的社交体验,使他们远离,并甚至将他们转变为喷子。如何引导人们参与在线对话引起了来自各个领域的研究人员的兴趣。在数据挖掘领域,促进在线社区中的用户对话也成为一条活跃的研究线。许多研究关注预测特定推文在Twitter上积累的转发次数[14,27,28],识别可能帮助用户获得更高响应率的各种因素。类似的研究也在在线论坛上进行[3,31],例如解析和预测线程结构,这可能增强信息获取和共享。尽管大多数关于在线对话的现有工作都集中在受到积极反馈的帖子上(例如,高度转发的推文),但对于受到负面反馈的帖子的研究要少得多。例如,目前没有研究识别对话终结者,即在多方对话中导致没有进一步回复的帖子。分析对话的无效性与分析有效性同样重要。事实上,对话终结者不仅阻止了新信息的引入和新观点的表达,还向作者本人投射了负面体验 -缺乏回应常常导致失望和较低的自我评价,并进一步降低他们的兴趣和参与度。开发一个能够识别潜在对话终结者并提供相应建议的系统可以极大地提高用户参与对话的程度。例如,如果用户打算扩展讨论,系统可以在他们提交帖子之前发送通知,如果帖子更有可能结束讨论。在双向对话中,当一个人打算让另一个人参与时,这样的通知连同可能的建议也是可行的。我们研究了预测线程结束帖子的新任务,我们将其用作“对话终结者”的实际替代品。尽管并非所有线程结束的帖子都会终止对话,并且并非所有帖子都是无意中完成的,但知道是否会有进一步回复有助于避免成为潜在的对话终结者。我们分析了各种可能预测对话结束的属性,包括文本内容、对话背景、对话结构和情感。我们发现标准的SVM模型能够区分预测信号和其他信号。为了充分利用这些预测信号,我们采用了一种特殊设计的递归神经网络(RNN),名为ConverNet,来对对话进行建模。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, FranceAnother line of work comes from the domain of online forums. Somestudies aim at predicting thread structures. The work proposed byWang et al. 2011 [31] approached this task by detecting initiation-response pairs, which are pairs of utterances that the first part setsup an expectation for the second part. Balali et al. [? ] followed11460由于RNN在文本中学习高级表示方面表现良好,因此我们使用RNN来对帖子进行建模。对话建模的一个特殊挑战是线程长度的巨大变化,这使得标准RNN由于处理长期依赖的能力不足而变得无效,并且标准的注意力机制由于无法处理长度不同的序列而变得无效。为了解决这个挑战,我们提出了一种简单而强大的注意力机制,专门为这个任务设计。注意力机制不仅解决了线程长度的问题,还提供了一种有效的方式来对对话中的重要上下文信息(例如时间戳和作者)进行建模。我们在两个代表性领域的对话中进行了大规模实验——在线论坛(例如Reddit)和电影对话。结果表明,ConverNet具有很高的效果和普适性,优于一系列强基线,包括基于特征的SVM和配备标准注意力机制的深度学习方法。通过比较ConverNet和SVM的结果,我们提出了如何在对话中吸引参与者的有趣启示。02 相关工作0社交媒体平台上的大量信息为数据挖掘和自然语言处理领域的科学研究提供了巨大的潜力。在本文中,我们专注于预测将结束对话的帖子的任务。文献中有几条相关工作线。02.1 预测微博的回复或转发0关于社交网络上的回复预测的一条研究线旨在预测回复的数量。这有助于内容生成者,尤其是广告商和名人,增加曝光率并保持公众形象。Rowe等人(2011)[21]针对未来的种子帖子及其潜在回复数量的预测进行了研究。Suh等人(2010)[27]和Hong等人(2011)[14]专注于预测转发的数量,并分析了哪种类型的推文更容易获得更多的转发。除了预测回复的数量,还有关于预测推文是否能获得回应(例如回复或转发)的工作。YoavArtzi等人(2012)[1]主要基于用户的社交网络和历史影响来解决这个任务。Rowe等人(2014)[20]进一步研究了可能影响各种社交媒体平台上用户参与度的更多特征。上述工作主要关注单个帖子(例如推文),而不是作为更长对话的一部分。相反,我们在多方对话的上下文中识别线程结束的帖子,这种对话具有复杂的内部结构和丰富的上下文信息,超越了文本内容。02.2 在线论坛中的预测任务0通过重构线程结构,将其作为监督学习任务来完成他们的工作。在线论坛中还有其他与我们的工作相关的任务,例如评估帖子的质量[9,24,29]和对帖子类型(例如问题、解决方案、垃圾邮件)进行分类[18]。尽管上下文和特征是相关的,但这些任务并不旨在解决我们正在解决的问题,即识别对话中的线程结束帖子。需要进行新的调查,以确定在我们的任务中可能具有预测性的信息类型。02.3 对话互动建模0在社交媒体平台上,对对话互动进行建模的工作已经广泛开展。Honeycutt和Herring[13]分析了如何使Twitter成为一种更可用的协作工具。Boyd等人[4]研究了如何使用转发作为与他人对话的一种方式。Ritter等人[19]使用无监督的对话模型将具有相似对话角色的话语进行聚类。这些任务更注重对对话的描述性分析,而不是预测。最近,研究人员开始研究如何在给定对话历史的情况下自动生成回复[22,23,25]。在这项工作中,我们的目标不是生成回复,而是试图帮助用户了解他们即将提交的帖子是否会终止对话线程。0总之,我们的工作使用来自不同平台的数据,并补充了现有的研究,但独特关注帖子对整个对话的影响。我们提出了一个深度学习模型,考虑了整个对话的内容、结构和上下文,并预测了单个帖子的结果。我们的模型和发现可以帮助文献中提到的任务,并促进在线对话中用户的参与。03 CONVERNET用于线程结束预测0在本节中,我们提出了一个专门设计的神经网络模型,利用整个对话的信息来预测线程结束的帖子。我们从几个定义开始。一个帖子是由单个用户提交的消息,而一个对话是由一组人发布的与一个专注主题相关的帖子集合。对话的线程是通过回复关系以树状结构组织的一组帖子的子集。我们只关注至少有两个帖子的线程,因为在有对话时必须涉及多个人2。线程结束的帖子是给定线程中将不再收到任何回复的帖子。在这个预测任务中,我们更关心这些线程结束者而不是它们的对应帖子,因此我们将线程结束的帖子标记为正例,其他帖子标记为负例。通过这种方式,问题被定义为一个二分类任务。请注意,我们使用线程结束的帖子作为对话终止帖子的替代品,因为它们广泛可用并具有明确的标签。我们的模型建立在这样一个洞察力的基础上,即循环神经网络(RNN)具有一个专门设计的注意机制02 https://www.merriam-webster.com/dictionary/conversation,于2018年2月17日检索。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, Franceit = σ(Wixxt +Wimmt−1),ft = σ(Wf xxt +Wf mmt−1),ot = σ(Woxxt +Wommt−1),ct = ft ⊙ ct−1 + it ⊙ h(Wcxxt +Wcmmt−1)mt = ot ⊙ ctandσ x =1x , h x = 1 − e−2x2x ,ht = f [ дσt ⊙ (at − µt ) + b]µt = 1HH�i=1ati ,σt =���1HH�i=1(ati − µt )2,Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France11470在处理帖子线程的内部结构方面,循环神经网络(RNN)具有很大的优势,而附加的上下文信息可以进一步提高分类性能。原因如下:•给定线程中的帖子之间有很强的连接。对于这些帖子的显式树结构和潜在连接,与标准分类方法(如SVM)相比,RNN模型更适合。类似于在机器翻译任务中使用RNN对句子进行编码[6],我们也可以使用它们来对线程中的帖子进行建模,以用于下游的分类任务。•与传统模型相比,深度学习模型在处理大规模数据集方面具有优势,通过一次训练一个批次的方式进行训练。当我们处理大量用户生成的内容时,这是可取的。•我们经验证实,上下文信息(例如帖子时间和作者)可以极大地补充文本信息。因此,我们将它们纳入一个统一的模型中。•一些对话线程可能非常长,包含数十个帖子。注意机制通常被集成到RNN中以解决长期依赖问题[32]。然而,由于不同的对话长度可能差异很大,我们发现标准的帖子注意机制无法很好地对较长的线程进行建模。因此,我们专门设计了一种注意机制来处理这种情况。我们提出了一种名为ConverNet的循环神经网络模型,它实现了上述设计目标和思想。在本节的其余部分,我们将简要介绍标准RNN,然后描述我们的模型。03.1 背景0为了方便不同水平的读者,我们在这里介绍了我们模型使用的标准构建块。03.1.1LSTM和BiLSTM。在ConverNet中,我们使用BiLSTM作为其架构的基本构建块。LSTM(长短期记忆)[12]单元广泛用于构建RNN模型,而BiLSTM[11]是其扩展之一。下面我们简要介绍LSTM层的基本公式。给定 c 0作为细胞状态的初始值,x t作为时间步t的输入,LSTM可以表示为:0其中 m t 是时间步t的LSTM层的输出,运算符 ⊙表示Hadamard乘积(逐元素乘积)。双向LSTM是LSTM的扩展,它不仅从正向传递中获取信息,还从反向传递中获取信息。双向LSTM中有两个相同的独立LSTM核。在时间步t,一个核使用 x t,另一个核使用 x T − t 作为输入。0其输入,其中 T是所需的总时间步数。两个核的输出根据时间序数进行对齐,并连接为BiLSTM块的最终输出。双向LSTM可以缓解LSTM在时间步t上对后续输入序列的无知问题。然而,它仍然无法解决输入序列越长,LSTM遗忘的信息越多的矛盾。因此,引入了注意机制作为补救措施。03.1.2层归一化。Ba等人[2]引入的层归一化技术表明,在训练LSTM时,层归一化对训练速度和性能都有显著影响。在标准RNN中,循环层中的求和输入是由当前输入x t 和之前的隐藏状态向量h t − 1计算得到的,计算公式为 a t = W hh h t − 1 + W xh x t。层归一化的循环层使用额外的归一化项对其进行重新居中和重新缩放:0其中 W hh 是循环隐藏到隐藏的权重,W xh是自底向上的输入到隐藏的权重。⊙是两个向量之间的逐元素乘法。b 和 д 定义为与 h t维度相同的偏置和增益参数。在层归一化的RNN中,归一化项使其对于重新缩放层的所有求和输入不变,从而导致更稳定的隐藏到隐藏动力学。03.2 预测帖子结束的上下文信息0如上所述,除了文本内容外,我们还研究了一组与预测任务有关的对话线程的上下文信息。为了将它们纳入一个统一的模型中,它们被实现为以下特征。一般来说,有四种类型,长度信息、情感信息、背景信息和回复属性。长度信息帖子长度:给定帖子中的单词数。线程长度:给定线程中的帖子数。情感信息情感:给定帖子的中性、积极和消极情感的强度分数。在这项工作中,我们简单地采用了VADER词典[15]提供的分数。背景信息对话背景:对话发生的上下文。例如,在电影对话数据集中,背景是对话发生的电影。作者特征:帖子作者的背景和历史信息。例如,作者在过去结束对话线程的次数。回复信息回复结构:线程的基本回复信息,由该线程中每个帖子的父帖子组成。3.3ConverNetxt = [Ni=1 CitN;Sp],it = σi(LN (xtWxi; αxi, βxi)+LN (ht−1Whi; αhi, βhi)+wci ⊙ct−1+bi)ft = σf (LN (xtWxf ; αxf , βxf )+LN (ht−1Whf ; αhf , βhf )+wcf ⊙ct−1+bf )ct = ft ⊙ct−1+it ⊙σc(LN (xtWxc; αxc, βxc)+ht−1Whc; αhc, βhc)+bc)ot = σo(LN (xtWxo; αxo, βxo)+LN (ht−1Who; αho, βho)+wco ⊙ct +bo)ht = ot ⊙ σh(LN (ct ; αc, βc)),⊙ α + β .z0 = tanh c s,H ;hTW .c(s,H) =11480发帖时间:每个帖子与其前一个帖子之间的发帖时间间隔,分为“一小时内”、“一天内”、“一周内”和“一个月内”。0我们现在介绍我们提出的神经网络模型的框架,如图1所示。为了简单起见,我们将重点介绍网络中的三个主要组件。0(1)输入处理组件ConverNet的输入是一个按照帖子时间排序的线程中的帖子序列,无论是否回复前一个帖子。回复树结构与其他上下文信息一起处理。对于内容信息,我们首先使用嵌入层为给定线程中的每个单词的每个帖子生成N(线程中的总帖子数)个嵌入向量C ip(表示第p个帖子的第i个单词的嵌入)。之后,我们将根据所有单词生成一个帖子嵌入向量。0其中S p是给定线程中第p个帖子的相应上下文信息。这是通过在ConverNet的词嵌入层之上进行平均池化来完成的。所有类型的上下文信息通过简单的连接与池化结果合并,构成LNBiLSTM层(具有层归一化的双向LSTM)的输入数据。0(2)编码组件编码组件由具有层归一化技术的双向LSTM和我们提出的Dwdl注意力层组成,将在下一小节中详细描述。首先,LNBiLSTM以以下方式对输入x i 进行编码:0其中0LN(z;α,β)=(z−µ)0参数如下:对于输入门:i t :W xi,W hi,w ci,b i和σi。对于遗忘门:f t :W xf,W hf,w cf,b f和σf。对于细胞计算:c t :W xc,W hc,b c和σ c。对于输出门:o t:W xo,W ho,w co,b o和σo。要预测的帖子位于输入序列的末尾。然而,我们不仅使用LNBiLSTM层的最终输出h T,还充分利用所有时间步骤的输出{ h t}。注意力层进一步将LNBiLSTM的输出序列[h t]编码为一个与LNBiLSTM中隐藏单元具有相同维度的向量,其中[h t]是一个由每个时间步骤的LNBiLSTM输出h t 垂直堆叠而成的矩阵。0最后,合并操作将注意力层和LNBiLSTM的最后输出向量的结果合并在一起:0这样,理论上,添加注意力层的性能不会比单个LNBiLSTM内核差。至于合并操作,我们使用连接来实现。0(3) 解码组件在从编码组件获取结果后,解码组件进行分类。它由几个MLP层组成,最后一层只有一个输出单元,预测给定的帖子是否是对话杀手:0z i = Relu ( z i − 1 ∙ W0ˆ y = Siдmoid ( z n ∙0所有MLP层后面都跟着批量归一化层[16]。所有层都使用ReLU[10]激活函数,最后一层使用Sigmoid函数激活。这保证了最终输出要么是0,要么是1。03.4 Dwdl注意力层0使用注意力层的动机是充分利用LSTM核生成的信息。然而,我们任务的一个困难是线程的长度范围很大。标准的注意力机制在帖子上均匀学习注意力权重。也就是说,不同线程中的第i个帖子总是接收相同的注意力。不幸的是,这个假设在现实中不成立,因为学习到的权重不能普遍适用于不同长度的线程中的帖子。作为解决方案,我们可以为每个线程应用不同的注意力权重。这样做会引入大量需要学习的参数。为了解决这两个问题,我们提出了一种注意力机制,它在输入的不同长度(Dwdl)上应用不同的注意力权重,而在相同长度的线程之间共享权重。这样,注意力机制将输出结果c ( s , H ) 为0� s k = 1 [ exp ( w ks )∙ h k ] � s k = 1 exp (w ks ) ,0其中H是LNBiLSTM层的输出序列,长度为s。W是将要学习的注意力权重矩阵。尽管它很简单,Dwdl注意力不仅解决了学习具有大长度差异的线程表示的问题,还避免了引入过多的参数。Dwdl注意力层的设计是所提出的ConverNet模型在深度学习架构上的一个重大创新。03.5损失函数0我们使用二进制交叉熵损失来训练我们的模型。目标是最小化损失函数:0L = − �0i [ д i loд ( ˆ y i ) + ( 1 − д i )loд ( 1 − ˆ y i )] ,0其中ˆ y i是第i个帖子结束对话的预测概率,д i是实际标签。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, FranceI do n’t want to talk to you anymore !1EmbeddingHi it ‘s nice to meet you !1. . . . . .……23ConcatSide InformationSide Informationx1x2xTCipCipSpSpfcLN LSTMLN LSTMLN LSTMLN LSTMLN LSTMLN LSTMLN LSTMLN LSTMx3Embedding……Dwdl attention layerhTc(s, H)11490组件0h 2 h 10z 0z i0组件0组件0组件0h 30H0W0图1:用于预测任务的ConverNet版本。一些子模块在文本中分别编号并详细描述。04实验设置0我们在两个公共数据集上与各种替代方法进行了实证比较。以下实验旨在证明ConverNet的有效性以及不同类型的内容和上下文信息在预测线程结束帖子方面的有效性。04.1数据集0我们在两个代表性数据集上完成了这个任务。一个包含Reddit帖子的线程,这是从Reddit.com提取的,Reddit是覆盖各种主题的最大的在线论坛之一。这个数据集代表了在线对话。另一个是从电影剧本中提取的对话集合。我们包含这个数据集是因为电影对话更接近离线的日常对话,这对于理解在线对话的特性是一个很好的参考。这些数据集的统计数据列在表1中。0表1:每个数据集的统计数据。0Reddit-Threads电影对话0线程数 83,097 100,0000词汇量 29,729 107,3540最大帖子长度 673 26890平均帖子长度 13.02个单词 43.83个单词0训练线程数 63,097 80,0000验证线程数 10,000 10,0000测试线程数 10,000 10,0000Reddit-Threads数据集来源。该数据集是基于Reddit用户Stuck_In_the_Matrix提供的公共Reddit评论数据集生成的。原始数据集包含自2006年初以来Reddit上的所有帖子和评论。在我们的实验中,我们专注于政治领域的线程(从2007.8到2009.8),这是Reddit上的一个主要话题。处理。通过利用Reddit提供的“父”帖子信息,我们恢复了每个线程的树结构,其中叶节点被视为结束帖子。如前所述,我们只关注具有多个帖子的线程 -只有一个帖子的线程不是对话。线程的长度分布如图2所示,通常遵循幂律分布。预测任务。通过这些树状线程,我们的预测任务等同于预测给定节点是否为叶节点。请注意,在Reddit线程中,可能会有两个以上的参与者(作者)参与对话。Movie-Dialogs语料库来源。我们使用康奈尔电影对话语料库,该语料库广泛用于文本生成任务。它包含更多日常词汇,并涉及总共617部电影和10,292个电影角色。与Reddit-Threads数据集相比,帖子(或句子)更简单、更短、更正常。一个主要的区别是每个对话都发生在两个发言者之间,因此线程中的用户数量是恒定的。电影对话线程的长度分布如图3所示。预测任务。我们将每个电影对话也视为具有两个参与者的聊天线程。这些聊天线程被组织起来0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France20212223242829210211212213214215202122232424252627282921021121221321421511500线程长度0线程数量0图2:Reddit-Threads数据集中线程长度分布0线程长度0线程数量0图3:Movie-Dialogs数据集中线程长度分布0作为一个“帖子”(句子)的序列,而不是树结构。因此,只有最后一个帖子(句子)才结束对话。采样和预处理在这两个数据集中,我们随机从每个线程(对话)中抽取一个帖子(句子),并预测它是否是结束帖子。我们称这些帖子为目标帖子。由于目标帖子之后的信息将揭示预测任务的真实情况,必须在输入模型之前省略目标帖子之后的所有帖子。Reddit-threads数据集根据每个线程中第一个帖子的提交时间分为训练集、验证集和测试集。前80,000个线程分配给训练集,其余20,000个线程平均分配到验证集和测试集。对于电影数据集,我们对所有线程进行随机排列,并按照表1的方式分配到训练/验证/测试集。04.2指标0由于我们的二分类任务的标签分布不均衡,除了常用的准确率之外,我们还采用了其他指标,包括AUC和MAP(平均精确率),因为在现实中,确保排名靠前的帖子真正是结束帖子(以便发送通知)更为重要。为了在这两个额外的指标中获得高分,精确率和召回率都很重要。04.3竞争方法0我们将ConverNet与两类基线方法进行比较:传统机器学习方法和替代深度学习方法。04.3.1传统基线。SVM+/-[特征]。作为一种在许多分类任务中表现出优越性能的传统方法,SVM有时可以达到与深度学习方法相当的性能。此外,它在决定哪种手工特征对我们的预测任务有帮助方面起着关键作用。因此,我们包括与该问题相关的所有可能特征,并使用由sklearn实现的线性核SVM进行分类。除了方法部分提到的所有特征之外,我们还包括从文本内容中提取的额外特征。它们包括单词单元、双词单元、三词单元和帖子嵌入。具体而言,帖子嵌入是帖子中单词向量的平均值。单词向量是由word2vec[17]的skip-gram和CBOW模型生成的。我们将所有帖子的所有特征连接起来。当一个方法被命名为SVM+[特征]时,它指的是使用仅对应特征集训练的SVM模型。当一个方法被命名为SVM-[特征]时,它指的是使用除对应特征集之外的所有特征的SVM模型。04.3.2 深度学习基线。BiLSTM,LNBiLSTM,ParallelLNBiLSTM。我们使用双向LSTM(BiLSTM)进行分类任务,这在分类任务中被广泛使用。考虑到最近层归一化的成功,我们将带有层归一化的双向LSTM(LNBiLSTM)作为基线。我们还堆叠多个LNBiLSTM以学习更深层次的表示(堆叠的LNBiLSTM)。LNBiLSTM+特征和LNBiLSTM+特征+SA。ConverNet的一个主要创新是新设计的Dwdl注意力机制(见第3.4节),用于处理线程中的上下文信息。为了比较,我们还使用几种方法将上下文信息添加到LNBiLSTM中。LNBiLSTM+特征只是将LNBiLSTM输出的表示和从上下文信息中提取的特征简单连接起来。LNBiLSTM+特征+SA将标准注意力应用于LNBiLSTM的隐藏状态输出。对于所有与LNBiLSTM相关的模型,LSTMs使用水平或垂直方式堆叠。但是堆叠层数可以因模型而异。在这个任务中,我们使用2�5层。04.4 训练细节0所有超参数都经过调整以获得验证集上AUC分数的最佳性能。对于与LSTM相关的方法,候选词嵌入大小设置为{16,32,64,128,256}0赛道:Web内容分析、语义和知识WWW 2018年4月23日至27日,法国里昂Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France11510表2:竞争方法的性能:LNBiLSTM+所有特征+Dwdl注意力实现了最佳性能。0Reddit-Threads数据集电影对话数据集0方法 准确率 AUC MAP 准确率 AUC MAP0SVM-文本内容(嵌入、N-gram)75.95��81.26���68.84���74.57���83.12���64.97���SVM-长度信息76.45 83.05 72.31 75.70 84.67 69.50SVM-背景信息−−−75.43�84.56 69.09�SVM-帖子时间75.55���81.36���69.85���−−−SVM-回复结构76.15 83.13 72.67−−−SVM-情感76.3183.06 72.84 75.60 84.59 69.59 SVM+所有特征76.39 83.30 72.60 75.84 84.67 69.630BiLSTM+文本内容(仅目标帖子)60.80������64.36������58.20������61.62������61.40������50.30������0BiLSTM+文本内容76.02���83.42���73.33 76.26���85.22���70.63���LNBiLSTM+文本内容76.59���84.22���74.07���76.75��85.55���70.85���堆叠的LNBiLSTM+文本内容76.42���84.46���74.44���76.98�85.87��71.67��0LNBiLSTM+所有特征 78.05 85.91 77.39 77.51 86.47 72.95 LNBiLSTM+所有特征+标准注意力 78.05��� 85.97��� 77.70��� 77.45��� 86.32��� 72.63���0ConverNet 78.27��� 86.22����� 78.21���� 78.04����� 86.82������ 73.76������0所有数字均以百分比表示。�(��,���)表示某种方法在随机排列检验[8]的显著性水平为0.05(0.01,0.001)时,与LNBiLSTM+所有特征+标准注意力(通常是所有非ConverNet、LSTM相关模型中最好的配置)相比,显著更好或更差。�(��,���)表示某种方法在随机排列检验[8]的显著性水平为0.05(0.01,0.001)时,与SVM+所有特征相比,显著更好或更差。如果某个数据集中没有某个特征类别,则用“-”表示结果。0LSTM相关层的隐藏/细胞单元候选数为{16, 32, 64,128}。上下文信息的嵌入大小从{2, 4, 8, 16, 32,64}中选择。初始学习率从{10^-1, 10^-2, ...,10^-5}中选择。对于SVM,候选嵌入大小从{50, 100, 200,500}中选择,SVM模型的松弛参数C从{10^3, 10^2, ...,10^-3}中选择。我们使用均值为零、标准差从{0.01, 0.05, 0.1,0.2}中选择的高斯分布初始化神经网络的参数。对于并行网络模型,堆叠层数从{2, 3, ..., 5}中选择。所有深度学习模型都使用RmsProp[30]进行优化。当性能在验证集上收敛时停止训练。05 实验结果 5.1 总体表现0所有竞争方法的总体表现如表2所示。所提出的方法ConverNet在所有三个指标(AUC、准确率和MAP)上都优于所有竞争方法。除了一个案例(Reddit-Threads上的准确率,其中LNBiLSTM+所有特征已经表现得非常好)外,所有改进都具有统计学意义。这从经验上证实了一个精心设计的深度学习模型可以在预测在线对话中的主题结束帖子方面取得最佳结果。比较不同版本的SVM模型,主题内容和目标帖子似乎是最重要的。当包含内容特征时,Reddit数据集的MAP提高了5%(0.688 -> 0.726),电影对话数据集提高了7%(0.650 ->0.696)。某些上下文信息也对文本特征有帮助,特别是Reddit主题中的帖子时间(0.699 ->0.726)。特征的更详细比较将在第6节中进行。通过将ConverNet与仅基于内容信息的最佳深度学习基线进行比较,总体上,在Reddit-Threads上又提高了8%(0.726 ->0.782),在电影对话中又提高了6%(0.696 -> 0.738)。0当使用标准注意力层处理上下文信息时,深度学习模型的表现并不比仅基于内容的模型更好,有时甚至更差。这可能是由于两个数据集中主题长度的大变化。帖子较少的主题与帖子较多的主题可能具有完全不同的注意力分布。通过新设计的Dwrl注意力层,ConverNet能够明显优于基于内容的模型。使用不同的LSTM相关内核的实验结果也证明了双向LSTM与层归一化可以显著改善预测结果,而重复堆叠该层也可以稍微提升预测结果。有趣的是,仅基于目标帖子的内容(而不是整个主题)学习的深度学习模型,即BiLSTM+文本内容(仅目标帖子),表现明显更差,甚至与不考虑上下文信息的相同模型相比也是如此。这证实了整个主题中的信息对于预测帖子是否会被回复很重要,这再次区分了我们的问题设置与预测转发的现有工作。实际上,帖子是否会继续对话高度取决于其内容是否与讨论的主题相关。05.2 训练时间分析0为了衡量每个模型的训练速度,我们在一台配备单个TITAN XGPU(12 GB GDDR5X,图形卡功率为250W)的服务器上训练所有深度学习方法。对于所有深度学习方法,所需的训练周期都非常接近,平均约为15个周期。比较每个周期的训练时间,堆叠更多的LNBiL-STM将降低时间效率。基本的BiLSTM模型每个周期大约需要55秒。使用层归一化会略微减少训练时间(2到3秒)。添加注意力层会增加训练时间。我们的ConverNet模型消耗Reddit-ThreadsMovie-Dialogs11520每个epoch大约需要60秒。ConverNet模型的总训练时间约为900秒,训练周期约为18个。06 讨论0竞争算法的整体性能表明,通过整合内容和丰富的上下文信息以及精心设计的深度学习架构,可以预测出结束帖子,并且可以避免成为对话终结者。除了数字之外,我们还对特征进行了更详细的分析,并解释了模型结果的含义。06.1 特征分析0基于为SVM提取的特征,我们首先进行简单的相关性分析,了解哪些内容和上下文特征与结果(即帖子是否为结束帖子)呈正相关或负相关。表3显示了一些选定特征(以Pearson系数衡量)与结果标签的相关性。0表3:特征与结束线程的相关性0特征 相关性 相关性0词嵌入(-) ‘先生’,‘夫人’,‘喜欢’,‘谈论’,‘听到’,‘看到’,‘关心’0词嵌入(+) ‘等待’,‘基督’,‘屁股’,‘但是’,‘你’,‘这’0线程长度 + +0帖子长度 - +0发帖时间差 + x0中性情感得分 x -0正面情感得分 + +0负面情感得分 - +0对于一个特征,我们报告Pearson系数与类别标签的符号。标记“x”表示该特征在数据集中不存在,“/”表示系数微不足道,+和-表示显著(p <0.01)的正(可能结束线程)或负相关(不太可能结束线程)。0某些词的嵌入被确定为与结束线程显著相关,无论是正相关还是负相关(正相关表示更有可能导致结束,负相关表示相反)。我们可以看到,最相关的词往往是情感或特定表达,而不是主题词。例如,像‘先生’和‘夫人’这样的礼貌称呼更有可能引起进一步的交流。像‘看到’、‘听到’这样表示分享经验倾向的关键词也会吸引其他用户的注意。然而,像‘屁股’这样的侮辱性词汇或带有强烈情感的词汇(如‘你’和‘这’)更有可能结束对话。线程长度与结束线程呈正相关,表明在对话中的前几个帖子更有可能得到回复,而当对话已经很长时,延长讨论的可能性较小。发帖时间(自上一个帖子以来的时间)也与结果呈正相关,表明等待回复的时间越长,越有可能永远得不到回复。这些发现非常直观,并且在两个数据集上基本一致。还有其他更有趣的特征。0例如,在在线对话(Reddit主题)中,帖子的字数越多,带来回复的可能性就越大。在日常对话(电影对话)中,长篇演讲并不一定会引来回应。说得太多可能导致沉默。也许阅读(论坛帖子)确实比听更有效?在电影对话中,带有积极情感的帖子更有可能结束对话,Reddit主题也是如此。我们的一般直觉是,更有礼貌的人更容易得到他人的回应。但在电影对话中,有很多传统的结束对话的词语,比如“谢谢”,“好!”,“太棒了”,它们在数据集中占据了很大一部分。在在线对话(Reddit主题)中,许多主题是在提问。当提供了满意的答案时,这些主题通常以简单的赞赏短帖结束。因此,积极的情感也与结束主题有关。在电影对话中,负面帖子更有可
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 天池大数据比赛:伪造人脸图像检测技术
- ADS1118数据手册中英文版合集
- Laravel 4/5包增强Eloquent模型本地化功能
- UCOSII 2.91版成功移植至STM8L平台
- 蓝色细线风格的PPT鱼骨图设计
- 基于Python的抖音舆情数据可视化分析系统
- C语言双人版游戏设计:别踩白块儿
- 创新色彩搭配的PPT鱼骨图设计展示
- SPICE公共代码库:综合资源管理
- 大气蓝灰配色PPT鱼骨图设计技巧
- 绿色风格四原因分析PPT鱼骨图设计
- 恺撒密码:古老而经典的替换加密技术解析
- C语言超市管理系统课程设计详细解析
- 深入分析:黑色因素的PPT鱼骨图应用
- 创新彩色圆点PPT鱼骨图制作与分析
- C语言课程设计:吃逗游戏源码分享
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功