没有合适的资源?快使用搜索试试~ 我知道了~
2879基于知识的时间融合网络的可解释在线视频流行度预测唐世松1 <$、李庆2、马小腾1、高次3、王定民4、姜勇12、马钱5、张傲阳5、陈鹤昌31清华大学深圳国际研究生院2彭城实验室,中国3吉林大学4英国牛津大学5字节跳动公司,中国{tangss21,maxt17}@mails.tsinghua.edu.cn,liq@pcl.ac.cndingmin.wang @ cs.ox.ac.uk,jiangy@sz.tsinghua.edu.cn,{maqian.zero,zhangaoyang}@bytedance.com chenhc@jlu.edu.cngaoci21@mails.jlu.edu.cn摘要预测在线视频的受欢迎程度具有许多现实应用,例如推荐、精确广告和边缘缓存策略。尽管人们在网络视频流行度预测方面做了很多努力,但仍然存在以下几个问题:(1)网络视频的元数据通常是稀疏的,并且带有噪声,这使得学习一个稳定和鲁棒的表示很困难(2)内容特征和时间特征在网络视频不同生命周期中的影响是动态变化的,因此需要建立一个能够捕捉动态变化的模型。(3)此外,还需要对模型的预测能力进行解释,以辅助视频平台管理者进行后续决策。在 本 文 中 , 我 们 提 出 了一 个 基 于 知 识 的时 间 融 合 网 络(KTFN),结合知识图表示,以解决在线视频流行度预测任务中的上述挑战。更具体地说,我们设计了一个树型注意力网络(TAN),通过选择性地聚合局部邻域信息来学习在线视频实体在知识图中的嵌入,从而使我们的模型能够学习同一关系下不同实体的重要性。此外,基于注意力的长短期记忆(ALSTM)被用来学习的时间特征表示。最后,我们提出了一个自适应时间特征融合(ATFF)计划,自适应融合内容特征和时间特征,其中构造了一个可学习的指数衰减函数与全局注意力机制。我们从两个流行的中国在线视频平台的服务器日志中收集了两个大规模的真实世界数据集,在两个数据集上的实验结果证明了KTFN的优越性和可解释性。通讯作者:李青(liq@pcl.ac.cn).[2]在字节跳动中完成的工作允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上有本声明和完整的引用。版权的组成部分,这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511934CCS概念• 信息系统→多媒体信息系统关键词视频热度预测,知识图,注意力模型,图神经网络ACM参考格式:唐世松1人,李庆2人,马小腾1人,高次3人,王定民4人,姜勇12人,马钱5人,张澳洋5人,陈鹤昌3人。2022年基于知识的时间融合网络用于可解释的在线视频流行度预测。 在ACM Web Conference 2022(WWW'22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,NewYork,NY,USA,9页。https://doi.org/10.1145/3485447.35119341介绍随着Web 2. 0和移动设备的普及,越来越多的用户加入Youtube 1、TikTok 2和抖音3等在线视频平台进行分享和观看。 视频流行度预测的目标之一是推断给定视频在未来一定时间内的累积观看次数。 该任务不仅可以帮助用户过滤信息,还可以支持平台公司的许多业务,例如精准广告[6],推荐[2]和边缘缓存策略[33]。传统的基于特征的方法主要利用用户特征[30]、内容特征[24]、时间特征[20]和结构特征[9]来进行流行度预测。然而,这种方法严重依赖于精心设计的手工制作的功能,这限制了模型的可扩展性。Tang等人[25]Rizoiu et al. [23]基于Hawkes过程进行视频流行度预测[10]。 虽然这种方法不需要过多的特征工程,但它们通常对固定参数进行强假设,这限制了模型的表达能力[5,33]。最近,已经提出了大量基于深度学习的模型来提高流行度预测的性能[1,4,14,15,31]。然而,对于视频流行度预测,很少有工作同时解决以下三个挑战(1)来自在线视频的元数据通常是稀疏和嘈杂的,1https://www.youtube.com/2https://www.tiktok.com/3https://www.douyin.com/WWWTang,etal.2880图1:视频知识图谱的示例。这使得难以学习稳定和鲁棒的表示。(2)内容特征和时间特征对视频的影响在视频的不同生命周期中是动态变化的,这就需要设计一种灵活的特征融合方案来捕捉动态变化。(3)除了提高模型性能外,还要求设计一个具有高可解释性的模型,这对管理员来说是非常有益的。帮助视频平台更好地进行战略决策和管理平台资源。为了更好地从稀疏和噪声元数据中提取内容特征并学习潜在的知识级连接,将知识图引入视频流行度预测是一种补救措施。知识图是描述事实的有向异构图,其中节点对应于实体,边对应于关系。与传统的数据模型相比,知识图可以提供一个通用的、紧凑的上下文环境。最近,研究人员已经成功地将知识图应用于推荐系统[28],语言表示学习[17]和问答[3]。考虑到视频流行度预测的上述挑战,并受到知识图在不同领域的成功的启发,我们提出了一种基于知识的时间融合网络(KTFN)来执行在线视频流行度预测。我们构建的视频知识图示例如图1所示。 在[16,28]之后,我们利用嵌入方法来学习知识图中实体和关系的向量表示。对于给定的视频,我们首先在知识图中搜索其上下文实体集合(即,它在知识图中的直接邻居然后,我们设计了一个树Atten- tion网络(TAN),它在逻辑上将图转换为树。TAN利用注意力机制进行信息传播和聚合,学习视频的内容特征向量。 对于时间序列数据,我们采用基于注意力的LSTM(ALSTM)[29]网络来获得视频的时间特征向量。先前的研究[15]表明,不同的特征在视频的不同生命阶段具有不同的影响。为了捕捉这个属性,我们进一步提出了一个自适应时间特征融合(ATFF)方法。具体来说,我们构建了一个信息阀的基础上,可学习的指数衰减函数过滤的特征向量。然后采用全局注意力机制将过滤后的内容特征向量与过滤后的时间特征向量进行融合,得到最终的视频特征向量。我们的贡献总结如下:我们将知识图纳入在线视频流行度预测,这提供了一个紧凑的上下文,从稀疏和嘈杂的元数据中学习视频内容特征我们提出了TAN,一种基于图神经网络的架构,它将图转换为树来学习实体的局部邻域信息,同时提高模型的可解释性我们构造了一个可学习的指数衰减函数,并结合全局注意力机制,自适应地融合内容特征和时间特征。在两个大型视频共享平台上的实验结果表明了该模型的优越性和可解释性第二部分介绍了流行度预测的相关工作KTFN的框架在第3节中详细描述。第四节给出了实验结果和解释实例,并进行了分析. 第五节是本文的结论。2相关工作传统的流行度预测方法主要分为两大类,即基于特征的方法和基于点过程的方法。基于特征的方法已经验证了包括用户特征[30]、内容特征[24]、时间特征[20]和结构特征[9]在内的特征的预测有效性,这些特征可以为我们提供预测未来项目流行度的相对初步的理解和知识。然而,在这些方法中涉及的特征通常是经验的,并且模型的最终预测性能在很大程度上取决于这些经验的质量基于点过程的方法将信息传播过程视为用户转发行为的到达过程Zhao等人[32]使用自激点过程预测帖子的最终转发数。Rizoiu等人[23]提出将霍克斯强度过程与Twitter和YouTube的外源刺激和内源触发效应相结合,以预测视频的受欢迎程度基于点过程的方法为流行度预测提供了一个定义明确的通用框架。然而,它们对某些特定假设的依赖限制了它们的通用性和模型表达能力[5,33]。近年来,神经网络的流行激发了许多基于深度学习的预测模型。典型的深度学习方法是采用递归神经网络(RNN)来捕获时间依赖性[14,19,21]。Cao等人[1]将Hawkes过程与深度学习方法结合起来进行流行度预测,以克服简单参数形式对点过程模型能力的限制Zhang等人 [31]提出了一种用户引导的分层注意力网络,使用注意力机制来学习图像流行度预测的模态内容和用户特征。Liao等人提出了时间过程和内容特征网络的深度融合。[15]为文章流行度预测建模多模态数据。Dou等人 [4]利用知识库实体及其邻居的嵌入来增强基于LSTM网络的流行度预测。然而,目前不存在利用视频的稀疏和噪声元数据进行流行度预测的工作。此外,许多现有的基于深度学习的流行预测忽略了模型的可解释性····基于知识的时间融合网络的可解释在线视频流行度预测WWW2881()下一页2≈..′ ′ ′()下一页G{()| E∈RGG1G{()|()∈G}2n预测目标y=t=n+1xt是累积流行度3方法图2:拟议的KTFN模型的图示t,则嵌入层学习实体的嵌入在本节中,我们提出了建议的KTFN模型,其框架如图2所示。 我们首先制定了基于知识图的流行度预测问题。 然后分别介绍了嵌入层、树型注意力网络、基于注意力的LSTM和ATFF的结构。3.1问题定义并通过优化平移原则hr+rtr建立关系,其中hr=Mrh,tr=Mrt.因此,对于三重h,r,t,其可扩展性得分公式化如下:fr(h,t)= ||Mr h + r − Mr t||二、(一)TransR的训练考虑了正确的三元组和不正确的三元组,并通过以下基于边缘的排名损失来鼓励它们的区分:我们将基于知识图的在线视频流行度预测任务视为回归问题。我们将连续时间离散为时间步长。对于在线视频平台上的给定视频i,LKG =(h,r,t)∈S(h,r,t)∈Smax(0,fr(h,t)+γ−fr(h′,t′)),(2)在n个时间步中的流行度序列是Xi =(Xi,Xi,...,xi),其中其中γ是裕度,S是正确三元组的集合,S′是xi表示在第j个时间步长处视频i的观看次数一组不正确的三元组。吉岛n+mi在时间n之后的m个时间步长中的视频i。此外,我们将视频元数据组织成知识图,知识图是由实体-关系-实体三元组组成的异质图从形式上讲,被呈现为 h,r,t h,t,r得双曲余切值. 并分别表示知识图中的实体和关系的集合例如,三重奏无畏,专辑。艺术家泰勒·斯威夫特说,泰勒·斯威夫特写了专辑《无畏》。具体地,给定视频i被表示为一个实体e ∈ E。3.2嵌入层知识图嵌入将实体和关系映射成低维表示向量,原始图结构和语义信息编码在其中。为了训练知识图嵌入,我们使用transR模型[16],它为每个关系引入投影矩阵Mr,将实体从自己的实体空间映射到相应的关系空间。对于知识中的每个三元组(h,r,t)图卷积网络(GCN)[13]沿着高阶连接递归地传播嵌入。图注意力网络(GAT)[27]使用掩蔽注意力来为节点的一阶邻居生成注意力权重。尽管GCN和GAT取得了成功,但它们不适合处理知识图,因为它是一个异构图。为了充分利用两者的优势,更好地处理知识图,我们提出了一个树注意力网络,它以自底向上的方式传播嵌入。3.3.1结构转型。 对于给定的在线视频i,考虑到其在知识图中的对应实体hi,我们使用i=hi,r,t hi,r,t表示三元组的集合,其中hi是头实体,其被称为自我网络[22]。我们将i的关系转换为节点,并将相同关系下的邻居视为一个组,从而形成一个树结构,表示为Ti,其中hi是根节点。3.3注意力网络树WWWTang,etal.2882不N.()下一页()下一页()下一页t−1t−1t−1不.CC⊙不矩阵和偏差。σ是激活函数sig。NK3.3.2信息传播。在这里,我们使用k来表示节点k在i中的一阶邻居。为了刻画k的近邻拓扑,我们计算k的近邻的线性组合3.4基于注意力的LSTM我们选择基于注意力的LSTM [29]建模流行的时间演化过程有两个主要动机首先,作为应用最广泛的递归神经网络,杨永=π(ek,ej)ej,(3)j∈Nk(RNN)结构,LSTM [8]具有对时间序列的长期历史信息建模的能力。第二,注意力其中ek和ej分别表示节点k和j的嵌入,πek,ej是控制从节点j向节点k传播多少信息的归一化注意力分数。我们通过注意力机制实现πek,ej,可以计算如下:π(ek,ej)= LeakyReLU(W 1(W 2ek ||W3ej)),(4)其中我们遵循[27]中的方法选择LeakyReLU [18]作为非线性激活函数。W1、W2和W3是可训练的参数。请注意,我们为e k和e j引入了两个不同的线性变换矩阵,因为它们是不同类型的节点该机制不仅可以捕获时间序列的重要信息基于注意力的LSTM网络很好地结合了这两个优点我们首先给X=x1,x2,.,xn到LSTM中。它的门机制包括记忆门、输入门和遗忘门,LSTM可以记住应该记住的,忘记应该忘记的。形式上,LSTM中的每个单元可以计算如下:it=σ(Wixt+Uict−1+Vihc+bi),(9)ft=σ(Wfxt+Ufct−1+Vfhc+bf),(10)(实体节点、关系节点)。此后,我们将注意力ct=ftct−1+ittanh(Wcxt+Vchc+bc),(11)与k函数连接的所有节点的得分:通过采用softmaxot=σ(Woxt+Uoct−1+Vohct−1+bo),(12)π(e ,ej)=。exp(π(ek,ej)).(五)hc=ottanh(ct),(13)其中Wi、Wf、Wo和bi、bf、bc、bo是可训练重量3.3.3信息聚合。 这一步是聚合节点moid。另外,it表示输入门状态,ft忘记门状态,ct单元状态,ot输出门,hc隐藏层输出表示法ek 及其相应的邻域表示不当前时间步长。蒂翁埃克作为节点k的新表示。在[28]之后,我们使用在此之后,我们获得隐藏向量序列H =(hc,hc,.,hc)Nkk12N三种方法来实现聚合函数f(ek,eNk)。• Sum aggregator将两个表示相加,并使用由LSTM生成然后,我们使用注意力机制来选择隐藏向量序列中的重要向量,以学习更多信息的上下文表示。注意力权重αc非线性变换:fsum=<$(W4(ek+ek)),(6)作为:H中的第i个隐藏向量和输出向量hC我计算Tc其中,<$是非线性函数,例如LeakyReLU,W4是可训练的权重矩阵,用于传输电流ai=qtanh(Vchi+vc),(14)实验(ac)将表示放入公共空间进行传播。·αc=.n我c,(15)Concat聚合器将两个表示连接在一起,在应用非线性函数之前:fconcat=<$(W4(ek||ek)),(7)我hC=j=1exp(aj)nαihi,(16)i=1Nk哪里||是连接操作。• 双向交互聚合器考虑两种类型的两个ek和ek之间的相互作用:其中Vc和vc是投影参数,q是查询vector.3.5自适应时域特征融合fBi−相互作用 =<$(W 4(ek+ekNk))+<$(W5(ekek)),(8)让 hC和hE表示从时间特征向量学习的时间特征向量NkNk基于注意力的LSTM,以及从其中表示Hadamard(逐元素)乘法,W5是可训练权重矩阵。3.3.4自底向上传播。 为了获得根节点hi的局部邻域信息和每个节点之间的注意力得分,我们使用自底向上的传播策略,该传播策略将信息从叶节点传播和聚合到i的根节点。TAN提供了一个细粒度的学习过程,这使得我们的模型能够强调同一关系下不同实体的重要性,同时提高模型的可解释性树的注意力网络,分别。 如何设计一个有效、稳定的特征融合模块是目前研究的关键问题。传统的早期融合方法(如级联和逐点相加)缺乏灵活性,无法捕捉深层信息。受[15]的启发,我们认为随着视频年龄的增加,内容特征的重要性逐渐降低,而时间特征的重要性逐渐增加。基于上述观点,我们提出了一个自适应时间特征融合方案(ATFF),它动态地融合特征与当前的时间信息(视频的年龄)。Ks∈Nk exp(π(ek,es))基于知识的时间融合网络的可解释在线视频流行度预测WWW2883~CCh=(1−φ(φt))φh,(18)(·)–...当然,exp(rT~hi)ATFF的第一部分是一个基于可学习指数衰减函数的信息阀,它控制不同时间不同信息的流入。公式表示如下:~hE=φ(φt)φhE,(17)φ(φt)=exp(−θφ(Wφt+bφ)),(19)其中,φt=tpredictedtpublish,φ是一个可学习的指数衰减函数,用于模拟信息随时间衰减的重要性,θ是一个控制φ衰减率的可训练参数。在处理外部影响之后,我们需要考虑不同特征之间的内部相互作用ATFF的第二部分使用注意力机制[26]进行内部交互在时间特征表示和内容特征表示之间,4.1数据集我们分别从字节跳动8旗下的在线视频分享平台西瓜6和抖音7的服务器日志中收集了一个中视频4数据集和一个微视频5数据集。具体来说,我们随机抽取了2021年4月1日至2021年4月14日期间发布的72,372个视频作为测试集。 我们首先在测试集中记录视频的作者,然后进一步选择这些作者在2021年3月1日至2021年3月31日期间发布的408,202个视频作为我们的训练集。 对于每一个视频,每小时的观看信息是可用的,所以我们收集这些每小时的观看次数,并按照时间戳顺序形成一个序列,其中每个时间点代表一个小时内的观看次数。对于每个视频的构造序列,我们然后使用滑动窗口算法将它们分割成多个记录,其中源窗口的大小,目标窗口的大小和步长分别为n=24,m=72和s=24然后,我们使用sentation。我们首先对[~hE,~hC]应用线性变换W<$,同样的方法来处理从抖音收集的数据集除了时间序列数据,我们还需要构建知识得到全局向量r。然后计算全局向量和每个特征向量的点积,得到注意力权重。有了注意的权重,我们可以得到最终的表示F。r=[~hE,~hC]<$W<$,(20)图为每个数据集。 在视频知识图谱中,实体的类型包括内部系统中的“视频”、“时长”、“关键词”、“类别”、“发布时间”、“作者”、“粉丝”和“作者级别”。两个数据集和知识图谱的基本统计和分布分别见表1、2和图3、4、5。αi=k∈{E,C} exp(rT~hk,(21))表1:两个数据集的统计信息F=αii∈{E,C}I.(二十二)之后,我们利用一个简单的单层前馈神经网络来获得视频的最终流行度,计算如下:y= ReLU(W F F + bF)。(二十三)3.6模型训练我们定义用于视频流行度预测任务的损失函数如下:表2:知识图谱信息。LPP =..MSE(yi,yi),(24)不不i∈D t ∈{ts,ts +s,ts +2s,.,{\fn黑体\fs19\bord1\shad1\1cHD8AFAF\4cHC08000\b0}其中D是训练视频集,t是预测时间点,ts是视频首次预测的时间点,te是视频最后预测的时间点,s是滑动窗口的步长(在我们的实验中设置为24),yi是预测值,yi是地面实况中的目标值4.2实验装置4.2.1指标. 为了评估不同方法的性能,我们采用了三个广泛使用的指标:均方误差(MSE),平均绝对误差(MAE)和准确度[4],其中准确度衡量了给定误差容限下正确预测的视频比例,定义为:4个实验在本节中,我们对两个真实世界的数据集进行了全面的实验,以回答以下问题:1NACC= Ni=1|{|伊伊|}|(二十五)Q1:KTFN与其他型号相比表现如何?Q2:不同的组件如何影响KTFN?Q3:不同的信息对预测性能有何影响Q4:KTFN能否对预测结果做出合理解释其中,N是测试集的大小,我们设置= 0。2在本文中4视频时长从1分钟到30分钟5视频时长1分钟以内6https://www.ixigua.com/7https://www.douyin.com/recommend8https://www.bytedance.com/····数据集用户数设置#视频记录数发布日期西瓜27063培训408,20254095633.1-3.31测试七十二,三百七十二七九五,五九七4.1-4.14数据集#实体#关系#triples西瓜六九七一百七十五74236962Douyin六三八六六三八73538749WWWTang,etal.2884|G|不(|G|)GTG|不||V|(|不| )(|V|)的情况)()下一页()下一页(|不||)的方式|)表3:不同模型的比较(a) 西瓜(b)豆饮图3:视频持续时间的核密度估计图(a)西瓜(b)抖音图4:视频类别的分布(a)西瓜(b)豆饮图5:作者发布的视频总数分布4.2.2基线。 为了证明我们的模型的有效性,我们选择与以下基线进行比较:MLR[20]. 多元线性回归将多个变量的线性组合作为预测值。 为了使其适合我们的任务,我们将时间序列和处理后的内容特征作为输入。俄罗斯对外关系局[11]。Khosla等人 采用线性核支持向量回归模型,该模型使用时间序列数据作为特征来预测流行度。我们做与MLR相同的预处理,使SVR适合我们的任务。DA-RNN[21]. 基于注意力的双级递归神经网络是一种基于编码器-解码器模型的时间序列预测模型。LSTnet[14]. 提出了一种用于时间序列预测的长短期时间序列网络,它使用CNN来建模短期依赖关系,并利用skip-RNN来发现时间序列的长期模式。KBPPN[4].知识库增强的流行度预测网络将知识库引入到在线内容流行度预测中,并通过门机制将在线项目的内容特征表示和时间特征表示结合起来。4.2.3参数设置。超参数基于训练集的20%对于TransR模型,我们设置边距γ=4,实体嵌入和关系嵌入的维数都固定为128。 在TAN中,我们为聚合器设置函数<$as ReLU。所有隐藏层的尺寸设置为128。除了θ被初始化为1.0,所有其他参数都用Xavier [7]初始化我们用Adam optimizer优化模型[12]。批量大小设置为128。 为了避免过度拟合,我们将dropout设置为0.2。4.2.4时间和空间复杂度分析。假设是知识图中的节点数,d是嵌入大小,n是输入时间序列的长度该模型的空间消耗主要来自于实体和关系嵌入的存储以及权矩阵的存储。因此,我们的模型的空间复杂度是O d+d2。对于给定的视频i,其在知识图中的子图是i。i是树的形式i(cf.第3.3.1节)。设i和i分别表示i的节点数和边数用于预测视频i的流行度的时间消耗主要来自三个分量。(1)树型注意力网络的计算复杂度为Oid2 + id。(2)基于注意力的LSTM的计算复杂度为O nd2+ nd。(3)ATFF具有线性计算复杂度O d.因此,KTFN的总时间复杂度为Oi+n d2 +i+n+1 d。推理阶段的时间成本对于在线视频来说是显著的流行预测系统。 对于在线预测,KTFN的TAN仅对每个特定视频执行单个计算,而ALSTM和ATFF将在每个预测时间点执行。我们在GeForce RTX 3090上进行实验,以了解KTFN的具体时间消耗。 我们发现,在批量大小为128的单步预测实验中,LSTM,ALSTM和KTFN的时间成本分别为45ms,57ms和75ms。4.3结果在这一部分中,我们首先报告了所有方法在两个数据集上的性能,然后研究了不同因素(即,特征融合方案的选择、信息聚合器的选择、不同的信息缺失和超参数设置)。·····数据集模型MSE(↓)MAE(↓)ACC(↑)MLR[20]2.3231.0010.300SVR[11]2.0670.8960.362西瓜LSTnet[14]DA-RNN[21]2.0241.8420.8510.8120.4070.412KBPN[4]1.1290.6830.438KTFN0.6460.4960.502MLR[20]1.7781.0440.311SVR[11]1.4730.9080.401DouyinLSTnet[14]DA-RNN[21]1.3211.1490.8720.7620.4290.436KBPN[4]0.8610.6270.468KTFN0.4660.4240.529基于知识的时间融合网络的可解释在线视频流行度预测WWW2885表4:不同特征融合方法的比较数据集融合MSE(↓)MAE(↓)ACC(↑)总和1.4270.7560.400西瓜Concat注意事项1.4240.8720.7460.5720.4120.462ATFF0.6460.4960.502总和0.6740.5660.497DouyinConcat注意事项0.6640.5490.5630.4840.4960.511ATFF0.4660.4240.529表5:不同聚合器的比较数据集聚合器MSE(↓)MAE(↓)ACC(↑)西瓜总和0.7470.5330.482Concat0.6880.5120.489双相互作用0.6460.4960.502总和0.4730.4240.528DouyinConcat双相互作用0.5040.4660.4280.4240.5270.5294.3.1不同型号的比较(Q1)。 表3显示了不同模型的比较结果。通过分析表3的结果,我们得出以下结论:MLR和SVR在两个数据集上的表现最差 我们认为,基于特征的回归方法过度依赖于人工提取的特征,而难以捕捉不同特征之间的深层联系。LSTnet和DA-RNN具有类似的结果。它们都使用LSTM来建模流行趋势,但由于没有考虑内容特征,它们仍然缺乏预测能力。KBPPN是所有基准测试中最强的,它利用门机制将从知识库学习的内容特征与从LSTM学习的时间特征融合在一起。但是,其融合方案忽略了不同特征在不同预测时间点的影响,仍然缺乏预测能力。与它们相比,KTFN在两个数据集上始终产生最佳性能我们认为有两个主要因素。(1)TAN能很好地学习实体的局部邻域信息。(2)我们提出的ATFF使外部和内部的特征通过信息阀和全局注意机制相互作用,使特征融合更加灵活。4.3.2KTFN变体之间的比较(Q2)。此外,我们比较了以下两个方面的KTFN的变体,以证明KTFN框架设计的有效性:选择的特征融合方案和选择的信息聚合器。结果如表4和表5所示,从中我们可以得出以下结论:我们发现不同的特征融合方案得到的结果之间存在巨大差异具体来说,串联和逐点加法的性能最差,主要是由于表6:不同信息的影响数据集失踪MSE(↓)MAE(↓)ACC(↑)西瓜无失持续时间发布时间关键词类别作者0.6460.6540.6680.6630.7061.0530.4960.4990.5060.5130.5180.6850.5020.4960.4890.4820.4850.380Douyin无失持续时间发布时间关键词类别作者0.4660.4670.4710.4750.5130.6150.4240.4260.4280.4340.4610.5160.5290.5280.5250.5210.5030.447(a)隐藏维度的影响(b)源窗口大小的影响图6:西瓜的参数测试结果。具有不同超参数(n,d)的KTFN的性能(MAE,ACC)缺乏活力。注意力机制[26]相对于它们的改进的主要原因是它动态地关注不同特征的重要性。然而,注意机制仍然缺乏灵活性,因为它忽略了在不同的预测时间点的不同特征特别地,与注意机制相比,ATFF改进了注意融合方法w.r.t.MSE分别为25.9%和15.1%,w.r.t.MAE分别提高13.2%和12.4%,w.r.t.西瓜、豆饮的ACC分别提高了8.7%和3.5%。这验证了ATFF的有效性,也揭示了ATFF是KTFN不可分割的一部分。从表5中我们可以观察到,双相互作用聚合器优于加法和级联聚合器。双向交互聚合器性能最好的主要原因在于实体可以与其邻居的信息进行充分的交互。4.3.3不同信息的影响(Q3)。在本节中,我们探讨了在测试阶段缺失某些信息的情况下,不同类型的信息对预测结果的影响,包括:“持续时间”,“发布时间”,“关键字”,“类别”和“作者”。我们使用训练好的KTFN模型进行实验,表6总结了实验结果。 我们有以下意见:······WWWTang,etal.2886正如预期的那样,缺乏任何信息降低了KTFN的性能,这表明我们使用的信息对于预测任务都是有效的综合考虑MSE、MAE、ACC这三个指标,我们发现“持续时间”、“发布时间”、“关键词”、“主题”和“作者”对KTFN的性能我们认为,大多数用户通常不会将视频的持续时间视为是否观看视频的关键因素 如果一个视频在半夜发布,它可能会收到较少的浏览量,而如果它在休息时间发布,它可能会收到更多的浏览量,因此“发布时间”会影响预测结果。“关键词”和“类别”对预测结果的影响更大,主要原因是人们更渴望观看热门话题。最后,我们观察到KTFN的性能急剧下降,通过消除“作者”的信息,这表明作者信息是至关重要的流行预测。视频的受欢迎程度是一种长尾分布,拥有更多粉丝的作者发布的视频更有可能被人们看到,从而导致赢家通吃的局面。4.3.4不同超参数的影响 在本节中,我们将研究隐藏维度和源窗口大小如何影响KTFN在西瓜数据集上的性能。 结果如图6所示。 从图6a中,我们可以观察到,当d = 128时,KTFN表现最佳。 增加d最初会提高性能,因为较大的d可以编码更多的信息,而过大的d会受到过拟合的不利影响。 从图6b中,我们发现KTFN的性能随着n的增加而不断增加,因为较长的时间序列包含更多的信息。我们当然可以选择较大的n进行预测,但如果n过大,会对在线系统造成存储压力,需要根据实际场景在预测性能和存储之间做出权衡4.4案例研究(第四季度)为了证明KTFN的可解释性,我们从测试集中随机选择两个预测视频进行可视化,如图7所示。这个子图的左半部分显示了TAN的结果,右半部分显示了ALSTM的注意力分数。 我们有以下意见:TAN通过稳定地学习不同实体的共同信息(即,相同关系中的两个不同视频实体具有非常接近的注意力分数)。这表明TAN在学习重要特征和过滤无用实体方面非常有效。视频实体在关系“Createdby”、“Belongsto”、“Contains”、“PublishesIn”和“HasDu”上的关注分数依次减小这个结果与我们的知识和第4.3.3节中的实验结果一致,即视频的受欢迎程度主要取决于视频的作者,类别和内容通过比较发布时间为28小时和5小时的视频,我们发现ATFF能够根据视频的年龄有效地过滤和整合特征图7:西瓜数据集测试集中两个示例的注意力图可视化。我们还发现,视频的内容特征在视频的早期发布起着主导作用,这表明一个优秀的特征提取器对于流行度预测至关重要。第五章结论本文将知识图引入在线视频流行度预测,提出了一种基于知识的时间融合网络(KTFN)。KTFN由三个组件组成:用于学习视频内容特征表示的树注意力网络(TAN),用于学习视频时间特征表示的基于注意力的LSTM(ALSTM),以及用于动态集成上述两种特征的自适应时间特征融合(ATFF)模块。具体来说,TAN首先将图转换为树,然后利用图注意力网络(GAT)方法传播和聚合信息 它以细粒度的方式学习实体的局部邻域信息,这使得我们的模型能够突出同一关系下不同实体的重要性,并增强模型的可解释性。然后,我们采用基于注意力的LSTM来学习时间特征表示 。 最 后 , 我 们 提 出 了 一 个 自 适 应 的 时 间 特 征 融 合 方 案(ATFF),动态地集成内容特征和时间特征。具体而言,ATFF首先使用可学习的指数衰减函数过滤特征向量,然后结合全局注意力机制进行特征融合。我们分别从西瓜和抖音的服务器日志中收集了一个中视频数据集和一个微视频在两个数据集上的大量实验证明了KTFN的有效性和可解释性。致谢本 课 题 得 到 了 广 东 省 重 点 领 域 R& D 计 划 项 目 资 助 。2018B010113001,国家自然科学基金项目,批准号: 61972189和61902145,深圳市软件防御网络重点实验室(批准号:ZDSYS20140509172959989 ) , 国 家 重 点 & 研 发 计 划 ( 批 准 号 :2021ZD0112501、2021ZD0112502,吉林省哲学社会科学智能图书馆基金,批准号:2021JLSKZKZB 080.······基于知识的时间融合网络的可解释在线视频流行度预测WWW2887引用[1] Qi Cao , Huawei Shen , Keting Cen , Wentao Ouyang , and XueqiCheng.2017年。Deephawkes:弥合预测和理解信息级联之间的差距。2017年ACM信息与知识管理会议论文集。1149-1158.[2] 张彪,朱恒树,葛勇,陈恩宏,熊辉,谭昌。2014. 以自回归模式预测网路连载的流行度 第23届ACM国际信息与知识管理会议论文集。1339-1348年。[3] Ming Ding,Chang Zhou,Qibin Chen,Hongxia Yang,and Jie Tang.2019年 。 大 规模 多跳阅 读理解 的齿轮 图。 arXiv预印 本arXiv :1905.05460(2019),1-10。[4] Hongjian Dou,Wayne Xin Zhao,Yuanpei Zhao,Daxiang Dong,Ji-RongWen,and Edward Y Chang.2018年 用知识增强神经网络预测在线内容的流行度。 第24届ACM SIGKDD知识发现和数据挖掘国际会议论文集。一比八[5] 杜楠、戴汉俊、拉克什·特里维迪、乌特卡什·乌帕德亚伊、曼努埃尔·戈麦斯 - 罗 德 里 格 斯 和 勒 · 松 。 2016 年 。 Recurrent marked temporal pointprocesses:Embedding event history to vector.第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集。1555-1564年。[6] 高鸿昌,孔德光,鹿淼,小白,杨剑。2018年用于广告商级点击率预测的注意力卷积神经网络在2018年万维网大会的会议记录中。1855-1864年。[7] 泽维尔·格洛洛和约瑟芬·本吉奥2010年。 理解训练深度前馈神经网络的困难。第13届人工智能与统计国际会议论文集。249-256[8] Sepp Hochreiter 和 Jürgen Schmidhuber 。 一 九 九 七 年 。 长 短 期 记 忆 。NeuralComputation(1997),1735-1780.[9] Liangjie Hong,Ovidiu Dan,and Brian D Davison.2011年。 预测twitter上的流行消息。在第20届国际会议上万维网伴侣的会议记录。57比58[10] 瓦 莱 丽 · 伊 舍 姆 和 马 克 · 韦 斯 科 特 一 九 七 九 年 一 个 自 校 正 点 过 程 。StochasticProcesses and Their Applications(1979),335-347.[11] Aditya Khosla,Atish Das Sarma和Raffay Hamid。2014年。是什么让一个形象受欢迎?在第23届万维网国际会议上。867-876.[12] Diederik P Kingma和Jimmy Ba。2014年。Adam :一种随机优化方法。arXiv预印本arXiv:1412.6980(2014),1[13] Thomas N Kipf和Max Welling。2016年。 图卷积网络的半监督分类。arXiv预印本arXiv:1609.02907(2016),1[14] Guokun Lai,Wei-Cheng Chang,Yiming Yang,and Hanxiao Liu. 2018.使用深度神经网络对长期
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功