没有合适的资源?快使用搜索试试~ 我知道了~
243→PREP:用于流行度预测的时间推移推断预训练曹琦1、沈华伟1、3、刘元昊1、 3、高金华1、程学奇2、 3{caoqi,shenhuawei,liuyuanhao20z,gaojinhua,cxq}@ict.ac.cn1中国科学院计算技术研究所数据智能系统研究中心2中国科学院网络数据科学与技术重点实验室中国科学院计算技术研究所3中国科学院大学摘要预测在线内容的流行度是各种应用中的基本问题一个实际的挑战源于观测时间或预测范围的变化长度期望用于流行度预测的良好模型来处理各种预测设置。然而,现有的方法大多采用单独的训练模式,难以将一种预测模式推广到其他预测模式,造成了计算资源的浪费和对下游标签的大量需求。为解决上述问题,我们建议人气预测观察时间预测时域预测标签1小时2小时. . . ...最终20天 ......回归分类…任务n任务3任务2任务1(a) 各种人气预测设置一种新的用于预测概率的预训练框架,PREP,旨在从现成的未标记扩散数据中预训练通用表示模型,该模型可以有效地转换为各种预测设置。我们设计了一个新的借口任务进行预训练,即,对流行度动态的两个随机采样的时间片进行时间流逝推断,促使表示模型学习关于流行度动态的内在知识。在两个真实数据集上进行的实验结果表明,对于不同的流行度预测任务设置,预训练框架的泛化和效率。CCS概念• 以人为中心的 计算社会媒体;社会网络。关键词人气预测,预训练,时间推移推理ACM参考格式:曹琦1,沈华伟1,3,刘元昊1,3,高金华1,程学奇2,3。2022. PREP:Pre-training with Temporal Elapse Inference for Popularity Prediction(使用时间推移推断进行流行度预测的预训练) 在网络会议2022(WWW'22同伴)的同伴程序,2022年4月25日至29日,虚拟活动,里昂,法国。ACM,美国纽约州纽约市,5页。https://doi.org/10.1145/3487553.3524249* 通讯作者。本 作 品 采 用 知 识 共 享 署 名 国 际 协 议 ( Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524249(b) (c)培训前架构图1:流行度预测任务以及单独训练和预训练框架之间的比较。1引言社交平台的普及,例如,Twitter、新浪微博,为用户生成的网络内容的生产和传播带来了极大的便利每天都有数千万的在线内容在这些平台上生成[2,15]。 面对如此大量的信息,提前预测在线内容的未来流行度在各种应用中起着重要作用[7,14],例如,社会推荐,在线广告,信息检索。流行度预测的一个实际挑战源于不同情况下流行度预测任务的不同设置[8],如图1(a)所示。具体而言,观察时间窗口可能有不同的设置,从1小时(用1小时的观察时间预测未来的流行度)到2小时或更多[3,4,13,16],同时也可能有不同的预测范围[2,7,15]。甚至预测标签的类型也可以从二进制分类(例如,预测未来的流行度是否会翻倍)[5,10]到回归(预测确切的未来流行度)[2,4,9]。 这种情况给实际应用带来了很大的挑战,即,期望良好的流行度预测模型来处理各种预测任务设置。现有的流行度预测方法主要分为三类[7]:基于特征的方法,生成方法和基于深度学习的方法。基于统计的方法通常提取各种手工制作的特征用于流行度预测[5,14],而生成方法将流行度动态视为到达点过程,并通过不同的假设对强度函数进行建模[11,15]。这些方法的性能很大程度上取决于所提取的特征或未知的……大规模大规模下游下游下游标签1标签2标签n预测模型n预测模型2预测模型1任务n任务2任务1…少数标签微调大量未标记扩散数据通用深度表示模型输 出残余 块D = 4辍学+的隐藏D = 2扩张型R e L U因果重量 标准隐藏d = 1卷积扩 张 因 果 转 换1×1 转化 率下降(可选)输 入Mm = {t, t, ..., 不}ReLU$/+T$/02人气R etw e et重 量 标准5动力学序列3扩张因 果Co nv任务n任务2任务1人气强度WWWQi Cao,etal.244DDTi=1不不T我i=1–DTi不不不假设,限制其预测性能。最近,基于深度学习的方法已经出现并实现了最先进的预测性能[2,3,6,9,12,13,16],这些方法在下游标签的指导下为每个预测任务训练单独的模型(图1(b))。针对一个预测任务设置所得到的模型很难推广到其他任务设置,造成训练时间和计算资源的极大浪费,以及对下游标签的大量需求为了继承基于深度学习的方法的强大功能,同时消除单独训练范式的限制,我们提出了一种用于流行度预测的新型预训练框架,见图1(c)。该框架不是通过每个任务设置的大量下游标签来训练单独的预测模型,而是旨在从现成的未标记扩散数据中预训练通用表示模型,这些数据可以有效地转移到不同的流行度预测任务中。由于预训练框架的关键主要在于自我监督的托词任务的设计,我们提出了一种新的预训练托词任务,即,两个随机采样时间片的时间流逝推断人气动态这样一个精心设计的借口任务,【托辞任务:时间流逝推断!】时间(秒)图2:时间流逝推断的图示。该曲线描绘了在新浪微博中的真实示例流行度动态上的每时间单位的增量流行度。基于借口任务pre的扩散数据,使得预训练的模型fθ可以经由由几个下游标签few微调而被有效地变换成各种(未看到的)下游流行度预测任务{Ti} N任务。在本文中,我们采取的超高级标准卷积神经网络(TCN)[1,13]作为基本的deep模型,并将输入的reetweets equenceCTm流行动态Xm =[xm,xm,...,xm],表示不深度模型捕捉流行度的内在演变模式作为输入的增量流行度Tm1 2i动态,从而有利于各种下游任务设置。请注意,预训练的表示模型只需要的TCN。xi/时间单位当转移到不同的下游设置中时,可以通过几个下游标签进行微调在新浪微博和Twitter上进行的实验表明,与单独训练范式下的预测模型相比,所提出的框架在实现相当性能的同时,效率更高,可推广性更强。与随机初始化相比,预训练的表示模型在下游流行度预测任务上实现了显著改善,进一步证明了预训练框架的有效性。2种方法由于时间信息是流行度预测的主导因素[5],并且可以很容易地在不同的平台上推广,因此在这里,我们专注于时间感知的流行度预测场景。时间感知流行度预测任务:给定在观察时间T内观察到的在线内容的转推序列m,即,Cm={t1,t2,.,tNm}其中Nm是转发的总数,它2.2时间推移推理要想学习到一个满意的一般表征模型,关键在于设计好任务前题。 考虑到流行动态可能有波动,在每个时间片,但保持相对稳定的时间演变,我们提出了一种新的时间流逝推理(TEI)的借口任务。 TEI随机采样流行度动态的成对时间片,旨在推断这两个时间片之间经过的时间,参见图2以获得直观的理解。为了准确预测两个时间片之间的时间流逝,深度表示模型需要理解时间上下文信息并捕获流行度动态随时间变化的演化模式。这种能力对于下游流行度预测任务至关重要,这就是为什么预训练的深度表示模型可以有益于下游任务的原因接下来,我们正式定义了时间流逝推理的设计借口任务。2.2.1时间上下文采样。 我们首先将输入的流行动态划分为几个时间片。设T表示长度旨在预测预测时域Tp处的流行度标签ym。可以分割为:{Xm=[x1,., xT],. ,Xm=[x(s−1)·T+1,不同的观测时间T、预测层位Tp...,X]},其中TT,1T,ss=T/T和流行度标签ym形成不同的流行度预测任务。s·T是观察时间的长度表示时间片的总数,并且Xm表示第i个时间片。2.1培训前框架概述给定一组流行度预测任务{Ti}N个任务和一组具有大量任务标签{Dmas}N个任务的对应数据集,流行动态的时间片段令le表示第A时间片和第B时间片之间的时间流逝,即,le=B A。直觉上,两个时间片太远可能会使时间流逝推断太难混淆深层表示模型,而两个重叠的时间片可能导致简单的预测问题,可以很容易地解决,而无需现有范例训练了一个单独的预测模型,i=1θi使用学习任何一般知识。基于上述直觉,我们mas 对于每一个任务,这既是计算资源,消费和大量的标签需求。设置最大时间流逝L_max,然后一致地SAM。使时间流逝le=Pl,其中pl(i)=1,i=相比之下,用于流行度预测的预训练旨在预一,二,min()min(s,lmax)使用未标记的训练一个通用深度表示模型fθs,lmax. 为了保证采样的时间片包含足够的观测值,我们分配了更高的采样概率在这两个受欢迎程度动态的时间段之间经过了多少时间665544332211000099 0000181 8000 0227700003366000044550000545 400 0 0636 300 0072070200人气强度人气强度的流行动态,那么在线内容mPREP:用于流行度预测的时间推移推断预训练WWW245那T、BT CTR.X不不TT·不·--关于我们预训练 模型 对 的 观察到 流行动力学采用广泛使用的用于二进制分类的评估度量=[xm,xm,.,xm]。从形式上讲,不... )和预测标签Mm=1Mym.M=MymM=. 3. 对于分类任务,我们到较早的时间片,即,第A个时间片用表1:下游流行度预测任务概率pa(A)<$f(A),其中f(·)是单调递减的,并且B=le+A任务观察时间1预测范围1标签22.2.2时间推移推断 对于采样的时间片对,A和B,我们在两个时间片上应用具有L层的TCN [1,13]T11小时3天/1天R1T21小时最终R流行度动态Xm表示,即,T、AXm分别获得他们的32小时终了42小时/最终0.5小时“/”的左边表示微博的时间,而“/”的右边表示Twitter的时间om,j=TCNConvL.....TCNConv1T,j,j...Σ,j=A,B.(一)2R:回归任务,在预测范围内预测受欢迎程度C:分类任务,预测流行度是否在预测范围内翻倍然后,时间流逝被预测为:ML Pp.om,A||表示v e c的操作者。||denotestheo peratorofve c-3.1.3基线。我们选择了最先进的方法-tor concat,MLPp表示多层感知器。整个将感知流行度预测作为强基线,即,基于特征的[5];地震[15]作为一种典型的生成方法;深-通过接收来自真实时间的信号来预训练模型经过,即,损失=(le−le)2。(二更)2.3转入下游任务下游任务。 为下游普及预-Hawkes[2],CasCN [4],TCN [13]作为强大的基于深度学习的方法。3.1.4评价 我们采用两种常用的回归任务评估指标,即,损失函数MRSE[3,14]和R-Acc[7],用于测量正确的含量分数在给定误差容限下预测:1MI[APEm≤λ]文辞 任务 定义 在 部分 2.1, 我们 转移其中APE.yy -y。和0M m=1om =TCNConv(...(12吨1(Xm))也就是说,分类准确度(表示为C-Acc)和F1得分。ym = MLPd(om),其中MLPd是多层感知器。冻结vs完全微调。 我们为下游流行度预测任务提供了两种微调策略,即, 冻结模式和全微调模式。前者冻结预先训练的TCN的参数,并将其视为静态表示提取器,同时仅更新每个下游任务上的MLPd的参数,称为PREP-TCN-f。后一种模式更新下游任务的所有参数,称为PREP-TCN。3实验我们在两个真实数据集上进行了各种任务设置的实验。代码在Github1中公开。3.1实验装置3.1.1数据集。 我们用两个真实的数据集进行实验。 第一个是新浪微博,我们收集了2016年6月1日至2016年6月10日期间产生的所有原始消息,共包含710,554条在线内容。 第二个是Twitter[15],总共包含166,076条推文。 我们根据发布时间对所有在线内容进行排序,并将前75%用于训练,15%用于验证,最后10%作为测试集[2,15]。3.1.2下游流行预测任务。 我们改变观察时间、预测范围以及流行度标签,形成四个代表性任务1、2、3、4,参见表1。对于训练损失,我们取平均相对平方误差[3,14]:3.1.5实施细则。调整超参数以获得最佳的验证结果,并从10 −5,5 10 −5,10 −4.中选择学习率,10 −2,从6、12、18、24开始的最大时间流逝lmax。每个时间片的长度等于1800秒。对于基本TCN模型,内核大小K=8,层数L=12,时间单位等于5秒,隐藏单元的数量等于8. 我们使用一个32的小批量,只要验证的丢失在连续50次迭代中没有下降,就停止训练。3.2预培训框架的有效性我们用各种下游流行度预测任务进行实验,观察结果如下,见表2:对于具有大量标签的单独训练范例,TCN在所有下游流行度预测任务设置上都表现出出色的性能,这与[ 13 ]中报道的 结 果 一 致 。 我 们 不 能 在 Twitter 上 执 行 DeepHawkes 和CasCN,因为这个数据集缺乏扩散子图的结构信息 由于Seismic对异常值敏感,并且只能预测最终的流行度,因此我们省略了MRSE和任务1的结果。当将预先训练好的模型转换成下-流任务具有较少的标签,即, 在新浪微博和Twitter中分别有0.1%和0.5%的下游标签,我们的预训练TCN模型显著优于随机初始化的TCN模型。 也就是说,PREP-TCN-f显著优于TCN-f,并且PREP-TCN也显著优于TCN,证明了有效的MRSE=1。M . ym−ym2用于记录任务,并取下游任务的预培训框架的重要性• 这是一个精心调整的PREP-TCN,几乎没有下降-二进制交叉熵的分类任务。1https://github.com/CaoQi92/PREP流标签甚至可以实现相当的预测性能,与在单独训练的范例下用大量下游标签ics在时间T内,即,XmLTCNConv不WWWQi Cao,etal.246“1“1“ $“3“&不不不不表2:各种流行度预测任务的性能任务T1任务T2任务T3任务T4方法MRSER-AccMRSER-AccMRSER-AccC-ACCF1海量标签TCN(大量标签)PREP-TCN(少量标签)PREP-TCN-f(少量标签)0.0E+005.0E+031.0E+041.5E+042.0E+042.5E+04时间(秒)图3:效率比较将预训练(或随机初始化)的模型转移到微博上,标签0.380.330.280.230.180.13TCN(列车)TCN(验证)PREP-TCN(train)PREP-TCN(val)0 10 20 30 40训练步骤(×100)在Twitter上使用大量标签进行单独培训地震---百分之六十点七-百分之六十六点四61.4%0.520基于特征0.077百分之七十七点八0.106百分之七十点六0.084百分之七十七点九百分之六十五点三0.582TCN0.054百分之八十二点三0.08674.3%0.063百分之八十一点九百分之七十点九0.634在Twitter上使用少量标签TCN-f0.23840.7%0.258百分之三十七点七0.258百分之三十七点七百分之五十四点八0.000PREP-TCN-f0.166百分之五十三点一0.19248.0%0.21746.1%百分之六十五点六0.534TCN0.07376.1%0.100百分之七十点六0.084百分之七十六点七百分之七十点七0.614PREP-TCN0.05783.0%0.090百分之七十一点九0.069百分之七十九点九百分之七十点六0.630例如,0. 二百三十二比零。238MRSE和47. 4%对47。新浪微博上任务1的8% R-Acc然而,用于各种下游预测设置的TCN的单独训练比预训练框架消耗更多的时间资源(参见第3.3节)。3.3预培训框架的效率我们在单个GPU(NVIDIA Tesla K80)上进行时间实验,首先分析下游任务的训练时间,如图3所示。 即使考虑到预训练的时间,PREP-TCN和PREP-TCN-f也比具有大量下游标签的单独训练的TCN高效得多。随着任务数量的增加,预训练框架的这种效率优势将更加显著。为了更深入地理解预训练框架的效率优势,我们进一步分析了它是否能加速模型训练的收敛。图4(左)显示,预训练模型的损失在早期训练步骤中迅速下降,然后逐渐趋于稳定,而随机初始化的TCN收敛非常缓慢,证明了预训练框架对模型收敛的好处。3.4预培训任务分析为了证明时间流逝推理(TEI)作为预训练任务的优越性,我们用替换的预训练任务进行实验,即,将下游任务1之一作为预训练任务。此外,我们还用纯随机抽样取代了TEI中的抽样策略。实验结果如图4(右)所示对于用任务1预训练的模型,当下游任务与预训练任务完全匹配时,它实现了相当的预测性能,即,下游任务也是1,但是对于其它下游任务实现差的预测性能这些结果表明培训前时间训练时间(#$+#+#3+ #()损失0.5预训练,使用1001使用TEI进行预训练(无采样策略)使用TEI进行预训练0.0➚1$➚3➚&下游任务MRSE地震---百分之三十五点一-百分之三十七点五百分之五十二点四0.508深鹰号0.510百分之三十五点七0.379百分之三十八点九0.34240.7%百分之四十九点八0.000TCN-f0.8090.4%0.396百分之二十五点二0.396百分之二十五点二百分之四十九点七0.000PREP-TCN-f0.322百分之三十三点五0.25840.1%0.23644.1%百分之六十六点六0.645WWWQi Cao,etal.247图4:左:收敛性比较;右:前文任务分析很难在不同的下游任务之间转移或推广学习的模型。 当去除设计的采样策略时,预训练模型的表现不如原始TEI,验证了第2.2.1节中采样策略的有效性。使用TEI预训练的模型获得了最佳性能,证明了TEI作为借口任务的有效性,可以捕获各种下游预测任务的流行动态中包含的丰富知识。4结论据我们所知,我们是第一个提出流行度预测的预训练框架,可以有效地转移到不同的流行度预测任务中。我们设计了一种新的时间流逝推理作为预训练的借口任务,促使预训练模型有效地捕捉流行动态的特征。在两个具有各种下游任务的真实数据集上进行的实验证明了预训练模型的有效性和通用性。在未来,我们的目标是将预训练框架扩展到更多的sce-narios,并用更高级的深度模型取代TCN模型,这些模型还考虑了用户,内容和结构信息。致谢本工作得到了国家自然科学基金的资助。62102402,U21B2046,国家重点&研发计划(2020AAA0105200)。Huawei Shen还得到了北京人工智能研究院(BAAI)的支持。引用[1] S Bai,J Kolter和V Koltun。2018年序列建模的一般卷积和递归网络的经验评估。(2018年)。[2] Q Cao,H Shen,K Cen,W Ouyang,and X Cheng.2017年。DeepHawkes:弥合预测和理解信息级联之间的差距。在CIKM。1149-1158.[3] Q Cao,H Shen,J Gao,B Wei,and X Cheng.2020年。 基于耦合图神经网络的社交平台流行度预测。在WSDM。70比78[4] X Chen,F Zhou,K Zhang,G Trajcevski,T Zhong和F Zhang。2019年。通过递归级联卷积的信息扩散预测在ICDE。770-781。[5] J Cheng,L Adamic,P Dow,J Kleinberg和J Leskovec。2014年。可以预测级联吗?在WWW上。925 -936[6] N Du,H Dai,R Trivedi,U Upadhyay,M Gomez-Rodriguez和L Song。2016年。递归标记时间点过程:将事件历史嵌入向量。在KDD。1555-1564年。PREP:用于流行度预测的时间推移推断预训练WWW248[7] X Gao,Z Cao,S Li,B Yao,G Chen和S Tang。2019年。微博热度预测的分类与评价。TKDD13,2(2019),1[8] J 霍 夫 曼 , A 夏 尔 马 和 D 瓦 茨 。 2017 年 。 社 会 系 统 中 的 预 测 和 解 释 。Science355,6324(2017),486-488.[9] C Li,J Ma,X Guo和Q Mei。2017年。DeepCas:信息级联的端到端预测器在WWW上。577-586[10] D Liao,J Xu,G Li,W Huang,W Liu和J Li。2019年。 时间过程与内容特征深度融合的网络文章热度预测。在AAAI。200-207[11] S米什拉,M Rizoiu和L谢。2016年。流行度预测的特征驱动和点过程方法。在CIKM。1069-1078年。[12] J Qiu,J Tang,H Ma,Y Dong,K Wang和J Tang。2018年DeepInf:使用深度学习预测社会影响力。在KDD。2110-2119[13] J Shao,H Shen,Q Cao和X Cheng。2019年。时间卷积网络用于社交媒体上消息的流行度预测。在CCIR。第135-147页。[14] A Tatar,M Amorim,S Fdida,和P Antoniadis.2014年。 关于预测网络内容受欢迎程度的调查。JISA5,1(2014),1[15] Q Zhao,M Erdogdu,H He,A Rajaraman,and J Leskovec.2015年。SEISMIC:一个预测推特流行度的自激点过程模型. 在KDD。1513-1522年。[16] F Zhou,L Yu,X Xu,and G Trajcevski.2021年长尾信息级联预测的解耦表示和回归量。在SIGIR。1875-1879年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功