新闻引文网络中预测文档创建时间的方法与特征研究

79 浏览量更新于2023-10-15 收藏 13.14MB PDF 举报

引文网络

文档日期

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

The question When was this published? does not only come to mindwhen browsing news websites that inconveniently neglect to in-clude or update a publication timestamp, but is also a central aspectin the automated processing of news documents. For many newsanalysis tasks that rely on temporal information such as event detec-tion or timeline generation, the extraction of temporal expressionsis a key component. In the news domain, such an extraction reliesheavily on the availability of accurate document creation times17310在新闻引文网络中预测文档创建时间0Andreas Spitz HeidelbergUniversity Heidelberg, Germanyspitz@informatik.uni-heidelberg.de0Jannik StrötgenMax-Planck-Institute forInformatics Saarbrücken, Germanyjannik.stroetgen@mpi-inf.mpg.de0Michael Gertz HeidelbergUniversity Heidelberg, Germanygertz@informatik.uni-heidelberg.de0摘要0对于新闻文章的时间分析或从这些文档中提取时间表达，准确的文档创建时间是不可或缺的。虽然在许多情况下，文档创建时间可以作为时间戳或HTML元数据提供，但在其他情况下，这些数据可能不准确或不完整。特别是在数字发布的在线新闻文章中，由于稍后时间的（部分）更新，发布时间通常会缺失或不准确。在本文中，我们研究了在数字发布的新闻文章的引文网络中预测文档创建时间的问题，这些文章除了包含时间表达外，还提供了个别文章之间的知识流动的网络结构。我们探索了这样的网络的演变，以激发合适特征的提取，我们在随后的文档创建时间预测中利用这些特征，将其作为回归任务。基于我们对大量英语新闻文章网络上的几种成熟的机器学习回归器的评估，我们展示了从网络中估计文档创建时间的时间和局部结构特征的组合。0CCS概念0• 信息系统 → Web挖掘；• 计算方法学 → 通过回归进行监督学习；0关键词0新闻，引文网络，时间演变，文档日期0ACM参考格式：Andreas Spitz，Jannik Strötgen和MichaelGertz。2018。在新闻引文网络中预测文档创建时间。在WWW'18Companion：2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，纽约，美国，6页。https://doi.org/10.1145/3184558.319163301 引言0本文根据知识共享署名4.0国际（CC BY4.0）许可发布。作者保留在其个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31916330(DCT)由于大多数时间表达是相对于文档的参考时间给出的[24]。因此，了解DCT是后续时间分析的必要先决条件。根据文档的来源，DCT可能很难获得。对于从RSS订阅获取的文章来说，这是一项简单的任务，但是当通过社交媒体链接或网络爬取获取文章时，这就更具挑战性了。在这些情况下，创建时间可能来自各种元数据字段，在文章本身的文本中，或者完全缺失。因此，已经开发了许多方法来估计Web上文档的DCT，这些方法利用了元数据、可用版本的文档、外部Web存档和其他文档的链接（参见，例如，[21,25]）。由于Web的结构不断变化，这些元数据可能并不总是可用。更糟糕的是，新闻文章的内容可能随时间而变化，通常包括将时间戳更新为丢弃原始日期的最后修改日期。由于新闻文章的专有性质，简单地存储数据以规避此问题通常是不可能的。因此，即使整个内容和元数据可用，估计新闻文章的DCT也是一个困难的问题，并且随着时间的推移变得越来越具有挑战性。在本文中，我们探讨了新闻引文网络的前提，即编码个别新闻文章之间的知识流动，可能是估计具有未知发布时间的文章的DCT的有用工具，基于它们在网络中的邻域。由于这些网络编码了文章之间的关系结构而不是它们的内容，因此它们是安全的进行存储。与科学引文网络类似，新闻引文网络可以从数字发布的新闻文章中包含的引用中提取出来[22]。然而，与科学引文不同，新闻引文的结果网络更稀疏，因此对于每个个别文章来说，很少有邻接信息可用，这对于预测任务来说提出了更大的挑战。贡献。我们从国际英语新闻文章中构建了一个大型新闻引文网络，并研究了它对新闻文章DCT预测的实用性。我们探索了这样一个网络的结构和时间演变，以及合适的机器学习特征的提取，然后评估了六种回归方法作为DCT预测的回归任务。02 相关工作0我们的工作与文档创建时间估计和新闻引用网络的领域相关，我们在下面进行调查。估计文档创建时间。估计文档的最后更新时间最直接的方法是使用HTTP头字段[1]。由于这些字段通常不可用或不可靠，Toyoda和Kitsuregawa提出了一种新颖性度量方法，通过对其他网页的入链进行评分来识别不稳定的网页快照系列中的新文档[26]。类似地，0Track: 2018年第8届时间Web分析研讨会，2018年4月23日至27日，法国里昂17320Nunes等人利用网页文档的相邻页面，通过使用入链、出链和HTML源属性来确定网页文档的最后修改日期[17]。对于在线资源，DCTFinder结合了监督学习和规则，通过识别标题并从可能的候选项中选择最早的日期来检测网页的DCT[25]。相比之下，CarbonDate利用了各种网页特征来确定网页的DCT，例如URI首次缩短或推文的时间，以及首次出现在网页存档中的时间。同样，文档创建时间被估计为最早可用的日期。此外，文档的文本内容在几种文档日期估计方法中被利用，目标是为未标注的文本分配最可能的创建时间。通常，这些方法专注于历史文档，因此以年为粗粒度进行工作。通常，这个任务利用时间语言模型[7,10]。相比之下，Chambers根据文档中出现的时间表达式推断文档的创建时间，而Ge等人提出了一个基于事件的模型[8]。基于文档的部分可能具有不同的创建时间的观察，Zhao和Hauff解决了博客页面上子文档的创建时间估计问题[28]。与上述方法不同，我们专注于新闻文章引用网络中文档创建时间的估计，这些文本包含引用和时间表达式，但没有其他外部元数据。由于在这种情况下不可用多个版本或提及文章，预测任务最好作为一个纯回归问题来处理。新闻引用网络。新闻引用网络在概念上类似于科学引用网络（有关概述，请参见[18]）。虽然科学引用网络是知识动态的研究模型，但新闻引用网络迄今为止受到的关注较少。基于各种网络文档类型，如新闻文章、博客和社交媒体帖子，Kim等人分析了用户引用网络的结构[11]。类似地，Spitz和Gertz以在线新闻为重点，研究了德国新闻文章网络中引用的演变[22]。相比之下，我们专注于新闻引用，以及从国际英语新闻媒体中提取的规模更大的网络。03 数据提取和探索0在我们进行从新闻引用中预测DCT之前，我们要研究底层的网络结构。03.1 新闻引用网络0直观地说，新闻引用网络表示新闻文章之间的引用，就像科学出版物之间的引用网络一样。然而，一个重要的方面是限制在内部引用上，即关注那些在文章文本中锚定的引用，而排除广告或导航链接。形式上，设V为一组新闻文章。对于这些文章之间的边集E�V×V，我们用(v,w)∈E表示这些文章之间的边，当且仅当v的文本中包含对w的引用。有向图G=(V,E)则表示新闻引用网络。每篇文章v∈V还可以进一步加以属性，例如出版时间、文本或时间表达式。关于新闻引用网络的更深入介绍，请参见[22]。0表1：新闻机构概述，包括天数d，每天平均文章数�a�，每篇文章平均时间表达数�t�，以及连接到不同新闻机构的入边百分比ein和出边百分比e out。0短新闻机构 d � a � � t � e in e out0AJ Al Jazeera 334 14.0 7.4 7.9 1.4 AP Associated Press 5480.6 7.6 0.0 0.0 AT The Atlantic 334 7.2 10.5 16.7 50.6 BBCBritish Bc. Corp. 730 8.1 6.5 19.1 8.0 CBC Canadian Bc. Corp.334 12.2 7.4 6.6 3.0 CBS Columbia Bc. System 548 31.9 6.75.3 1.1 CDT China Digital Times 244 1.2 10.3 0.5 28.2 CNNCable News Network 548 2.8 8.8 3.3 61.1 DM Daily Mail 2447.4 8.3 0.0 0.0 DT Daily Telegraph (AU) 213 3.0 5.4 9.9 43.5DW Deutsche Welle 334 1.2 6.1 48.1 5.9 FOX Fox News 5482.7 9.8 0.0 0.0 TG The Guardian 730 40.7 7.6 4.7 3.8 TH TheHerald 244 0.7 7.3 0.6 0.0 HK Huffington Post (UK) 548 4.94.7 1.6 42.0 HU Huffington Post (US) 548 6.8 8.1 9.5 86.3 IBTInt. Business Times 669 29.3 6.4 0.4 15.2 TI The Independent730 35.4 5.7 6.1 5.5 LAT LA Times 548 31.6 8.2 2.9 4.1 NPRNational Public Radio 334 0.4 8.4 63.6 58.5 NY The NewYorker 548 3.0 13.2 33.5 30.6 NYT New York Times 669 23.810.7 26.8 4.7 OBS The Observer 213 18.8 5.9 0.2 9.0 CMP S.China Morn. Post 122 19.2 7.8 4.5 0.0 SC The Scotsman 2442.0 5.3 5.8 3.6 SKY Sky News 548 13.0 5.0 6.5 0.0 SMHSydney Morn. Herald 548 2.3 7.0 3.0 51.9 TEL The Telegraph730 28.9 6.5 7.1 2.4 EX The Express 244 6.7 5.7 1.0 3.2 TSToronto Star 334 25.3 7.8 1.0 1.5 UPI United Press Int. 33415.1 6.9 1.6 32.0 USA USA Today 669 1.3 9.2 0.0 0.0 VSVancouver Sun 334 0.4 6.4 5.6 38.7 WP Washington Post548 62.7 9.4 13.7 5.103.2 来源、提取和注释0我们使用英语新闻文章之间的引用网络。如上所述，仅考虑新闻文章的内容以提取与其他新闻文章相关的文本锚定链接。该网络由2015年11月1日至2017年10月31日期间收集的新闻文章构建。一些新闻机构是在2015年之后添加的，因此存在时间较短。不包括没有给出或接收引用的文章。总共，该网络由244631篇文章（节点）通过367225个引用（边）连接而成，可从我们的网站1下载。共有34个新闻机构，包括英国、美国、加拿大、澳大利亚、卡塔尔、德国和中国的机构。为了提取包含的时间表达，我们对所有文章进行标记。01 所有数据和代码可在https://dbs.ifi.uni-heidelberg.de/resources/data/上获得0Track: 2018年4月23日至27日，法国里昂举办的第8届时间Web分析研讨会WWW 20182016−012016−072017−012017−072016−012016−072017−012017−070204060510151230.00.20.40.617330聚类系数平均路径长度0平均度数无向直径0天0测量值0网络聚合政治商业0图1：整个网络以及政治和商业子网络的网络指标演变。0HeidelTime在新闻领域设置中[23]。这些文章总共包含1748813个时间表达，其中41.5%的时间表达的粒度为天，19.7%的时间表达的粒度为月，38.8%的时间表达的粒度为年。在表1中，我们展示了数据集的概述。引用其他新闻机构的入边和出边的百分比可以说明各个新闻机构在竞争方面的引用政策。03.3 时间相关性0为了了解文章中包含的时间表达，我们考虑时间表达与发布日期之间的相关性。当将文章的时间表达与文章本身的发布日期进行比较时，我们得到了Pearson相关系数ρ self =0.440。如果我们将文章中的时间表达与引用文章的发布日期进行比较（即网络中的入边），这个相关性下降到ρ in =0.400，而与出边末端文章的发布日期的相关性为ρ out =0.473。我们将此视为使用时间表达和出边文章日期之间的相关性更有益的指示，这符合文章往往包含与引用文章相关日期相匹配的时间表达的预期。然而，与文章之间的发布日期的更高相关性ρ pub =0.934相比，我们预计包含在发布日期中的时间信息对于DCT预测更有用。03.4 网络度量的演化0演化网络的一个有趣特征是随着节点和边的增加，它们的度量指标的变化。对于许多自然发生的网络，典型的特征是长尾度分布，导致直径缩小[12]（即最长最短路径的长度减小）和聚类系数增加[2]（即局部邻域的密集化）随着网络的演化。相反，对于德国四家新闻机构的新闻引用网络，观察到在300天的时间内聚类系数和直径保持不变[22]。由于数据的稀疏性和网络的结构对我们后续的预测任务很重要，我们在图1中展示了对更大的国际新闻网络进行类似分析的结果。我们观察到这些发现适用于更大的网络。虽然直径存在一些峰值，但它基本保持不变，聚类系数和平均路径长度也是如此。0图2：关于俄罗斯参与2016年美国总统选举的新闻引用链的示例。0整个网络。政治子网络类似并主导着整个网络，而商业子网络较小且不规则。总体上，我们观察到长的文章引用链，这些链适合探索不断发展的新闻故事。03.5 引用链的探索0网络的低密度和高直径表明随着网络的演化，会出现长的引用链。显然，这样的引用链不仅对估计文章的发布时间感兴趣，而且对于研究网络中信息的传播也很有意义。虽然对这种信息传播的深入分析超出了本文的范围，但我们在图2中展示了一个中等长度的引用链的例子。正如文章标题所示，随着故事在一年多的时间里的发展，信息的传播也在进行。请注意，该图仅显示了一个引用链，它与整个网络中的其他链重叠和交叉。在接下来的内容中，我们将利用这种网络结构来导出拓扑和时态网络特征，以辅助预测发布日期。04 文章发布时间预测0接下来，我们将描述我们用于利用时态引用网络预测文章发布时间的方法。04.1 特征提取0为了训练回归器，我们使用了一个包含27个特征的集合F，可以分为三类：从引用网络的拓扑中导出的特征，从网络中相邻文章的发布时间中导出的特征，以及从相邻文章中的时间表达式中导出的特征。第28个变量是文章本身的发布时间，我们用T表示，并将其用作响应。0Track: 2018年4月23日至27日，法国里昂举办的第8届时态网络分析研讨会Dist =�ti ∈Tinto ∈Toutti − toT ∼ β0|F |i=1βiFi + ε17340在后续的实验中使用的变量。为了编码所有的时间特征，我们使用一个表示POSIX时间的整数值。网络拓扑特征。为了利用新闻引用网络的结构，我们提取纯拓扑特征。也就是说，我们依赖于网络的连接信息。有关网络度量的定义和推导，请参见[16]。度数捕捉了最基本的连接信息，即相邻边的数量。由于网络是有向的，我们将出度deдout、入度deд in和无向（总）度deдall作为每个节点的特征。作为节点邻域的描述，我们利用无向局部聚类系数cc作为特征，它捕捉了给定节点的邻居之间相互连接的程度。最后，我们还包括了一些中心性度量，即介数中心性cbtw、页面排名中心性c pr以及入度和出度的接近中心性c cl, in和c cl,out。为了计算这些网络特征，我们使用R中的igraph包[6]，并使用默认参数设置。时态网络特征。超越纯拓扑信息，我们将网络连接性与相邻文章的发布时间相结合。为此，让Tin表示引用给定文章v的文章的发布日期集合，让Tout表示v引用的文章的发布时间。然后，我们从这些出站和入站日期之间的关系中导出一组特征。具体来说，我们使用被文章v引用的文章的最大和最小发布日期，并用max(T out)和min(Tout)表示。我们还计算这些发布时间的均值µ(T out)和标准差σ(Tout)，以及它们之间的时间跨度span(T out)=max(T out)−min(Tout)。类似地，对于包含对v的引用的文章，我们从它们的发布日期集合T in中计算max(T in)、min(T in)、µ(T in)、σ(T in)和span(Tin)。直观地说，一篇文章的发布日期应该位于被引用和引用文章的时间间隔内。因此，我们还构建了入站和出站相邻文章之间的两两距离集合。0并从中得到最小距离min(Dist)，最大距离max(Dist)，以及平均距离µ(Dist)和距离的标准差σ(Dist)。有关这14个特征的概念化可视化，请参见图3。时间表达式特征。类似于从出版时间中提取特征，我们也可以考虑相邻文章中包含的时间表达式（请回忆，在估计引用时间之前，文章本身内部的时间表达式是无用的）。在接下来的内容中，以月份或年份为粒度的时间表达式由区间的均值表示。根据我们在第3.3节中的发现，我们推测引用文章中的时间表达式对于确定引用文章的DCT不太有用。然而，位于引用文章文本中的时间表达式很可能与被引用文章的发布时间有关。因此，我们用X in表示所有引用给定文章v的文章中的所有时间表达式的集合。基于这个集合，我们得到相同的0图3：时间特征的概念概述。0特征类型与我们得到的出版时间的特征类型相同，即传入时间表达式的最大值和最小值max(X in)和min(X in)，以及它们的均值µ(Xin)，标准差σ(X in)和时间跨度span(Xin)。特征插补。由于网络的稀疏性，许多文章缺少传入或传出边，这意味着并非所有文章都可以计算出所有特征。结果是，30.8％的特征值缺失，这是相当大的。此外，89.6％的文章至少有一个缺失的特征值。因此，丢弃具有不完整特征值的文章是不可行的，我们必须插补缺失值。在接下来的内容中，我们通过给定特征的均值来插补值。还有更复杂的插补方法可用，这些方法可能进一步改善结果，例如通过链式方程进行多重插补[27]。然而，鉴于通过均值插补已经取得了有希望的结果（见第4.3节），我们在这里不探讨这些方法。04.2回归方法0使用上述27个特征集，我们训练了六种不同的回归方法以及一个基准方法。在接下来的内容中，我们简要介绍这些方法并讨论它们的相关参数。在必要或有益的情况下，特征被标准化（即通过其均值平移并除以其标准差）。我们使用R软件环境进行所有实现。基准方法（BASE）。作为基准，我们包括一个预测器，该预测器对传入边和传出边上的相邻文章的发布时间进行平均。也就是说，我们计算 T base =0 . 5[ µ ( T in ) + µ ( T out )]，以便将所有传入边和所有传出边上的文章的平均发布时间以相等的权重进行平均。线性回归（LR）。作为第一种回归方法，我们利用所有可用特征进行多元线性回归。也就是说，我们拟合一个线性回归模型，其中回归系数 β i 为0其中，ε表示误差项。我们使用R中默认的lm实现通过QR分解来进行拟合。贝叶斯回归（BAY）。为了将传统线性回归与更高级的方法进行比较，我们还包括了基于Makalic和Schmidt[14]方法的bayesreg包中实现的贝叶斯回归。具体来说，我们使用拉普拉斯模型的贝叶斯岭回归，因为高斯模型和学生t模型得到的结果与传统线性回归相同。随机森林（RF）。作为决策树学习的代表，我们训练了一个随机森林，该随机森林是基于Breiman和Cutler[3]的实现的randomForest包[13]。我们将森林大小设置为500棵树。0会议：第八届时间网络分析研讨会 WWW 2018，2018年4月23日至27日，法国里昂0501001502002500501001502002500501001502002500501001502002500204060025507510002550751002550751002550751017350表2：六种回归器和基准线性回归的平均绝对误差（天）。显示了所有文章（全部），仅具有入边的文章（内部）或仅具有出边的文章（外部），以及既具有入边又具有出边的文章（内部+外部）的值。0基准线性回归贝叶斯神经网络随机森林梯度提升支持向量机0全部 66.72 60.46 59.61 26.88 24.98 22.66 26.19 内部 88.8866.48 87.55 34.03 32.25 27.49 32.29 外部 87.32 59.54 40.2432.52 30.10 26.68 30.77 内部+外部 18.68 55.45 54.95 12.6211.23 12.76 14.310梯度提升（GB）。作为第二个基于树的学习器，我们使用了来自gbm软件包[19]的梯度提升决策树。在这里，由于我们的损失函数是平均绝对误差，拉普拉斯分布效果最好。我们将树的数量设置为n =20,000，收缩率设置为λ = 0.001，树的深度设置为K =5。支持向量机（SVM）。对于支持向量机，我们利用e1071软件包[15]，它作为libsvm库[5]的接口。径向基核表现最好，因此我们排除了线性和多项式核的结果。对于训练SVM，我们使用阈值为ε =0.1的ε-回归。神经网络（NN）。鉴于特征的构造，循环神经网络对于给定的问题并不特别适用（虽然可以利用边序列上的日期，但网络的稀疏性对于提取足够的训练数据来说太明显了）。因此，我们使用neuralnet软件包[9]中的经典前馈神经网络。我们使用一个具有线性输出的节点来获得回归模型，并使用14个节点的单隐藏层（即输入层和输出层的平均节点数）。我们依靠韧性反向传播[20]来训练网络，重复一次，并设置收敛阈值为1.0。我们增加步数到10^7以获得收敛。04.3 评估结果0我们对所有回归方法进行10折交叉验证。我们使用平均绝对误差（MAE）作为评估指标，而不是常用的均方根误差，因为（1）给予更大误差更大的权重以惩罚异常值似乎不明智，（2）MAE更容易解释时间距离（以天为单位）。在表2中，我们显示了所有六种方法在整个数据集上（用all表示）的MAE得分。为了分析缺失数据的影响，我们还展示了数据子集的结果。具体而言，我们给出了仅接收（内部）或仅给出引用（外部）的文章的结果，以及既接收又给出引用的文章的子集（内部+外部）。这三个集合在我们的数据中大小大致相等（约30%）。请注意，所有文章至少有一条入边或出边，否则它们将不会成为网络的一部分。对于整个数据，基准线性回归的平均预测误差最大，为两个月。线性回归和贝叶斯回归稍微好一些，而神经网络、SVM和随机森林回归器的误差小于一个月。梯度提升在内部+外部集上稍微差一些，但整体表现最好。所有方法在仅具有入边或出边的文章的更困难的情况下表现更好，尽管在这种特殊情况下，基准线性回归和贝叶斯回归并没有超越它。0内部+外部0外部0内部0全部0回归方法0绝对误差（天）0内部+外部0外部0内部0全部0绝对误差（天）0召回率（预测值小于绝对误差的百分比）0方法 BASE LR BAY NN RF GB SVM0图4：五个回归器和基准线的结果，对于所有文章（all），只有入边的文章（in）或只有出边的文章（out），以及两者（in+out）；左图：绝对误差的分布（以天为单位）；右图：滑动绝对误差的召回率。0基准线。此外，所有方法在in集合上的性能略低于out集合，表明引用的方向并不起主要作用。贝叶斯回归是唯一的例外，更多受益于出边而不是入边。总体而言，GB的性能最佳。为了分析预测质量的整体分布，我们在图4（左）中显示了绝对误差的分布。我们发现表2中的均值与中位数和整体分布很好地相关。SVM的结果具有较小的波动，但中位数值高于RF和GB的结果，导致整体性能较差。在图4（右）中，我们显示了随着绝对误差增加的召回率。我们发现SVM最初的表现不如GB，但在三周的误差处达到峰值，其中包含了超过80%的结果，然后略优于梯度提升。04.4 特征重要性0为了分析各个特征的重要性，我们依赖于基于树的方法，在训练过程中计算每个分割中计算的总残差，并允许我们测量在任何给定特征上进行分割时节点纯度的增益。在图5中，我们显示了从10折交叉验证中获得的相对值的特征重要性。对于RF，很明显0Track: 第8届时间Web分析研讨会WWW 2018，2018年4月23日至27日，法国里昂●●●●●●●●●●●●●●1−310−210−1100●●●●●●●●●●●●●●10−510−410−310−210−110017360特征重要性：随机森林0最大值（T out）最小值（T in）平均值（T out）平均值（T in）最小值（T out）最大值（Tin）最大值（X in）平均值（X in）聚类系数σ（T out）σ（X in）聚类系数σ（T in）跨度（Tin）最小值（X in）跨度（X in）聚类系数σ（Dist）出度（deg out）平均值（Dist）入度（degin）总度（deg all）最大值（Dist）介数中心性c btw聚类系数cc（Dist）0相对重要性0特征重要性：梯度提升0最大值（T out）最小值（T in）出度（deg out）平均值（T out）最小值（Dist）入度（deg in）聚类系数c pr（Tout）聚类系数σ（T out）平均值（T in）总度（deg all）跨度（T in）最大值（T in）平均值（X in）最小值（Tout）平均值（Dist）介数中心性c btw最大值（X in）最大值（Dist）跨度（X in）聚类系数σ（X in）跨度（Tout）最小值（X in）聚类系数c cl,out聚类系数σ（Dist）聚类系数c cl,in聚类系数cc0相对重要性0图5：特征类型的相对重要性：网络拓扑（黄色），时间表达（绿色）和时间网络（紫色）。误差条为一个标准差。0大多数特征起到次要作用，有六个特征占据了大多数选择的分割，其中全部都是时间网络特征。接下来最重要的是两个时间表达特征，而拓扑特征起到次要作用。对于GB，只有两个时间网络特征占据了大部分分割，这与RF的前两个特征相同。总体而言，GB对于时间表达特征的重要性较低，而拓扑特征的重要性较高，尤其是基于度的特征。我们认为这种特征重要性的分布表明，文章局部邻域中包含的时间信息对于DCT预测最有价值。05 总结和展望0在本文中，我们创建并分析了一种涵盖两年的英文新闻文章之间的大规模引用网络。我们研究了从网络结构和网络中相邻文章的发布时间来预测新闻文章的文档创建时间的任务，将其作为回归问题。尽管网络稀疏，但我们发现在这种情况下可以可靠地预测文档的发布时间，平均误差略高于三周。总体而言，我们观察到最具挑战性的方面是数据的稀疏性，因为对于既包含引用又接收引用的文章，预测性能显著提高。因此，我们推测从更多新闻机构构建的更密集的新闻引用网络有望支持更好的预测。最后，对于两个表现最佳的回归器的特征重要性分析表明，从网络结构和相邻文章的发布时间派生的特征具有最大的影响，这表明了了解拓扑结构和发布时间足以获得高质量的预测结果。未来的工作。鉴于回归器的个体性能特征，构建集成分类器的构建值得进一步研究。同样，对引用链特征应用卷积神经网络有望进一步提高所提出方法的预测性能。0参考文献0[1] Einat Amitay, David Carmel, Michael Herscovici, Ronny Lempel, and Aya Soffer.2004. 通过时间链接分析进行趋势检测. 信息科学技术学会期刊 55, 14 (Dec. 2004),1270–1281. DOI: http://dx.doi.org/10.1002/asi.20082 [2] Béla Bollobás and Oliver MRiordan. 2003. 规模自由随机图的数学结果. 图和网络手册：从基因组到互联网 (2003),1–34. [3] Leo Breiman. 2001. 随机森林. 机器学习 45, 1 (2001), 5–32. DOI:http://dx.doi.org/10.1023/A:1010933404324 [4] Nathanael Chambers. 2012.使用时间表达式标记文档的时间戳. 在ACL中.http://dl.acm.org/citation.cfm?id=2390524. 2390539 [5] Chih-Chung Chang andChih-Jen Lin. 2011. LIBSVM: 用于支持向量机的库. ACM TIST 2, 3 (2011), 27:1–27:27.DOI: http://dx.doi.org/10. 1145/1961189.1961199 [6] Gabor Csardi and TamasNepusz. 2006. 用于复杂网络研究的igraph软件包. InterJournal, 复杂系统 1695, 5 (2006),1–9. [7] Franciska M.G. de Jong, Henning Rode, and Djoerd Hiemstra. 2005.用于历史文本披露的时间语言模型. 在AHC中. [8] Tao Ge, Baobao Chang, Sujian Li, andZhifang Sui. 2013. 基于事件的时间标签传播用于新闻文章的自动日期标记. 在EMNLP中.http: //www.aclweb.org/anthology/D13-1001 [9] Frauke Günther and Stefan Fritsch.2010. neuralnet: 神经网络的训练. The R Journal 2, 1 (2010), 30–38.https://journal.r-project.org/archive/2010/ RJ-2010-006/index.html [10] NattiyaKanhabua and Kjetil Nørvåg. 2009. 使用时间语言模型进行文档日期标记. 在ECMLPKDD中. DOI: http://dx.doi.org/10.1007/ 978-3-642-04174-7_53 [11] MinkyoungKim, Lexing Xie, and Peter Christen. 2012. 社交媒体中的事件扩散模式. 在ICWSM中.http://www.aaai.org/ocs/index.php/ICWSM/ICWSM12/ paper/view/4595 [12] JureLeskovec, Jon M. Kleinberg, and Christos Faloutsos. 2005.随时间变化的图：密集化定律、直径缩小和可能的解释. 在KDD中. DOI:http://dx.doi.org/10.1145/1081870.1081893 [13] Andy Liaw and Matthew Wiener.2002. 随机森林的分类和回归. R News 2, 3 (2002), 18–22.http://CRAN.R-project.org/doc/Rnews/ [14] Enes Makalic and Daniel F Schmidt.2016. 具有BayesReg软件包的高维贝叶斯正则化回归. arXiv预印本 (2016). https://arxiv.org/abs/1611.06649 [15] David Meyer, Evgenia Dimitriadou, Kurt Hornik,Andreas Weingessel, and Friedrich Leisch. 2017. e1071:统计学系、概率论小组的杂项函数. https://CRAN.R-project.org/package=e1071 [16]Mark Newman. 2010. 网络：一种介绍. 牛津大学出版社. [17] Sérgio Nunes, CristinaRibeiro, and Gabriel David. 2007. 使用邻居来对Web文档进行日期标记. 在WIDM中. DOI:http://dx.doi.org/10.1145/1316902.1316924 [18] Filippo Radicchi, Santo Fortunato,and Alessandro Vespignani. 2012. 引文网络.在科学动态模型中：复杂性理论与信息科学的相遇, Andrea Scharnhorst, Katy Börner, andPeter van den Besselaar (Eds.). Springer. DOI:http://dx.doi.org/10.1007/978-3-642-23068-4_7 [19] Greg Ridgeway. 2006. gbm:广义增强回归模型. https://cran. r-project.org/package=gbm [20] Martin Riedmiller.1994. 多层感知机中的高级监督学习–从反向传播到自适应学习算法. 计算标准接口 16, 3(1994), 265–278. DOI: http://dx.doi.org/10.1016/ 0920-5489(94)90017-5 [21] HanyM. SalahEldeen and Michael L. Nelson. 2013. 碳定年网络：估计Web资源的年龄.在WWW Companion中. DOI: http://dx.doi. org/10.1145/2487788.2488121 [22]Andreas Spitz and Michael Gertz. 2015.打破新闻：提取在线新闻文章的稀疏引文网络骨干. 在ASONAM中. DOI:http://dx.doi.org/10.1145/2808797.2809380 [23] Jannik Strötgen and

下载后可阅读完整内容，剩余1页未读，立即下载