推文计数预测的残差卷积LSTM模型的研究

89 浏览量更新于2023-10-15 收藏 14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

111111127443331111112744613090用于推文计数预测的残差卷积LSTM0Hong Wei *0计算机科学系马里兰大学帕克分校马里兰州hyw@cs.umd.edu0Hao Zhou 计算机科学系马里兰大学帕克分校马里兰州hzhou@cs.umd.edu0Jagan SankaranarayananUMIACS 马里兰大学帕克分校马里兰州jagan@umiacs.umd.edu0Sudipta Sengupta亚马逊网络服务（AWS）华盛顿州西雅图sudipta@amazon.com0Hanan Samet 计算机科学系马里兰大学帕克分校马里兰州hjs@cs.umd.edu0摘要0对于一个本地空间区域的推文计数预测是指预测在一个相对较短的时间段内从该区域发布的推文数量。它具有许多应用，如人类移动性分析，交通规划和异常事件检测。在本文中，我们将推文计数预测定义为一个时空序列预测问题，并为该问题设计了一个基于端到端卷积LSTM的网络，并具有跳跃连接。这样的模型使我们能够利用时空数据的独特属性，包括不仅是时间特征，如时间接近度，周期和趋势特性，还有空间依赖性。我们在西雅图市和纽约市这两个城市上的实验表明，所提出的方法始终优于竞争基线方法。0CCS概念0• 应用计算；• 网络 → 社交媒体网络；• 计算方法 → 神经网络；0关键词0社交网络，Twitter，推文计数预测，LSTM，卷积，卷积LSTM，残差神经网络0ACM参考格式：Hong Wei，Hao Zhou，JaganSankaranarayanan，Sudipta Sengupta和HananSamet。2018年。用于推文计数预测的残差卷积LSTM。在WWW'18Companion：2018年Web会议伴侣，2018年4月23日至27日，法国里昂，Jennifer B. Sartor，Theo D'Hondt和Wolfgang DeMeuter（Eds.）。ACM，纽约，纽约，美国，第4篇，8页。https://doi.org/10.1145/3184558.31915710* 本工作得到微软研究的部分支持。0本文发表在知识共享署名-非商业性-禁止演绎4.0国际许可证（CC BY-NC-ND4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18Companion，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY-NC-ND 4.0许可证发布。ACMISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.319157101 引言0对于一个地理区域（例如纽约市），推文计数预测的目标是根据先前观察到的数据预测下一个时间段内可能出现的推文数量的空间分布。这样的问题有许多应用，如人类移动性建模[31]和异常事件检测[3,13,15]。以异常事件检测为例，可以将预测的推文计数与地理本地区域中的实际推文数量进行比较。显著差异被认为是异常事件发生的强烈指标。0图1：（a）2016年7月16日17:00-17:30西雅图市中心附近的推文计数分布。（b）2016年7月16日17:30-18:00西雅图市中心附近的推文计数分布。（网格单元中的数字表示该时间间隔内的推文计数值，而空的网格单元表示没有推文。）0研讨会：第9届建模社交媒体国际研讨会（MSM 2018）应用机器学习和人工智能建模社交媒体WWW2018，2018年4月23日至27日，法国里昂number of tweets if nearby cells also have larger (smaller) numberof tweets, indicating the spatial dependences between cells. (2) Thedifference of the number of tweets between two temporal adjacentdata is small, indicating the existence of temporal dependence. Infact, there are studies pointing out that spatiotemporal data also hasa certain periodic pattern [13, 33], which indicates that we shouldalso capture the periodic time-varying changes in tweet volume.In this paper, we design an end-to-end model to predict thespatiotemporal tweet count sequence. Convolutional neural net-works (CNNs) are designed to account for the spatial dependencesof data. Zhang et al. [32] extend CNNs to account for temporaldependences by stacking spatial data of several consecutive timeframes as input to CNNs, i.e., they simply treat spatial data at dif-ferent time intervals as different channels of the input data. As aresult, the way of encoding the temporal dependences is the sameas that of spatial dependences, which may not be optimal. In thispaper, we propose to apply the convolution LSTM (ConvLSTM) [24]layer as the basic stack unit which has convolutional structuresin both the input-to-state and state-to-state transitions. In sucha way, the spatial dependences are encoded by convolutional fil-ters and temporal dependences are encoded by LSTM [10]. Bothconvolutional filters and LSTM play the role they are designed for.However, we notice that only using convolution LSTM cannot giveus the best results. One reason may be that both convolutional neu-ral network and LSTM are notorious for being highly non-convexand difficulty to converge to a good local minimum. Recent studies[16] have shown that using skip connections [6] can prevent theloss function from being chaotic, leading to a more convex lossfunction. Inspired by this and its effectiveness in many applications[6], we propose to add skip connections to our convolution LSTM.To further account for the temporal properties, we follow the ideaof ST-ResNet [32] and partition sequences into 3 subsets: closeness,period and trend corresponding to recent, near and distant history,respectively. Each of these subsets of sequences is then separatelyfed into our method to generate an individual prediction which isthen combined together to achieve the final prediction as discussedin [32]. We test the proposed method using two sets of geotaggedtweets collected for Seattle, WA and New York City. Our experi-mental results demonstrate that the proposed method consistentlyoutperforms the competitive baseline approaches.To reiterate, the contributions of this paper are threefold. First,we are the first to apply ConvLSTM to tweet count problem, inwhich both convolutional filters and LSTM play the role they aredesigned for. Second, we add skip connections to ConvLSTM, whichleads to a more convex loss function. It eases for the training pro-cedure to find a better local minimum. Third, the proposed methodachieved state-of-the-art results on two sets of geotagged tweets col-lected for Seattle, WA and New York city, showing the effectivenessof the proposed method.As time goes by, the tweet counts in a region may be formulated astime series data, which enables the exploitation of the techniqueslike historical average and autoregressive integrated moving aver-age (ARIMA) [9]. For example, TwitInfo [21] uses the weighted av-erage of historical tweet counts to compute the expected frequency131002 相关工作0推文计数在一个区域内随着时间的推移可能被制定为时间序列数据，这使得可以利用历史平均值和自回归积分移动平均（ARIMA）[9]等技术。例如，TwitInfo[21]使用历史推文计数的加权平均值来计算预期频率03方法0在本节中，我们首先在第3.1节中定义推文计数预测问题。接下来，我们简要回顾了我们模型中使用的一些关键技术，如卷积LSTM（ConvLSTM）[24]（第3.2节），深度残差网络[7]（第3.2节）和时间属性融合[32]（第3.4节）。最后，我们在第3.5节中介绍了我们模型的设计。03.1推文计数预测问题0推文计数预测的目标是利用先前观察到的局部区域的历史推文计数数据来预测下一个时间步的推文数量。在实践中，一个区域可以根据经度和纬度表示为一个M×N的网格地图。因此，时间步t的观察可以用一个张量Xt∈�M×N来表示，其中Xt(m, n)是时间步t时网格单元(m,n)中的推文计数。因此，推文计数预测问题可以如下定义：0Track:第9届国际社交媒体建模研讨会（MSM 2018）应用机器学习和人工智能建模社交媒体WWW 2018年4月23日至27日，法国里昂(1)13110定义3.1.推文计数预测问题P是生成一个预测YT，它是对XT的估计，给定一个历史观测值列表{Xt | t = 0, ..., T-1}。03.2卷积LSTM0图2：ConvLSTM的内部结构。LSTM矩阵乘法被替换为卷积。0长短期记忆（LSTM）网络是众所周知的循环神经网络之一，在许多应用中取得了巨大成功，如序列建模，特别是序列预测[5, 11,25]。尽管LSTM在建模序列的时间依赖性方面具有很强的能力，但当序列数据是多维的时，它忽略了空间信息。为了克服这个缺点，Shi等人[24]提出了卷积LSTM（ConvLSTM），它在状态到状态和输入到状态转换中创新地使用了卷积运算符（见图2）。ConvLSTM中的关键方程如下所示：it = σ(Wxi * Xt + Whi * ht-1 + Wci ◦ ct-1 +bi)0ft = σ(Wxf * Xt + Whf * ht-1 + Wcf ◦ ct-1 + bf)0ct = ft ◦ ct-1 + it ◦ tanh(Wxc * Xt + Whc * ht-1 + bc)0ot = σ(Wxo * Xt + Who * ht-1 + Wco ◦ ct +0ht = ot ◦ tanh(ct)0其中t从1迭代到T-1。变量Xt，ct，ht，it，ft和ot是表示输入值、细胞输出、隐藏状态、输入门、遗忘门和输出门的张量。σ是一个逻辑sigmoid函数。运算符◦表示Hadamard乘积，即矩阵的逐元素乘积。而*表示卷积运算符，而不是矩阵乘法，这与FC-LSTM[5]的一个关键区别。最后，W*和b*是需要在训练过程中学习的权重和偏置矩阵参数。03.3残差网络0众所周知，更深的网络可以建模更复杂的函数，因此更具表达力。然而，在实践中表现良好的网络通常不能太深。这是因为0(a)0(b)0图3：（a）残差ConvLSTM块。（b）ST-ResNet中的残差块。BN：批量归一化0梯度消失问题。为了避免这个梯度消失问题，并使得更深的网络设计成为可能，[6]提出了跳跃连接，直接将较低层的输出链接到较高层的输入。这种快捷方式已经被证明在训练过程中缓解了梯度消失问题，并在许多应用中取得了显著更好的性能。最近，[16]表明，跳跃连接还可以帮助防止损失函数变得混乱，导致更凸的损失函数，从而更容易找到一个好的局部最小值。本质上，残差构建块可以定义为：0Y = F(X) + X，(2)0其中X和Y是残差块的输入和输出张量。函数F表示几个卷积或ConvLSTM层[8, 32, 34]。在本研究中，我们始终使用ConvLSTM[24]来组装残差块，如图3所示。这与ST-ResNet[32]的区别在于，ST-ResNet使用了一个常规的卷积层，如图3所示。03.4时间属性融合0Zhang等人[32,33]指出，在时空数据序列中，对未来观测的预测不仅依赖于近期观测，还依赖于近期历史和远期历史。这种时间依赖性被建模为时间的接近性、周期性和趋势性。更具体地说，时间的接近性依赖序列是当前时间步之前一系列连续观测的长列表，可以用Xct = [Xt-lc,Xt-(lc-1), ...,Xt-1]表示。时间的周期性依赖序列是一个历史观测值的长列表，这些观测值是按照时间间隔p周期性选择的。0Track: 第9届社交媒体建模国际研讨会（MSM 2018）应用机器学习和人工智能进行社交媒体建模WWW 2018年4月23日至27日，法国里昂05010015020025030035040045050005101505010015020025030035040045050005101513120Xpt = �Xt−p ∙ lp Xt−p ∙ (lp−1) ∙ ∙ ∙ Xt−p ∙1�。类似地，时间趋势依赖序列是一个长为lq的历史观测列表，这些观测也是周期性选择的，但时间间隔为q：Xqt = �Xt−q ∙ lq Xt−q ∙(lq−1) ∙ ∙ ∙ Xt−1 ∙q�。在实践中，p设置为一天的周期以捕捉每日周期性，q设置为一周以揭示每周趋势。Xct、Xpt和Xqt中的每一个都分别输入到三个指定的神经网络中，这些网络具有相同的结构但具有不同的权重，以生成观测预测Yct、Ypt和Yqt。最后，采用基于参数矩阵的融合来组合三个输出Yct、Ypt和Yqt，以得到最终的预测Yt[32]，使用以下方程：0Yt = Wc ◦ Yct + Wp ◦ Ypt + Wq ◦ Yqt (3)0其中W*是平衡不同组件的权重矩阵。此外，还可以使用全连接层将一天中的时间和一周中的日期等特征合并到Yt中。03.5 构建我们的模型0在本节中，我们介绍用于推文计数预测的模型。我们模型的结构如图4所示。0图4：我们的模型。ResConvLSTM：残差ConvLSTM块；FCs：全连接层，即密集层。0与[32]类似，我们将我们的模型定义为具有三个分支：接近度，周期性和趋势，以在我们的数据中融入周期性信息。这是因为我们的数据显示出相邻时间步之间的正相关性，以及每日和每周模式等周期性。例如，图5绘制了西雅图和纽约市500个时间步长内的一个区域的推文计数。这两个区域是图7中标记的粗体网格单元。结果表明，我们的数据确实具有一定的时间周期模式。因此，为了预测时间步长t处的预期推文计数Yt，我们将历史观测结果分解为提取的接近度、周期性和趋势依赖序列Xct、Xpt和Xqt，这些序列在第3.4节中定义。然后，将这三个依赖序列分别输入到具有相同结构但不同权重的指定网络中，以获得三个预测Yct、Ypt和Yqt。这三个预测结果与元数据特征一起使用参数矩阵融合结合生成最终的预测Yt[32]，使用以下方程：0数据预测，使用基于参数矩阵的融合组合生成我们的最终预测，如第3.4节所讨论的。请注意，我们还可以定义我们的模型只有一个分支，它采用非常长的时间序列数据，以捕捉时间周期性属性。然而，这将引入大量的参数，不仅对内存要求高，而且使网络更难训练和收敛速度更慢。0时间步长0推文计数0(a)0时间步长0推文计数0(b)0图5：时间模式。（a）西雅图市；（b）纽约市。时间步长以30分钟为单位，从2016-06-15 18:30开始。0如图4所示，我们模型的每个分支具有相同的网络结构，包括一个输入ConvLSTM层，一个如图3所述的ResConvLSTM块，和一个输出ConvLSTM层。由于使用ConvLSTM而不是卷积层，例如[33]和[32]中的卷积层，我们的模型自然地将一系列序列作为输入，并且不必将长序列（例如Xct、Xpt和Xqt）连接成一个类似图像的张量。此外，输入ConvLSTM层和ResConvLSTM块的输出形式是与输入（如Xct、Xpt或Xqt）具有相同长度的序列列表。除了输出ConvLSTM层只有1个隐藏状态外，所有ConvLSTM层都配置为具有32个隐藏状态。由于我们只关注预测下一个时间步的预期时空推文计数，我们将输出ConvLSTM层设置为返回一个预测序列。我们将ConvLSTM中的滤波器大小定义为3×3。这是因为推文计数数据的空间相关性相当局部，即网格中的推文数量与附近网格中的推文数量相关，而不是与较远的网格相关。例如，图60Track: 第9届社交媒体建模国际研讨会（MSM 2018）应用机器学习和人工智能进行社交媒体建模WWW 2018年4月23日至27日，法国里昂(b)shows the histogram of moving distance of Twitter users during atime period of 3 hours in the city of Seattle and NYC, respectively.We notice that the majority of Twitter users travel less than 500meters, i.e. less than the size of a grid cell.Comparing with ST-ResNet [32], we replace its regular convo-lutional layers with ConvLSTM, as the latter is more powerful incapturing temporal dependence. Moreover, we stack only one resid-ual block, instead of multiple blocks, because we empirically noticethat adding more layers to our model cannot improve the perfor-mance of the model and sometimes results in over fitting. This alsocorresponds to the fact that Twitter users in our dataset usuallyhave shorter moving distances.Meta-data features such as time-of-day, day-of-week are alsoincorporated in the model to capture the regular time-varyingchanges. To achieve this, we stack two fully-connected layers. Thefirst is an embedding layer for features and the second maps fromlow to high dimensions to make the output have the same shape asthe target [32].We use two sets of geotagged tweets collected from 2015-07-09to 2017-09-30 in two cities: Seattle, WA (SEA) and New York City(NYC) to carry out all our experiments. The total number of tweetsin each dataset is 1, 025, 181 and 10, 084, 839 , respectively. Geo-tagged tweets are those that contain a pair of longitude and latitudecoordinates values which indicate their location. These geotaggedtweets are then aggregated into grid cells, which are 500m × 500msquares spanning from [47.579784, -122.373135] to [47.633604, -122.293062] in SEA, and from [40.647984, -74.111093] to [40.853945,13130(a)0图6：Twitter用户的移动距离直方图。我们只考虑在2016-06-1518:30开始的3小时时间段内有2个或更多地理标记推文的Twitter用户。用户的移动距离被计算为其地理标记推文中的GPS坐标之间的最大距离。04 实验0本研究中的所有实验都在Nvidia GPU QuadroP6000上完成，并使用Keras [4]库和TensorFlow[1]作为后端构建模型。04.1 数据集0在纽约市，我们分别对应于他们的大都市区域。两个网格地图分别如图7所示。请注意，图1和图8中的示例是在图7a的内部8×8网格单元上说明的，因为边界单元格上的推文很少。在本研究中，我们将时间步长的间隔定义为30分钟，这是在预测及时性和准确性之间的经验权衡。例如，预测任务更喜欢较短的时间间隔，因为它可以提供更及时的结果。然而，较短的时间间隔可能太小，无法聚合足够的推文来进行高质量的预测，因为推文的稀疏性。0图7：（a）西雅图的12×12网格地图。（b）纽约市的46×46网格地图。每个网格地图中的粗体单元格是所选区域，分别用于绘制图5。0去除垃圾推文我们将推文分为两类垃圾推文：（1）地理坐标值与城市中心之一相同的推文。因为这些推文很可能是由账户发布的，这些账户只是给出一个名义上的位置地址（例如“西雅图，华盛顿州”和“纽约市”），然后由Twitter位置服务自动地将其地理解码为城市中心。这些账户发送地理定位的垃圾推文，例如“@tmj_sea_legal1”，它们很不可能确切地位于城市中心。我们在此步骤中删除了西雅图和纽约市的224,335和0条推文。（2）由行为更像机器人的可疑Twitter用户发布的推文，例如在完全相同的位置发布超过5条推文，其中有3条或更多的推文在1分钟内发送。我们在此步骤中删除了西雅图和纽约市数据集的204,800和44,389条推文。在过滤掉垃圾推文后，西雅图和纽约市数据集中分别有756,457和9,880,039条推文。归一化推文计数的值使用最小-最大归一化[32]缩放到[-1,1]。因此，对输出应用tanh激活函数以加快收敛速度[14,32]。为了与真实值进行比较，预测值被缩放回正常范围。训练我们将两个城市的数据分为训练集和测试集，其中测试集包含观测序列的最后28天的数据，其余数据属于训练集。这样做，西雅图市有18,624个训练样本和1,344个测试样本，纽约市有26,304个训练样本和1,344个测试样本。0研讨会：第9届社交媒体建模国际研讨会（MSM 2018）应用机器学习和人工智能进行社交媒体建模WWW2018，2018年4月23日至27日，法国里昂13140两个城市的训练样本数量的差异是由于偶尔缺少某些天的数据。按照[32]的方法，我们的训练过程包含两个步骤。（1）为了找到我们模型的良好初始化，我们首先使用90%的训练数据训练我们的模型，将剩下的10%作为验证数据。在此步骤中，我们根据验证损失应用早停策略。（2）之后，我们继续在所有训练数据上训练我们的模型，训练固定的轮数（例如100轮）。训练过程中使用的损失函数是均方误差。默认情况下，周期性和趋势间隔p和q分别设置为一天和一周。依赖序列的长度设置为lc = 3，lp = 1和lq = 1。04.2 基线方法0我们选择以下七种方法作为基线方法：•ZERO：一种简单的基线方法，对所有推文计数产生0的预测。•ARIMA：自回归积分滑动平均（ARIMA）模型是一种用于理解时间序列数据或预测系列中未来点的时间序列分析模型[9]。•SARIMA：季节性ARIMA，此外还考虑可能的季节效应。•Eyewitness：Eyewitness[13]使用梯度提升回归器通过考虑一天中的时间、一周中的日期和邻近区域的推文计数等特征来训练回归函数。•ST-ResNet：ST-ResNet[32]是用于时空数据预测的最先进方法，是一种强大的基线方法。与提出的方法不同，它使用常规卷积层而不是卷积LSTM层。默认情况下，ST-ResNet使用一个残差块，在我们的数据集上取得最佳结果。在第4.4.4节中将进一步探讨堆叠多个残差块的效果。• ConvLSTM ×3：一种基线方法，简单地堆叠了三层ConvLSTM，以对比残差块与ConvLSTM层的有效性。它在图4中用ConvLSTM层替换了残差ConvLSTM块。• ConvLSTM ×4：一种基线方法，堆叠了四层ConvLSTM，以对比残差块中的跳跃连接的有效性。我们通过简单地去除我们提出的模型中的跳跃连接来定义这个模型。04.3 评估指标0结果通过均方根误差（RMSE）进行衡量：01n0n0i = 1 (Yi − Xi)2 (4)0其中n是测试样例的数量，Yi和Xi分别是预测值和真实值。04.4 实验结果0我们首先通过两个预测示例进行说明，然后比较我们提出的方法与第4.2节中提到的六个基线方法。然后我们研究了0时空依赖序列和更深的神经网络的效果。图8展示了使用我们的模型对图1中的两个推文计数分布示例进行预测的结果。每个网格单元中的符号采用“预测|真实值”的形式，指的是预测与真实推文数量的对比。红色数字是预测值。单元格中没有符号表示与真实值匹配。结果显示，这两个预测通常与真实值非常匹配，能够捕捉到推文的整体分布，并且仅在推文计数较大的网格单元中产生轻微差异。错误主要是由于对只有一条推文的网格单元预测为空推文。这种情况相对来说是随机的，因为这样的推文的出现可能是零散的，这使得预测变得困难。00 | 1100 | 100 | 100 | 102 | 3 1 | 2 1 | 408 | 706 | 402 | 000 | 101 | 2 1 | 0 1 | 006 | 705 | 402 | 402 | 60图8：（a）2016年7月16日17:00-17:30在西雅图市中心周围的推文数量分布的预测示例。（b）2016年7月16日17:30-18:00在西雅图市中心周围的推文数量分布的预测示例。（每个网格单元中的符号采用“预测|真实值”的形式，指的是预测与真实推文数量的对比。红色数字是预测值。单元格中没有符号表示与真实值匹配。）0表1：西雅图和纽约市的比较结果（RMSE）0方法西雅图纽约0ZERO 0.6353 1.20540ARIMA 0.5117 0.53010SARIMA 0.5242 0.53400Eyewitness 0.4580 0.53320ST-ResNet 0.4344 0.51660ConvLSTM × 3 0.4659 0.52320ConvLSTM × 4 0.4557 0.52780我们的模型 0.4164 0.487904.4.1与基线方法比较。表1显示了两个城市（西雅图和纽约市）上七种基线方法和提出的方法的结果。对于每个网格，简单地生成0的预测（ZERO）0研讨会：第9届社交媒体建模国际研讨会（MSM 2018）应用机器学习和人工智能进行社交媒体建模WWW2018，2018年4月23日至27日，法国里昂(0, 0)(0, 1)(1, 0)(1, 1)0.90.80.70.60.50.4Our Model (SEA)ST-ResNet (SEA)Our Model (NYC)ST-ResNet (NYC)1234560.60.50.4Our Model (SEA)ST-ResNet (SEA)Our Model (NYC)ST-ResNet (NYC)01240.500.480.460.440.420.413150残差卷积LSTM块的数量04.4.2周期性和趋势依赖性的影响。我们现在研究了我们的模型在使用和不使用周期性和趋势信息时的性能。我们将相应的长度变量 l q （ l q）设置为0或1，以指示模型是否配置为使用此类信息。结果如图9a所示。结果显示，仅使用接近度信息可能比基线方法表现更差，从而证明了利用周期性和趋势依赖性序列的必要性。然而，在本研究中，我们发现较长（>2）的周期性和趋势依赖性序列并不总是能够获得更好的准确性。0（l p , l q ）设置0l c ：接近度序列的长度0图9：（a）使用周期性和趋势依赖性的影响。（b）接近度序列长度的影响。请注意，曲线越高，RMSE值越小。04.4.3接近度序列长度的影响。在本小节中，我们研究了更长的接近度序列是否可以提高ST-ResNet方法和我们的模型的性能。结果如图9b所示。可以看到，当长度开始增加时，两个模型都能够实现稍微更好的准确性，但是当 l c达到4时，性能饱和或变差。一个可能的原因是较长时间前发生的推文对于预测当前时间的推文可能提供的信息不多。同时，我们的模型比ST-ResNet获得更高的收益，因为循环结构在捕捉时间信息方面更强大。此外，我们注意到，ST-ResNet对较长时间前发布的推文更敏感，当 l c = 4（西雅图）和 l c = 5（纽约市）时，性能急剧下降。04.4.4构建更深的网络的影响。总的来说，我们发现在我们的ResConvLSTM方法中堆叠更多的残差ConvLSTM块并没有显著的收益。以西雅图为例，图10展示了堆叠{0, 1, 2, 4}个残差块的结果。0通过使用均方根误差（RMSE）指标来比较不同残差块的数量。结果显示，两个或更多的层不能保证获得更好的结果，尽管如果根本不使用残差块，性能会下降。当在基线方法ST-ResNet中堆叠更多的残差卷积块时，情况类似。我们认为这是由于以下两个原因：（1）如[16]所讨论的，更深的网络通常具有更混乱的损失函数，使得它们难以训练。（2）更深的网络更容易过拟合。0残差块的数量0我们的模型（SEA）ST-ResNet（SEA）0图10：在西雅图市堆叠更多的残差块的结果。05 结论0在本文中，我们提出了一种新颖的残差卷积LSTM模型来预测推文数量。实质上，我们利用ST-ResNet[32]的框架来模拟时空推文计数数据的时间属性，如接近度、周期性和趋势依赖性。为了更好地捕捉序列之间的时间相关性，我们使用ConvLSTM层而不是常规卷积层作为网络的构建块。为了使网络更容易训练，我们添加了跳跃连接。我们在两个城市的地理标记推文上评估了所提出的方法：西雅图和纽约市。我们的实验证明了所提出的方法优于基线方法，并取得了最先进的结果。我们进行了消融研究，并确认了利用时间属性周期性和趋势的必要性。最后，由于Twitter用户的空间移动活动较少，加上某些空间区域的数据稀疏性，我们发现堆叠更多的残差块来构建更深的网络并不总是能够获得更好的准确性。在本地位置预测推文数量有许多潜在的应用，例如异常和事件检测[13]。在未来，我们将在本地新闻检测[12, 23, 28,29]上利用我们的方法。我们的直觉是，如果某个位置的推文数量突然发生异常变化（如显著增加），那么可能意味着那里发生了某些事情。具体而言，可以首先对下一个时间步骤中出现在某个位置的推文数量进行预测。如果预测值明显小于实际推文数量，那么可能被视为异常，这可能对应于一个本地事件。此外，我们还可以研究预测某个位置的Twitter用户数量的可能性。这有许多应用。0Track：第9届社交媒体建模国际研讨会（MSM 2018）应用机器学习和人工智能进行社交媒体建模WWW2018，2018年4月23日至27日，法国里昂13160例如，人口估计和城市范围内的人类流动性监测等方面。此外，将当前模型扩展到没有嵌入GPS坐标的推文也是有趣的。我们计划通过应用地理标记过程[17-19, 22, 27]来解决这个问题。06 致谢0我们要感谢微软研究院的John Krumm博士和JinLi博士提供的支持资金和

下载后可阅读完整内容，剩余1页未读，立即下载