多任务学习改善了基于Web搜索的疾病模型

25 浏览量更新于2023-10-16 收藏 14.19MB PDF 举报

多任务学习

Web搜索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CAORWAMTIDNVUTAZWYCONMTXOKKSNESDNDMNWIIAILMOARLAMSALGAFLSCNCTNKYINMIOHWVVAMDDEPANJNYCTMAVTNHMERIAKHI870多任务学习改善了基于Web搜索的疾病模型0伦敦大学学院计算机科学系，英国，bin.zou.14@ucl.ac.uk0伦敦大学学院计算机科学系，英国，v.lampos@ucl.ac.uk0Ingemar Cox �0伦敦大学学院计算机科学系，英国，i.cox@ucl.ac.uk0摘要0我们研究了利用多任务学习进行疾病监测的效用。我们的动机有两个方面。首先，我们评估了同时为不同地理区域（国内或跨国）训练模型是否能提高准确性。我们还测试了这些模型是否能够帮助产生零星疾病监测报告的健康系统，从而减少可用的训练数据的数量。我们探索了线性和非线性模型，具体包括弹性网络的多任务扩展和多任务高斯过程，并将它们与各自的单任务公式进行了比较。我们以类似流感的疾病为案例研究，并在美国以及英国进行了实验，获取了健康和谷歌搜索数据。我们的实证结果表明，多任务学习改善了美国的区域和全国模型。当历史训练数据从5年减少到1年时，平均绝对误差的改进百分比增加了14.8%，说明即使在相对较短的时间间隔内进行训练，仍然可以得到准确的模型。此外，在模拟的情景中，只有少量健康报告（训练数据）可用时，我们展示了多任务学习有助于在所有受影响的地点上保持稳定的性能。最后，我们呈现了一个跨国实验的结果，美国的数据改善了对英国的估计。随着英国的历史训练数据减少，多任务学习的好处增加，将平均绝对误差降低了高达40%。0CCS概念0• 信息系统 → 网络挖掘；• 应用计算 → 健康信息学；• 计算方法学→ 通过回归进行监督学习；多任务学习；• 计算理论 → 高斯过程；0关键词0网络搜索；用户生成的内容；疾病监测；多任务学习；正则化回归；高斯过程0� 也在丹麦哥本哈根大学计算机科学系工作。0本文以知识共享署名4.0国际（CC BY4.0）许可证发表。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发表。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860500HHS地区0区域10区域20区域30区域40区域50区域60区域70区域80区域90区域100图1：美国卫生与人类服务部（HHS）指定的10个地区。01 引言0在线用户生成的内容包含了大量关于用户离线行为或状态的信息。在过去的十年中，用户生成的内容已经在各个科学领域得到了应用，包括社会科学[5, 21,25]、心理学[26, 39, 46]和健康领域[14, 22,29]。在健康方面，用户生成的内容具有实时和廉价的优势，涵盖了可能无法接触到传统医疗系统的人群。因此，它可以促进新颖的方法，为传统的疾病监测方案提供补充性的见解。现有的基于用户生成内容的疾病监测算法主要基于监督学习范式[17, 22, 31,42]。这些框架提出了单任务学习的解决方案，没有考虑不同地理位置的数据之间的相关性。它们也没有考虑到在一个或多个地理位置上训练模型时可用的健康报告数量显著较少的情况。在本文中，我们研究了多任务学习的效用，以利用这些相关性来改善整体性能，并弥补一个或多个地理位置的训练数据不足。多任务学习可以同时训练多个疾病模型。与单任务学习相比，它有可能通过利用数据中的共享结构来提高模型的泛化能力。先前的研究表明，这可能导致显著的性能提升[2, 4, 6, 8, 13, 20,32]。在这个背景下，我们研究了利用Web搜索数据进行疾病监测的多任务学习的效用。我们的动机有两个方面。首先，我们评估了同时为不同地理区域（国内或跨国）训练模型是否能提高准确性。我们还测试了这些模型是否能够帮助产生零星疾病监测报告的健康系统，从而减少可用的训练数据的数量。我们探索了线性和非线性模型，具体包括弹性网络的多任务扩展和多任务高斯过程，并将它们与各自的单任务公式进行了比较。我们以类似流感的疾病为案例研究，并在美国以及英国进行了实验，获取了健康和谷歌搜索数据。我们的实证结果表明，多任务学习改善了美国的区域和全国模型。当历史训练数据从5年减少到1年时，平均绝对误差的改进百分比增加了14.8%，说明即使在相对较短的时间间隔内进行训练，仍然可以得到准确的模型。此外，在模拟的情景中，只有少量健康报告（训练数据）可用时，我们展示了多任务学习有助于在所有受影响的地点上保持稳定的性能。最后，我们呈现了一个跨国实验的结果，美国的数据改善了对英国的估计。随着英国的历史训练数据减少，多任务学习的好处增加，将平均绝对误差降低了高达40%。0Track：2018年4月23日至27日，法国里昂举行的Web上的健康会议argminw,β∥y − β − Xw∥22 + λ1 ∥w∥22 + λ2 ∥w∥1,(1)argminW,β∥Y − β − QW∥2F + λ1 ∥W∥2,1 + λ2 ∥W∥2F,(2)∥W∥2,1 =p�i=1��∥W∥F =�� p�i=1m�j=1W 2ij .(4)Track: Health on the WebWWW 2018, April 23-27, 2018, Lyon, France880在疾病建模方面，我们研究了当（a）对于多个地理位置，特别是美国的地理区域，有可用的训练数据时，它是否能够提供疾病率的改进估计，以及（b）当地面真实训练数据（健康报告）是零星的时候。此外，我们还研究了利用参考国家更密集的健康报告方案来估计不同国家的疾病率的效用。我们探索了线性和非线性回归模型，即多任务弹性网络[35]和多任务高斯过程[11]，并将它们与各自的单任务公式进行比较。我们以类似流感的疾病（ILI）为案例研究，并在美国（全国和地区）和英国进行了估计ILI率的实验。我们的实验结果表明，多任务学习模型改善了基于Google搜索数据的美国地区和全国ILI率估计。随着历史训练数据的减少，改进的百分比增加了14.8％，以平均绝对误差为指标，这表明多任务学习可以在使用更少的训练数据的情况下促进准确模型的推导。我们还模拟了部分地面真实数据可用的情况，可能是由于意外原因（自然灾害，传播性流行病，技术问题）或公共卫生系统的限制。我们的实验结果表明，多任务学习模型可以缓解这些影响。最后，我们将多任务学习应用于跨国设置，其中一个国家的完整数据可以改进另一个国家的模型，而后者的健康报告不足。在这种情况下，它被证明可以在与来自美国的数据共同训练模型的假设下改善英国的ILI率估计（平均绝对误差减少了40％）。以下是本文的主要贡献摘要：（1）这是第一项评估多任务学习在基于Web搜索数据的传染病监测中的效用的工作。（2）我们以ILI为案例研究，并展示了多任务学习模型的改进：（a）美国的地区和全国疾病模型，（b）在假设历史健康报告越来越有限的情况下（通过应用三种不同的采样方法进行模拟），美国地区疾病模型，以及（c）英国的国家级疾病模型，当与来自不同但文化相似的国家（美国）的数据一起进行训练时。02 方法0我们首先对疾病建模任务进行描述，包括单任务和多任务学习设置。然后，我们介绍了在线性和非线性技术中用于进行单任务和多任务回归的实验中使用的技术。02.1 任务描述0我们的目标是利用Web搜索查询的频率来推断由一个已建立的健康监测系统报告的疾病率。我们将其作为回归任务来制定，其中我们学习一个函数f：X→y，将输入空间X∈Rn×p映射到目标变量y∈Rn；n表示样本数量，p是我们特征空间的大小，即唯一搜索查询的数量。0考虑。X包含归一化搜索查询频率的时间序列，y表示与健康机构报告的相同时间点的疾病率。归一化查询频率定义为查询计数除以固定时间间隔（例如一周）内的总搜索次数。在多任务疾病率推断中，我们同时为多个不同的地理位置（任务）建模疾病率。使用张量Q∈Rn×p×m来表示我们的输入数据，其中m个任务。1Q可以简单地解释为X的m个版本；在脚本的其余部分，我们使用Qj来表示它们，其中j指的是第j个任务或地理位置。Q的一个元素Qtij表示位置j在时间间隔t内查询i的归一化频率。相应的目标变量，即m个位置的疾病率，用Y∈Rn×m表示。类似地，我们使用Yj来指代位置j的疾病率。基于上述公式，我们的任务现在是学习一个函数f，使得f：Q→Y。02.2 线性正则化回归0线性回归器已成功应用于从网络搜索和社交媒体数据进行疾病监测[17, 22,28–30]。我们使用弹性网络[56]来训练线性回归模型。它可以看作是ℓ 1-范数正则化（称为套索[48]）的扩展，它在推断的权重向量上加入了ℓ 2-范数或岭[24]正则化器。弹性网络鼓励稀疏解，从而进行特征选择。同时，它解决了输入空间中存在共线预测变量时出现的模型一致性问题[23]。0弹性网络（EN）。给定输入矩阵 X 和观测值 y，线性回归的形式为 y= Xw + β，其中 β 是截距项，w ∈ R p是权重向量。弹性网络[56]通过最小化来估计 w 和 β0其中 λ 1 和 λ 2 是正则化参数，∥∙∥ 1 ，∥∙∥ 2 分别表示 ℓ 1 -范数和ℓ 2 -范数。0多任务弹性网络（MTEN）。我们将标准弹性网络模型扩展为多任务版本[53]。它由以下优化任务指定0其中 W ∈ R p × m ，β ∈ R m 是所有 m个任务的权重矩阵和截距向量，范数 - ℓ 2,1 和 Frobenius ( F )分别由以下公式给出0j = 1 W 2 ij 和 (3)01 注意，样本数 n 可能对于不同位置（任务）是不同的。2008200920102011201220132014201520160246810ILI rates (%)HHS R1HHS R2USf xµ x ,k x, x′,(5)k(x, x′) = σ2 exp −∥x − x′∥222ℓ2+ σ2n · δ(x, x′) ,(6)µ∗ = K(x∗, X)⊤K(X, X)− y ,σ2 = K(x∗, x∗) − K(x∗, X)⊤K(X, X)−1K(X, x∗) ,(8),(13)890时间（周）0图2：美国（全国水平）以及美国地区1和2的每周ILI率（来自CDC）。02.3 非线性回归0我们还使用高斯过程部署非线性回归模型，因为先前的研究表明查询频率和疾病率之间的关系更好地被非线性函数捕捉到[31, 33, 34,50]。0高斯过程（GP）。GP模型[45]假设函数 f : X → y是一个函数的概率分布，表示为0其中 x , x ′ 是输入矩阵 X 的行，µ ( x ) 是过程的均值函数，k ( x , x ′ )是协方差函数（或核函数），用于捕捉输入观测之间的关系。我们假设 µ( x ) =0，并使用带有噪声的平方指数核作为我们的协方差函数。它的定义如下0其中 ℓ 是长度尺度参数，δ 是Kronecker delta函数，σ 2 ，σ 2 n是表示总体方差的缩放常数。在高斯过程中，可以使用条件分布 p ( y� | x � , X , y ) � N( µ � , σ 2 � ) 进行预测（ y � ），其中 x �表示新的观测值。根据假设 µ ( x ) = 0，µ � 和 σ 2 � 的计算公式如下0其中K是通过逐元素应用公式6得到的协方差矩阵。GP模型的超参数θ= {σ, ℓ, σ n}通过最小化负对数边缘似然[45]来学习，给定为0argminθ0� 102 y � j (K(X, X)) − 1 − 102 log |K(X, X)| − 02 log 2 π �. (9)0多任务高斯过程(MTGP)。Bonilla等人[11]将GP模型扩展为多任务版本(MTGP)，并在各种任务中使用，包括自然语言处理应用[7,15]。MTGP模型包含所有的m个任务0将任务合并为一个由以下公式定义的单个GP0f(Q) � GP(µ M (x), k M (x, x ′), (10)0其中x和x ′分别是任务j和j ′的输入。与单任务GP一样，我们假设µ M(x) = 0。MTGP的协方差函数k M (x, x′)是通过在公式6的核函数上放置一个GP先验得到的，因此我们直接引入了任务之间的相关性[11]。它由以下公式给出0k M (x, x ′) = k c (j, j ′) × k x (x, x ′), (11)0其中k c是解释任务j和j ′之间关系的相关性核函数，kx是解释输入x和x′之间关系的协方差函数。这种方法也被称为内在相关模型[49]。设KM为Q的协方差矩阵，K c为任务相关矩阵，Kx为输入的协方差矩阵。我们将K M 定义为0K M = K c � K x, (12)0其中�表示Kronecker积。假设Kc是一个有效的协方差矩阵(满足Mercer定理)。它的对角元素描述了任务与自身的相关性，非对角元素对应于任务之间的相关性。可以使用Cholesky分解构造它，并由下三角矩阵的元素参数化0K c (j, j ′) = JJ �, J =0θ c 1 0 . . . 0 θ c 2 θ c 3 . . . 0 ... ... ...... θ c ζ − m + 1 θ c ζ − m + 2 . . .θ c ζ0�� 0其中θ c = {θ c u}，u ∈ {1, 2, ..., ζ}是K c的超参数集，其中ζ = m(m+ 1)/2。MTGP的推断和超参数学习与单任务GP类似[11,18]。给定一个新的数据点x �，对于任务j，可以使用条件分布p(y � | x �,Q, Y) � N(µ j �, σ 2 j �)进行预测，其中0µ j � = � k c j � k x � � � K − 1 M Y, and (14)0σ 2 j � = K M + D � I . (15)0Track: Health on the Web WWW 2018, April 23-27, 2018, Lyon, Franceeq = 1zz�i=1eεi .(16)S(q, T) =i=1cos(eq, eTi ) ,(17)900在上述方程中，k c j是K c的第j列，k x �是x�与训练点之间的协方差向量，D是一个m×m矩阵，其中(j,j)元素是噪声方差(σ 2 j)0对于第j个任务。03 实验0我们的实验评估了许多不同的疾病建模场景，我们预计多任务学习将产生积极影响。我们重点关注ILI率的估计，这是一个经过充分研究的任务[22, 31,43]。我们感兴趣的地点是美国的全国水平、美国卫生与人类服务部(HHS)定义的美国地区以及英国。03.1 数据集和实验设置0ILI率来自卫生机构。对于美国，我们使用美国疾病控制与预防中心(CDC)的每周ILI率。这些率表示所有门诊就诊的平均百分比，按各自地区的人口数据进行归一化，并由CDC的ILI监测网络ILINet记录。CDC考虑的10个HHS美国地区如图1所示。我们的数据跨越从2007年9月1日到2016年8月31日的时间段(包括两个日期)，其中包括CDC定义的9个连续流感季节。每个(扩展的)流感季节从9月1日开始，到下一年的8月31日结束。为了提供更多的见解，我们在图2中绘制了美国地区1、2和整个美国的ILI率。正如预期的那样，我们看到时间序列之间存在很强的相关性，但每个信号可能在流感季节的不同时刻达到峰值。对于英国，我们通过皇家全科医生学院开发的综合监测网络从英国公共卫生部(PHE)获得每周ILI率。我们关注与美国相同的时间段。0搜索查询频率。我们使用Google Correlate3进行迭代，从流感相关的查询种子（如‘flu’一词）开始，获得了1641个候选搜索查询。然而，由于现有的季节性混淆因素，我们最终得到的许多候选查询，如‘college basketball’或‘springbreak’，与流感无关。为了以一种有原则的方式去除这些无关的查询，我们应用了使用词嵌入指定的主题过滤器。过滤过程类似于我们在[34]中提出的过程，但没有负上下文的概念。嵌入是使用word2vec在Google新闻上进行训练的[40]。我们将查询q视为一组z个文本标记{ ε1 , . . . , εz }。查询q的嵌入e q是通过对其标记的嵌入进行平均计算得出的。0我们将关于流感的主题T定义为两个与流感相关的术语的集合，具体而言是疾病的名称和其主要症状之一，T = { ‘flu’ , ‘fever’ }。对于每个查询，我们计算一个相似度分数，定义为两个概念查询之间的余弦相似度的乘积。0参见 gis.cdc.gov/grasp/fluview/fluportaldashboard.html 3 Google Correlate,google.com/trends/correlate 4 这些嵌入是从 code.google.com/archive/p/word2vec下载的。具体的训练设置详见[40]。0即T和e q之间的术语嵌入的余弦相似度，即0其中每个余弦相似度分量通过(cos(∙ , ∙) + 1) / 2映射到[0, 1]。当S ≤0.5时，过滤掉查询，并且在我们的实验中不予考虑。0.5的阈值确保即使在极端情况下，候选查询与两个概念查询之一具有完美的余弦相似度（等于1），它也需要与另一个概念查询具有非负的余弦相似度（在[0,1]映射之前）。语义过滤器成功地消除了一些混淆特征，即可能与ILI率高度相关但涉及不同主题的查询。0我们在应用上述词嵌入过滤器后保留了128个搜索查询。通过私人的Google Health TrendsAPI，我们检索到了这些查询的频率，该API是为了健康相关的学术研究而提供的。查询频率表示在特定地理区域和特定时间段内进行的短期搜索会话的概率。该概率是基于所有Google搜索的10-15%样本估计得出的。我们从2007年9月1日到2016年8月31日（包括这两个日期）获取了美国各州和美国、英国的全国级别的每日频率。每周频率是通过对每日频率进行平均计算得出的。类似地，美国地区频率是通过对各州级别频率进行平均计算得出的。0基线、评估和参数学习。为了证明多任务学习模型的有效性，我们将MTEN和MTGP与它们的单任务形式EN和GP进行比较。我们使用皮尔逊相关系数（r）和推断和目标ILI率之间的平均绝对误差（MAE）作为评估指标。对于报告多任务学习模型的性能，我们使用不同测试周期在所有任务（位置）上的平均MAE和相关性。通过使用应用于比较的两种方法在所有位置上的平均MAE，我们使用配对样本t检验来测试性能改进的统计显著性。在我们的结果中，我们使用星号（�）表示性能差异在0.05水平（p值≥0.05）上没有统计显著性。为了学习线性模型的正则化参数，我们在训练数据的20%上进行网格搜索；所有模型都在剩余80%的训练数据子集上进行训练。我们首先使用来自前ϕ个流感季节的数据训练模型，并在接下来的一个季节（ϕ +1）中测试模型。然后，我们增加训练数据，包括一个更多的流感季节（ϕ + 1），并在接下来的一个季节（ϕ +2）中进行测试；我们重复这个过程，直到在我们的数据集中测试了最后一个流感季节。在训练模型之前，我们只保留与目标ILI率具有皮尔逊相关系数高于某个阈值的搜索查询。05这解决了基于不同符号组合的误导性相似度得分。6所有候选查询以及它们的相似度得分都列在github.com/binzou-ucl/google-flu-mtl上。7对于英格兰的实验，两个涉及美国药物的查询被英格兰等效药物替换（请参见第3.4节）。8搜索会话可以看作是一个时间窗口，其中可能包含来自用户帐户的多个连续搜索查询。因此，目标搜索查询被确定为搜索会话中潜在较大查询集合的一部分。0会议：2018年4月23日至27日，法国里昂的Web健康领域2468201320142015201624681234562013201420152016123456910ILI率（%）0L = 5年 GP MTGP CDC0时间（周）0ILI率（%）0L = 1年0图3：使用L = 5年和L = 1年的训练数据，比较GP（红色）和MTGP（蓝色）对美国ILI估计的结果。0ILI率（%）0γ = 0.5 GP MTGP CDC0时间（周）0ILI率（%）0γ = 0.10图4：对于两种突发错误采样（类型C）率（γ），比较GP（红色）和MTGP（蓝色）对美国地区9的ILI估计。0.3与相应的疾病率（每个位置）。这个相关阈值的选择是基于我们在[34]中进行的大量实验（请参见该论文中的表3）。请注意，相关过滤器分别应用于每个训练数据集，并且可能会导致在每个任务中保留不同的特征。在这种情况下，我们保持任务之间的特征交集。此外，GP和MTGP模型是在这些特征上进行训练的。0这些特征是由相应的弹性网模型赋予非零权重的，类似于[31]中提出的方法。03.2美国地区和全国ILI监测任务的多任务学习0首先，我们研究了多任务学习是否可以提高区域美国模型对ILI率的估计准确性。我们0会议：2018年4月23日至27日，法国里昂的Web健康领域5.928.347.935.344∗.936.335.944.330∗1.845.531.858.491.844.535.867.467ENMTENGPMTGPLrMAErMAErMAErMAE5.960.353.962∗.351∗.965.253.966∗.245∗4.951.356.954∗.353∗.947.265.949∗.251∗3.939.398.945.374.942.286.947∗.2682.930.408.936.362.933.351.941.3231.854.531.868.464.854.513.875.437920表1：用于估计美国HHS地区ILI率的单任务和多任务学习模型的性能。L表示训练期的长度（年）。0EN MTEN GP MTGP0L r MAE r MAE r MAE r MAE03.912 .398 .921 .385 � .916 .382 .929 .369 �0星号（�）表示多任务学习模型与其单任务形式相比没有统计显著的改进。0在训练样本数量减少的情况下，我们测试了假设，其中历史数据的年份L从5年变化到1年。通过这样做，我们还可以评估在历史训练数据有限的情况下，多任务学习模型是否能够产生积极影响。多任务学习模型是在10个美国HSS地区的数据上共同训练的，并将其性能与单独学习这些模型时的性能进行比较。表1列举了上述比较的性能。我们观察到，总体上，多任务学习模型在MAE和相关性方面的表现优于单任务模型。此外，非线性模型往往优于线性模型。然而，只有当历史训练数据使用L≤2年时，多任务学习才能在MAE方面取得统计显著的性能提升。对于L=1的情况，MTEN将EN的MAE降低了7.5％，而MTGP将GP的MAE降低了12.7％。接下来，我们通过添加美国的全国级数据来扩展我们的观察。因此，我们现在考虑11个任务（美国加上10个美国地区）。目标是通过以多任务学习的方式将其与地区数据一起训练，以获得更好的全国级模型。表2中列举的结果证实了这一点。当L≤3时，多任务学习的影响更大且在MAE方面具有统计显著性。09表中的数字表示在10个美国地区和4个测试期间的平均性能。为了更清楚地说明，所有单任务（L = 1）的个体性能估计都在github.com/binzou-ucl/google-flu-mtl上列出。0表2：用于估计美国流感发病率的单任务和多任务学习（包括区域数据）模型的性能；符号约定如表1所示。0星号（�）表示多任务学习模型与其单任务形式相比没有显著改进。0年。最大的改进发生在L =1的情况下；在这种情况下，MTEN将EN的MAE减少了12.6％，而MTGP将GP的MAE减少了14.8％。在图3中，我们比较了GP和MTGP模型对2012年至2016年（4个流感季节）美国流感发病率的估计值，这两个模型在两个不同的训练数据长度（5年与1年的历史数据）和CDC报告的发病率之间进行了比较。即使在5年的训练期间，两个模型之间的平均性能差异很小，我们仍然可以看到GP在2012/13流感季节的高峰期有明显的过度预测，而MTGP没有。底部子图中，当L =1年时，更清楚地展示了应用多任务学习方案所获得的改进水平；MTGP提供了一个相当准确的模型，尽管它是在少量样本上进行训练的。这是一个重要的特点，因为它表明我们可以用比以前考虑的历史数据少得多的数据开发准确的疾病流行模型[22, 29, 31]。03.3 减轻零星流感健康报告对多任务学习的影响0在许多实际场景中，健康监测报告是或可能变得时间上和/或地理上零星的。例如，特别是在发展中国家，综合监测网络可能只关注少数地区而不是整个国家，这是由于基础设施和经济限制。此外，已建立的健康监测方案可能会因为技术故障、自然灾害或传播性流行病而导致数据丢失，在这些情况下，医生就诊可能会受到阻碍。在下面的实验中，我们评估多任务学习是否可以帮助我们在各种零星健康报告情况下建立更准确的疾病模型。为了评估这一点，我们对几个美国HHS地区的训练数据进行了多种形式的下采样。所有实验都是在设置L =1的情况下进行的，即基于1年的训练期间，结果代表50次采样试验后的平均性能。我们应用了以下采样技术：（A）随机每周采样，（B）随机每月采样和（C）随机突发错误采样。在（A）中，我们只是从我们的数据中随机采样，从而模拟特定周的报告可能丢失的情况。在（B）中，我们首先将数据分成不重叠的月份，然后在这些月份上进行随机采样，从而模拟健康系统可能受到较长时间影响的情况。最后，在（C）中，我们随机丢弃一个连续时间段的数据点，并仅使用剩余的数据点。我们应用采样率γ = {0.1, 0.2,..., 1}，其中γ = 1表示使用所有数据（不进行采样），γ =0.1表示保留10％的每周数据（对于A）或每月期间（对于B）。在C中，γ确定错误块B的大小，B =(1-γ)τ，其中τ等于训练数据的大小。在所有实验中，我们是按位置进行采样，这意味着训练数据中的时间点可以在不同位置之间变化。0我们还进行了采样在地区之间进行时间同步的实验，但我们没有观察到性能结果上的显著差异。由于空间限制，我们只报告了非同步的结果。0图5：比较EN（虚线）、GP（虚线）、MTEN（点划线）和MTGP（实线）在估计美国HHS地区（除了地区4和9）的ILI率时，在不同爆发性错误采样（类型C）率（γ）下的性能差异。1.00.90.80.70.60.50.40.30.20.10.50.60.70.80.91.05.885.696.896.491.891.599.903.4744.873.734.887.504.880.664.894.4913.860.788.876.530.868.742.883.5172.854.842.871.554.859.815.875.5281.836.999.857.603.846.977.860.586930表3：单任务和多任务学习模型在属于R-odd的美国HHS地区上估计ILI率的性能，使用三种采样方法（A、B和C）对R-odd地区的训练数据进行降采样，采样率为γ。0EN MTEN GP MTGP0γ r MAE r MAE r MAE r MAE01.0 .825 .492 .843 .488 � .828 .502 .856 .4600A00.9 .823 .504 .840 .494 � .825 .503 .852 .465 0.8 .806.512 .839 .498 � .817 .505 .850 .465 0.7 .805 .523 .834.499 � .811 .506 .849 .467 0.6 .800 .528 .824 .501 � .804.512 .835 .468 0.5 .798 .541 .823 .502 � .804 .513 .835.469 0.4 .789 .550 .822 .508 .801 .534 .829 .469 0.3.768 .555 .817 .511 .801 .545 .825 .474 0.2 .758 .567.803 .520 .789 .564 .824 .476 0.1 .698 .694 .793 .554.700 .686 .824 .4820B00.9 .813 .516 .835 .495 � .814 .519 .851 .463 0.8 .806.531 .827 .505 � .805 .528 .843 .468 0.7 .793 .549 .823.511 � .792 .540 .834 .475 0.6 .775 .555 .821 .516 .776.565 .825 .476 0.5 .752 .574 .820 .523 .756 .570 .823.478 0.4 .702 .598 .818 .534 .751 .594 .819 .485 0.3.621 .751 .815 .544 .650 .748 .817 .491 0.2 .510 .781.814 .547 .516 .776 .814 .497 0.1 .425 .942 .806 .583.433 .930 .809 .5030C00.9 .817 .524 .836 .497 � .818 .525 .848 .466 0.8 .805.539 .829 .506 � .810 .532 .839 .470 0.7 .796 .554 .817.513 .801 .552 .832 .471 0.6 .784 .576 .814 .528 .788.569 .825 .473 0.5 .756 .606 .807 .535 .766 .588 .819.477 0.4 .689 .637 .799 .543 .713 .626 .818 .480 0.3.621 .739 .794 .557 .632 .711 .804 .492 0.2 .483 .792.781 .561 .506 .791 .800 .498 0.1 .414 .934 .780 .571.424 .906 .796 .5050星号（�）表示多任务学习模型与其单任务形式相比没有显著的改进。0将美国HSS地区分为两个子组，R-odd和R-even，分别由奇数和偶数地区组成（按照图1的编号）。对于R-odd中的地区，我们逐渐对其训练数据进行了降采样；而R-even中的地区则没有进行降采样。表3列举了这个实验的结果。表中的数字表示R-odd地区所有测试期间的平均MAE。一般来说，随着降采样的增加，即训练数据减少，多任务学习模型的性能降低较少。MTGP始终比GP提供了统计上显著的改进，而MTEN在最坏情况下（对于采样类型A）需要γ ≤0.4才能实现这一点。采样类型A可以看作是在不同地区的随机时间点上缺少每周报告，对单任务学习模型的影响比多任务学习模型大得多。例如，对于EN模型，MAE从γ =1（无降采样）的0.492增加到0.694。0γ0MAE0ENMTEN0GPMTGP0图5：比较EN（虚线）、GP（虚线）、MTEN（点划线）和MTGP（实线）在估计美国HHS地区（除了地区4和9）的ILI率时，在不同爆发性错误采样（类型C）率（γ）下的性能差异。0对于 γ =0.1，降解率为41.1%。相比之下，MTEN模型的降解率为13.5%。对于非线性模型，GP的降解率为36.7%，而MTGP的降解率仅为4.8%。需要注意的是，当使用最少的数据点（γ =0.1时为10%）时，MTGP的MAE等于0.482，小于EN或GP的MAE（分别为0.492和0.502），当没有进行采样时。所有模型在B和C采样方法下的性能都变差，这些方法会从训练集中删除数据点的块。然而，与比较的EN或GP模型相比，多任务学习模型的性能降低要小得多。例如，当γ =0.1时，MTGP将GP的MAE提高了45.9%，对于B和C采样类型，分别提高了44.3%。图4通过比较GP和MTGP模型在爆发性错误采样下对美国地区9的ILI估计来说明这种性能差异，其中γ = 0.5（顶部）和γ =0.1（底部）。显然，对于低采样率（γ =0.1），MTGP模型仍能提供可接受的性能。在随后的实验中，我们对除了人口最多的两个美国地区（地区4和9）之外的所有地区进行了爆发性错误采样。这种设置的理由是在许多情况下，健康报告仅适用于一个国家的中心位置。011区包括加利福尼亚州、内华达州和亚利桑那州，是人口最多的州之一（约4910万）。0表4：用于估计英格兰ILI率的单任务和多任务学习模型的性能；符号约定如表1所示。0EN MTEN GP MTGP0L r MAE r MAE r MAE r MAE0Track: Health on the Web WWW 2018，2018年4月23日至27日，法国里昂012345672013201420152016012345670.640.720.800.880.96940ILI率（%）0L = 5年 GP MTGP PHE0时间（周）0ILI率（%）0L = 1年0图6：比较GP（红色）和MTGP（蓝色）在不同训练数据大小下对英格兰ILI的估计。0（即两个大城市），但在其他地方有限。图5比较了该场景下所有回归模型的性能。它证实了在之前的实验中观察到的模式仍然成立，即多任务模型受到的下采样影响要小得多。我们还可以看到，随着γ的减小，单任务学习模型的MAE呈指数增长。03.4 跨国多任务学习0我们扩展了之前的结果，测试了一个稳定的数据流是否可以用于增强不同但文化相似的国家的疾病模型。这里的基本假设是，共享相同语言并具有文化相似性的国家可能也共享用户搜索行为的共同模式。为此，我们使用来自美国和英格兰的数据，并假设仅英格兰的历史健康报告越来越少，类似于第3.2节中描述的实验（L从5年到1年）。对于美国的数据，我们始终假设训练窗口基于过去的L =5年。两个国家使用相同的搜索查询，只有以下例外。由于英格兰的搜索频率较低，我们将两个美国关于药物的搜索查询更改为它们的英国等效词，将“tussin”更改为“robitussin”，将“zpak”更改为“azithromycin”。表4显示了与之前实验相似的结果模式。与单任务学习相比，所有多任务学习模型都取得了统计上显著的改进。随着训练期限的缩短，改进效果更大；对于L = 5年和L =1年，MTGP将MAE分别降低了20.9%和40.0%。图6展示了这些极端情况下GP和MTGP模型的估计结果。虽然两个模型似乎都能正确推断时间序列的趋势，但多任务估计更接近信号峰值的实际值。结果证实了我们最初的假设，即一个国家的数据可以改进另一个具有相似特征的国家的疾病模型。这激发了更先进的跨国迁移学习方案[41]的发展，能够克服语言障碍问题，在不同语言的国家之间进行操作，使用机器翻译的变体。0为了推断时间序列的趋势，多任务估计更接近信号峰值的实际值。结果证实了我们最初的假设，即一个国家的数据可以改进另一个具有相似特征的国家的疾病模型。这激发了更先进的跨国迁移学习方案[41]的发展，能够克服语言障碍问题，在不同语言的国家之间进行操作，使用机器翻译的变体。0R10R20R30R40R50R60R70R80R90R100美国0A10A20图7：显示MTGP模型（Kc）的相关矩阵，用于基于所有美国数据（地区和全国）建模ILI率。0Track: Health on the Web WWW 2018，2018年4月23日至27日，法国里昂Track: Health on the WebWWW 2018, April 23-27, 2018, Lyon, France9503.5 MTGP模型的定性洞察0

下载后可阅读完整内容，剩余1页未读，立即下载