没有合适的资源?快使用搜索试试~ 我知道了~
∗∗6690用户响应预测的鲁棒分解机0@WalmartLabs,印度班加罗尔,surabhi.punjabi@gmail.com0@WalmartLabs,印度班加罗尔,priyankabhatt91@gmail.com0摘要0分解机(FMs)是计算广告领域用户响应预测的最先进模型。互联网和移动设备的快速增长导致了多个客户接触点的出现。这与高cookie流失率等因素相结合,导致广告商在用户活动方面看到了一个碎片化的视图。当前的文献假设获得的用户信号是绝对的真实,但这被用户的多个化身之间缺乏确定性身份链接所质疑。在这项工作中,我们使用鲁棒优化(RO)范式来表征数据不确定性,设计对扰动具有免疫性的方法。我们提出了两种新颖的算法:鲁棒分解机(RFM)和其领域感知变体(RFFM),在区间不确定性下。这些公式是通用的,可以在任何噪声下的分类设置中找到适用性。我们使用并行随机梯度下降提供了一个分布式和可扩展的Spark实现。在三个真实世界数据集上进行的实验中,鲁棒对照组在扰动设置下显著优于基线。我们的实验结果揭示了不确定性集选择与生成模型的抗噪声性之间的有趣联系。0关键词0分解机;领域感知分解机;鲁棒优化;计算广告;响应预测;区间不确定性0ACM参考格式:Surabhi Punjabi和PriyankaBhatt。2018。用户响应预测的鲁棒分解机。在WWW2018:2018年网络会议上,2018年4月23日至27日,法国里昂。ACM,纽约,纽约,美国,10页。https://doi.org/10.1145/3178876.318614801 引言0用户响应预测是计算广告领域的一个核心问题。这个生态系统中的主要利益相关者有:拥有广告库存的发布者,竞标这些广告位的广告商以及接触广告体验的用户。发布者和广告商利用在线用户足迹、人口统计数据和相关背景等信号来建模用户意图。点击和转化是关键目标,响应预测问题通常被定义为估计点击或转化的概率。0� 两位作者对本文贡献相同0本文是根据知识共享署名4.0国际许可发布的。作者保留在其个人和公司网站上传播作品的权利,并附上适当的归属。WWW 2018,2018年4月23日至27日,法国里昂,©2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31861480给定广告展示的转化概率。这个概率随后转化为用户级别的出价,或者根据用户意图的倾向创建离散的用户分段。这个领域引起了行业和学术界的兴趣,传统的选择是逻辑回归(LR)[4,10]。最近提出的分解机(FMs)[22]和领域感知分解机(FFMs)[13]在多个实验和生产数据集上的表现优于LR[1,12]。作为预测建模的主要输入,用户交互信号是从各种在线来源获取的,如社交媒体、搜索引擎、电子商务平台和新闻门户。一个用户的活动可能分布在多个设备上,如台式机、移动设备和平板电脑。有趣的是,用户展示了多种浏览模式和设备特定的化身:在台式机上看起来是一个热衷购物者的用户,在移动设备上可能只是一个随意浏览者。在没有跨设备链接的情况下,用户交互数据集包括同一用户的多个不完整视图。对于Criteo来说,美国有31%的在线交易涉及两个或更多设备,而且在用户为中心的多设备活动视图中,转化率和购买旅程都增加了约40%,相比之下,部分设备特定视图。0图1:(A)用户在不同设备和/或浏览器上多次访问广告商的网站:广告商观察到用户真实活动的多个碎片化视图。(B)数据收集过程中引入的额外噪声。(C,D)用户访问发布者的网站导致在线拍卖,并向不同的广告商发送出价请求。(E)广告商使用仅来自用户视图之一的数据计算出价。0即使对于同一设备,操作系统、网络连接和浏览器类型等因素也会导致其自身的数据泄漏。这些底层生成机制中的异质性导致了收集数据中的噪声。然而,这个问题一直被严重忽视。0跟踪:Web上的用户建模、交互和体验WWW 2018,2018年4月23日至27日,法国里昂2PRELIMINARIES2.1Response Predictionminwλ2 ∥w∥22 + m i=1log (1 + exp(−y(i)ϕ(x(i), w)))(1)dwjxj.ϕF M(x, w, V) = w0 +wjxj +⟨vj, vk⟩xjxk(2)ϕF F M(x, w, V) = w0 +wjxj +⟨vj,fk , vk,fj ⟩xjxk (3)Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6700只有5%的营销人员无缝地整合了客户接触点[8],这一点一直被严重忽视。由于每月约有65%的cookie被删除[5],cookie的流失也成为噪声的另一个因素,使得用户和广告商的关联关系短暂。见图1。在数据收集过程中的这些累积的低效率最终掩盖了用户的整体身份,并对产生这些信号的同一数据管道的质量提出了一个引人注目的问题。最近的一些研究尝试以概率的方式拼接用户身份[14,23],但是用户配置文件的完全合并仍然是一个未解决的问题。现有的响应预测文献中的目标函数假设用户配置文件是准确已知的,并且对输入信号中存在的固有噪声保持不可知。因此,学习到的分类器对底层因果关系具有模糊的理解,因此对小的数据扰动表现出显著的敏感性。由于模型预测指导出价决策,每次错误分类都会产生货币损失或机会成本[15]。本研究旨在对用户信号中的环境引起的不确定性进行表征,并重新制定FM和FFM目标函数,使其免疫于数据波动。为此,我们利用了鲁棒优化(RO)框架[2],该框架假设一个确定性的、基于集合的不确定性模型,并寻求在最坏情况下实现的解决方案,这些解决方案在计算上是可行的并且保持接近最优。据我们所知,这是第一篇倡导在用户建模领域应用RO的工作。本文的主要贡献如下所述:0•我们采用鲁棒优化原则,将在线广告信号中出现的噪声建模为有界的箱式区间不确定性集。•我们提出了两种新颖的算法:鲁棒分解机(RFM)和鲁棒领域感知分解机(RFFM),作为FM和FFM的鲁棒极小化公式。•我们提供了一个基于Spark的分布式和可扩展的实现,使用并行随机梯度下降来解决优化问题。•我们在Criteo和Avazu的三个公开可用的响应预测数据集上对我们的公式进行了全面评估。在标准设置下,鲁棒性的代价是分类器在标准设置下略微降低(-0.24%至-1.1%),但在面对噪声时显著优于非鲁棒性对照组(4.45%至38.65%)。•我们系统地评估了在噪声和标准设置下的鲁棒性与性能最优性之间的权衡,并提供了选择不确定性集的指导方针。•我们广泛研究了模型校准以及超参数、初始化策略和并行性对模型性能和收敛性的影响。•最终得到的公式是通用的,并且可以在任何噪声敏感的分类领域中发挥作用。为了证明这种广泛适用性,我们在一个信用卡欺诈检测数据集上呈现了结果。0我们首先概述了用于预测用户点击或转化倾向的最先进方法。这是一个监督学习的设置,学习者被提供了一组m个训练实例{(x(i),y(i))|x(i)∈Rd,y(i)∈{1,−1}�i∈{1,...,m}},其中x(i)表示用户i的活动和上下文信号,y(i)是二进制响应变量,表示用户是否随后点击或转化。长期以来,逻辑回归一直是用户响应建模的首选分类器[4,10],因为它具有良好校准的概率输出的优势,具有高度可扩展性,并且可以产生可解释的模型。它通过最大化对数似然与正则化惩罚项相对应来学习权重向量w∈Rd。相应的损失最小化等价形式如下:0其中,ϕ(x,w)=w0+0线性模型的局限性在于无法对特征交互对因变量的影响进行建模。最近在[22]中提出的因子分解机(FMs)作为一种有效的学习范式,用于捕捉特征组合的影响,特别适用于稀疏数据集。它们旨在学习每个特征j在潜在因子空间Rp中的投影vj。特征交互的强度由相应因子的内积量化。优化问题与(1)类似,ϕ演变为ϕFM以包含这些交互项:0其中�.�表示内积,V∈Rd×p是由这些vj组成的因子矩阵。响应预测数据集主要由分类特征(也称为字段)组成。字段的典型示例是发布者、设备、品牌等,它们可以从集合{CNN,Vogue},{desktop,mobile,tablet}和{Nike,Adidas}中取值。LR和FM使用这些分类变量的独热编码生成扩展特征空间,而‘字段’本身的语义被丢失。领域感知因子分解机(FFMs)是一种模型类,利用与每个特征相关的领域信息,并将FM的概念扩展到学习与每个(特征,字段)组合对应的专用潜在向量[12]。因此,模型不再学习每个特征的潜在向量,即vVogue,vNike等,而是学习用于捕捉字段间交互的分离潜在向量,如v(Vogue,device),v(Vogue,brand)等。因此,函数ϕ进一步演变为:0其中vj,fk∈Rp是捕捉特征j和特征k的字段之间交互的潜在向量,V∈Rd×q×p是由所有这些vj,fk向量组成的张量。这里q表示数据集中字段的数量。minw maxU1mmL(w, x(i) + µ(i)).(4)1https://www.kaggle.com/c/criteo-display-ad-challenge2https://www.kaggle.com/c/avazu-ctr-predictionϕRF M (x, w, V, µ, Σ)=w0 +d�j=1wj(xj + µj) +d�j=1d�k=j⟨vj, vk ⟩(xjxk + Σj,k)=w0 +d�j=1wj(xj + µj) +12d�j=1d�k=1⟨vj, vk ⟩(xjxk + Σj,k)+12=w0 +d�j=1wjxj +d�j=1wj µj +12d�j=1d�k=1⟨vj, vk ⟩xjxk+12d�j=1d�k=1⟨vj, vk ⟩Σj,k +12d�j=1⟨vj, vj ⟩x2j +12d�j=1⟨vj, vj ⟩Σj,j=w0 +d�j=1wjxj +d�j=1wj µj +12d�j=1d�k=1p�f =1vj,f vk,f xjxk+12d�j=1d�k=1p�f =1vj,f vk,f Σj,k +12d�j=1p�f =1v2j,f x2j +12d�j=1p�f =1v2j,f Σj,j=w0 +d�j=1wjxj +d�j=1wj µj +12p�f =1(d�j=1vj,f xj)2+12p�f =1(d�j=1vj,f σj)2 +12p�f =1d�j=1v2j,f x2j +12p�f =1d�j=1v2j,f σ 2jTrack: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6710FM和FFM通过赢得两个Kaggle竞赛证明了其优于其他分类器的泛化能力[1,2]。0在过去的研究中,还探索了其他技术,如模型集成[9,27]和深度学习[3,21]用于用户响应预测任务。对于这项工作,我们将重点限制在为FM和FFM模型制定鲁棒对应物上。02.2 鲁棒优化0传统的随机优化提供了对测量噪声的概率特征描述。相比之下,鲁棒优化(RO)[2]的范式将不确定性建模为基于有界集合的输入观测变量的可变性。不确定性集合被定义为U={µ(i)|x(i)−η(i)≤x(i)+µ(i)≤x(i)+η(i),�i∈{1,...,m}}。这里η(i)∈Rd≥0表示输入x(i)的不确定性边界。将这种确定性不确定性的概念纳入考虑,允许输入数据点在指定边界内的任何位置具有多种表现形式。RO旨在学习一个对于所有可能的不确定性实现都保持可行且接近最优的函数。对于分类设置,这意味着最小化对所有可能的数据扰动所遭受的最坏情况损失。假设一个一般的损失函数L(w,X),鲁棒对应物采用以下极小极大形式:0鲁棒性公式的计算可行性受到不确定性集合选择的影响。在RO文献中,常用的不确定性集合类别有箱型、椭圆型、锥型和多面体型[11]。在这项工作中,我们设计了鲁棒公式,假设箱型(或区间)不确定性,对于每个观测值x∈Rd,存在一个相应的不确定向量µ∈Rd,使得向量的每个维度都是独立有界的,即|µj|≤ηj,�j∈{1,...,d}。选择区间不确定性有助于实现各个特征之间的噪声独立性。从几何上看,这可以被视为数据点驻留在有界超矩形流形中。0图2:(a)在原始数据上训练的分类器。(b)当数据点与箱型不确定性相关联时,学习的分类器边界发生移动以适应扰动的影响。图2说明了在标准设置和引入箱型不确定性后,学习者对训练实例的观察。请注意,学习的分类器的决策边界发生了移动。RO框架在选择给定观测的最优分类器权重和抵抗扰动之间提供了系统性的权衡。在[7,16]中已经提出了LR和支持向量机(SVM)的鲁棒公式。我们的工作是首次尝试在因子分解机中系统地引入鲁棒性。03 提出的方法0最近,FM及其扩展在Kaggle竞赛范围内以及实际的竞价系统中得到了快速的采用[12]。为了在这些模型中引入对数据扰动的抗噪声性能,我们使用区间不确定性原则设计了FM和FFM的鲁棒对应物。然后,通过获得涉及不确定性的项的上界,将得到的极小极大问题转化为纯粹的最小化问题。我们提出了一种基于随机梯度下降的并行训练算法,可以在像Spark这样的分布式环境中部署,用于学习最终的权重矩阵。03.1 鲁棒FM因子分解机考虑线性和成对特征交互。这给我们提供了两种选择,要么在这两种交互类型之间共享相同的不确定性向量,要么解耦不确定性参数。我们选择第二种替代方案,对于每个数据点x,我们关联不确定性向量µ∈Rd,使得|µj|≤ηj,�j∈{1,...,d},用于表征线性交互的噪声,以及矩阵Σ∈Rd×d,使得Σj,k=σjσk,|σj|≤ρj,�j∈{1,...,d},用于捕捉成对交互项引起的噪声。这个选择有两个原因。Σ的存在提供了调整模型的另一个自由度。此外,二阶交互是在潜在空间中学习的,可能与原始特征空间的语义不同。这种µ和Σ的定义将超参数空间限制为给定训练示例的特征数量的线性。我们现在引入这些不确定性项,并将RFM的ϕ定义为鲁棒因子分解机(RFMs),为了数学上的方便,我们在鲁棒变体中添加了自交互项。0j = 1 � v j , v j �( x 2 j + Σ j , j ) (重排项)0(在因子空间上展开项)minw,Vmaxµ(j),Σ(j)1 jmλ2 ∥w∥22 +λ2 ∥V∥22 + 1mm�i=1log (1 + exp(ΩiRF M)) (5)RF M=RF MΩwcRF M(x,y, w, V) = maxµ,Σ ΩRF M(x,y, w, V, µ, Σ)(6)− y12 (p�f =1(d�j=1vj,f σj)2 +p�f =1d�j=1v2j,f σ 2j )≤12(p�f =1(d�j=1|vj,f ||σj |)2 +p�f =1d�j=1v2j,f σ 2j )≤12(p�f =1(d�j=1|vj,f |ρj)2 +p�f =1d�j=1v2j,f ρ2j )(7)−yd�j=1wj µj ≤d�j=1|wj ||µj | ≤d�j=1|wj |ηj .(8)ΩwcRF M (x, y, w, V) = −yw0 +d�j=1(−ywjxj + |wj |ηj) −y2p�f =1(d�j=1vj,f xj)2+12p�f =1(d�j=1|vj,f |ρj)2 −y2p�f =1d�j=1v2j,f x2j +12p�f =1d�j=1v2j,f ρ2j .minw,Vλ2 ∥w∥22 +λ2 ∥V∥22 + 1mm�i=1log (1 + exp(ΩwcRF M(x(i),y(i)))).(9)m�i=1where,d+d�j=1dTrack: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6720通过重新定义 RFM 的 ϕ,在不确定性下的损失最小化视角导致以下极小极大问题:0其中, Ω i RF M 是 Ω RF M ( x ( i ) , y ( i ) , w , V , µ ( i ) , Σ ( i )) 的简写0内部最大化表示由于不确定性参数 µ ( j ) 和 Σ ( j ) ,对于所有 1 ≤ j ≤ m,所产生的最坏情况下的损失。由于求和项中的单调性,将目标函数在 (5) 中最大化等价于最大化 Ω RF M。我们将简化子问题的最优解称为 Ω wc RF M 。0进一步,通过对不确定性项进行上界估计,我们得到了 Ω wc RF M的值。由于线性和成对不确定性参数被认为是独立的,我们可以单独考虑相关项。首先,我们将与成对不确定性 σ相关的项进行分组和分析。0最后一个不等式来自于区间不确定性的定义,其中所有协变量都是独立的。类似地,对于线性不确定性项,我们有:0使用从 (7) 和 (8) 中得到的上界来计算 Ω wc RF M 的值:0为了方便起见,我们将 Ω wc RF M ( x , y , w , V ) 简写为 Ω wcRF M ( x , y ) 。使用得到的 Ω wc RF M的值,(5)中的优化问题简化为:0请注意,通过最小化最坏情况下的损失,我们在分类器中编码了悲观主义,其大小取决于数据被界定的超矩形的大小。表1总结了本文中使用的符号。0表1:符号表0x ( i ) (或 x ) 样本的特征向量 ∈ R d y ( i ) (或 y ) 样本的标签 ∈ {− 1 , 1 } xj 特征值 ∈ R 表示样本中的第 j 维 t 训练样本的数量 m 特征数据中的字段数 d原始特征空间的维度 p 每个特征学习到的潜在因子的维度 α随机梯度下降的学习率 λ 正则化参数 w 权重向量 ∈ R d用于线性交互作用的因子矩阵 ∈ R d × p 用于FM的因子矩阵 ∈ R d × q × p的张量 µ ( i ) (或 µ ) 线性不确定性向量 ∈ R d 用于一个样本 Σ ( i ) (或 Σ )成对不确定性矩阵 ∈ R d × d 用于一个样本 η ( i ) (或 η ) 线性不确定性上界∈ R d ≥ 0 用于一个样本 ρ ( i ) (或 ρ ) 简化的成对不确定性上界 ∈ R d ≥ 00对于一个样本03.2 参数学习:鲁棒FM我们使用小批量随机梯度下降(SGD)来解决鲁棒FM的优化问题(9)。相应的损失梯度如下:0δθ = λθ + 101 + exp(Ωwc RFM(xi, yi)) � δ0δθ(Ωwc RFM(xi, yi)) (10)0δθ(Ωwc RFM(x, y))=0− y if θ = w0 − yxj + ηj sgn(wj) if θ = wj − yxj �dk = 1 vk, f xk − yvj, f x2j +0ρj sgn(vj, f) � dk = 1 |vk, f| ρk + vj, f ρ2j if θ = vj, f.0这里sgn(.)表示符号函数。注意,更新规则由确定性和不确定性项组成,后者与y无关,因为我们通过最大化Ω得到了该公式。项�dk = 1vk, f xk和�dk = 1 |vk, f|ρk与j无关,可以提前计算。我们的方法的详细信息在算法1中概述。03.3 鲁棒FFM现在我们推导出面向字段的分解机(FFM)的鲁棒对应物,这是FM的更严格和更具表达力的变体。在原始函数ϕFFM的方程(3)中引入线性和成对的不确定性参数,得到ϕRFFM。0ϕRFFM(x, w, V, µ, Σ) = w0 +0j = 1 wj(xj + µj)0k = j �vj, fk, vk, fj�(xj xk + σj σk)0注意,V是一个张量,包含每个(特征,字段)组合的学习潜在向量。按照第3.1节的步骤,我们12end13end14enddd�j=1dd�j=1dm�i=1where,Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6730Algorithm 1: Robust FM0输入:训练数据作为一组(特征,标签)元组{(x, y)|x ∈ Rd, y∈ {1,-1}}不确定性参数:线性和成对不确定性边界(η,ρ)对于每个数据点 超参数:[t(#epochs),p(潜在向量的维度),r(#datapartitions),α(学习率),f(初始化技术)] 输出:w,V01 Initialize w, V using f02 随机将数据分成r个分区03 for epoch ∈ {1, ..., t} do04 对于所有数据分区 ∈ {1, ..., r} 并行执行05 for each sampled data point (x, y) in partition do0δw0 7 for j in {1, ..., d} do08 wj : = wj − α � δ L0δwj09 for f in {1, ..., p} do010 vj, f : = vj, f − α � δ L δvj, f015 w ← Average(w) over all r partitions016 V ← Average(V) over all r partitions017 end0推导出对 − yϕRFFM(或ΩRFFM)的上界,由Ωwc RFFM给出。0Ωwc RFFM(x, y, w, V) = −yw0+0j = 1 (−ywjxj + |wj|ηj)0− y0k = j �vj, fk, vk, fj� xj xk +0k = j �|vj, fk|, |vk, fj|� ρj ρk0将(9)中的Ωwc RFM替换为ΩwcRFFM,得到RFFM的损失最小化问题。03.4 参数学习:鲁棒FFM我们采用随机梯度下降(SGD)进行参数估计。损失函数的梯度为:0δθ = λθ + 101 + exp(Ωwc RFFM(xi, yi)) � δ0δθ(Ωwc RFFM(xi, yi)) (11)0δθΩwc RFFM(x, y)=0− y if θ = w0 − yxj + ηj sgn(wj) ifθ = wj − yvk, fj xj xk +0sgn(vj, fk)|vk, fj|ρj ρk if θ = vj, fk.0RFFM的最终算法与RFM在算法1的核心权重更新步骤中有所不同。此外,类似于[13],我们仅对权重矩阵的非零维度进行更新,以避免不必要的计算。04 实验0在本节中,我们研究了RFM和RFFM对非鲁棒对应物的有效性。具体而言,我们(i)评估鲁棒分类器在原始和扰动数据集上的预测质量,(ii)研究由不确定性集合选择引起的噪声韧性,(iii)经验性地比较权重矩阵的不同初始化策略,(iv)评估超参数对模型性能的影响,(v)探索用于分类器校准的保序回归,以及(vi)研究增加并行性的模型收敛速度。我们的实验结果表明,通过融入鲁棒性的概念,得到的分类器在未扰动的数据集上略微降低了性能,但在面对噪声测量时明显优于原始公式。04.1 实验设置04.1.1数据集描述。我们在三个公开可用的真实世界数据集上评估我们的公式。这些数据集包括点击率(CTR)和转化率(CVR)预测设置,这是大规模用户响应预测的两个核心问题。 • Criteo CTR预测该数据集是2014年Kaggle竞赛发布的,已成为CTR估计的重要基准。训练数据包括4500万次广告展示给用户以及他们的在线足迹,以13个整数特征和26个哈希分类特征的形式。标签指示用户是否随后点击了广告。对分类变量进行独热编码会产生大小约为10^6的特征空间。 • Avazu CTR预测该数据集是Avazu广告平台的Kaggle挑战的一部分发布的。它包含了移动设备上十天的点击数据。特征集包括一天中的小时、横幅位置、站点ID、设备型号等信号。 • Criteo转化日志该数据集包含Criteo广告流量的一部分的转化反馈信号。数据集的每一行表示向用户展示的广告以及转化时间戳标签表示用户何时转化。如果用户没有购买,该字段为空。它被广泛用于CVR算法的标准化。数据集统计数据总结在表2中。为了简洁起见,我们有时将Criteo点击和转化数据集分别称为CriClick和CriConv。除了在这些计算广告数据集上进行性能评估外,我们还在第5节中包括了一个信用卡欺诈检测数据集的案例研究,以突出RFM和RFFM可以表征跨领域的噪声。0表2:数据集的摘要统计0数据集 #实例 #特征 #字段0Criteo CTR 预测 45,840,617 10 6 39 Avazu CTR 预测40,428,967 10 6 33 Criteo 转化日志 15,898,883 10 4 17− 1mmi=1y(i) log(p(i)) + (1 − y(i)) log(1 − p(i))3https://www.dropbox.com/sh/ny6puvtopl98339/AACExLZ0waDL_ibWhfNItJfGa?dl=0Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France67404.1.2评估指标。为了最大化广告活动的效率,分类器估计的类别概率需要进行良好的校准,因为它们直接影响后续拍卖的投标。因此,我们使用对数损失作为评估模型质量的基准指标。对数损失(也称为逻辑损失或交叉熵损失)在二分类设置下定义为:0其中 p ( i ) 是分类器为样本 i 分配的概率或置信度估计,y ( i ) ∈ { 0, 1 }是真实标签。对数损失度量具有信息论解释,即真实和预测类别分布之间的交叉熵。理想模型的对数损失为零。该度量的较低值意味着与真实标签的较小差异,因此具有更好的模型性能。04.2 实现细节0我们在Apache Spark[26]上实现了RFM和RFFM,这是一个分布式计算框架,有助于高效的并行化,这对于及时处理当前的大规模数据集至关重要。Spark提供了容错的数据存储抽象:RDD(Resilient DistributedDataset),它是一个跨集群节点分区的不可变数据集合。数据存储在内存中,这对于迭代工作负载非常有利。0图3:鲁棒因子分解机的Spark实现工作流程。0我们采用迭代参数混合策略来执行分布式随机梯度下降(SGD)[17,28]。图3概述了实现工作流程。(1)输入数据在执行器之间进行分区。(2)初始权重矩阵广播到所有数据分区。每个节点对其包含的数据子集执行一次小批量SGD更新。(3)每个时期结束后,节点独立学习的模型进行平均。(4)再次广播生成的全局模型。(5)当连续迭代之间的误差低于阈值时,算法终止。这种分布式训练策略由于模型更新的同步性质而表现出快速收敛。我们的公式的内存需求与数据集中的特征数量成比例。分布式SGD在每个时期之后通过网络添加了额外的模型传输成本的延迟。因此,模型的紧凑性对于推动高效性能至关重要。由于特征的高维度,因此特征工程的高维度0为了限制特征值的数量,我们采用哈希技巧[4],它使用简单的哈希函数。在我们的实验中,我们使用80%的数据进行训练,每个构建验证和测试集的10%。此外,由于我们的目标是检查鲁棒和非鲁棒变体之间的差异,我们不涉及特征工程,专注于模型特定的方面。我们的实现的代码和数据集链接可在Dropbox3上获得,以进行实验的可重复性。04.3 不确定性集的选择0在考虑数据点周围的盒状不确定性以促进协变量的独立性的设计选择后,下一个关键步骤是将不确定性边界(η,ρ)与每个训练示例关联起来。一种直接的方法是绝对赋值,即将这些变量作为附加参数,其最佳值可以通过参数调整确定。然而,这是一个昂贵的解决方案,会使超参数空间爆炸,并在实际设置下无法获得最佳性能的模型。另一种方法乍一看似乎很有吸引力,即具有特定领域的不确定性值,以便限制新引入的参数的数量。然而,这种方法有以下缺点:它与手头的数据集紧密耦合,并且无法建立选定参数和训练后获得的模型的抗噪声性之间的直接联系。这些问题促使我们采用相对赋值策略进行实验。在这种方法中,我们选择两个正实数参数(η%,ρ%),使得对于每个测量γ,有效的线性和成对不确定性边界由(η% * γ,ρ% *γ)给出。这个简单的技巧显著减小了要调整的参数的大小,同时保留了在数据周围分配可变大小的超矩形的可行性。在这种公式下,较大的测量与更高的变异性或较低的置信度相关联。此外,我们对不确定性边界进行阈值处理,以调节所包含的噪声。正如我们将在下面的结果中介绍的那样,这种设计不确定性集的方法在考虑在嘈杂环境下获得的鲁棒性和抗噪声性方面具有良好的可解释性。04.4 性能比较0我们将RFM和RFFM模型的性能与原始因子分解机模型在转化和点击数据集上进行比较。我们特别关注嘈杂环境下的相对行为。高斯分布是信号处理中的一种流行的噪声模型[24]。在类似的线路上,我们通过向测试数据添加高斯扰动 N � ( µ noise , σ noise )来模拟原始数据集中的噪声。我们改变噪声参数,并检查原始数据集和扰动版本的分类器的好坏。结果如表3所示。通过遵循最坏情况下的损失最小化,鲁棒分类器即使对于原始数据集也采取保守的观点,导致较高的对数损失,与非鲁棒等效模型相比。然而,当受到噪声影响时,鲁棒分类器的平均性能降低明显低于FMs和FFMs。在用户建模的风险敏感领域中,捕获的信号可能不代表完整的用户意图,这种优雅的退化是一个理想的特性。鲁棒公式提供的调节不确定性边界的杠杆是 ( η % , ρ % )。较高的值意味着训练的分类器考虑了更高的不确定性,因此对噪声具有更强的免疫力。我们通过变化 ( η % , ρ % )训练多个RFM和RFFM模型,并研究在不同噪声配置下相对于非鲁棒变体的对数损失的相对减少。这个相对值(d) CriConv, RFM(e) CriClick, RFM(f) Avazu, RFM(a) Avazu, FFM(b) Avazu, FMto noise, the average performance degradation of robust classifiersis remarkably lower than the FMs and FFMs. In the risk sensitivedomain of user modeling where signals captured might not be rep-resentative of complete user intent, this graceful degradation is adesirable property.The levers offered by robust formulations for regulating uncer-tainty bounds are (η%, ρ%). Higher values imply higher uncertaintyaccounted for by the trained classifiers and hence greater immunityagainst noise. We train multiple RFM and RFFM models by vary-ing (η%, ρ%) and study the relative reduction in logloss against thenon-robust variants for different noise configurations. This relativeTrack: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6750(a) CriConv,RFFM (b) CriClick,RFFM (c) Avazu,RFFM0图4:在测试阶段,当受到原始数据集的扰动变体时,对不同 ( η % , ρ % ) 的分类器行为进行研究。测试样本中添加了均值为 0.1,标准差为 σ noise ∈ { 0 . 01 , 0 . 1 , 0 . 3 , 0 . 5 , 0 . 7 , 0 . 9} 的高斯噪声。较高的 ∆ logloss % 值表示更强的噪声韧性。0图5:在泊松噪声下,鲁棒公式提供的相对对数损失减少,其中 λ noise ∈ { 0 . 01 , 0 . 1 ,0 . 2 , 0 . 3 , 0 . 5 , 0 . 6 , 0 . 8 , 1 . 0 } 。0减少由 ∆ loдloss % = (L Oriдinal −L Robust ) 给出,0其中0L Oriдinal 和 L Robust分别表示原始和鲁棒公式下的损失。从图4中可以看出,对于每个 ( η% , ρ % ) ,当 σ noise较低时,鲁棒分类器的logloss相对于基线较高 ( ∆ loдloss % <0)。然而,随着噪声标准差的增加,logloss的减少更加明显,某些情况下可以高达40%。这些发现不仅证明了所提出的分类器在噪声测量下确实表现出优越性,而且还呈现了在未扰动设置下追求高鲁棒性和所付出的代价之间的有趣权衡。在传统的信号处理系统中,泊松过程是另一种广泛使用的捕捉噪声的模型。为了对噪声下的性能研究提供全面的处理,我们也尝试了这种噪声模型。我们在图5中提供了Avazu数据集的一部分有趣结果。这些结果再次证明了鲁棒公式确实能够抵御响应预测数据中的潜在不完整性和损坏。在这里,我们想再次强调我们的公式是通用的,可以应用于任何数据不确定性是一个问题的领域。模型设计者可以根据问题的不确定性程度选择 ( η % , ρ % )参数。CriConv(15, 100, 0.1, 10−4)0.37560.3780-0.64740.49500.400919.00550.49270.410616.6560Avazu(15, 100, 0.01, 10−4)0.39020.3942-1.01180.45780.42078.11080.47700.44806.0754CriConv(5, 50, 0.01, 10−4)0.37460.3770-0.62540.64380.394938.65410.63790.411835.4508Avazu(10, 50, 0.01, 10−3)0.39150.3939-0.62580.44650.40828.56990.44920.41487.6468RFFM0.46190.45820.4598CriConvRFM0.38090.37800.3875RFFM0.37840.37690.3774AvazuRFM0.39440.39420.3952RFFM0.39520.39390.3941Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France6760表3:鲁棒公式的比较分析。L M 表示模型 M 的logloss。对于高斯扰动,损失值是在 µ noise ∈ { 0 . 0001 , 0 . 001 , 0 . 01 , 0 . 1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功