没有合适的资源?快使用搜索试试~ 我知道了~
Prediction of Sparse User-Item Consumption Rates withZero-Inflated Poisson RegressionMoshe Lichman∗Department of Computer ScienceUniversity of California, Irvinelichman@gmail.comPadhraic SmythDepartment of Computer ScienceUniversity of California, Irvinesmyth@ics.uci.eduABSTRACTIn this paper we address the problem of building user models thatcan predict the rate at which individuals consume items from afinite set, including items they have consumed in the past and itemsthat are new. This combination of repeat and new item consumptionis common in applications such as listening to music, visiting websites, and purchasing products. We use zero-inflated Poisson (ZIP)regression models as the basis for our modeling approach, leadingto a general framework for modeling user-item consumption ratesover time. We show that these models are more flexible in capturinguser behavior than alternatives such as well-known latent factormodels based on matrix factorization. We compare the performanceof ZIP regression and latent factor models on three different datasets involving music, restaurant reviews, and social media. The ZIPregression models are systematically more accurate across all threedata sets and across different prediction metrics.KEYWORDSConsumption Rate Modeling, Repeat Consumption, Explore-Exploit,Zero-Inflated PoissonACM Reference Format:Moshe Lichman and Padhraic Smyth. 2018. Prediction of Sparse User-ItemConsumption Rates with Zero-Inflated Poisson Regression. In WWW 2018:The 2018 Web Conference, April 23–27, 2018, Lyon, France. ACM, New York,NY, USA, 10 pages. https://doi.org/10.1145/3178876.31861531INTRODUCTIONIn many aspects of our daily lives the way we consume productsand items has evolved from interactions in a physical world tointeractions in digital worlds. We purchase books online insteadof shopping at brick-and-mortar stores, stream music and moviesonline instead of purchasing physical copies, and so on. The digitalnature of our consumption provides the opportunity for tailoring ofindividual user experiences that can benefit both the consumer andthe provider. As a consequence, the ability to develop predictiveindividual-level models for user-item consumption from past obser-vations is increasingly important across a variety of applications.∗Current affiliation: Google Inc.This paper is published under the Creative Commons Attribution 4.0 International(CC BY 4.0) license. Authors reserve their rights to disseminate the work on theirpersonal and corporate Web sites with the appropriate attribution.WWW 2018, April 23–27, 2018, Lyon, France© 2018 IW3C2 (International World Wide Web Conference Committee), publishedunder Creative Commons CC BY 4.0 License.ACM ISBN 978-1-4503-5639-8/18/04.https://doi.org/10.1145/3178876.3186153Building accurate models of consumption in a typical digitalenvironment is challenging for multiple reasons. In particular, asan individual moves forward through time, the items an individualconsumes are a combination of (a) items that they have consumedin the past (i.e., repeat consumption), and (b) novel items that theyhave not consumed in the past (i.e., new consumption). User modelsin this context must balance these two aspects of behavior.Individual heterogeneity, in the form of significant variability inbehavior across users, further complicates the modeling process.In particular, when the set of possible items to be consumed islarge, different users may have very different consumption patterns.Another significant challenge is data sparsity, given that the numberof items a user typically consumes is often a very small fraction ofthe total number of available items.In this paper we focus on the problem of predicting rates of itemconsumption per unit time (days, weeks, months) for individualusers. The prediction of rates is broadly useful in a variety of ap-plications since it allows us to predict not only which items a userwill consume, but also how often those items will be consumed. Forexample, prediction of rates of consumption for specific items andspecific sets of users is important in the design and engineeringof proxy-caching systems for online streaming media content [19].For contexts where items have different costs associated with them,predictions of the rates at which a user will consume specific itemscan be used for estimating the expected value of a customer fromthe provider perspective. Rates also can be used to help evaluatethe expected benefit of interventions such as providing incentivesto a user. For example, if some users have a high rate of usage fora particular app on their mobile phones and other users have lowrates of usage for the same app, the latter group is likely to be abetter target for incentivization than the former [8].As mentioned above, in many real-world applications consump-tion behavior is characterized by a combination of repeat and newconsumption. For example, some users’ behaviors may be highlyrepetitive in nature, e.g., they tend to visit the same restaurants orlisten to the same music artists, and rarely try new items. Otherusers may have behavior at the other extreme, continuously ex-ploring new items and rarely returning to old items. This trade-offbetween exploration and exploitation is well known in computerscience in the context of reinforcement learning, and is also well-established in cognitive science as a basic trait of how humansinteract with the world around them (e.g., [4, 24]).These observations suggest that in addition to handling signifi-cant heterogeneity in terms of individual behavior, the notion thatthere is a steady-state behavior for many users may be a fallacy inthe sense that users are continuing over time to both exploit and ex-plore the choice of items available to them. Rather than having user7190主题:Web上的用户建模、交互和体验 WWW 2018年4月23日至27日,法国里昂lastfm93119997month500.57200将模型表示为对项目的固定分布,个体行为可以被视为随时间推移的动态过程,其受到过去项目消费的反馈的驱动,包括积极和消极的反馈。为了捕捉这些想法,我们开发了基于泊松回归模型的个体级别模型,其中用户在下一个时间段内消费项目的预测速率被建模为个体过去行为的函数。此外,模型使用全局上下文信息(例如项目流行度)以更好地推广对新项目的预测。本文的主要贡献是使用具有零膨胀的泊松回归模型对随时间变化的用户-项目消费率进行建模的系统方法。通过对来自多个领域的几个用户-项目消费数据集进行系统调查,我们证明了这种建模方法可以捕捉个体级别用户对新旧项目的偏好,作为过去行为和上下文信息的函数。我们通过实证和定性地将所提出的方法与最先进的替代方法进行比较,并且还展示了所提出的方法在大规模数据集上的可扩展性。表面上,我们所解决的问题看起来与经典推荐系统问题非常相似。然而,重要的是要注意我们的工作中的建模目标和评估标准与之显著不同。推荐系统仅关注用户过去未消费的新项目的预测和排名,例如电影或图书等项目,通常用户只消费一次。相反,我们专门关注消费是重复和新颖项目消费的问题。在这种情况下,一种自然的方法是预测项目的消费速率,并评估这些速率的预测效果,而不仅仅评估用户是否会消费项目的可能性。本文的其余部分如下所述。在第2节中,我们探索了不同的用户-项目消费序列数据集,并在第3节中提供了我们建模方法的动机。在第4节中,我们描述了用于理解和预测用户-项目消费率的提出的ZIP模型,并展示了如何使用用户-项目消费观察来学习该模型。第6节提供了现有方法对用户-项目消费数据进行建模的概述。在第7节中,我们将我们提出的模型与各种最先进的替代方法进行比较并解释结果。第8节讨论了该方法的可扩展性,并在第9节中进行了简要讨论。02 问题陈述和用户-项目消费数据0在本文中,我们考虑离散时间间隔(按天、周、月等)内的用户-项目消费计数。我们将 y t ij ∈ { 0 , 1 , 2 , . . . } 定义为用户 i ∈ { 1 , 2 ,. . . , N } 在时间窗口 t ∈ { 1 , 2 , . . . , T } 内对项目 j ∈ { 1 , 2 , . . ., M } 的消费次数。在这种情况下,我们的工作目标是预测用户 i在时间 t + 1 内消费类型为 j 的项目的预期数量 E [ y t + 1 ij | . . . ],给定所有用户-项目消费历史记录直到时间 t。将方法扩展到连续时间应该相对简单,其中每次消费0数据集 N M t T % 非零0reddit 1000 1000 周 52 2.50Yelp 2836 203 2个月 12 1.7表1:本文使用的三个数据集的摘要:唯一用户数 N ,唯一项目数 M,时间窗口 t ,窗口数 T ,以及非零数据点的百分比。0每个事件都有自己的时间戳 -在这里我们关注离散时间的情况。我们的工作的动机是在不同领域创建一个消费者行为数据的通用框架的挑战。为此,我们调查了多个公开可用的数据集,代表不同类型的项目和消费活动。这3个数据集在表1中进行了总结和比较。Reddit:Reddit是一个流行的社交网络,拥有大约100万个以主题为中心的小组(称为subreddits),用户可以在其中发布、评论和投票。在这项工作中,我们考虑了2015年全年的1000个活跃用户和1000个高活跃subreddit的样本数据。y t ij的值定义为用户i在给定的周t内在subredditj中发布(或评论)的次数。Lastfm:Lastfm是一种在线音乐流媒体服务,允许用户收听选定的歌曲或播放列表。我们使用的特定数据集包含了近1000个用户的随时间变化的收听行为。我们将艺术家视为项目,并保留在2005年2月至2009年6月期间最常听的20K位艺术家。在lastfm数据集中,y t ij表示用户i在一个月t内听歌手j的次数。Yelp:Yelp是一个流行的评论平台,允许用户分享他们与不同服务提供商(如餐馆)的经验。我们使用的数据集已经被广泛用作推荐系统研究的基准2。对于我们的实验,我们关注了2014年6月至2016年6月期间斯科茨代尔和凤凰城(美国亚利桑那州)都会区的2836个独特用户和203种类型的餐馆(例如快餐、墨西哥菜、寿司等)的历史记录。y t ij是用户i在每两个月t内对类型j的餐馆进行评论的次数。03 零的过多和异质性0稀疏用户-项目数据集的两个典型特征是(1)零的过多和(2)用户和项目的异质性。我们将分别讨论这两个特征,并从建模的角度描述我们处理每个特征的方法。03.1 零的过多0用户-项目消费数据集的一个共同特征,特别是当项目数量很大时,是零的比例非常高,即大多数用户不消费绝大部分项目。这在我们在本文中分析的3个数据集中是确实存在的,其中大约98%到99%的条目在数据集中是零。01 http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html 2http://www.yelp.com/dataset_challenge0主题:用户建模、Web交互和体验 WWW 2018,2018年4月23日至27日,法国里昂7210图1:具有相似平均率的一组用户-项目对的项目消费率分布。0这并不令人惊讶:对于高维数据集,每个用户只会接触到或者意识到他们可以与之交互的潜在项目的相对较小的一部分。此外,从认知和经济的角度来看,用户可以真实地与多少项目进行交互存在实际限制。在统计建模中,零的过多通常被称为“零膨胀”[15,20],以反映数据中零的频率明显高于典型的计数数据的参数模型(如泊松模型)所能处理的范围。这一观察结果在流行病学、经济学和制造业等应用背景中得到了证实(例如,参见[2]),但在我们在本文中研究的高维用户-项目消费数据类型中,这一观察结果的应用相对较少,例外是[9,16,18],我们将在本文后面更详细地讨论。为了说明零膨胀现象,图1显示了所有数据集中平均消费率在5到6之间的一组用户-项目对的 y tij 值的直方图(计算平均值时排除了 y t ij = 0的值)。该直方图展示了所有时间窗口内 y t ij值的变异性。我们可以看到,消费率呈双峰分布,一个峰值在 y t ij =0 处,另一个峰值在 y t ij = 6处。我们选择了平均率为5到6进行说明,对于不同的平均用户-项目消费数量,类似的双峰模式也会出现。这些数据的双峰性表明,用户-项目率可以被表示为两个过程的混合:一个是曝光过程,一个是速率过程。0暴露过程:暴露过程描述了用户i在时间t是否已经接触物品j。暴露的概念捕捉到了对于大型物品集合,典型用户可能对大多数“物品词汇”中的物品不知情(或未接触)的想法(也可以参见[9,16,18]),例如,在音乐收听中,许多艺术家对许多用户来说是未知的。我们将ztij∈{0,1}定义为指示变量,指示用户i在时间t是否接触到物品j。我们可以通过参数为πtij的伯努利分布对P(ztij =1)进行建模,其中伯努利参数将是用户i和物品j的过去历史的函数0速率过程:在暴露的条件下,即ztij =1,速率过程考虑了用户i在时间t消费物品j的次数。速率过程的一个自然且简单的分布是泊松模型,由期望消费率参数化0图2:每个用户在3个数据集中每周平均消费的唯一物品数量(左)和总消费物品数量(右)的平均值。0λtij:0P(ytij = k | λtij)= λtijk e^(-λtij)0k!(1)0其中k = 0, 1, 2,...是消费次数。在我们的建模方法中,还有一些其他定义计数数据概率分布的替代方法,例如非负二项分布(NBD)。我们选择使用泊松分布,因为它对模型参数的解释直观且实现简单。在相同的一般建模框架中,使用NBD模型可能比泊松分布能够产生更准确的预测模型。03.2 数据异质性0高维用户-物品数据集的另一个常见特征是异质性。图2显示了每个用户每周消费的唯一物品数量的箱线图(左图)和每个用户总消费物品数量的平均数(右图),对于3个数据集而言,图中明显显示了(a)用户之间的显著变异性,以及(b)不同数据集之间的显著变异性。用户变异性的一个合理解释是不同用户对于消费物品具有显著不同的预算,无论是货币预算还是非货币预算(例如时间)。此外,对于不同数据集,特定领域的消费物品的领域特定成本也可能存在显著差异,导致用户-物品消费在不同领域之间的规模存在显著差异,即领域特定成本偏移。例如,对于用户来说,收听一首歌的实际成本(lastfm)明显低于去餐厅用餐的成本(Yelp)。数据异质性的另一个贡献是用户(和数据集)之间的自然变化,有些用户更倾向于探索新物品,而不是利用已知物品。例如,一个不太倾向于探索的用户自然倾向于重复他们的行为,该用户消费的唯一物品的数量和身份可能会相对较小且随时间保持相对稳定。另一方面,不同的用户可能更容易对物品感到厌倦(这种状态可以从最近的活动中检测出来[12]),并且更容易探索新物品,其中新物品可能受到数据中的全局流行度和趋势的强烈影响。0跟踪:用户建模,Web上的交互和体验WWW 2018,2018年4月23日至27日,法国里昂Pzip(ytij = k) = (1 − πtij) + πtijPλ(k|λtij),k = 0πtijPλ(k|λtij),k = 1, 2, . . .(2)tτ =1 yτijt�iτ = yτijtN)i ytijN72204 零膨胀的泊松回归0鉴于零膨胀和用户-物品数据集的异质性的普遍存在,我们建议将用户i,物品j在时间t的观测值ytij建模为0(1) 一个由曝光过程和速率过程混合而成的模型,其中π tij是混合权重,λ tij是用户i在时间t(在接触物品的条件下)消费物品j的预期速率;(2) 对于每个π t ij和λ t ij,基于特征x t ij的回归模型。04.1 零膨胀泊松模型0曝光过程和速率过程通过两个组成部分的混合模型来建模:(a)零的δ函数和(b)泊松分布。混合模型的权重和泊松速率参数π t ij和λt ij分别是用户和物品相关的,并且是特征x tij的隐式函数。我们在本节的后面详细介绍了这些参数的条件模型。我们可以将P zip ( y t ij = k | π t ij , λ t ij )的概率表示为:0其中P λ ( k | λ t ij)是方程1中定义的泊松概率。上述模型被称为零膨胀泊松(ZIP)回归模型,其中回归方面通过对特征[ 15 ]上的π t ij和λ tij进行条件建模而产生。在ZIP模型中,零可以通过(a)伯努利随机变量π t ij取值为0或(b)π t ij取值为1且泊松模型生成值k =0来生成。从生成的角度来看,生成零的这两种“路径”可以解释为(a)用户i未接触物品j,或者(b)用户接触但决定不消费物品(通过从泊松分布中抽取零)。ZIP模型的一种替代方法是使用速率的平移泊松过程,其最小值为k = 1(而不是k =0)。在统计文献中,这被称为“障碍模型”,因为如果计数大于“障碍”(这里的障碍值为0),则调用泊松模型。我们在我们的3个数据集中对障碍和ZIP模型进行了实证比较(结果未显示),发现ZIP模型在建模和预测用户-物品消费率方面始终优于障碍变体。因此,我们在本文的其余部分将重点放在ZIP模型上。04.2 混合参数的回归建模0我们通过广义线性回归模型对π t ij和λ tij的用户和物品之间的异质性进行建模,其中回归模型依赖于随时间t变化的用户i、物品j和时间t的特征向量x tij。回归模型使用两个常数截距,全局共享和个体特定,分别捕捉0协变量符号 值0全局领域成本 x 0 10过去的用户-物品偏好 x ¯ t ij log � 1 +0当前用户-物品活动 x t ij log ( 1 + y t ij )0历史物品流行度 x ¯ t j log ( 1 +0当前物品流行度 x t j log ( 1 +0表2:根据用户和物品的历史数据定义的用于回归模型的特征。0全局领域成本和个体特定预算的异质性。此外,我们使用四个数据驱动的特征,定义在表2中,这些特征是根据每个个体用户的历史数据和上下文信息计算的。这些特征捕捉了用户和物品历史的不同方面,并允许模型捕捉每个个体的“探索”和“利用”之间的平衡。过去的用户-物品偏好x ¯ tij表示用户i随时间消费物品j的平均速率,可以捕捉到具有高概率“利用”的重复用户的行为。当前用户-物品活动x tij(以对数尺度)捕捉到用户i与物品j的最近活动,受到最近关于物品消费的新颖性和厌倦性研究的启发。历史物品流行度x ¯ tj反映了物品的整体受欢迎程度,并预计捕捉到受到一致性影响的用户的“探索”偏好。当前物品流行度x tj捕捉到物品流行度的当前趋势,使模型能够反映受到潮流、促销或物品“消亡”等趋势驱动的用户的行为。基于用户过去的观察来预测个体未来行为的特征是一种基于观察驱动的时间序列建模方法的实例(我们在下面的相关工作部分进一步讨论)。特别是,这允许个体的行为以非平稳的方式随时间变化。例如,一些个体可能永久处于探索模式,以至于他们的未来行为在特定物品消费方面始终与过去不同。更典型的情况是,未来行为是重复和新颖物品消费的组合,在不同个体之间的程度各不相同。本文中使用的特征(在表2中)相对通用,根据应用程序可以使用其他特征。例如,还可以结合更具体的领域相关特征,如提供有关用户和物品的附加信息的静态特征[ 18],或外生时变特征,如季节性或日历效应[21]。根据回归特征,我们以以下方式建模曝光和速率过程参数:0曝光过程:使用逻辑回归估计πtij的值,条件是全局共享和个体特定的截距系数η0和ηi0,以及个体特定的特征系数向量ηi={ηi1,ηi2,ηi3,ηi4}。0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France7230我们将数据驱动的特征向量表示为xtij={x¯tij,xtij,x¯tj,xtj},并将逻辑函数写为:0πtij=101+e-(η0x0+ηi0xi0+ηixtij) (3)0速率过程:类似地,通过泊松回归建模λtij的值,其中包括全局共享和个体特定的系数β0和βi0,以及个体特定的系数向量βi={βi1,βi2,βi3,βi4}。此外,如[6]和[14]中提出的,我们添加了一个额外的截距(xj0=1),带有项目特定偏移βj0以适应项目间的异质性。得到的泊松回归模型可以写成:0logλtij=β0x0+βi0xi0+βj0xj0+βixtij (4)0其中特征向量xtij的定义与方程3中的相同。05学习算法0由于ZIP回归模型可以表示为两组分的混合模型,其中Pλ(ytij|λ=0)是零膨胀分量,模型参数可以通过标准的期望最大化(EM)算法进行估计。EM是一种用于具有缺失信息的似然函数的迭代优化的通用过程。对于混合模型,每个数据点ytij的缺失信息是生成该数据点的组分的身份。特别地,对于ZIP混合模型,对于数据集中的所有零ytij=0,这些数据点可能是由任一组分生成的,因此这些信息是缺失的。对于ytij>0的值,数据可以明确地分配给速率组分Pλ(ytij|λtij)。E步计算每个数据点ytij=0的成员概率(等价于二进制成员指示器的期望值),条件是当前参数的估计。M步根据E步提供的成员概率生成参数的最大似然估计。在相当广泛的条件下,重复应用E和M步骤保证收敛到似然函数的(局部)最大值。0E步:在E步中,对于每个零值数据点ytij=0,我们计算成员概率wtij,即这个零值由速率分量生成的概率。这些成员概率可以通过将Bayes规则应用于上述混合模型的定义Pzip(ytij=k|πtij,λtij)来计算,其中参数πtij,λtij是当前参数估计(来自最近的M步或第一次迭代时的初始值)。0wtij=π0(1-πtij)Pλ(ytij|λ=0)+πtijPλ(ytij|λtij) (5)0成员权重接近1的数据点更有可能(根据当前参数)由速率组分生成,相反,权重接近0的数据更有可能由零膨胀组分生成。0M步:M步在当前估计的成员权重wtij的条件下,优化模型的参数。我们的ZIP模型有两组参数,混合权重的逻辑回归参数η={η0,ηi},以及混合模型中泊松率分量的速率参数β={β0,βj,βi}。逻辑回归使用成员权重作为目标,泊松回归使用成员权重作为加权回归的权重。逻辑回归和泊松回归都无法以闭合形式进行,因此我们在每个M步中使用梯度下降来估计每个模型的系数。在这两种情况下(逻辑回归和泊松回归),梯度都涉及到所有N×M×T个数据值的密集求和,其中N、M和T分别是用户、项目和时间窗口的数量。这与可以忽略数据中的零的稀疏估计方法(如泊松矩阵分解)形成对比,对于高度稀疏的数据,它可以有效地处理只有完整数据矩阵的一小部分。因此,为了实现可扩展的算法,我们使用随机梯度下降(SGD)而不是完全梯度方法,受到在大数据集上训练大规模深度神经网络的SGD成功的启发。SGD通过使用数据矩阵中的一个小的随机选择的子集(“小批量”)来随机估计每个梯度更新的精确梯度。我们在本文的第8节中详细讨论了EM +SGD方法的收敛性,此时只需注意我们的实现在墙钟时间上与其他竞争方法的公开实现相比是快速(或更快)。每个SGD步骤中的步长是通过ADAM算法[13]确定的,该算法提供了一种根据梯度的置信水平来调整步长的系统方法。我们发现在我们基于SGD的优化问题中,ADAM表现良好(并且在没有它的情况下很难达到收敛),这与深度学习中的工作一致,在大数据集上训练模型的成功中,SGD和自适应步长(如ADAM)的组合对于成功至关重要。最后需要注意的是,我们最大化的不是似然,而是似然乘以先验,即最大后验EM估计。在对数空间中,这对应于最大化(在M步中)对数似然加上对数先验的正则化项。在我们的实验中,我们发现经验确定的MAP先验特别有效。为了计算经验先验,我们使用全局系数(假设所有数据属于单个用户)进行模型训练,并使用L2正则化。然后,将学习到的系数用作所有用户的公共先验。06 相关工作0我们的工作的概念基础建立在统计学中关于计数数据建模的丰富文献基础上[2]。例如,在广义线性模型的框架下,泊松均值被建模为exp(−βkxk),其中βk是回归系数,xk是模型的输入。在纵向数据(跨多个个体的数据)的背景下,通常使用固定效应和随机效应来考虑个体水平的异质性,例如,通过在均值中允许个体特定的截距项:0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France7240例如,exp(βi+βkxk),其中βi是个体i的偏移量(例如,[5],第7章)。将时间依赖性纳入这些模型通常可以分为两个一般类别([2],第7.2章):观测驱动模型,其中计数直接建模为过去计数的函数(例如,计数数据的自回归模型),或参数驱动模型,其中计数依赖于潜在状态空间过程(例如,隐藏马尔可夫模型或线性高斯滤波器)。我们在本文中提出的模型属于观测驱动类别,而我们在实验中比较的动态矩阵分解方法属于参数驱动类别。在计数数据的统计建模中,零膨胀也是众所周知的(例如,[7,15]),并且可以与其他建模组件(如我们在提出的方法中所做的)结合使用,例如时间依赖性和固定效应。虽然我们的方法建立在统计学中的许多先前工作的基础上,但一个重要的区别是我们对高维计数向量(即大量的物品)进行建模。这些计数向量的维度比通常在统计文献中用于计数时间序列建模的低维(通常是标量)计数数据高几个数量级。为了处理高维计数的参数估计优化挑战,我们使用了随机梯度优化技术,这在统计学中尚未(至少到目前为止)在计数建模中得到广泛应用。另一个重要的相关工作领域是用户-物品消费数据的矩阵分解。在过去的十年中,这个领域最著名的方法是基于SVD分解的双线性高斯模型(例如,[14])。在这样的模型中,预期的目标值yij通常表示为:0E[yij] = θ′iϕj + β0 + βi + βj, (6)0其中,θ′iϕj是用户u和物品i的低维潜在向量表示的内积,β0、βi和βj分别是常数、用户和物品的偏移量。在这个框架中,潜在向量θi和ϕj以及参数β0、βi、βj通常通过最小二乘法从数据中估计得到。这相当于最大化yij的高斯模型的似然函数(例如,[22])。这对于可以近似为对称分布的数据是一种有用的方法,但对于我们在本文中关注的高度偏斜的计数数据类型并不理想。矩阵分解中的最新工作借鉴了非负矩阵分解的思想,开发出更适合计数数据的模型,例如,在上述公式6中的期望表示yij的泊松模型的均值,称为泊松矩阵分解(PMF)。一种典型的方法是在贝叶斯框架(如变分推断)中估计参数,并在参数θi和ϕj上放置先验(如Gamma先验)[6,17]。本文特别关注的是最近引入的动态泊松矩阵分解模型(DPMF)[3],该模型将预期计数建模为时间t的函数:0E[ytij] = θ′itϕjt + ...0其中t是离散时间索引(例如天、周等)。在这里,潜在的用户和物品向量允许随时间动态演化,因此t+1时刻的预测是时间t时刻估计的函数。0这种DPMF方法(以及矩阵分解一般)可以看作是参数驱动的潜在空间模型的一个实例,与我们在此追求的观测驱动模型形成对比。在非动态PMF环境中,最近的一系列相关工作是在概率矩阵分解中使用零膨胀模型。Liang等人提出了“暴露矩阵分解”(ExpoMF)的框架,该框架使用零膨胀来明确考虑大型二进制用户-物品数据集的暴露效应。Liang等人发现,ExpoMF在没有考虑暴露的传统PMF方法上系统地表现更好。同样,Jain等人开发了一种概率矩阵分解框架,其中包含零膨胀以处理具有大量标签的多标
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功