收稿日期:20141203;修回日期:20150130 基金项目:国家公益性科研专项基金资助项目(201310162);连云港科技支撑计划资助
项目(SH1110)
作者简介:朱志北(1989),男,江苏徐州人,硕士,主要研究方向为数据挖掘、计算广告;李斌(1979),男(通信作者),江苏南京人,讲师,硕士,
主要研究方向为数据库、传感器网络(libean@139.com);刘学军(1971),男,江苏南京人,教授,博士,主要研究方向为数据库、数据挖掘、传感器网
络;胡平(1962),男,江苏南京人,教授,硕士,主要研究方向为远程教育、计算机智能.
基于 LDA的互联网广告点击率预测研究
朱志北,李 斌
,刘学军,胡 平
(南京工业大学 电子与信息工程学院,南京 211816)
摘 要:广告点击率是互联网广告投放的重要依据,有效地预测广告的点击率,对于提高广告投放的效率有着
至关重要的作用。在训练点击率预测模型的过程中,往往面临着广告及用户的数量巨大以及训练数据集稀疏的
问题,从而导致点击率预测的准确度下降。针对这些问题提出了一种基于 LDA(latentDirichletallocation,LDA)
的点击率预测算法,即 LDAFMs,该算法对原有训练集进行基于主题的分割,利用分割后的子训练集分别建立不
同主题下的点击率预测模型;在此基础上,利用广告属于不同主题的概率,有权重地结合每个预测模型的预测结
果,进而计算广告的点击率。实验基于
KDDCup2012track2的真实数据集,证明了算法的可行性与有效性。
关键词:计算广告;点击率;主题模型;因子分解机
中图分类号:TP181 文献标志码:A 文章编号:10013695(2016)04097904
doi
:10.3969/j.issn.10013695.2016.04.004
ResearchonclickthroughratepredictionofInternetadvertisingbasedonLDA
ZhuZhibei,LiBin
,LiuXuejun,HuPing
(CollegeofElectronics&InformationEngineering,NanjingTechUniversity,Nanjing211816,China)
Abstract:AdvertisementclickthroughrateisessentialforInternetadvertising.Therefore,estimatingclickthroughratepre
ciselymakessignificantinfluenceintheefficiencyofadvertisingontheInternet.Duringthetrainingofpredictingmodels,
manyproblemswillarisesuchasthemassivescaleofadvertisementsandusers,andthesparsenessoftrainingset,whichusu
allyleadtoalowaccuracyofthepredictiveclickthroughrate.Inordertosolvetheseproblems
,thispaperproposedanalgo
rithmnamedLDAFMs,whichwasakindofpredictingclickratealgorithmbasedonLDA.Specifically,LDAFMspartitioned
theoriginaltrainingsetsaccordingtodifferenttopics,andthenbuiltclickthroughratepredictionmodelsrespectivelyupondif
ferenttopicsusingpartitionedsubtrainingsets.Onthisbasis
,itcalculatedtheadvertisementclickthroughratebyusingthe
probabilityofadvertisementbelongedtodifferenttopicsandthecombinedwithpredictionresultofeverypredictionmodel.The
experimentbasedonrealdatasetsfromKDDCup2012Track2,provesthefeasibilityandvalidityofthismethod.
Keywords:computationaladvertising;clickthroughrate;topicmodel;factorizationmachines
0 引言
我国网络广告业发展迅速,2013年国内网络广告市场规
模已达到 1100亿元。网络信息浩如烟海,如何在网络中实现
精准的受众定向和广告决策,获得广告投放的高回报率,已经
成为互联网广告发展中的难题。计算广告就是在这种情况下
兴起的一个分支学科,它所要解决的问题是如何在给定的上下
文环境中实现用户与广告的最佳匹配
[1]
。
按点击付费(
costperclick,CPC)是互联网广告的主要计
价模型之一。广告媒体的收益可以表示为 N×CTR×CPC,其
中点击率(clickthroughrate,CTR)表示用户可能对广告进行点
击的概率,准确预测广告的点击率不仅可以提高广告媒体的收
益,而且可以提高广告主的投资回报率,同时最大化用户对所
展示广告的满意度。因此,点击率预测是计算广告领域中的一
个关键问题,具有很高的研究价值。
近年来,国内外研究人员对广告点击率预测模型进行了相
关的研究。Guo等人
[2]
提出了 CCM模型,假设用户对查询结
果的浏览遵循从上到下的顺序,进而指出用户查看下一条结果
的概率与上一条结果的相关度有关,即上一条结果和查询内容
越相关,点击下一条结果的概率就越低。在
Srikant等人
[3]
提
出的 UBM模型中,不再假设点击是严格地顺序进行,即用户可
以随意地点击查询结果,因此更符合实际情况。在
UBM中,用
户转移到下一个查询结果的概率依赖于上一次点击的位置和
该位置与当前结果之间的距离。上述模型都是基于贝叶斯网
络的图模型,由于模型的结构依赖于一系列的假设检验,真实
数据一旦与假设不符,此类模型的效果就会变得较差;另一方
面,这些模型无法处理稀疏广告或新广告。
Wang等人
[4]
提出了两种不同的方法对数据稀疏情况下
的点击率估计进行优化,一种是基于自然数据分层的方法,另
一种是基于数据在时间上的持续性的方法,通过这两种方法的
叠加使用使预估效果有很大的提高。
Gollapudi等人
[5]
针对广
告的点击数过于稀少而不能有效支持广告相关参数推断的问
题,提出并证实了广告的点击行为与搜索结果的点击行为具有
相关性,进而用搜索结果的点击数据来近似推断每个查询中理
第 33卷第 4期
2016年 4月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.33No.4
Apr.2016