平衡采样提升轻量级广告点击率预测效率与准确性

需积分: 9 0 下载量 4 浏览量 更新于2024-09-10 1 收藏 823KB PDF 举报
本文研究的主题是"基于平衡采样的轻量级广告点击率预估方法",针对的是现代定向广告投放系统中日益重要的广告点击率预测问题。在过去的十年里,随着定向广告技术的飞速发展,机器学习在广告点击率预测中扮演了关键角色。然而,随着训练数据的指数级增长,模型扩展性面临挑战,大型数据集使得包含更多复杂特征和高级模型变得困难。 传统方法受到训练数据集规模的限制,这导致了模型性能的瓶颈。为了克服这个问题,研究者借鉴了类别不平衡学习中的平衡采样策略。平衡采样策略通过增加负样本数据的多样性,以及利用集成学习(如Bagging或Boosting)技术,有效减少了训练时间,提高了模型的泛化能力和准确性。这种方法的重点在于提升模型在处理类别分布不均的情况下,尤其是对于点击率较低但对整体预测至关重要的广告类别的性能。 通过实验证明,采用平衡采样后,广告点击率预估的效果显著提高,同时在线上资源的使用效率也得到了优化。这表明,通过轻量化的方法,即在保持模型性能的同时,降低了对计算资源的需求,能够在实际广告投放系统中实现更好的效果。该研究对于优化广告个性化推荐、提升广告投放效率以及推动计算广告学领域的技术发展具有重要意义。 本文的主要贡献包括提出了一种有效的平衡采样策略,以及通过实验证明其在广告点击率预估中的实际应用价值。作者施梦圜和顾津吉分别来自南京大学软件新技术国家重点实验室和百度中国有限公司联盟研发部,他们的研究背景涵盖了机器学习和信息检索等领域,为广告行业的智能化投放提供了新的思考角度和技术支持。关键词涉及广告点击率、机器学习、计算广告学和类别不平衡学习,这些关键词反映了研究的核心内容和焦点领域。