京东广告受众属性预估:从序列到人口统计学信息

版权申诉
0 下载量 165 浏览量 更新于2024-07-05 收藏 1.9MB PDF 举报
"京东广告受众属性预估.pdf" 是一份关于京东零售广告受众属性预测的报告,由京东零售标签研发部的王贺提出。报告探讨了如何通过用户在京东平台上的广告点击日志,预测用户的性别和年龄,以此提升广告推荐系统的精准度。 报告首先介绍了赛题的理解,强调了这是一个逆序建模的问题。在实际业务中,通常依据用户属性进行推荐,但在这个挑战中,研究人员需要根据用户对广告的点击序列反推出用户的基础属性。用户的行为序列,如连续多天的点击广告记录,被用来预测年龄和性别。评估指标是年龄和性别预测的准确率之和。 赛题的特点包括用户行为和广告投放的稀疏性,这在数据中表现为id的长尾特性。由于数据的稀疏性,传统的统计方法可能不足以捕捉到id的详细信息,因此需要将这些id进行稠密化处理,以提取更多有价值的信息。 在特征工程部分,报告列举了几种关键的统计特征,如用户在整个数据集中的总出现次数和天数、点击广告的总次数、点击不同广告、产品、类别、素材和广告主的总数,以及用户每天对每条广告点击的平均次数、均值和方差。这些特征旨在揭示用户的交互行为和兴趣范围。 此外,报告还提到了种子人群的概念,即通过统计每个广告受众的性别和年龄分布,可以为每个用户生成一个性别年龄的概率分布,作为特征输入。这种方法有助于捕捉用户在特定广告下的属性倾向。 在方案演变部分,传统的方法如TF-IDF被提及,结合统计特征和概率分布特征,构建模型来预测受众属性。TF-IDF是一种用于信息检索和文本挖掘的技术,用于量化文档中某个词的重要性。 这份报告深入探讨了如何利用大数据分析技术解决广告受众属性预估问题,涉及了数据稀疏性处理、特征工程和模型构建等多个方面,对于理解和优化广告推荐系统具有重要的参考价值。