构建亿级视频广告事件预测系统:xTR技术解析
需积分: 5 40 浏览量
更新于2024-06-21
收藏 2.66MB PDF 举报
“藏经阁-亿级广告事件预测系统构建之道.pdf”主要讲述了阿里云如何构建一个亿级视频广告事件预测系统,涉及了xTR(x-through rate)预测、系统架构、特征提取、模型训练与优化等多个方面。
1. xTR(x-through rate)预测:
xTR是对视频广告中特定事件发生概率的预测,如注册、加载等,相较于传统的CTR(click-through rate,点击率)预测,它关注的是更深层次的用户交互行为,从而更好地评估广告的效果。xTR预测系统对于视频广告行业尤其重要,因为它可以帮助优化广告投放策略,提高广告主的投资回报率。
2. xTR系统架构:
- 广告投放日志:收集用户与广告的交互信息。
- 广告服务器:负责处理广告请求和响应。
- 预测系统:基于特征进行事件预测。
- xTR在线服务:提供实时预测,采用ThriftRPC协议处理百万级别的查询每秒(QPS)。
- KV数据库:存储关键值对数据,用于快速访问。
- API Server:对外提供接口服务。
- xTR离线任务组:负责特征提取、样本生成、模型训练等批量处理任务。
- 大数据平台:包括Presto、MapReduce、Spark、Hive、Yarn、HDFS等,用于处理海量数据。
- 存储系统:如HBase、Kafka等,用于存储和传输数据。
3. 数据规模:
- 交易量:每天15亿次。
- 特征量:30天内的15亿个。
- 样本量:过去7天的2.5亿条。
- 模型量:涵盖50多个事件预测。
- 在线服务处理能力:100万QPS。
4. 特征工程:
- 特征提取:包括上下文统计类特征(如视频、网页、地理位置等)、视频文本分类特征等。
- 静态特征:不随时间变化的特征。
- 动态特征:与事件相关的特征,数量远小于静态特征。
- 特征抽取方案:考虑视频ID、标题、描述、人工标注、NLP处理等信息。
- 特征组织方式:使用因子分解机(Factorization Machine)回归模型,将上下文信息one-hot表示为子特征。
5. 模型训练与优化:
- 特征过滤、特征交叉、特征缺省值处理、特征平滑、特征离散化等预处理步骤。
- 抽样和重加权策略以平衡数据集。
- 自适应模型:根据训练样本动态调整模型参数。
- 模型分析:对模型性能进行评估,如准确率、AUC等。
- 线上模型更新:定期更新模型,保持预测的准确性。
6. 系统挑战与解决方案:
- 面临高并发在线服务需求,通过优化特征存储和模型结构,如将所有特征存储在KV中改为使用特征回归模型,解决了存储消耗问题,并提升了预测效率,模型效果达到0.9,表明了方案的有效性。
这个亿级广告事件预测系统展示了阿里云在大数据处理、机器学习和广告优化方面的先进技术,为视频广告行业提供了高效的决策支持。
2023-08-28 上传
2023-08-30 上传
2023-08-28 上传
2023-09-05 上传
2023-09-11 上传
2023-09-10 上传
2024-01-11 上传
2023-09-05 上传
weixin_40191861_zj
- 粉丝: 86
- 资源: 1万+
最新资源
- turtle-logo:用于Turtle徽标编程语言的MakeCode扩展
- screepsmod-mongo:用MongoDB和Redis替换LokiJS
- Personal-Website:我的个人作品集展示了我的经验和项目
- elirehema:自述文件
- EightInSeven:Minecraft 1.8 1.7.10 的可见性行走算法
- illustrator-scripts-for-mobile:Illustrator脚本的集合,这些脚本可将图层或画板导出到不同密度的PNG(iOS Retina Display,Android设备等)
- Andron
- 安卓电视机大屏显示ui设计
- Assertions:作证断言集
- 正常运行时间:st stitcombe的正常运行时间监控器和状态页面,由@upptime提供支持
- mern:Mern edu应用
- 行业文档-设计装置-一种降低混合机物料残留的方法.zip
- nvim:这是我的nvim点文件。 它已经被配置为在您的系统中自动安装vim-plug
- 疯狂java讲义源码下载-The-Way-I-Learn-Android:我的Android学习之路,主要记录我的android的学习过程,时
- html_rocketseat
- Python库 | FuXi-1.0_rc.dev-py2.5.egg