TensorFlowServing在广告CTR预估的线上实践与性能优化

119 浏览量更新于2024-08-27 收藏 940KB PDF 举报

"基于TensorFlowServing的深度学习在线预估" 深度学习已经渗透到许多领域，如图像处理、自然语言处理以及广告点击率（CTR）预估等。随着技术的发展，模型不断演进，例如Wide&Deep、DeepCrossNetwork、DeepFM和xDeepFM等。然而，将这些模型从离线环境迁移到线上生产环境中，会面临性能优化和集成到现有工程系统等挑战。TensorFlowServing作为一个强大的模型 Serving 工具，为解决这些问题提供了可能。 TensorFlowServing 是 Google 推出的一个开源项目，它旨在简化模型部署，使开发者能够快速地将训练好的模型上线，提供预测服务。在本文中，作者分享了美团用户增长组使用 TensorFlowServing 部署 WDL（Wide&Deep Learning）模型的实践经验，以及如何优化线上服务性能。 1. 离线训练流程： - 数据准备：使用 Spark 生成 TensorFlow 兼容的 tfrecord 格式数据，以提高数据读取效率。 - 模型选择：采用经典的 Wide&Deep 模型，包含用户特征、场景特征和商品特征。Wide 部分包含80多个特征，Deep 部分有60多个特征，经过 Embedding 层后约600维，随后通过3层256节点的全连接层，总参数量约为35万，模型文件大小约11MB。 - 分布式训练：采用 TensorFlow 的同步+BackupWorkers 框架，解决了异步更新延迟和同步更新性能问题，并使用 GreedyLoadBalancing 策略进行参数服务器（PS）的负载均衡。 2. 在线预估优化： - 性能要求：在广告精排场景中，模型需要在10ms内完成对数百个广告的点击率预估，以满足实时竞价需求。因此，对模型预估性能要求较高。 - 使用 CPU 而非 GPU：在某些情况下，CPU 训练可能比 GPU 更快，这可能是因为 CPU 在处理小规模模型时能更好地平衡计算和内存带宽。 3. TensorFlowServing 部署： - 模型导出：将训练好的模型导出为 TensorFlowServing 可接受的格式。 - 配置与启动：配置 TensorFlowServing 以加载模型并设置服务端口，启动 Serving 进程。 - 请求处理：客户端通过 RESTful API 或 gRPC 向 Serving 发送预测请求，获取模型预估结果。 4. 线上性能优化： - 资源调度：合理分配 CPU 和内存资源，确保 Serving 实例可以高效运行。 - 预测并行：通过批处理或多线程处理预测请求，减少单次预测的开销。 - 请求缓存：对重复请求的结果进行缓存，减少不必要的模型计算。 - 监控与调优：持续监控线上服务的性能指标，如响应时间、错误率和资源利用率，根据情况调整模型或 Serving 参数。 TensorFlowServing 提供了一个高效且灵活的框架，使得深度学习模型能够快速融入现有的业务系统。通过理解其工作原理和最佳实践，开发者可以有效地解决模型上线过程中的问题，实现高性能的在线预估服务。

基于基于TensorFlowServing的深度学习在线预估的深度学习在线预估

一、前言

随着深度学习在图像、语言、广告点击率预估等各个领域不断发展，很多团队开始探索深度学习技术在业务层面的实践与应

用。而在广告CTR预估方面，新模型也是层出不穷： Wide and Deep[1]、DeepCross Network[2]、DeepFM[3]、

xDeepFM[4]，美团很多篇深度学习博客也做了详细的介绍。但是，当离线模型需要上线时，就会遇见各种新的问题：离线模

型性能能否满足线上要求、模型预估如何镶入到原有工程系统等等。只有准确的理解深度学习框架，才能更好地将深度学习部

署到线上，从而兼容原工程系统、满足线上性能要求。

本文首先介绍下美团平台用户增长组业务场景及离线训练流程，然后主要介绍我们使用TensorFlow Serving部署WDL模型到

线上的全过程，以及如何优化线上服务性能，希望能对大家有所启发。

二、业务场景及离线流程

2.1 业务场景

在广告精排的场景下，针对每个用户，最多会有几百个广告召回，模型根据用户特征与每一个广告相关特征，分别预估该用户

对每条广告的点击率，从而进行排序。由于广告交易平台（AdExchange）对于DSP的超时时间限制，我们的排序模块平均响

应时间必须控制在10ms以内，同时美团DSP需要根据预估点击率参与实时竞价，因此对模型预估性能要求比较高。

2.2 离线训练

离线数据方面，我们使用Spark生成TensorFlow[5]原生态的数据格式tfrecord，加快数据读取。

模型方面，使用经典的Wide and Deep模型，特征包括用户维度特征、场景维度特征、商品维度特征。Wide 部分有 80多特征

输入，Deep部分有60多特征输入，经过Embedding输入层大约有600维度，之后是3层256等宽全连接，模型参数一共有35万

参数，对应导出模型文件大小大约11M。

离线训练方面，使用TensorFlow同步 + Backup Workers[6]的分布式框架，解决异步更新延迟和同步更新性能慢的问题。

在分布式ps参数分配方面，使用GreedyLoadBalancing方式，根据预估参数大小分配参数，取代Round Robin取模分配的方

法，可以使各个PS负载均衡。

计算设备方面，我们发现只使用CPU而不使用GPU，训练速度会更快，这主要是因为尽管GPU计算上性能可能会提升，但是

却增加了CPU与GPU之间数据传输的开销，当模型计算并不太复杂时，使用CPU效果会更好些。

同时我们使用了Estimator高级API，将数据读取、分布式训练、模型验证、TensorFlow Serving模型导出进行封装。

使用Estimator的主要好处在于：

单机训练与分布式训练可以很简单的切换，而且在使用不同设备：CPU、GPU、TPU时，无需修改过多的代码。

Estimator的框架十分清晰，便于开发者之间的交流。

初学者还可以直接使用一些已经构建好的Estimator模型：DNN模型、XGBoost模型、线性模型等。

三、TensorFlow Serving及性能优化

3.1 TensorFlow Serving介绍

TensorFlow Serving是一个用于机器学习模型Serving的高性能开源库，它可以将训练好的机器学习模型部署到线上，使用

gRPC作为接口接受外部调用。TensorFlow Serving支持模型热更新与自动模型版本管理，具有非常灵活的特点。

下图为TensorFlow Serving整个框架图。Client端会不断给Manager发送请求，Manager会根据版本管理策略管理模型更新，

并将最新的模型计算结果返回给Client端。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38628612

粉丝: 8

TensorFlowServing在广告CTR预估的线上实践与性能优化

美团点评2018技术年货-算法

美团点评技术汇集——算法篇

TensorFlow Serving驱动的深度学习在线预估实战与性能优化

TensorFlow在CTR预估中的应用：DNN落地实践-李珂

美团点评技术年货深度学习实践揭秘

美团技术博客精选：算法深度学习实践

深度学习广告点击率预测模型的构建与应用

美团点评深度学习与AI算法技术实践全览

深度学习与自然语言处理：2018年技术进展综述

深度学习模型部署：一步到位指南（从研究到生产）

最新资源