TensorFlow Serving驱动的深度学习在线预估实战与性能优化

173 浏览量更新于2024-08-28 收藏 939KB PDF 举报

"基于TensorFlow Serving的深度学习在线预估"这一主题深入探讨了深度学习技术在实际业务场景中的应用，尤其是在广告CTR预测中的模型部署和优化。文章首先概述了深度学习在各领域的广泛应用，如图像识别、自然语言处理和广告点击率预测，其中提到的模型如Wide and Deep、DeepCrossNetwork和DeepFM等都是业界关注的热点。美团用户增长组面临的具体业务场景是广告精排，需要在极短的时间内（10ms以内）对数百个广告进行排序，同时参与实时竞价。这对模型的在线预估性能提出了高要求。他们选择使用TensorFlow Serving作为在线部署平台，因为它能提供高效的服务和良好的兼容性。离线训练阶段，他们利用Spark生成tfrecord格式的数据，以提高数据读取效率。模型设计采用经典的Wide and Deep架构，结合用户、场景和商品维度特征，深度部分包含Embedding层和全连接层，总参数量约为35万。为了优化分布式训练，他们采用了同步+BackupWorkers模式来解决异步更新的延迟和同步更新的性能瓶颈，使用GreedyLoadBalancing策略平衡参数服务器（PS）的负载。有趣的是，尽管GPU在计算性能上有优势，但在这个特定场景中，由于任务特性，他们发现仅使用CPU就能实现更快的训练速度。这表明在实际部署中，选择合适的硬件配置需考虑具体业务需求和模型特点。文章接下来可能会详细介绍TensorFlow Serving的部署过程，包括模型加载、服务监控、性能调优等方面，以及可能遇到的问题及其解决方案。通过分享这些经验，作者希望帮助其他团队理解和应对深度学习模型从离线到线上迁移过程中可能遇到的挑战，提升线上服务的质量和效率。

基于基于TensorFlowServing的深度学习在线预估的深度学习在线预估

一、前言

随着深度学习在图像、语言、广告点击率预估等各个领域不断发展，很多团队开始探索深度学习技术在业务层面的实践与应

用。而在广告CTR预估方面，新模型也是层出不穷： Wide and Deep[1]、DeepCross Network[2]、DeepFM[3]、

xDeepFM[4]，美团很多篇深度学习博客也做了详细的介绍。但是，当离线模型需要上线时，就会遇见各种新的问题：离线模

型性能能否满足线上要求、模型预估如何镶入到原有工程系统等等。只有准确的理解深度学习框架，才能更好地将深度学习部

署到线上，从而兼容原工程系统、满足线上性能要求。

本文首先介绍下美团平台用户增长组业务场景及离线训练流程，然后主要介绍我们使用TensorFlow Serving部署WDL模型到

线上的全过程，以及如何优化线上服务性能，希望能对大家有所启发。

二、业务场景及离线流程

2.1 业务场景

在广告精排的场景下，针对每个用户，最多会有几百个广告召回，模型根据用户特征与每一个广告相关特征，分别预估该用户

对每条广告的点击率，从而进行排序。由于广告交易平台（AdExchange）对于DSP的超时时间限制，我们的排序模块平均响

应时间必须控制在10ms以内，同时美团DSP需要根据预估点击率参与实时竞价，因此对模型预估性能要求比较高。

2.2 离线训练

离线数据方面，我们使用Spark生成TensorFlow[5]原生态的数据格式tfrecord，加快数据读取。

模型方面，使用经典的Wide and Deep模型，特征包括用户维度特征、场景维度特征、商品维度特征。Wide 部分有 80多特征

输入，Deep部分有60多特征输入，经过Embedding输入层大约有600维度，之后是3层256等宽全连接，模型参数一共有35万

参数，对应导出模型文件大小大约11M。

离线训练方面，使用TensorFlow同步 + Backup Workers[6]的分布式框架，解决异步更新延迟和同步更新性能慢的问题。

在分布式ps参数分配方面，使用GreedyLoadBalancing方式，根据预估参数大小分配参数，取代Round Robin取模分配的方

法，可以使各个PS负载均衡。

计算设备方面，我们发现只使用CPU而不使用GPU，训练速度会更快，这主要是因为尽管GPU计算上性能可能会提升，但是

却增加了CPU与GPU之间数据传输的开销，当模型计算并不太复杂时，使用CPU效果会更好些。

同时我们使用了Estimator高级API，将数据读取、分布式训练、模型验证、TensorFlow Serving模型导出进行封装。

使用Estimator的主要好处在于：

单机训练与分布式训练可以很简单的切换，而且在使用不同设备：CPU、GPU、TPU时，无需修改过多的代码。

Estimator的框架十分清晰，便于开发者之间的交流。

初学者还可以直接使用一些已经构建好的Estimator模型：DNN模型、XGBoost模型、线性模型等。

三、TensorFlow Serving及性能优化

3.1 TensorFlow Serving介绍

TensorFlow Serving是一个用于机器学习模型Serving的高性能开源库，它可以将训练好的机器学习模型部署到线上，使用

gRPC作为接口接受外部调用。TensorFlow Serving支持模型热更新与自动模型版本管理，具有非常灵活的特点。

下图为TensorFlow Serving整个框架图。Client端会不断给Manager发送请求，Manager会根据版本管理策略管理模型更新，

并将最新的模型计算结果返回给Client端。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38557757

粉丝: 5
资源: 934

TensorFlow Serving驱动的深度学习在线预估实战与性能优化

常用的深度学习模型训练、评估和预测相关代码，基于Tensorflow高阶API（Estimator）实现；尽量做到可读性和通用性

基于深度学习的CTR预估，从FM推演各深度学习CTR预估模型

TensorFlowServing在广告CTR预估的线上实践与性能优化

TensorFlow在CTR预估中的应用：DNN落地实践-李珂

美团技术博客精选：算法深度学习实践

深度学习广告点击率预测模型的构建与应用

深度学习与自然语言处理：2018年技术进展综述

深度学习模型部署：一步到位指南（从研究到生产）

AI开发平台选择指南：如何根据业务需求精准选择？百度BML vs 阿里PAI深度对比

一个使用Androidstudio开发的校园通知APP

最新资源