Clink: C++在线特征服务,融合Flink与高效处理

版权申诉
PDF格式 | 3.89MB | 更新于2024-07-04 | 199 浏览量 | 0 下载量 举报
收藏
Clink是奇虎360团队研发的一款专为Apache Flink设计的C/C++在线特征服务解决方案。该方案旨在克服Flink在C/C++在线场景中的局限性,特别是在互联网搜推广等业务中,由于实时性要求高(延迟要求小于5ms),而Flink主要针对批处理(Batch)和流处理(Streaming)场景,其性能可能难以满足低延迟的在线推理需求。 在C/C++在线场景下,Flink技术栈与业务需求的融合存在以下挑战: 1. **局限性**: - Flink的批流一体特性虽有助于特征工程,但在C/C++为主的技术栈中,由于性能瓶颈,流式计算架构往往不能满足低延迟的在线处理需求。 - 混合使用Java和C++逻辑可能导致代码维护困难,重复开发,且C++的学习曲线较陡峭,增加了开发和排错的成本。 2. **解决方案:Clink**: - Clink作为连接Flink与C/C++技术栈的桥梁,解决了这些问题。它提供了一个ClinkPipeline组件,通过libclink.so高效的特征工程算子库,实现在Flink任务中调用C++编写的高性能特征处理逻辑。 - ClinkPipeline负责数据处理流程,包括从日志、样本中抽取和转换特征,生成机器学习所需的特征数据。此外,它还支持模型训练和在线推理服务,将特征工程与实际应用无缝集成。 - ClinkServing模块则负责在线服务,确保特征实时更新并供模型使用。 3. **架构设计**: - 架构图中展示了Clink如何与Flink/AlinkJob协同工作,以及与C++算子的交互。特征平台由Flink/AlinkJob驱动,ClinkPipeline负责特征处理,C++算子执行高性能运算,最终通过Clinkservice为在线推理提供实时特征。 4. **目标与应用场景**: - Clink的目标是简化机器学习特征工程阶段的复杂性,特别是Batch-Streaming和Online Serving之间的接口一致性,提升效率并降低部署后的排错成本。 - 在互联网搜推广业务中,Clink能够高效地处理实时请求,提供快速特征生成,这对于提高广告推荐精度和用户体验至关重要。 Clink是一个创新的解决方案,通过融合Flink的批流一体处理能力和C++的高效性能,有效解决了C/C++在线场景下的特征工程挑战,提升了互联网业务的实时性和响应速度。

相关推荐