"AI服务引擎技术方案介绍.pdf探讨了AI领域的Serving框架,涉及AI算法工程平台化的问题、理想的AIServing框架特征以及引擎托管平台的工作机制。"
在AI领域,一个Serving框架是至关重要的,它解决了算法工程平台化的诸多痛点。这些痛点包括质量一致性差,导致问题难以高效解决;流程协作周期长,各环节紧密耦合,增加了协作成本。此外,AI算法工程通常面临听写、合成、翻译等不同服务和引擎的SDK集成与测试,以及语音识别、多模态识别等复杂任务,这些都需要高度的专业性和标准化。
理想的AIServing框架应具备以下特点:
1. 高内聚的平台工程:整合各个组件,减少烟囱式架构,提高泛化能力。
2. 一键跨平台支持:允许算法工程在多种环境和设备上快速部署。
3. 统一的SDK/API:提供一致的接口,简化开发工作。
4. 端到端一致性:确保从数据输入到结果输出的全过程质量稳定。
5. 高度标准化:降低开发难度,提升开发效率。
6. 可扩展性:易于添加新功能或升级现有功能。
7. 精准的性能与容量控制:有效管理资源,确保服务的响应速度和稳定性。
8. 高效调度与负载均衡:自动分配任务,优化系统资源利用率。
9. 跨平台支持:兼容各种操作系统和硬件平台。
10. 高并发与低延迟:满足大规模并发请求,保证用户体验。
11. 高度自动化工具链:自动化测试、部署和监控,减少人工干预。
12. 可插拔式引擎模块:方便替换或升级引擎,增强系统的灵活性。
引擎托管平台(AIServiceEngine,ASE)旨在为AI算法工程师提供一个无服务全托管的解决方案。它通过简化传统协作流程,将原本复杂的8步流程缩减为3步,减少了协作人员,从而降低了开发成本。ASE采用HTTP和WebSocket API,以及AIKIT SDK,通过HTTPGate、WebSocket Gate和KITGate等组件实现业务代理和负载均衡。AILoader负责加载模型,wraper处理协议定义,同时支持Json schema、Test case的自动生成以及CI(持续集成)提交发布。引擎托管平台的这种设计能够实现对Kernel和Model的性能监控,进行弹性调度,确保服务的稳定性和高效性。