史树明：构建高效可配置的大模型推理系统

需积分: 5 163 浏览量更新于2024-06-13 收藏 4.96MB PDF 举报

"该资源是史树明在腾讯AILab关于高效且高度可配置的大模型推理引擎与服务的分享，涵盖了Transformer模型的推理优化、关键需求及核心技术，旨在提升推理速度、吞吐率、减少显存占用，同时增强易用性和多模型支持。" 在深度学习领域，尤其是自然语言处理（NLP）中，大模型的推理效率至关重要。史树明的分享主要集中在以下几个关键知识点： 1. **Transformer推理**：Transformer模型由于其自注意力机制，计算复杂度较高，对推理速度和资源占用都有较大影响。[链接](https://jalammar.github.io/illustrated-transformer/)提供了Transformer模型的可视化解释。 2. **大模型推理引擎的关键需求**： - **推理速度**：快速响应用户请求，降低延迟。 - **吞吐率**：处理大量并发请求的能力。 - **显存/内存占用**：减少硬件资源消耗，提高能效比。 - **易用性**：提供简单直观的接口，方便开发和部署。 - **多模型支持**：兼容多种模型架构，适应不同应用场景。 3. **核心技术**： - **算子融合**：将多个操作合并为一个，减少计算步骤和内存交互。 - **高效张量运算**：利用优化的数学库如CuDNN加速计算。 - **KV缓存**：存储Transformer中的键值对，减少不必要的计算。 - **动态批处理**：根据可用资源动态调整批处理大小，最大化设备利用率。 - **推测解码**：提前预测可能的下一步，减少无效计算。 - **多卡推理**：利用GPU集群并行处理任务。 - **模型切分**：通过层切分、矩阵切分和混合切分优化计算分布。 - **并行解码**：对于多token预测，同时进行多个解码步骤。 - **量化**：通过降低数据精度来减少计算和存储需求，包括权重量化和KV缓存量化。 - **基于原子技术点的组合泛化框架**：通过组合基本技术实现更广泛的优化。 4. **结果质量**：确保模型性能不受优化措施的影响，保持高质量的预测输出。 - **GPU/CPU混合推理**：结合两者优势，平衡计算效率和成本。 - **CPU优化**：利用多线程和SIMD指令提升CPU计算性能。 - **分组查询注意力（GQA）**：优化注意力机制以处理大规模输入。 - **Flashdecoding**：快速解码策略，提高效率。 - **解码策略**：针对特定应用定制的解码方法，如贪心解码、 Beam Search等。这些技术和方法都是为了构建一个高效、灵活且易于使用的推理服务，以满足日益增长的AI应用需求。通过这些优化手段，可以实现大模型在实际应用中的高效运行，从而提供更好的用户体验和服务质量。

• 两大类量化方法

• 量化感知训练 (Quantization-aware training, QAT)

 效果好，需要大量训练数据（甚至需要访问原始训练数据） ，计算开销大

• 训练后量化 (Post-training quantization, PTQ) [1, 2, 3, 4, 5, 6]

• 类型1：基于校准数据的量化（量化时间在几小时或更长）

• 类型2：无数据（data-free）校准量化

• 类型3：快速量化（量化时间在几分钟以内）

大模型量化

1. Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. GPTQ: Accurate Quantization for Generative Pre-Trained Transformers. ICLR 2022.

2. Tim Dettmers, Mike Lewis, Sam Shleifer, and Luke Zettlemoyer. 8-bit Otimizers via Block-wise Quantization. ICLR 2022.

3. Tim Dettmers, Mike Lewis, Younes Belkada, and Luke Zettlemoyer. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. arXiv preprint arXiv:2208.07339, 2022.

4. bitsandbytes: https://github.com/TimDettmers/bitsandbytes

5. Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, and Yuxiong He. ZeroQuant: Efficient and affordable post-training quantization for large-scale transformers.

arXiv preprint arXiv:2206.01861, 2022.

6. Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, and Song Han. AWQ: Activation-Aware Weight Quantization for LLM Compression and Acceleration. arXiv preprint

arXiv:2306.00978, 2023.