vllm fp8 部署deepseek
时间: 2025-03-01 14:56:36 浏览: 121
使用 vLLM 和 FP8 部署 DeepSeek 模型
软件环境准备
为了成功部署并利用 FP8 数据类型的 DeepSeek 模型,需安装支持特定硬件特性的软件包。这包括但不限于:
- 支持 FP8/BF16 推理模式的 vLLM 版本应不低于 0.4.0[^2]。
- 建议采用 CUDA 12.1 或更高版本以及 PyTorch 2.3 或更新版本来确保最佳性能和支持。
安装依赖库
在满足上述条件之后,还需配置 Python 环境,并通过 pip 工具安装必要的 Python 库文件。具体命令如下所示:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install git+https://github.com/vllm-project/vllm.git@main
以上操作会下载最新的 vLLM 主分支代码并完成编译安装过程。
启动服务端口
准备好所有前置条件后,可以通过启动 vllm-server
来加载预训练好的 DeepSeek 模型实例。这里假设目标模型为 "deepseek-v2-lite" 并启用了张量并行度设置为 4 的情况为例说明:
vllm-server --model deepseek-v2-lite --tensor-parallel-size 4 --dtype fp8
此指令中的 --dtype fp8
参数指定了使用 FP8 类型作为内部计算的数据表示形式,从而可能带来更低精度下的高效运算能力提升[^3]。
测试与验证
最后一步是对刚刚搭建的服务接口执行简单的请求测试,确认其正常工作状态。可以借助 curl 或 Postman 这样的 HTTP 请求工具发送 JSON 格式的 API 请求给服务器监听地址,默认情况下通常是 http://localhost:8000/generate。
相关推荐



















