deepseek本地部署ubuntu 多卡运行
时间: 2025-02-19 11:23:16 浏览: 152
实现 DeepSeek 的多 GPU 本地部署
为了在 Ubuntu 系统上实现 DeepSeek 的多 GPU 部署,可以采用基于 ollama 平台的方法来进行简化操作[^1]。此过程不仅能够减少配置上的复杂度,还能有效利用多个 GPU 提升性能。
安装 Ollama 和必要依赖项
确保已经安装了最新版本的 Python 及 pip 工具,在终端执行如下命令完成 ollama 的获取:
pip install ollama
对于多 GPU 支持而言,还需要确认 NVIDIA CUDA Toolkit 是否已正确设置,并通过 nvidia-smi
命令验证驱动状态正常工作。
设置环境变量支持多 GPU
为了让 PyTorch 或 TensorFlow 能够识别到所有的可用 GPU 设备,需适当调整环境变量。编辑 .bashrc
文件加入以下内容以启用所有可见设备:
export CUDA_VISIBLE_DEVICES=0,1,2,3 # 根据实际情况修改编号
重启 shell 或者运行 source ~/.bashrc
来使更改生效。
使用 VLLM 库优化推理流程
VLLM 是专为大规模语言模型设计的一个高效库,特别适合像 DeepSeek 这样的大型预训练模型。根据给定代码片段可以看出,这里使用的是 OpenAI API 接口形式调用 deepseek-70b 模型服务[^2]。要充分利用多 GPU 架构的优势,则建议直接集成 vllm 到项目当中,从而更好地管理资源分配和负载均衡。
from vllm import LLM, SamplingParams
sampling_params = SamplingParams(max_tokens=100)
model_path = "path/to/deepseek-model"
llm = LLM(model=model_path, tensor_parallel_size=len(CUDA_VISIBLE_DEVICES.split(',')))
output = llm.generate(["中国的首都是"], sampling_params=sampling_params)
print(output[0].outputs[0].text)
上述脚本展示了如何初始化带有指定张量并行大小 (即 GPU 数目) 的 LLM 对象实例化方式;同时指定了最大返回 token 数作为采样参数的一部分传递进去。
相关推荐


















