vllm部署deepseek大模型
时间: 2025-03-06 21:50:55 浏览: 37
使用 VLLM 部署 DeepSeek 大模型
为了成功部署 DeepSeek 大型语言模型 (LLM),可以采用 VLLM 工具包来简化这一过程。下面展示了具体的操作方法。
安装依赖库
首先,确保安装了必要的 Python 库以及配置好环境变量:
pip install vllm transformers torch
启动 API 服务器
启动用于推理服务的 API 服务器,指定要加载的预训练模型及其量化参数:
python -m vllm.entrypoints.api_server \
--model deepseek-ai/deepseek-llm-7b-base-awq \
--quantization awq \
--dtype half
这一步骤通过命令行工具设置了模型路径、选择了 AWQ 的量化方式并指定了数据类型为半精度浮点数[^1]。
编写客户端代码调用接口
编写简单的 Python 脚本来测试已部署的服务端口是否正常工作,并获取预测结果:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1")
response = client.completions.create(
model="deepseek-70b",
prompt="中国的首都是",
max_tokens=100
)
print(response.choices[0].text.strip())
上述脚本创建了一个新的完成请求实例并向本地运行的服务发送 HTTP POST 请求;最后打印出返回的回答内容[^2]。
常见问题处理
如果遇到任何异常情况或错误提示,请参照官方文档中的故障排除部分进行调试和解决。
相关推荐


















