linux系统chat-glm-6b-int4部署
时间: 2023-10-31 09:57:25 浏览: 248
要在Linux系统上部署Chat-GLM-6B-Int4,需要按照以下步骤进行操作:
1. 安装TensorFlow Serving:可以通过Docker安装TensorFlow Serving,也可以从源代码安装。
2. 获取并转换模型:从Hugging Face下载Chat-GLM-6B-Int4模型,然后使用TensorFlow模型转换器将其转换为TensorFlow格式。
3. 部署模型:将转换后的模型放在TensorFlow Serving的模型目录中,并启动TensorFlow Serving。
4. 测试模型:使用gRPC或REST API测试模型是否正常工作。
以下是详细的步骤:
1. 安装TensorFlow Serving
可以通过Docker安装TensorFlow Serving,以下是安装命令:
```bash
docker pull tensorflow/serving
```
也可以从源代码安装,可以参考官方文档:https://www.tensorflow.org/tfx/serving/setup
2. 获取并转换模型
从Hugging Face下载Chat-GLM-6B-Int4模型,可以使用以下命令:
```bash
wget https://huggingface.co/microsoft/DialoGPT-medium/resolve/main/checkpoint-4
```
然后使用TensorFlow模型转换器将其转换为TensorFlow格式,使用以下命令:
```bash
pip install tensorflow==2.5.0
pip install tensorflow-text==2.5.0
git clone https://github.com/huggingface/transformers.git
cd transformers
python ./examples/research_projects/tf-gpt2-convert-tf2.py \
--tf_checkpoint ./checkpoint-4 \
--config_file ./microsoft/DialoGPT-medium/config.json \
--py_output_path ./models/dialogpt_medium.py \
--tf_output_path ./models/dialogpt_medium \
--batch_size 1 \
--use_tpu False
```
3. 部署模型
将转换后的模型放在TensorFlow Serving的模型目录中,可以使用以下命令:
```bash
mkdir -p /models/dialogpt_medium
cp ./models/dialogpt_medium.* /models/dialogpt_medium/
```
然后启动TensorFlow Serving,以下是启动命令:
```bash
docker run -p 8501:8501 \
--mount type=bind,source=/models/dialogpt_medium,target=/models/dialogpt_medium \
-e MODEL_NAME=dialogpt_medium \
-t tensorflow/serving
```
4. 测试模型
使用gRPC或REST API测试模型是否正常工作,以下是REST API测试命令:
```bash
curl -d '{"instances": [{"input_text": "Hello, how are you?"}]}' \
-X POST http://localhost:8501/v1/models/dialogpt_medium:predict
```
如果一切正常,应该可以看到模型返回的响应。
阅读全文