torchrun --nproc_per_node=${GPUS_PER_NODE} --nnodes=${WORKER_CNT} --node_rank=${RANK} \ --master_addr=${MASTER_ADDR} --master_port=${MASTER_PORT} cn_clip/training/main.py \ --train-data=${train_data} \ --val-data=${val_data} \ --resume=${resume} \ ${reset_data_offset} \ ${reset_optimizer} \ --logs=${output_base_dir} \ --name=${name} \ --save-step-frequency=${save_step_frequency} \ --save-epoch-frequency=${save_epoch_frequency} \ --log-interval=${log_interval} \ ${report_training_batch_acc} \ --context-length=${context_length} \ --warmup=${warmup} \ --batch-size=${batch_size} \ --valid-batch-size=${valid_batch_size} \ --valid-step-interval=${valid_step_interval} \ --valid-epoch-interval=${valid_epoch_interval} \ --lr=${lr} \ --wd=${wd} \ --max-epochs=${max_epochs} \ --vision-model=${vision_model} \ ${use_augment} \ --text-model=${text_model} \ --use-flash-attention # activate FlashAttention运行到这里卡住怎么回事
时间: 2023-05-30 16:04:46 浏览: 765
这是一条使用torchrun命令行工具训练AI模型的命令,其中包含了多个参数和选项,主要包括:
- nproc_per_node:每个节点使用的GPU数量
- nnodes:使用的节点数量
- node_rank:当前节点的排名
- master_addr:主节点的地址
- master_port:主节点的端口号
- train-data:训练数据的路径
- val-data:验证数据的路径
- resume:恢复训练时的模型路径
- reset_data_offset:是否重置数据偏移量
- reset_optimizer:是否重置优化器状态
- logs:日志输出路径
- name:模型名称
- save-step-frequency:多少步保存一次模型
- save-epoch-frequency:多少轮保存一次模型
- log-interval:多少步输出一次日志
- report_training_batch_acc:是否输出每个batch的准确率
- context-length:输入文本的上下文长度
- warmup:学习率预热轮数
- batch-size:训练时每个batch的大小
- valid-batch-size:验证时每个batch的大小
- valid-step-interval:多少步验证一次
- valid-epoch-interval:多少轮验证一次
- lr:学习率
- wd:权重衰减
- max-epochs:最大训练轮数
- vision-model:使用的视觉模型
- use_augment:是否使用数据增强
- text-model:使用的文本模型
- use-flash-attention:是否使用闪光注意力机制
阅读全文