step2 能运行

rpSebastian · rpSebastian · commit bfbc4a18f3db · 2024-06-23T22:36:27.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -129,4 +129,5 @@ dmypy.json
 
 # Pyre type checker
 .pyre/
-applications/DeepSpeed-Chat/training/step1_supervised_finetuning/output/*
+applications/DeepSpeed-Chat/training/step1_supervised_finetuning/output/*
+applications/DeepSpeed-Chat/training/step2_reward_model_finetuning/output/*
diff --git a/applications/DeepSpeed-Chat/training/step2_reward_model_finetuning/training_scripts/opt/single_gpu/run_350m.sh b/applications/DeepSpeed-Chat/training/step2_reward_model_finetuning/training_scripts/opt/single_gpu/run_350m.sh
@@ -13,8 +13,13 @@ if [ "$ZERO_STAGE" == "" ]; then
 fi
 mkdir -p $OUTPUT
 
-deepspeed --num_gpus 1 main.py --model_name_or_path facebook/opt-350m \
-   --num_padding_at_beginning 1 --weight_decay 0.1 --dropout 0.0 --gradient_accumulation_steps 4 --zero_stage $ZERO_STAGE \
-   --enable_tensorboard \
-   --tensorboard_path $OUTPUT \
-   --deepspeed --output_dir $OUTPUT &> $OUTPUT/training.log
+# deepspeed --num_gpus 1 main.py --model_name_or_path facebook/opt-350m \
+#    --num_padding_at_beginning 1 --weight_decay 0.1 --dropout 0.0 --gradient_accumulation_steps 4 --zero_stage $ZERO_STAGE \
+#    --enable_tensorboard \
+#    --tensorboard_path $OUTPUT \
+#    --deepspeed --output_dir $OUTPUT &> $OUTPUT/training.log
+
+deepspeed --include="localhost:1,2" main.py --model_name_or_path /home/xuhang/hf_hub/opt-350m \
+   --num_padding_at_beginning 1 --weight_decay 0.1 --dropout 0.0 --gradient_accumulation_steps 4 --zero_stage 0 \
+   --enable_tensorboard --tensorboard_path $OUTPUT --deepspeed --output_dir $OUTPUT --per_device_eval_batch_size 8 --per_device_train_batch_size 8 \
+    # &> $OUTPUT/training.log
diff --git a/applications/DeepSpeed-Chat/training/step3_rlhf_finetuning/training_scripts/opt/single_gpu/run_1.3b.sh b/applications/DeepSpeed-Chat/training/step3_rlhf_finetuning/training_scripts/opt/single_gpu/run_1.3b.sh
@@ -19,9 +19,18 @@ if [ "$CRITIC_ZERO_STAGE" == "" ]; then
 fi
 mkdir -p $OUTPUT
 
-deepspeed --num_gpus 1 main.py \
-   --actor_model_name_or_path $ACTOR_MODEL_PATH --critic_model_name_or_path $CRITIC_MODEL_PATH \
-   --actor_zero_stage $ACTOR_ZERO_STAGE --critic_zero_stage $CRITIC_ZERO_STAGE \
+# deepspeed --num_gpus 1 main.py \
+#    --actor_model_name_or_path $ACTOR_MODEL_PATH --critic_model_name_or_path $CRITIC_MODEL_PATH \
+#    --actor_zero_stage $ACTOR_ZERO_STAGE --critic_zero_stage $CRITIC_ZERO_STAGE \
+#    --num_padding_at_beginning 1 --gradient_accumulation_steps 2 \
+#    --deepspeed --actor_lora_dim 128 --enable_hybrid_engine --actor_gradient_checkpointing --actor_dropout 0.0 \
+#    --output_dir $OUTPUT &> $OUTPUT/training.log
+
+
+deepspeed --include="localhost:1,2" main.py \
+   --actor_model_name_or_path /home/xuhang/hf_hub/opt-350m --critic_model_name_or_path /home/xuhang/hf_hub/opt-350m \
+   --actor_zero_stage 0 --critic_zero_stage 0 \
    --num_padding_at_beginning 1 --gradient_accumulation_steps 2 \
    --deepspeed --actor_lora_dim 128 --enable_hybrid_engine --actor_gradient_checkpointing --actor_dropout 0.0 \
-   --output_dir $OUTPUT &> $OUTPUT/training.log
+   --output_dir ./output
+#    &> $OUTPUT/training.log