GPT. use ClipGradByGlobalNorm, update unittest (PaddlePaddle#693)

ZHUI · web-flow · commit 58db4d05477f · 2021-07-06T19:40:37.000+08:00
diff --git a/examples/language_model/gpt/args.py b/examples/language_model/gpt/args.py
@@ -244,7 +244,12 @@ def parse_args(MODEL_CLASSES):
         default="gpu",
         choices=["cpu", "gpu", "xpu"],
         help="select cpu, gpu, xpu devices.")
-
+    parser.add_argument(
+        "--lr_decay_style",
+        type=str,
+        default="cosine",
+        choices=["cosine", "none"],
+        help="Learning rate decay style.")
     args = parser.parse_args()
     args.test_iters = args.eval_iters * 10
 
diff --git a/examples/language_model/gpt/run_pretrain.py b/examples/language_model/gpt/run_pretrain.py
@@ -125,15 +125,21 @@ def do_train(args):
     if args.decay_steps is None:
         args.decay_steps = args.max_steps
     warmup_step = args.warmup_rate * args.decay_steps
-    lr_scheduler = lr.CosineAnnealingWithWarmupDecay(
-        max_lr=args.max_lr,
-        min_lr=args.min_lr,
-        warmup_step=warmup_step,
-        decay_step=args.decay_steps)
+
+    lr_scheduler = None
+
+    if args.lr_decay_style == "none":
+        lr_scheduler = None
+    elif args.lr_decay_style == "cosine":
+        lr_scheduler = lr.CosineAnnealingWithWarmupDecay(
+            max_lr=args.max_lr,
+            min_lr=args.min_lr,
+            warmup_step=warmup_step,
+            decay_step=args.decay_steps)
 
     clip = None
     if args.grad_clip > 0:
-        clip = paddle.nn.ClipGradByNorm(clip_norm=args.grad_clip)
+        clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=args.grad_clip)
 
     # Generate parameter names needed to perform weight decay.
     # All bias and LayerNorm parameters are excluded.
@@ -142,7 +148,7 @@ def do_train(args):
         if not any(nd in n for nd in ["bias", "norm"])
     ]
     optimizer = paddle.optimizer.AdamW(
-        learning_rate=lr_scheduler,
+        learning_rate=lr_scheduler if lr_scheduler is not None else args.max_lr,
         beta1=args.adam_beta1,
         beta2=args.adam_beta2,
         epsilon=args.adam_epsilon,
@@ -206,7 +212,8 @@ def do_train(args):
                     tic_train = time.time()
                 loss.backward()
                 optimizer.step()
-                lr_scheduler.step()
+                if lr_scheduler is not None:
+                    lr_scheduler.step()
                 optimizer.clear_grad()
 
                 if args.check_accuracy:
diff --git a/examples/language_model/gpt/run_pretrain_static.py b/examples/language_model/gpt/run_pretrain_static.py
@@ -86,7 +86,12 @@ def dist_optimizer(args, topo):
     if args.use_amp:
         dist_strategy.amp = True
         dist_strategy.amp_configs = {
-            "custom_white_list": ['softmax', 'layer_norm', 'gelu'],
+            "custom_white_list": [
+                'softmax',
+                'layer_norm',
+                'gelu',
+            ],
+            "custom_black_list": ['c_softmax_with_cross_entropy'],
             "init_loss_scaling": 32768,
             "use_dynamic_loss_scaling": True,
         }
@@ -282,8 +287,7 @@ def do_train(args):
 
             clip = None
             if args.grad_clip > 0:
-                # TODO @ZHUI Use nn.ClipGradByNorm
-                clip = paddle.fluid.clip.GradientClipByNorm(
+                clip = paddle.fluid.clip.GradientClipByGlobalNorm(
                     clip_norm=args.grad_clip)
 
             decay_param = [
@@ -292,6 +296,7 @@ def do_train(args):
             ]
             # TODO @ZHUI Use paddle.optimizer.AdamW
             if ops.optimizer._jit_compile():
+                logger.info("Using paddlenlp custom AdamW optimizer.")
                 optimizer = ops.optimizer.AdamwOptimizer(
                     learning_rate=lr_scheduler,
                     beta1=args.adam_beta1,
@@ -305,6 +310,7 @@ def do_train(args):
                     raise ValueError(
                         "The paddle.optimizer.AdamW not compatible with Sharding!"
                     )
+                logger.info("Using paddle.optimizer.AdamW.")
                 optimizer = paddle.optimizer.AdamW(
                     learning_rate=lr_scheduler,
                     beta1=args.adam_beta1,
@@ -313,6 +319,8 @@ def do_train(args):
                     grad_clip=clip,
                     weight_decay=args.weight_decay,
                     apply_decay_param_fun=lambda x: x in decay_param)
+                # alias
+                optimizer.apply_optimize = optimizer._apply_optimize
 
             if args.use_recompute:
                 dist_strategy.recompute = True
@@ -357,20 +365,23 @@ def do_train(args):
             if args.mp_degree > 1:
                 logger.warning("MP should init with dygraph params")
             else:
+                logger.info("Loading parameters from %s" % static_path)
                 paddle.static.load(main_program, static_path, exe)
                 flag_loaded = True
 
-        if os.path.exists(dygrah_path):
+        if not flag_loaded and os.path.exists(dygrah_path):
             if args.sharding_degree > 1:
                 logger.warning("Sharding should init with static vars")
             else:
+                logger.info("Loading parameters from %s" % dygrah_path)
                 init_static_with_params(
                     model,
                     paddle.load(
                         dygrah_path, return_numpy=True),
                     topo,
                     main_program)
                 flag_loaded = True
+
         if not flag_loaded:
             logger.error("No checkpoint load.")
 
@@ -435,7 +446,9 @@ def do_train(args):
                 save_persistables(exe,
                                   os.path.join(output_dir, "static_vars"),
                                   main_program)
-                model.init_config["init_args"][0].init_config.pop("topo", None)
+                if global_step == args.save_steps:
+                    model.init_config["init_args"][0].init_config.pop("topo",
+                                                                      None)
                 model.save_pretrained(output_dir)
                 tokenizer.save_pretrained(output_dir)
                 tic_train = time.time()
diff --git a/examples/language_model/gpt/tests/test_accuracy.py b/examples/language_model/gpt/tests/test_accuracy.py
@@ -29,10 +29,10 @@ def check_init_checkpoint():
 def get_groundtruth():
     res = {
         1: {
-            "loss": 11.043229103
+            "loss": 11.008564949
         },
         20: {
-            "loss": 10.904897690
+            "loss": 10.876321793
         },
     }
     return res
@@ -60,6 +60,11 @@ def parse_log(path=None):
     return res
 
 
+def print_test_results(name):
+    print("\n" * 5)
+    print("---- This is test reports for %s task: ----" % name)
+
+
 class GPTAccuarcy(unittest.TestCase):
     """
     Train accuarcy test for GPT
@@ -77,11 +82,13 @@ def test_acc_single_card(self):
             gt = get_groundtruth()
             res = parse_log("./output/gpt-%s/log/workerlog.0" %
                             task_name.replace("_", "-"))
+            print_test_results(task_name)
             for k in gt.keys():
                 print("%s step: %d, gt:%.9f res:%.9f " %
                       (task_name, k, gt[k]["loss"], res[k]["loss"]))
                 self.assertAlmostEqual(
                     gt[k]["loss"], res[k]["loss"], delta=1e-6)
+            print("\n" * 5)
 
     def test_acc_dp(self):
         check_dataset()
@@ -98,11 +105,13 @@ def test_acc_dp(self):
             res2 = parse_log("./output/gpt-%s/log/workerlog.1" %
                              task_name.replace("_", "-"))
 
+            print_test_results(task_name)
             for k in gt.keys():
                 mean = (res1[k]["loss"] + res2[k]["loss"]) / 2
                 print("%s step: %d, gt:%.9f res:%.9f " %
                       (task_name, k, gt[k]["loss"], mean))
                 self.assertAlmostEqual(gt[k]["loss"], mean, delta=5e-6)
+            print("\n" * 5)
 
     @unittest.skipIf(not paddlenlp.ops.optimizer._jit_compile(),
                      "The paddle.optimizer.AdamW not compatible with Sharding")
@@ -122,11 +131,13 @@ def test_acc_sharding_static(self):
             res2 = parse_log("./output/gpt-%s/log/workerlog.1" %
                              task_name.replace("_", "-"))
 
+            print_test_results(task_name)
             for k in gt.keys():
                 mean = (res1[k]["loss"] + res2[k]["loss"]) / 2
                 print("%s step: %d, gt:%.9f res:%.9f " %
                       (task_name, k, gt[k]["loss"], mean))
                 self.assertAlmostEqual(gt[k]["loss"], mean, delta=5e-6)
+            print("\n" * 5)
 
     def test_acc_mp_static(self):
         check_dataset()
@@ -144,15 +155,16 @@ def test_acc_mp_static(self):
             res2 = parse_log("./output/gpt-%s/log/workerlog.1" %
                              task_name.replace("_", "-"))
 
+            print_test_results(task_name)
             for k in gt.keys():
                 self.assertAlmostEqual(
                     res1[k]["loss"], res2[k]["loss"], delta=1e-7)
                 mean = (res1[k]["loss"] + res2[k]["loss"]) / 2
                 print("%s step: %d, gt:%.9f res:%.9f " %
                       (task_name, k, gt[k]["loss"], mean))
-                if k == 1:
-                    self.assertAlmostEqual(
-                        gt[k]["loss"], res1[k]["loss"], delta=1e-7)
+                self.assertAlmostEqual(
+                    gt[k]["loss"], res1[k]["loss"], delta=1e-7)
+            print("\n" * 5)
 
 
 if __name__ == "__main__":