[GLM/GPT3] Fix bugs in modeling of GLM/GPT3 (PaddlePaddle#5607)

haohongxiang · web-flow · commit 6a3a14bf9248 · 2023-04-19T10:27:21.000+08:00
* fix glm modeling

* update

* update

* update
diff --git a/examples/language_model/gpt-3/dygraph/modeling.py b/examples/language_model/gpt-3/dygraph/modeling.py
@@ -1113,7 +1113,7 @@ def __init__(
                 hidden_dropout_prob=hidden_dropout_prob,
                 max_position_embeddings=max_position_embeddings,
                 type_vocab_size=type_vocab_size,
-                initializer_range=0.02,
+                initializer_range=initializer_range,
             )
         )
 
@@ -1151,7 +1151,7 @@ def _logits_helper(embedding, output):
                 hidden_dropout_prob=hidden_dropout_prob,
                 max_position_embeddings=max_position_embeddings,
                 type_vocab_size=type_vocab_size,
-                initializer_range=0.02,
+                initializer_range=initializer_range,
             )
         )
 
diff --git a/model_zoo/gpt-3/ppfleetx/models/language_model/gpt/dygraph/hybrid_model.py b/model_zoo/gpt-3/ppfleetx/models/language_model/gpt/dygraph/hybrid_model.py
@@ -1065,7 +1065,7 @@ def __init__(
                 hidden_dropout_prob=hidden_dropout_prob,
                 max_position_embeddings=max_position_embeddings,
                 type_vocab_size=type_vocab_size,
-                initializer_range=0.02,
+                initializer_range=initializer_range,
                 sequence_parallel=sequence_parallel,
             )
         )
@@ -1118,7 +1118,7 @@ def _logits_helper(embedding, output):
                 hidden_dropout_prob=hidden_dropout_prob,
                 max_position_embeddings=max_position_embeddings,
                 type_vocab_size=type_vocab_size,
-                initializer_range=0.02,
+                initializer_range=initializer_range,
             )
         )
 
diff --git a/paddlenlp/transformers/glm/modeling.py b/paddlenlp/transformers/glm/modeling.py
@@ -23,6 +23,7 @@
 import paddle.nn.functional as F
 from paddle import Tensor
 from paddle.distributed import fleet
+from paddle.distributed.fleet.meta_parallel import get_rng_state_tracker
 from paddle.distributed.fleet.utils import recompute
 
 from ...utils.converter import StateDictNameMapping, init_name_mappings
@@ -183,7 +184,12 @@ def forward(self, hidden_states: Tensor, ltor_mask: Tensor, cache: Tensor = None
 
         attention_scores = attention_scores + (-65504.0) * (1.0 - ltor_mask)
         attention_probs = F.softmax(attention_scores, axis=-1)
-        attention_probs = self.attention_dropout(attention_probs)
+
+        if "local_seed" in get_rng_state_tracker().states_:
+            with get_rng_state_tracker().rng_state("local_seed"):
+                attention_probs = self.attention_dropout(attention_probs)
+        else:
+            attention_probs = self.attention_dropout(attention_probs)
 
         # [bs,  num_head, seq_len, seq_len(+cache_len)] * [bs,  num_head, seq_len(+cache_len), head_dim]
         # [bs,  num_head, seq_len, head_dim]
@@ -194,7 +200,12 @@ def forward(self, hidden_states: Tensor, ltor_mask: Tensor, cache: Tensor = None
         new_context_shape = context_layer.shape[:-2] + [self.num_attention_heads * self.attention_head_size]
         context_layer = context_layer.reshape(new_context_shape)
         output = self.dense(context_layer)
-        output = self.output_dropout(output)
+
+        if "global_seed" in get_rng_state_tracker().states_:
+            with get_rng_state_tracker().rng_state("global_seed"):
+                output = self.output_dropout(output)
+        else:
+            output = self.output_dropout(output)
 
         return output
 
@@ -257,7 +268,13 @@ def forward(self, hidden_states):
 
         # [batch_size, sequence_length, h]
         output = self.dense_4h_to_h(intermediate_parallel)
-        output = self.dropout(output)
+
+        if "global_seed" in get_rng_state_tracker().states_:
+            with get_rng_state_tracker().rng_state("global_seed"):
+                output = self.dropout(output)
+        else:
+            output = self.dropout(output)
+
         return output
 
 
@@ -359,7 +376,12 @@ def build_mask_matrix(seq_length, sep, memory_length=0):
         if self.block_position_encoding:
             block_position_embeddings = self.block_position_embeddings(block_position_ids)
             hidden_states = hidden_states + block_position_embeddings
-        hidden_states = self.embedding_dropout(hidden_states)
+
+        if "local_seed" in get_rng_state_tracker().states_:
+            with get_rng_state_tracker().rng_state("local_seed"):
+                hidden_states = self.embedding_dropout(hidden_states)
+        else:
+            hidden_states = self.embedding_dropout(hidden_states)
 
         all_hidden_states = [hidden_states.detach()]
         for i, layer in enumerate(self.layers):

Original file line number	Diff line number	Diff line change
`@@ -1113,7 +1113,7 @@ def __init__(`
`1113`	`1113`	`hidden_dropout_prob=hidden_dropout_prob,`
`1114`	`1114`	`max_position_embeddings=max_position_embeddings,`
`1115`	`1115`	`type_vocab_size=type_vocab_size,`
`1116`		`- initializer_range=0.02,`
	`1116`	`+ initializer_range=initializer_range,`
`1117`	`1117`	`)`
`1118`	`1118`	`)`
`1119`	`1119`
`@@ -1151,7 +1151,7 @@ def _logits_helper(embedding, output):`
`1151`	`1151`	`hidden_dropout_prob=hidden_dropout_prob,`
`1152`	`1152`	`max_position_embeddings=max_position_embeddings,`
`1153`	`1153`	`type_vocab_size=type_vocab_size,`
`1154`		`- initializer_range=0.02,`
	`1154`	`+ initializer_range=initializer_range,`
`1155`	`1155`	`)`
`1156`	`1156`	`)`
`1157`	`1157`
Original file line number	Diff line number	Diff line change
`@@ -1065,7 +1065,7 @@ def __init__(`
`1065`	`1065`	`hidden_dropout_prob=hidden_dropout_prob,`
`1066`	`1066`	`max_position_embeddings=max_position_embeddings,`
`1067`	`1067`	`type_vocab_size=type_vocab_size,`
`1068`		`- initializer_range=0.02,`
	`1068`	`+ initializer_range=initializer_range,`
`1069`	`1069`	`sequence_parallel=sequence_parallel,`
`1070`	`1070`	`)`
`1071`	`1071`	`)`
`@@ -1118,7 +1118,7 @@ def _logits_helper(embedding, output):`
`1118`	`1118`	`hidden_dropout_prob=hidden_dropout_prob,`
`1119`	`1119`	`max_position_embeddings=max_position_embeddings,`
`1120`	`1120`	`type_vocab_size=type_vocab_size,`
`1121`		`- initializer_range=0.02,`
	`1121`	`+ initializer_range=initializer_range,`
`1122`	`1122`	`)`
`1123`	`1123`	`)`
`1124`	`1124`