NVIDIA
diff --git a/‎apex/contrib/csrc/bottleneck/bottleneck.cpp‎
Lines changed: 22 additions & 22 deletions b/‎apex/contrib/csrc/bottleneck/bottleneck.cpp‎
Lines changed: 22 additions & 22 deletions
diff --git a/‎apex/contrib/csrc/conv_bias_relu/conv_bias_relu.cpp‎
Lines changed: 7 additions & 7 deletions b/‎apex/contrib/csrc/conv_bias_relu/conv_bias_relu.cpp‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎apex/contrib/csrc/cudnn_gbn/cudnn_gbn.cpp‎
Lines changed: 2 additions & 2 deletions b/‎apex/contrib/csrc/cudnn_gbn/cudnn_gbn.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎apex/contrib/csrc/fmha/fmha_api.cpp‎
Lines changed: 3 additions & 3 deletions b/‎apex/contrib/csrc/fmha/fmha_api.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎apex/contrib/csrc/focal_loss/focal_loss_cuda.cpp‎
Lines changed: 4 additions & 2 deletions b/‎apex/contrib/csrc/focal_loss/focal_loss_cuda.cpp‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎apex/contrib/csrc/group_norm/group_norm_nhwc_op.cpp‎
Lines changed: 2 additions & 2 deletions b/‎apex/contrib/csrc/group_norm/group_norm_nhwc_op.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎apex/contrib/csrc/groupbn/interface.cpp‎
Lines changed: 14 additions & 14 deletions b/‎apex/contrib/csrc/groupbn/interface.cpp‎
Lines changed: 14 additions & 14 deletions
diff --git a/‎apex/contrib/csrc/index_mul_2d/index_mul_2d_cuda.cpp‎
Lines changed: 12 additions & 6 deletions b/‎apex/contrib/csrc/index_mul_2d/index_mul_2d_cuda.cpp‎
Lines changed: 12 additions & 6 deletions
diff --git a/‎apex/contrib/csrc/layer_norm/ln_api.cpp‎
Lines changed: 2 additions & 2 deletions b/‎apex/contrib/csrc/layer_norm/ln_api.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎apex/contrib/csrc/multihead_attn/multihead_attn_frontend.cpp‎
Lines changed: 22 additions & 16 deletions b/‎apex/contrib/csrc/multihead_attn/multihead_attn_frontend.cpp‎
Lines changed: 22 additions & 16 deletions
@@ -4048,26 +4048,26 @@ void bottleneck_backward_rest(bool explicit_nhwc, int stride_1X1, std::vector<at
 }
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-  m.def("forward", &bottleneck_forward, "Bottleneck block forward");
-  m.def("backward", &bottleneck_backward, "Bottleneck block backward");
-  m.def("forward_init", &bottleneck_forward_init, "Bottleneck block init");
-  m.def("forward_out1", &bottleneck_forward_out1, "Bottleneck block forward");
-  m.def("forward_out2", &bottleneck_forward_out2, "Bottleneck block forward");
-  m.def("forward_out2_mask", &bottleneck_forward_out2_mask, "Bottleneck block forward");
-  m.def("forward_out2_halo", &bottleneck_forward_out2_halo, "Bottleneck block forward");
-  m.def("forward_out2_halo_corr", &bottleneck_forward_out2_halo_corr, "Bottleneck block forward");
-  m.def("forward_out2_pad", &bottleneck_forward_out2_pad, "Bottleneck block forward");
-  m.def("forward_rest", &bottleneck_forward_rest, "Bottleneck block forward");
-  m.def("backward_init", &bottleneck_backward_init, "Bottleneck block backward init");
-  m.def("backward_grad_out2", &bottleneck_backward_grad_out2, "Bottleneck block backward");
-  m.def("backward_grad_out1", &bottleneck_backward_grad_out1, "Bottleneck block backward");
-  m.def("backward_grad_out1_mask", &bottleneck_backward_grad_out1_mask, "Bottleneck block backward");
-  m.def("backward_grad_out1_halo", &bottleneck_backward_grad_out1_halo, "Bottleneck block backward");
-  m.def("backward_grad_out1_halo_corr", &bottleneck_backward_grad_out1_halo_corr, "Bottleneck block backward");
-  m.def("backward_wgrad2_pad", &bottleneck_backward_wgrad2_pad, "Bottleneck block backward");
-  m.def("backward_wgrad2", &bottleneck_backward_wgrad2, "Bottleneck block backward");
-  m.def("backward_wgrad2_halo", &bottleneck_backward_wgrad2_halo, "Bottleneck block backward");
-  m.def("backward_wgrad3", &bottleneck_backward_wgrad3, "Bottleneck block backward");
-  m.def("backward_wgrad1", &bottleneck_backward_wgrad1, "Bottleneck block backward");
-  m.def("backward_rest", &bottleneck_backward_rest, "Bottleneck block backward");
+  m.def("forward", &bottleneck_forward, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward", &bottleneck_backward, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_init", &bottleneck_forward_init, "Bottleneck block init", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_out1", &bottleneck_forward_out1, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_out2", &bottleneck_forward_out2, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_out2_mask", &bottleneck_forward_out2_mask, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_out2_halo", &bottleneck_forward_out2_halo, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_out2_halo_corr", &bottleneck_forward_out2_halo_corr, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_out2_pad", &bottleneck_forward_out2_pad, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_rest", &bottleneck_forward_rest, "Bottleneck block forward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_init", &bottleneck_backward_init, "Bottleneck block backward init", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_grad_out2", &bottleneck_backward_grad_out2, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_grad_out1", &bottleneck_backward_grad_out1, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_grad_out1_mask", &bottleneck_backward_grad_out1_mask, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_grad_out1_halo", &bottleneck_backward_grad_out1_halo, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_grad_out1_halo_corr", &bottleneck_backward_grad_out1_halo_corr, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_wgrad2_pad", &bottleneck_backward_wgrad2_pad, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_wgrad2", &bottleneck_backward_wgrad2, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_wgrad2_halo", &bottleneck_backward_wgrad2_halo, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_wgrad3", &bottleneck_backward_wgrad3, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_wgrad1", &bottleneck_backward_wgrad1, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_rest", &bottleneck_backward_rest, "Bottleneck block backward", py::call_guard<py::gil_scoped_release>());
 }
@@ -2142,12 +2142,12 @@ std::vector<at::Tensor> conv_bias_backward(std::vector<at::Tensor> inputs, int64
 }
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-  m.def("forward", &conv_bias_relu_forward, "Fused Conv-Bias-ReLU forward");
-  m.def("backward", &conv_bias_relu_backward, "Fused Conv-Bias-ReLU backward");
-  m.def("forward_no_relu", &conv_bias_forward, "Fused Conv-Bias forward");
-  m.def("backward_no_relu", &conv_bias_backward, "Fused Conv-Bias backward");
-  m.def("forward_mask", &conv_bias_mask_relu_forward, "Fused Conv-Bias-Mask-ReLU forward");
-  m.def("forward_cscale_cbias_relu", &conv_cscale_cbias_relu_forward, "Fused Conv-(const)Scale-(const)Bias-ReLU");
-  m.def("backward_cscale_cbias_relu", &conv_cscale_cbias_relu_backward, "Fused Conv-(const)Scale-(const)Bias-ReLU backward");
+  m.def("forward", &conv_bias_relu_forward, "Fused Conv-Bias-ReLU forward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward", &conv_bias_relu_backward, "Fused Conv-Bias-ReLU backward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_no_relu", &conv_bias_forward, "Fused Conv-Bias forward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_no_relu", &conv_bias_backward, "Fused Conv-Bias backward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_mask", &conv_bias_mask_relu_forward, "Fused Conv-Bias-Mask-ReLU forward", py::call_guard<py::gil_scoped_release>());
+  m.def("forward_cscale_cbias_relu", &conv_cscale_cbias_relu_forward, "Fused Conv-(const)Scale-(const)Bias-ReLU", py::call_guard<py::gil_scoped_release>());
+  m.def("backward_cscale_cbias_relu", &conv_cscale_cbias_relu_backward, "Fused Conv-(const)Scale-(const)Bias-ReLU backward", py::call_guard<py::gil_scoped_release>());
 }
 
@@ -158,6 +158,6 @@ std::vector<at::Tensor> gbn_backward(
 
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-  m.def("forward", &gbn_forward, "Group batch norm forward");
-  m.def("backward", &gbn_backward, "Group batch backward");
+  m.def("forward", &gbn_forward, "Group batch norm forward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward", &gbn_backward, "Group batch backward", py::call_guard<py::gil_scoped_release>());
 }
@@ -359,7 +359,7 @@ std::vector<at::Tensor> mha_bwd_nl(const at::Tensor &dout,        // total x num
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
     m.doc() = "Fused Multi-head Self-attention for BERT";  
-    m.def("fwd", &mha_fwd, "Forward pass");
-    m.def("bwd", &mha_bwd, "Backward pass");
-    m.def("bwd_nl", &mha_bwd_nl, "Backward pass (small-batch)");
+    m.def("fwd", &mha_fwd, "Forward pass", py::call_guard<py::gil_scoped_release>());
+    m.def("bwd", &mha_bwd, "Backward pass", py::call_guard<py::gil_scoped_release>());
+    m.def("bwd_nl", &mha_bwd_nl, "Backward pass (small-batch)", py::call_guard<py::gil_scoped_release>());
 }
@@ -64,7 +64,9 @@ at::Tensor focal_loss_backward(
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("forward", &focal_loss_forward,
-        "Focal loss calculation forward (CUDA)");
+        "Focal loss calculation forward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
   m.def("backward", &focal_loss_backward,
-        "Focal loss calculation backward (CUDA)");
+        "Focal loss calculation backward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
 }
@@ -305,6 +305,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
       .value("OnePass", OnePass)
       .value("TwoPass", TwoPass)
       .export_values();
-  m.def("forward", &group_norm_fwd, "NHWC group norm forward");
-  m.def("backward", &group_norm_bwd, "NHWC group norm backward");
+  m.def("forward", &group_norm_fwd, "NHWC group norm forward", py::call_guard<py::gil_scoped_release>());
+  m.def("backward", &group_norm_bwd, "NHWC group norm backward", py::call_guard<py::gil_scoped_release>());
 }
@@ -153,23 +153,23 @@ int nhwc_bn_addrelu_bwd_occupancy();
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
 
-  m.def("get_buffer_size", &get_buffer_size, "get_buffer_size");
-  m.def("get_data_ptr", &get_data_ptr, "get_data_ptr");
-  m.def("get_remote_data_ptr", &get_remote_data_ptr, "get_remote_data_ptr");
-  m.def("close_remote_data", &close_remote_data, "close_remote_data");
+  m.def("get_buffer_size", &get_buffer_size, "get_buffer_size", py::call_guard<py::gil_scoped_release>());
+  m.def("get_data_ptr", &get_data_ptr, "get_data_ptr", py::call_guard<py::gil_scoped_release>());
+  m.def("get_remote_data_ptr", &get_remote_data_ptr, "get_remote_data_ptr", py::call_guard<py::gil_scoped_release>());
+  m.def("close_remote_data", &close_remote_data, "close_remote_data", py::call_guard<py::gil_scoped_release>());
 
-  m.def("bn_fwd_nhwc", &nhwc_bn_fwd_train, "bn_fwd_nhwc");
-  m.def("bn_fwd_eval_nhwc", &nhwc_bn_fwd_eval, "bn_fwd_eval_nhwc");
-  m.def("bn_bwd_nhwc", &nhwc_bn_bwd, "bn_bwd_nhwc");
+  m.def("bn_fwd_nhwc", &nhwc_bn_fwd_train, "bn_fwd_nhwc", py::call_guard<py::gil_scoped_release>());
+  m.def("bn_fwd_eval_nhwc", &nhwc_bn_fwd_eval, "bn_fwd_eval_nhwc", py::call_guard<py::gil_scoped_release>());
+  m.def("bn_bwd_nhwc", &nhwc_bn_bwd, "bn_bwd_nhwc", py::call_guard<py::gil_scoped_release>());
 
-  m.def("bn_fwd_nhwc_occupancy", &nhwc_bn_fwd_occupancy, "bn_fwd_nhwc_occupancy");
-  m.def("bn_bwd_nhwc_occupancy", &nhwc_bn_bwd_occupancy, "bn_bwd_nhwc_occupancy");
+  m.def("bn_fwd_nhwc_occupancy", &nhwc_bn_fwd_occupancy, "bn_fwd_nhwc_occupancy", py::call_guard<py::gil_scoped_release>());
+  m.def("bn_bwd_nhwc_occupancy", &nhwc_bn_bwd_occupancy, "bn_bwd_nhwc_occupancy", py::call_guard<py::gil_scoped_release>());
 
-  m.def("bn_addrelu_fwd_nhwc", &nhwc_bn_addrelu_fwd_train, "bn_addrelu_fwd_nhwc");
-  m.def("bn_addrelu_fwd_eval_nhwc", &nhwc_bn_addrelu_fwd_eval, "bn_addrelu_fwd_eval_nhwc");
-  m.def("bn_addrelu_bwd_nhwc", &nhwc_bn_addrelu_bwd, "bn_addrelu_bwd_nhwc");
+  m.def("bn_addrelu_fwd_nhwc", &nhwc_bn_addrelu_fwd_train, "bn_addrelu_fwd_nhwc", py::call_guard<py::gil_scoped_release>());
+  m.def("bn_addrelu_fwd_eval_nhwc", &nhwc_bn_addrelu_fwd_eval, "bn_addrelu_fwd_eval_nhwc", py::call_guard<py::gil_scoped_release>());
+  m.def("bn_addrelu_bwd_nhwc", &nhwc_bn_addrelu_bwd, "bn_addrelu_bwd_nhwc", py::call_guard<py::gil_scoped_release>());
 
-  m.def("bn_addrelu_fwd_nhwc_occupancy", &nhwc_bn_addrelu_fwd_occupancy, "bn_addrelu_fwd_nhwc_occupancy");
-  m.def("bn_addrelu_bwd_nhwc_occupancy", &nhwc_bn_addrelu_bwd_occupancy, "bn_addrelu_bwd_nhwc_occupancy");
+  m.def("bn_addrelu_fwd_nhwc_occupancy", &nhwc_bn_addrelu_fwd_occupancy, "bn_addrelu_fwd_nhwc_occupancy", py::call_guard<py::gil_scoped_release>());
+  m.def("bn_addrelu_bwd_nhwc_occupancy", &nhwc_bn_addrelu_bwd_occupancy, "bn_addrelu_bwd_nhwc_occupancy", py::call_guard<py::gil_scoped_release>());
 }
 
@@ -124,16 +124,22 @@ void index_mul_2d_half_backwrad_backward(
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("float_forward", &index_mul_2d_float_forward,
-        "index mul float calculation forward (CUDA)");
+        "index mul float calculation forward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
   m.def("float_backward", &index_mul_2d_float_backward,
-        "index mul float calculation backward (CUDA)");
+        "index mul float calculation backward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
   m.def("float_backward_backward", &index_mul_2d_float_backwrad_backward,
-        "index mul float calculation backward backward (CUDA)");
+        "index mul float calculation backward backward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
   m.def("half_forward", &index_mul_2d_half_forward,
-        "index mul half calculation forward (CUDA)");
+        "index mul half calculation forward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
   m.def("half_backward", &index_mul_2d_half_backward,
-        "index mul half calculation backward (CUDA)");
+        "index mul half calculation backward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
   m.def("half_backward_backward", &index_mul_2d_half_backwrad_backward,
-        "index mul half calculation backward backward (CUDA)");
+        "index mul half calculation backward backward (CUDA)",
+        py::call_guard<py::gil_scoped_release>());
 }
 
@@ -252,6 +252,6 @@ std::vector<at::Tensor> ln_bwd(const at::Tensor &dz,                    // BxSxh
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.doc() = "CUDA LayerNorm"; 
-  m.def("ln_fwd", &ln_fwd, "Run LayerNorm forward kernel");
-  m.def("ln_bwd", &ln_bwd, "Run LayerNorm backward kernel");
+  m.def("ln_fwd", &ln_fwd, "Run LayerNorm forward kernel", py::call_guard<py::gil_scoped_release>());
+  m.def("ln_bwd", &ln_bwd, "Run LayerNorm backward kernel", py::call_guard<py::gil_scoped_release>());
 }
@@ -794,40 +794,46 @@ bwd(int heads, torch::Tensor const &output_grads,
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("additive_mask_softmax_dropout_forward",
         &multihead_attn::fused_softmax::additive_mask_softmax_dropout::fwd,
-        "Self Multihead Attention masked softmax dropout -- Forward.");
+        "Self Multihead Attention masked softmax dropout -- Forward.", 
+        py::call_guard<py::gil_scoped_release>());
   m.def("additive_mask_softmax_dropout_backward",
         &multihead_attn::fused_softmax::additive_mask_softmax_dropout::bwd,
-        "Self Multihead Attention masked softmax dropout -- Backward.");
+        "Self Multihead Attention masked softmax dropout -- Backward.",
+        py::call_guard<py::gil_scoped_release>());
   m.def("mask_softmax_dropout_forward", &multihead_attn::fused_softmax::mask_softmax_dropout::fwd,
-        "Self Multihead Attention masked softmax dropout -- Forward.");
+        "Self Multihead Attention masked softmax dropout -- Forward.",
+        py::call_guard<py::gil_scoped_release>());
   m.def("mask_softmax_dropout_backward", &multihead_attn::fused_softmax::mask_softmax_dropout::bwd,
-        "Self Multihead Attention masked softmax dropout -- Backward.");
+        "Self Multihead Attention masked softmax dropout -- Backward.",
+        py::call_guard<py::gil_scoped_release>());
   m.def("encdec_multihead_attn_forward", &multihead_attn::encdec::cublas_gemmex::fwd,
-        "Encdec Multihead Attention Forward.");
+        "Encdec Multihead Attention Forward.", py::call_guard<py::gil_scoped_release>());
   m.def("encdec_multihead_attn_backward", &multihead_attn::encdec::cublas_gemmex::bwd,
-        "Encdec Multihead Attention Backward.");
+        "Encdec Multihead Attention Backward.", py::call_guard<py::gil_scoped_release>());
   m.def("encdec_multihead_attn_norm_add_forward", &multihead_attn::encdec_norm_add::cublas_gemmex::fwd,
-        "Encdec Multihead Attention Plus Layer Norm and Residual Add Forward.");
+        "Encdec Multihead Attention Plus Layer Norm and Residual Add Forward.",
+        py::call_guard<py::gil_scoped_release>());
   m.def(
       "encdec_multihead_attn_norm_add_backward", &multihead_attn::encdec_norm_add::cublas_gemmex::bwd,
-      "Encdec Multihead Attention Plus Layer Norm and Residual Add Backward.");
+      "Encdec Multihead Attention Plus Layer Norm and Residual Add Backward.",
+      py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_forward", &multihead_attn::self::cublas_gemmex::fwd,
-        "Self Multihead Attention Forward.");
+        "Self Multihead Attention Forward.", py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_backward", &multihead_attn::self::cublas_gemmex::bwd,
-        "Self Multihead Attention Backward.");
+        "Self Multihead Attention Backward.", py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_bias_forward", &multihead_attn::self_bias::cublas_gemmex::fwd,
-        "Self Multihead Attention with Bias -- Forward.");
+        "Self Multihead Attention with Bias -- Forward.", py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_bias_backward", &multihead_attn::self_bias::cublas_gemmex::bwd,
-        "Self Multihead Attention with Bias -- Backward.");
+        "Self Multihead Attention with Bias -- Backward.", py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_bias_additive_mask_forward", &multihead_attn::self_bias_additive_mask::cublas_gemmex::fwd,
-        "Self Multihead Attention with Bias -- Forward.");
+        "Self Multihead Attention with Bias -- Forward.", py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_bias_additive_mask_backward",
         &multihead_attn::self_bias_additive_mask::cublas_gemmex::bwd,
-        "Self Multihead Attention with Bias -- Backward.");
+        "Self Multihead Attention with Bias -- Backward.", py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_norm_add_forward", &multihead_attn::self_norm_add::cublas_gemmex::fwd,
-        "Self Multihead Attention Plus Layer Norm and Residual Add Forward.");
+        "Self Multihead Attention Plus Layer Norm and Residual Add Forward.", py::call_guard<py::gil_scoped_release>());
   m.def("self_attn_norm_add_backward", &multihead_attn::self_norm_add::cublas_gemmex::bwd,
-        "Self Multihead Attention Plus Layer Norm and Residual Add Backward.");
+        "Self Multihead Attention Plus Layer Norm and Residual Add Backward.", py::call_guard<py::gil_scoped_release>());
 }
 
 #undef CHECK_CUDA
Original file line number	Diff line number	Diff line change
`@@ -158,6 +158,6 @@ std::vector<at::Tensor> gbn_backward(`
`158`	`158`
`159`	`159`
`160`	`160`	`PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {`
`161`		`- m.def("forward", &gbn_forward, "Group batch norm forward");`
`162`		`- m.def("backward", &gbn_backward, "Group batch backward");`
	`161`	`+ m.def("forward", &gbn_forward, "Group batch norm forward", py::call_guard<py::gil_scoped_release>());`
	`162`	`+ m.def("backward", &gbn_backward, "Group batch backward", py::call_guard<py::gil_scoped_release>());`
`163`	`163`	`}`
Original file line number	Diff line number	Diff line change
`@@ -305,6 +305,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {`
`305`	`305`	`.value("OnePass", OnePass)`
`306`	`306`	`.value("TwoPass", TwoPass)`
`307`	`307`	`.export_values();`
`308`		`- m.def("forward", &group_norm_fwd, "NHWC group norm forward");`
`309`		`- m.def("backward", &group_norm_bwd, "NHWC group norm backward");`
	`308`	`+ m.def("forward", &group_norm_fwd, "NHWC group norm forward", py::call_guard<py::gil_scoped_release>());`
	`309`	`+ m.def("backward", &group_norm_bwd, "NHWC group norm backward", py::call_guard<py::gil_scoped_release>());`
`310`	`310`	`}`
Original file line number	Diff line number	Diff line change
`@@ -252,6 +252,6 @@ std::vector<at::Tensor> ln_bwd(const at::Tensor &dz, // BxSxh`
`252`	`252`
`253`	`253`	`PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {`
`254`	`254`	`m.doc() = "CUDA LayerNorm";`
`255`		`- m.def("ln_fwd", &ln_fwd, "Run LayerNorm forward kernel");`
`256`		`- m.def("ln_bwd", &ln_bwd, "Run LayerNorm backward kernel");`
	`255`	`+ m.def("ln_fwd", &ln_fwd, "Run LayerNorm forward kernel", py::call_guard<py::gil_scoped_release>());`
	`256`	`+ m.def("ln_bwd", &ln_bwd, "Run LayerNorm backward kernel", py::call_guard<py::gil_scoped_release>());`
`257`	`257`	`}`