NVIDIA
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 2 additions & 2 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎apex/contrib/csrc/bottleneck/bottleneck.cpp‎
Lines changed: 4 additions & 2 deletions b/‎apex/contrib/csrc/bottleneck/bottleneck.cpp‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎apex/contrib/csrc/conv_bias_relu/conv_bias_relu.cpp‎
Lines changed: 4 additions & 2 deletions b/‎apex/contrib/csrc/conv_bias_relu/conv_bias_relu.cpp‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎apex/contrib/csrc/cudnn_gbn/norm_sample.cpp‎
Lines changed: 28 additions & 28 deletions b/‎apex/contrib/csrc/cudnn_gbn/norm_sample.cpp‎
Lines changed: 28 additions & 28 deletions
diff --git a/‎apex/contrib/csrc/cudnn_gbn/norm_sample.h‎
Lines changed: 15 additions & 15 deletions b/‎apex/contrib/csrc/cudnn_gbn/norm_sample.h‎
Lines changed: 15 additions & 15 deletions
diff --git a/‎apex/contrib/csrc/fmha/fmha_api.cpp‎
Lines changed: 14 additions & 14 deletions b/‎apex/contrib/csrc/fmha/fmha_api.cpp‎
Lines changed: 14 additions & 14 deletions
@@ -1,13 +1,13 @@
 repos:
 - repo: https://github.com/pre-commit/mirrors-clang-format
-  rev: v17.0.6 # Or pin to your preferred clang-format version
+  rev: v21.1.6 # Or pin to your preferred clang-format version
   hooks:
   - id: clang-format
     files: \.(c|h|cpp|hpp|proto|cu|cuh)$
     exclude: ^(apex/contrib/csrc/multihead_attn/cutlass|apex/contrib/csrc/cudnn-frontend)/
 
 - repo: https://github.com/astral-sh/ruff-pre-commit
-  rev: v0.14.0
+  rev: v0.14.7
   hooks:
   - id: ruff-check
     args: ["--fix"]
 
@@ -46,8 +46,10 @@ int checkCudnnError(cudnnStatus_t code, const char* expr, const char* file, int
 }
 
 void checkError(cudaError_t code, char const* func, const char* file, const int line, bool abort = true);
-#define checkCUDAError(val) \
-  { checkError((val), #val, __FILE__, __LINE__); }  // in-line regular function
+#define checkCUDAError(val)                      \
+  {                                              \
+    checkError((val), #val, __FILE__, __LINE__); \
+  }  // in-line regular function
 
 void checkError(cudaError_t code, char const* func, const char* file, const int line, bool abort) {
   if (code != cudaSuccess) {
 
@@ -52,8 +52,10 @@ int checkCudnnError(cudnnStatus_t code, const char* expr, const char* file, int
 }
 
 void checkError(cudaError_t code, char const* func, const char* file, const int line, bool abort = true);
-#define checkCUDAError(val) \
-  { checkError((val), #val, __FILE__, __LINE__); }  // in-line regular function
+#define checkCUDAError(val)                      \
+  {                                              \
+    checkError((val), #val, __FILE__, __LINE__); \
+  }  // in-line regular function
 
 void checkError(cudaError_t code, char const* func, const char* file, const int line, bool abort) {
   if (code != cudaSuccess) {
 
@@ -30,15 +30,15 @@
 #include "cudnn_backend.h"
 
 // some helpers
-int64_t checkCudaError(cudaError_t code, const char *expr, const char *file, int line) {
+int64_t checkCudaError(cudaError_t code, const char* expr, const char* file, int line) {
   if (code) {
     printf("CUDA error at %s:%d, code=%d (%s) in '%s'", file, line, (int)code, cudaGetErrorString(code), expr);
     return 1;
   }
   return 0;
 }
 
-int64_t checkCudnnError(cudnnStatus_t code, const char *expr, const char *file, int line) {
+int64_t checkCudnnError(cudnnStatus_t code, const char* expr, const char* file, int line) {
   if (code) {
     printf("CUDNN error at %s:%d, code=%d (%s) in '%s'\n", file, line, (int)code, cudnnGetErrorString(code), expr);
     return 1;
@@ -51,7 +51,7 @@ bool AllowAll(cudnnBackendDescriptor_t engine_config) {
   return false;
 }
 
-void generateStrides(const int64_t *dimA, int64_t *strideA, int64_t nbDims, cudnnTensorFormat_t filterFormat) {
+void generateStrides(const int64_t* dimA, int64_t* strideA, int64_t nbDims, cudnnTensorFormat_t filterFormat) {
   // For INT8x4 and INT8x32 we still compute standard strides here to input
   // into the cuDNN functions. We will manually scale by resizeFactor in the cpu ref.
   if (filterFormat == CUDNN_TENSOR_NCHW) {
@@ -71,8 +71,8 @@ void generateStrides(const int64_t *dimA, int64_t *strideA, int64_t nbDims, cudn
 }
 
 // runtime
-cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t *tensorDims, int64_t *perChannelSum, int64_t *epsilon,
-                                                     int64_t *peerDims, cudnnDataType_t data_type) {
+cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t* tensorDims, int64_t* perChannelSum, int64_t* epsilon,
+                                                     int64_t* peerDims, cudnnDataType_t data_type) {
   // get the cudnn handle
   cudnnHandle_t handle = torch::native::getCudnnHandle();
 
@@ -172,9 +172,9 @@ cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t *tensorDims, int64_
                            .setyDesc(yTensor)
                            .build();
 
-  std::array<cudnn_frontend::Operation const *, 1> ops = {&batch_norm_op};
+  std::array<cudnn_frontend::Operation const*, 1> ops = {&batch_norm_op};
 #else
-  std::array<cudnn_frontend::Operation const *, 0> ops = {};
+  std::array<cudnn_frontend::Operation const*, 0> ops = {};
 #endif
   auto opGraph =
       cudnn_frontend::OperationGraphBuilder().setHandle(handle).setOperationGraph(ops.size(), ops.data()).build();
@@ -203,7 +203,7 @@ cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t *tensorDims, int64_
                         .setEngineConfig(filtered_configs[i], opGraph.getTag())
                         .build();
         return plan;
-      } catch (cudnn_frontend::cudnnException &e) {
+      } catch (cudnn_frontend::cudnnException& e) {
         continue;
       }
     }
@@ -219,10 +219,10 @@ cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t *tensorDims, int64_
   return plan;
 }
 
-void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void *xDevPtr, void *yDevPtr, void *scaledevPtr,
-                                void *biasdevPtr, void *in_meandevPtr, void *in_vardevPtr, void *out_meandevPtr,
-                                void *out_vardevPtr, void *saved_meandevPtr, void *saved_inv_vardevPtr,
-                                const std::vector<void *> &peer_devPtrs, double epsilon_val,
+void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void* xDevPtr, void* yDevPtr, void* scaledevPtr,
+                                void* biasdevPtr, void* in_meandevPtr, void* in_vardevPtr, void* out_meandevPtr,
+                                void* out_vardevPtr, void* saved_meandevPtr, void* saved_inv_vardevPtr,
+                                const std::vector<void*>& peer_devPtrs, double epsilon_val,
                                 double exponential_decay_factor, size_t peer_size, int rank_id) {
   // get handle
   cudnnHandle_t handle_ = torch::native::getCudnnHandle();
@@ -235,13 +235,13 @@ void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void *xDevPt
     // allocate workspace
     auto workspace_size = plan.getWorkspaceSize();
     auto workspace_tensor = at::empty({(workspace_size + 3) / 4}, at::TensorOptions(at::kCUDA).dtype(at::kFloat));
-    void *workPtr = nullptr;
+    void* workPtr = nullptr;
     if (workspace_size > 0) {
       workPtr = workspace_tensor.data_ptr<float>();
     }
 
     // first the data pointers
-    std::vector<void *> data_ptrs{
+    std::vector<void*> data_ptrs{
         xDevPtr,        yDevPtr,       scaledevPtr,      biasdevPtr,          in_meandevPtr, in_vardevPtr,
         out_meandevPtr, out_vardevPtr, saved_meandevPtr, saved_inv_vardevPtr, &epsilon_val,  &exponential_decay_factor};
     data_ptrs.insert(data_ptrs.end(), peer_devPtrs.begin(), peer_devPtrs.end());
@@ -262,7 +262,7 @@ void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void *xDevPt
     // Reset local communication buffer
     cudaMemsetAsync(peer_devPtrs[rank_id], 0, peer_size * 4, stream);
 
-  } catch (cudnn_frontend::cudnnException &e) {
+  } catch (cudnn_frontend::cudnnException& e) {
     struct cudaDeviceProp prop;
     checkCudaErr(cudaGetDeviceProperties(&prop, 0));
     if (prop.major == 8) {
@@ -272,8 +272,8 @@ void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void *xDevPt
   }
 }
 
-cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t *tensorDims, int64_t *perChannelSum, int64_t *epsilon,
-                                                      int64_t *peerDims, cudnnDataType_t data_type) {
+cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t* tensorDims, int64_t* perChannelSum, int64_t* epsilon,
+                                                      int64_t* peerDims, cudnnDataType_t data_type) {
   // get cudnn handle
   cudnnHandle_t handle = torch::native::getCudnnHandle();
 
@@ -364,9 +364,9 @@ cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t *tensorDims, int64
                            .setPeerStatTensor(peerStatTensors)
                            .build();
 
-  std::array<cudnn_frontend::Operation const *, 1> ops = {&batch_norm_op};
+  std::array<cudnn_frontend::Operation const*, 1> ops = {&batch_norm_op};
 #else
-  std::array<cudnn_frontend::Operation const *, 0> ops = {};
+  std::array<cudnn_frontend::Operation const*, 0> ops = {};
 #endif
 
   auto opGraph =
@@ -385,7 +385,7 @@ cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t *tensorDims, int64
                         .setEngineConfig(filtered_configs[i], opGraph.getTag())
                         .build();
         return plan;
-      } catch (cudnn_frontend::cudnnException &e) {
+      } catch (cudnn_frontend::cudnnException& e) {
         continue;
       }
     }
@@ -401,10 +401,10 @@ cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t *tensorDims, int64
   return plan;
 }
 
-void execute_batch_norm_backward(cudnn_frontend::ExecutionPlan plan, void *xDevPtr, void *dyDevPtr, void *scaledevPtr,
-                                 void *saved_meandevPtr, void *saved_inv_vardevPtr,
-                                 const std::vector<void *> &peer_devPtrs, void *dxDevPtr, void *dscaledevPtr,
-                                 void *dbiasdevPtr, double epsilon_val, size_t peer_size, int rank_id) {
+void execute_batch_norm_backward(cudnn_frontend::ExecutionPlan plan, void* xDevPtr, void* dyDevPtr, void* scaledevPtr,
+                                 void* saved_meandevPtr, void* saved_inv_vardevPtr,
+                                 const std::vector<void*>& peer_devPtrs, void* dxDevPtr, void* dscaledevPtr,
+                                 void* dbiasdevPtr, double epsilon_val, size_t peer_size, int rank_id) {
   // get handle
   cudnnHandle_t handle_ = torch::native::getCudnnHandle();
 
@@ -416,14 +416,14 @@ void execute_batch_norm_backward(cudnn_frontend::ExecutionPlan plan, void *xDevP
     // allocate workspace
     auto workspace_size = plan.getWorkspaceSize();
     auto workspace_tensor = at::empty({(workspace_size + 3) / 4}, at::TensorOptions(at::kCUDA).dtype(at::kFloat));
-    void *workPtr = nullptr;
+    void* workPtr = nullptr;
     if (workspace_size > 0) {
       workPtr = workspace_tensor.data_ptr<float>();
     }
 
     // create helper arrays
-    std::vector<void *> data_ptrs{xDevPtr,  dyDevPtr,     scaledevPtr, saved_meandevPtr, saved_inv_vardevPtr,
-                                  dxDevPtr, dscaledevPtr, dbiasdevPtr, &epsilon_val};
+    std::vector<void*> data_ptrs{xDevPtr,  dyDevPtr,     scaledevPtr, saved_meandevPtr, saved_inv_vardevPtr,
+                                 dxDevPtr, dscaledevPtr, dbiasdevPtr, &epsilon_val};
     data_ptrs.insert(data_ptrs.end(), peer_devPtrs.begin(), peer_devPtrs.end());
     std::vector<int64_t> uids;
     for (size_t i = 100; i < 100 + data_ptrs.size(); ++i) {
@@ -442,7 +442,7 @@ void execute_batch_norm_backward(cudnn_frontend::ExecutionPlan plan, void *xDevP
     // Reset local communication buffer
     cudaMemsetAsync(peer_devPtrs[rank_id], 0, peer_size * 4, stream);
 
-  } catch (cudnn_frontend::cudnnException &e) {
+  } catch (cudnn_frontend::cudnnException& e) {
     struct cudaDeviceProp prop;
     checkCudaErr(cudaGetDeviceProperties(&prop, 0));
     if (prop.major == 8) {
 
@@ -38,10 +38,10 @@
 
 /* some helpers
  */
-void generateStrides(const int64_t *dimA, int64_t *strideA, int64_t nbDims, cudnnTensorFormat_t filterFormat);
+void generateStrides(const int64_t* dimA, int64_t* strideA, int64_t nbDims, cudnnTensorFormat_t filterFormat);
 
-int64_t checkCudaError(cudaError_t code, const char *expr, const char *file, int line);
-int64_t checkCudnnError(cudnnStatus_t code, const char *expr, const char *file, int line);
+int64_t checkCudaError(cudaError_t code, const char* expr, const char* file, int line);
+int64_t checkCudnnError(cudnnStatus_t code, const char* expr, const char* file, int line);
 
 #define checkCudaErr(...)                                                        \
   do {                                                                           \
@@ -67,8 +67,8 @@ int64_t checkCudnnError(cudnnStatus_t code, const char *expr, const char *file,
 
  *
  */
-cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t *tensorDims, int64_t *perChannelSum, int64_t *epsilon,
-                                                     int64_t *peerDims, cudnnDataType_t in_out_data_type);
+cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t* tensorDims, int64_t* perChannelSum, int64_t* epsilon,
+                                                     int64_t* peerDims, cudnnDataType_t in_out_data_type);
 /**
  * @param xDevPtr input tensor device pointer
  * @param yDevPtr output tensor device pointer
@@ -86,10 +86,10 @@ cudnn_frontend::ExecutionPlan run_batch_norm_forward(int64_t *tensorDims, int64_
  * @param exponential_decay_factor exponential_decay_factor as a value
  *
  **/
-void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void *xDevPtr, void *yDevPtr, void *scaledevPtr,
-                                void *biasdevPtr, void *in_meandevPtr, void *in_vardevPtr, void *out_meandevPtr,
-                                void *out_vardevPtr, void *saved_meandevPtr, void *saved_inv_vardevPtr,
-                                const std::vector<void *> &peer_devPtrs, double epsilon_val,
+void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void* xDevPtr, void* yDevPtr, void* scaledevPtr,
+                                void* biasdevPtr, void* in_meandevPtr, void* in_vardevPtr, void* out_meandevPtr,
+                                void* out_vardevPtr, void* saved_meandevPtr, void* saved_inv_vardevPtr,
+                                const std::vector<void*>& peer_devPtrs, double epsilon_val,
                                 double exponential_decay_factor, size_t peer_size, int rank_id);
 
 /**
@@ -103,8 +103,8 @@ void execute_batch_norm_forward(cudnn_frontend::ExecutionPlan plan, void *xDevPt
  * GBN
  *
  */
-cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t *tensorDims, int64_t *perChannelSum, int64_t *epsilon,
-                                                      int64_t *peerDims, cudnnDataType_t data_type);
+cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t* tensorDims, int64_t* perChannelSum, int64_t* epsilon,
+                                                      int64_t* peerDims, cudnnDataType_t data_type);
 
 /**
  * @brief Run a Group BN backward sample with 2 peer stat tensors.
@@ -124,7 +124,7 @@ cudnn_frontend::ExecutionPlan run_batch_norm_backward(int64_t *tensorDims, int64
  * @param epsilon_val episilon value as a double
  *
  */
-void execute_batch_norm_backward(cudnn_frontend::ExecutionPlan plan, void *xDevPtr, void *dyDevPtr, void *scaledevPtr,
-                                 void *saved_meandevPtr, void *saved_inv_vardevPtr,
-                                 const std::vector<void *> &peer_devPtrs, void *dxDevPtr, void *dscaledevPtr,
-                                 void *dbiasdevPtr, double epsilon_val, size_t peer_size, int rank_id);
+void execute_batch_norm_backward(cudnn_frontend::ExecutionPlan plan, void* xDevPtr, void* dyDevPtr, void* scaledevPtr,
+                                 void* saved_meandevPtr, void* saved_inv_vardevPtr,
+                                 const std::vector<void*>& peer_devPtrs, void* dxDevPtr, void* dscaledevPtr,
+                                 void* dbiasdevPtr, double epsilon_val, size_t peer_size, int rank_id);
@@ -30,12 +30,12 @@
 
 #include "fmha.h"
 
-extern at::Tensor &mha_fill(at::Tensor &self, const at::Tensor &start_index);
-void set_params(Fused_multihead_attention_fprop_params &params,
+extern at::Tensor& mha_fill(at::Tensor& self, const at::Tensor& start_index);
+void set_params(Fused_multihead_attention_fprop_params& params,
                 // sizes
                 const size_t b, const size_t s, const size_t h, const size_t d,
                 // device pointers
-                void *qkv_packed_d, void *cu_seqlens_d, void *o_packed_d, void *s_d, float p_dropout) {
+                void* qkv_packed_d, void* cu_seqlens_d, void* o_packed_d, void* s_d, float p_dropout) {
   Data_type acc_type = DATA_TYPE_FP32;
   Data_type data_type = DATA_TYPE_FP16;
 
@@ -48,7 +48,7 @@ void set_params(Fused_multihead_attention_fprop_params &params,
   params.o_ptr = o_packed_d;
   params.o_stride_in_bytes = get_size_in_bytes(h * d, data_type);
 
-  params.cu_seqlens = static_cast<int *>(cu_seqlens_d);
+  params.cu_seqlens = static_cast<int*>(cu_seqlens_d);
 
   // S = softmax(P)
   params.s_ptr = s_d;
@@ -77,8 +77,8 @@ void set_params(Fused_multihead_attention_fprop_params &params,
 }
 
 std::vector<at::Tensor> mha_fwd(
-    const at::Tensor &qkv,         // total x num_heads x 3 x head_size, total := \sum_{i=0}^{b} s_i
-    const at::Tensor &cu_seqlens,  // b+1
+    const at::Tensor& qkv,         // total x num_heads x 3 x head_size, total := \sum_{i=0}^{b} s_i
+    const at::Tensor& cu_seqlens,  // b+1
     const float p_dropout, const int max_seq_len, const bool is_training, const bool is_nl, const bool zero_tensors,
     c10::optional<at::Generator> gen_) {
   using namespace torch::indexing;
@@ -158,10 +158,10 @@ std::vector<at::Tensor> mha_fwd(
 }
 
 std::vector<at::Tensor> mha_bwd(
-    const at::Tensor &dout,        // total x num_heads, x head_size
-    const at::Tensor &qkv,         // total x num_heads x 3 x head_size, total := \sum_{i=0}^{b} s_i
-    at::Tensor &softmax,           // b x h x s x s softmax and dmask - will be overwritten with dP
-    const at::Tensor &cu_seqlens,  // b+1
+    const at::Tensor& dout,        // total x num_heads, x head_size
+    const at::Tensor& qkv,         // total x num_heads x 3 x head_size, total := \sum_{i=0}^{b} s_i
+    at::Tensor& softmax,           // b x h x s x s softmax and dmask - will be overwritten with dP
+    const at::Tensor& cu_seqlens,  // b+1
     const float p_dropout,         // probability to drop
     const int max_seq_len,         // max sequence length to choose the kernel
     const bool zero_tensors) {
@@ -238,10 +238,10 @@ std::vector<at::Tensor> mha_bwd(
 }
 
 std::vector<at::Tensor> mha_bwd_nl(
-    const at::Tensor &dout,        // total x num_heads, x head_size
-    const at::Tensor &qkv,         // total x num_heads x 3 x head_size, total := \sum_{i=0}^{b} s_i
-    at::Tensor &softmax,           // b x h x s x s softmax and dmask - will be overwritten with dP
-    const at::Tensor &cu_seqlens,  // b+1
+    const at::Tensor& dout,        // total x num_heads, x head_size
+    const at::Tensor& qkv,         // total x num_heads x 3 x head_size, total := \sum_{i=0}^{b} s_i
+    at::Tensor& softmax,           // b x h x s x s softmax and dmask - will be overwritten with dP
+    const at::Tensor& cu_seqlens,  // b+1
     const float p_dropout,         // probability to drop
     const int max_seq_len,         // max sequence length to choose the kernel
     const bool zero_tensors) {