NVIDIA
diff --git a/‎apex/contrib/csrc/group_norm_v2/generate_gn_cuda_inst.py‎
Lines changed: 51 additions & 0 deletions b/‎apex/contrib/csrc/group_norm_v2/generate_gn_cuda_inst.py‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎apex/contrib/csrc/group_norm_v2/gn.cpp‎
Lines changed: 105 additions & 0 deletions b/‎apex/contrib/csrc/group_norm_v2/gn.cpp‎
Lines changed: 105 additions & 0 deletions
diff --git a/‎apex/contrib/csrc/group_norm_v2/gn.hpp‎
Lines changed: 28 additions & 0 deletions b/‎apex/contrib/csrc/group_norm_v2/gn.hpp‎
Lines changed: 28 additions & 0 deletions
diff --git a/‎apex/contrib/csrc/group_norm_v2/gn_cuda.cu‎
Lines changed: 53 additions & 0 deletions b/‎apex/contrib/csrc/group_norm_v2/gn_cuda.cu‎
Lines changed: 53 additions & 0 deletions
@@ -0,0 +1,51 @@
+import pathlib
+
+
+hw_c_list = [
+    (8 * 8, 1280),
+    (8 * 8, 2560),
+    (16 * 16, 640),
+    (16 * 16, 1280),
+    (16 * 16, 1920),
+    (16 * 16, 2560),
+    (32 * 32, 320),
+    (32 * 32, 640),
+    (32 * 32, 960),
+    (32 * 32, 1280),
+    (32 * 32, 1920),
+    (64 * 64, 320),
+    (64 * 64, 640),
+    (64 * 64, 960),
+]
+
+
+def run():
+    src_path = pathlib.Path(__file__).parent.absolute()
+
+    for f in src_path.glob("gn_cuda_inst_*.cu"):
+        f.unlink()
+
+    for hw, c in hw_c_list:
+        print(f"GN_CUDA_INST_DEFINE({hw}, {c})")
+        with open(src_path / f"gn_cuda_inst_{hw}_{c}.cu", "w") as f:
+            f.write(f"#include \"gn_cuda_host_template.cuh\"\n")
+            f.write(f"\n")
+            f.write(f"\n")
+            f.write(f"namespace group_norm_v2 {{\n")
+            f.write(f"\n")
+            f.write(f"GN_CUDA_INST_DEFINE({hw}, {c})\n")
+            f.write(f"\n")
+            f.write(f"}}  // namespace group_norm_v2\n")
+
+    with open(src_path / "gn_dispatch_hw_c.hpp", "w") as f:
+        f.write(f"#pragma once\n")
+        f.write(f"\n")
+        f.write(f"#define DISPATCH_HW_C(hw, c, HW, C, ...) [&] {{ \\\n")
+        for hw, c in hw_c_list:
+            f.write(f"    if (hw == {hw} && c == {c}) {{ constexpr int HW = {hw}, C = {c}; return __VA_ARGS__(); }} \\\n")
+        f.write(f"    throw std::invalid_argument(\"DISPATCH_HW_C \" + std::to_string(hw) + \" \" + std::to_string(c)); \\\n")
+        f.write(f"    }}()\n")
+
+
+if __name__ == "__main__":
+    run()
@@ -0,0 +1,105 @@
+#include <torch/extension.h>
+#include <ATen/cuda/CUDAContext.h>
+
+#include "gn.hpp"
+
+
+namespace group_norm_v2 {
+
+torch::Tensor gn(torch::Tensor x, torch::Tensor w, torch::Tensor b, float eps, bool silu, int num_groups, std::optional<torch::Tensor> mean_var_out, int sm_margin) {
+    if (w.dtype() != b.dtype() || (mean_var_out.has_value() && mean_var_out->dtype() != torch::kFloat32)) {
+        throw std::invalid_argument("gn dtype mismatch");
+    }
+    torch::Tensor out = torch::empty_like(x);
+    float *ptr_mean_var_out = mean_var_out.has_value() ? mean_var_out->data_ptr<float>() : nullptr;
+    cudaStream_t stream = at::cuda::getCurrentCUDAStream().stream();
+    int device_id = at::cuda::getCurrentCUDAStream().device().index();
+    group_norm_v2::Meta meta;
+    if (x.dtype() == torch::kHalf && w.dtype() == torch::kHalf) {
+        group_norm_v2::gn_cuda(
+            (half *)out.data_ptr(), (half *)x.data_ptr(), (half *)w.data_ptr(), (half *)b.data_ptr(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups, ptr_mean_var_out,
+            nullptr, nullptr, sm_margin, stream, device_id, &meta, true);
+    } else if (x.dtype() == torch::kBFloat16 && w.dtype() == torch::kBFloat16) {
+        group_norm_v2::gn_cuda(
+            (__nv_bfloat16 *)out.data_ptr(), (__nv_bfloat16 *)x.data_ptr(), (__nv_bfloat16 *)w.data_ptr(), (__nv_bfloat16 *)b.data_ptr(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups, ptr_mean_var_out,
+            nullptr, nullptr, sm_margin, stream, device_id, &meta, true);
+    } else {
+        throw std::invalid_argument("gn only supports half or bfloat16 input and weight");
+    }
+    torch::Tensor red_buffer = torch::empty({meta.red_buffer_size}, torch::TensorOptions().dtype(torch::kFloat32).device(torch::kCUDA));
+    thread_local torch::Tensor barrier;
+    if (barrier.size(0) < meta.barrier_size) {
+        barrier = torch::zeros({meta.barrier_size}, torch::TensorOptions().dtype(torch::kUInt32).device(torch::kCUDA));
+    }
+    if (x.dtype() == torch::kHalf && w.dtype() == torch::kHalf) {
+        group_norm_v2::gn_cuda(
+            (half *)out.data_ptr(), (half *)x.data_ptr(), (half *)w.data_ptr(), (half *)b.data_ptr(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups, ptr_mean_var_out,
+            red_buffer.data_ptr<float>(), barrier.data_ptr<unsigned>(), sm_margin, stream, device_id, nullptr, false);
+    } else if (x.dtype() == torch::kBFloat16 && w.dtype() == torch::kBFloat16) {
+        group_norm_v2::gn_cuda(
+            (__nv_bfloat16 *)out.data_ptr(), (__nv_bfloat16 *)x.data_ptr(), (__nv_bfloat16 *)w.data_ptr(), (__nv_bfloat16 *)b.data_ptr(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups, ptr_mean_var_out,
+            red_buffer.data_ptr<float>(), barrier.data_ptr<unsigned>(), sm_margin, stream, device_id, nullptr, false);
+    } else {
+        throw std::invalid_argument("gn only supports half or bfloat16 input and weight");
+    }
+    return out;
+}
+
+auto gn_bwd(torch::Tensor grad_output, torch::Tensor x, torch::Tensor w, torch::Tensor b, torch::Tensor mean_var, float eps, bool silu, int num_groups, int sm_margin) {
+    if (w.dtype() != b.dtype() || x.dtype() != grad_output.dtype() || mean_var.dtype() != torch::kFloat32) {
+        throw std::invalid_argument("gn_bwd dtype mismatch");
+    }
+    torch::Tensor grad_input = torch::empty_like(x);
+    torch::Tensor grad_weight = torch::empty_like(w);
+    torch::Tensor grad_bias = torch::empty_like(w);
+    cudaStream_t stream = at::cuda::getCurrentCUDAStream().stream();
+    int device_id = at::cuda::getCurrentCUDAStream().device().index();
+    group_norm_v2::Meta meta;
+    if (x.dtype() == torch::kHalf && w.dtype() == torch::kHalf) {
+        group_norm_v2::gn_bwd_cuda(
+            (half *)grad_input.data_ptr(), (half *)grad_weight.data_ptr(), (half *)grad_bias.data_ptr(),
+            (half *)grad_output.data_ptr(), (half *)x.data_ptr(), (half *)w.data_ptr(), (half *)b.data_ptr(), mean_var.data_ptr<float>(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups,
+            nullptr, nullptr, sm_margin, stream, device_id, &meta, true);
+    } else if (x.dtype() == torch::kBFloat16 && w.dtype() == torch::kBFloat16) {
+        group_norm_v2::gn_bwd_cuda(
+            (__nv_bfloat16 *)grad_input.data_ptr(), (__nv_bfloat16 *)grad_weight.data_ptr(), (__nv_bfloat16 *)grad_bias.data_ptr(),
+            (__nv_bfloat16 *)grad_output.data_ptr(), (__nv_bfloat16 *)x.data_ptr(), (__nv_bfloat16 *)w.data_ptr(), (__nv_bfloat16 *)b.data_ptr(), mean_var.data_ptr<float>(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups,
+            nullptr, nullptr, sm_margin, stream, device_id, &meta, true);
+    } else {
+        throw std::invalid_argument("gn only supports half or bfloat16 input and weight");
+    }
+    torch::Tensor red_buffer = torch::empty({meta.red_buffer_size}, torch::TensorOptions().dtype(torch::kFloat32).device(torch::kCUDA));
+    thread_local torch::Tensor barrier;
+    if (barrier.size(0) < meta.barrier_size) {
+        barrier = torch::zeros({meta.barrier_size}, torch::TensorOptions().dtype(torch::kUInt32).device(torch::kCUDA));
+    }
+    if (x.dtype() == torch::kHalf && w.dtype() == torch::kHalf) {
+        group_norm_v2::gn_bwd_cuda(
+            (half *)grad_input.data_ptr(), (half *)grad_weight.data_ptr(), (half *)grad_bias.data_ptr(),
+            (half *)grad_output.data_ptr(), (half *)x.data_ptr(), (half *)w.data_ptr(), (half *)b.data_ptr(), mean_var.data_ptr<float>(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups,
+            red_buffer.data_ptr<float>(), barrier.data_ptr<unsigned>(), sm_margin, stream, device_id, nullptr, false);
+    } else if (x.dtype() == torch::kBFloat16 && w.dtype() == torch::kBFloat16) {
+        group_norm_v2::gn_bwd_cuda(
+            (__nv_bfloat16 *)grad_input.data_ptr(), (__nv_bfloat16 *)grad_weight.data_ptr(), (__nv_bfloat16 *)grad_bias.data_ptr(),
+            (__nv_bfloat16 *)grad_output.data_ptr(), (__nv_bfloat16 *)x.data_ptr(), (__nv_bfloat16 *)w.data_ptr(), (__nv_bfloat16 *)b.data_ptr(), mean_var.data_ptr<float>(),
+            eps, silu, x.size(0), x.size(2) * x.size(3), num_groups, x.size(1) / num_groups,
+            red_buffer.data_ptr<float>(), barrier.data_ptr<unsigned>(), sm_margin, stream, device_id, nullptr, false);
+    } else {
+        throw std::invalid_argument("gn only supports half or bfloat16 input and weight");
+    }
+    return std::make_tuple(grad_input, grad_weight, grad_bias);
+}
+
+}  // namespace group_norm_v2
+
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+    m.def("gn", &group_norm_v2::gn, py::arg("x"), py::arg("w"), py::arg("b"), py::arg("eps"), py::arg("silu"), py::arg("num_groups"), py::arg("mean_var_out") = py::none(), py::arg("sm_margin") = 0, "");
+    m.def("gn_bwd", &group_norm_v2::gn_bwd, py::arg("grad_output"), py::arg("x"), py::arg("w"), py::arg("b"), py::arg("mean_var"), py::arg("eps"), py::arg("silu"), py::arg("num_groups"), py::arg("sm_margin") = 0, "");
+}
@@ -0,0 +1,28 @@
+#pragma once
+
+#include <cstdint>
+#include <cuda_runtime.h>
+
+
+namespace group_norm_v2 {
+
+struct Meta {
+    int64_t red_buffer_size;
+    int64_t barrier_size;
+    int BLOCK_DIM_X;
+    int C_PER_BLOCK;
+    int ROWS_PER_BLOCK;
+    int VEC_ELEMS;
+    bool LOAD_TWICE;
+    int BLOCKS_PER_SM;
+    bool HARDWARE_CLUSTER;
+    int wgrad_sync_method;
+};
+
+template<typename T>
+void gn_cuda(T *out, T *x, T *w, T *b, float eps, bool silu, int64_t n, int64_t hw, int num_groups, int channels_per_group, float *mean_var_out, float *red_buffer, unsigned *barrier, int sm_margin, cudaStream_t stream, int device_id, Meta *meta_ptr, bool meta_only);
+
+template<typename T>
+void gn_bwd_cuda(T *grad_input, T *grad_weight, T *grad_bias, T *grad_output, T *x, T *w, T *b, float *mean_var, float eps, bool silu, int64_t n, int64_t hw, int num_groups, int channels_per_group, float *red_buffer, unsigned *barrier, int sm_margin, cudaStream_t stream, int device_id, Meta *meta_ptr, bool meta_only);
+
+}  // namespace group_norm_v2
@@ -0,0 +1,53 @@
+#include "gn.hpp"
+
+#include <cstdio>
+#include <mutex>
+#include <stdexcept>
+
+#include <cuda_runtime.h>
+#include <cuda_fp16.h>
+#include <cuda_bf16.h>
+
+#include "gn_utils.hpp"
+#include "gn_dispatch_hw_c.hpp"
+
+
+#define DISPATCH_NUM_GROUPS_AND_SILU(num_groups, silu, NUM_GROUPS, SILU, ...) [&] { \
+    if (num_groups == 16 && silu == true) { constexpr int NUM_GROUPS = 16; constexpr bool SILU = true; return __VA_ARGS__(); } \
+    if (num_groups == 32 && silu == false) { constexpr int NUM_GROUPS = 32; constexpr bool SILU = false; return __VA_ARGS__(); } \
+    throw std::invalid_argument("DISPATCH_NUM_GROUPS_AND_SILU " + std::to_string(num_groups) + " " + std::to_string(silu)); \
+    }()
+
+namespace group_norm_v2 {
+
+template<typename T, int HW, int C, int G, bool SILU>
+void gn_cuda_single_shape(GN_CUDA_HOST_PARAMS(T));
+
+template<typename T, int HW, int C, int G, bool SILU>
+void gn_bwd_cuda_single_shape(GN_BWD_CUDA_HOST_PARAMS(T));
+
+template<typename T>
+void gn_cuda(GN_CUDA_HOST_PARAMS(T)) {
+    DISPATCH_HW_C(hw, num_groups * channels_per_group, HW, C, [&] {
+        DISPATCH_NUM_GROUPS_AND_SILU(num_groups, silu, G, SILU, [&] {
+            return gn_cuda_single_shape<T, HW, C, G, SILU>(GN_CUDA_HOST_ARGS);
+        });
+    });
+}
+
+template<typename T>
+void gn_bwd_cuda(GN_BWD_CUDA_HOST_PARAMS(T)) {
+    DISPATCH_HW_C(hw, num_groups * channels_per_group, HW, C, [&] {
+        DISPATCH_NUM_GROUPS_AND_SILU(num_groups, silu, G, SILU, [&] {
+            return gn_bwd_cuda_single_shape<T, HW, C, G, SILU>(GN_BWD_CUDA_HOST_ARGS);
+        });
+    });
+}
+
+template void gn_cuda(GN_CUDA_HOST_PARAMS(half));
+template void gn_cuda(GN_CUDA_HOST_PARAMS(__nv_bfloat16));
+
+template void gn_bwd_cuda(GN_BWD_CUDA_HOST_PARAMS(half));
+template void gn_bwd_cuda(GN_BWD_CUDA_HOST_PARAMS(__nv_bfloat16));
+
+}  // namespace group_norm_v2