ARM-software
diff --git a/‎Android.bp‎
Lines changed: 4 additions & 0 deletions b/‎Android.bp‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion b/‎CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎README.md‎
Lines changed: 12 additions & 12 deletions b/‎README.md‎
Lines changed: 12 additions & 12 deletions
diff --git a/‎SConscript‎
Lines changed: 2 additions & 2 deletions b/‎SConscript‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎arm_compute/function_info/GEMMInfo.h‎
Lines changed: 28 additions & 3 deletions b/‎arm_compute/function_info/GEMMInfo.h‎
Lines changed: 28 additions & 3 deletions
diff --git a/‎docs/Doxyfile‎
Lines changed: 1 addition & 1 deletion b/‎docs/Doxyfile‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/neon_sgemm.cpp‎
Lines changed: 6 additions & 0 deletions b/‎examples/neon_sgemm.cpp‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎filelist.json‎
Lines changed: 6 additions & 1 deletion b/‎filelist.json‎
Lines changed: 6 additions & 1 deletion
@@ -1227,6 +1227,7 @@ cc_library_static {
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_bf16fp32_mmla_6x16/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp16_mla_6x32/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp16fp32_mla_6x16/generic.cpp",
+                "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp16fp32fp16_mla_6x16/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp32_mla_6x16/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp32bf16fp32_mmla_4x24/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp32bf16fp32_mmla_6x16/generic.cpp",
@@ -1252,6 +1253,7 @@ cc_library_static {
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp16_mla_6x32/a55.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp16_mla_6x32/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp16fp32_mla_6x16/generic.cpp",
+                "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp16fp32fp16_mla_6x16/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp32_mla_4x24/a55.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp32_mla_4x24/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp32_mla_6x16/a55.cpp",
@@ -1340,6 +1342,7 @@ cc_library_static {
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp16_mla_6x4VL/a64fx.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp16_mla_6x4VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp16fp32_mla_6x4VL/generic.cpp",
+                "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp16fp32fp16_mla_6x4VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp32_mla_6x4VL/a64fx.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp32_mla_6x4VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp32bf16fp32_mmla_4x6VL/generic.cpp",
@@ -1354,6 +1357,7 @@ cc_library_static {
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp16_mla_6x4VL/a64fx.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp16_mla_6x4VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp16fp32_mla_6x4VL/generic.cpp",
+                "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp16fp32fp16_mla_6x4VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp32_mla_6x4VL/a64fx.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp32_mla_6x4VL/generic.cpp",
                 "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp32_mla_8x1VL/a64fx.cpp",
 
@@ -24,7 +24,7 @@ cmake_minimum_required(VERSION 3.13 FATAL_ERROR)
 
 project(
   ArmCompute
-  VERSION 50.0.0
+  VERSION 51.0.0
   DESCRIPTION
   "The Compute Library is a collection of low-level machine learning functions \
    optimized for Arm® Cortex®-A, Arm® Neoverse™ CPU and Arm® Mali™ GPU \
 
@@ -9,7 +9,7 @@
  <img src="https://raw.githubusercontent.com/ARM-software/ComputeLibrary/gh-pages/ACL_logo.png"/><br><br>
 </div>
 
-# Compute Library ![](https://img.shields.io/badge/latest_release-25.03.1-green)
+# Compute Library ![](https://img.shields.io/badge/latest_release-25.04-green)
 
 
 The Compute Library is a collection of low-level machine learning functions optimized for Arm® Cortex®-A, Arm® Neoverse™ and Arm® Mali™ GPUs architectures.<br>
@@ -37,7 +37,7 @@ Key Features:
 <br>
 
 ## Documentation
-[![Documentation](https://img.shields.io/badge/documentation-25.03.1-green)](https://artificial-intelligence.sites.arm.com/computelibrary/v25.03.1/index.xhtml)
+[![Documentation](https://img.shields.io/badge/documentation-25.04-green)](https://artificial-intelligence.sites.arm.com/computelibrary/v25.04/index.xhtml)
 
 > Note: The documentation includes the reference API, changelogs, build guide, contribution guide, errata, etc.
 
@@ -50,22 +50,22 @@ All the binaries can be downloaded from [here](https://github.com/ARM-software/C
 
 | Platform       | Operating System | Release archive (Download) |
 | -------------- | ---------------- | -------------------------- |
-| Raspberry Pi 4 | Linux® 32bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-armv7a-cpu-bin.tar.gz) |
-| Raspberry Pi 4 | Linux® 64bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-aarch64-cpu-bin.tar.gz) |
-| Odroid N2      | Linux® 64bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-aarch64-cpu-gpu-bin.tar.gz) |
-| HiKey960       | Linux® 64bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-aarch64-cpu-gpu-bin.tar.gz) |
+| Raspberry Pi 4 | Linux® 32bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-armv7a-cpu-bin.tar.gz) |
+| Raspberry Pi 4 | Linux® 64bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-aarch64-cpu-bin.tar.gz) |
+| Odroid N2      | Linux® 64bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-aarch64-cpu-gpu-bin.tar.gz) |
+| HiKey960       | Linux® 64bit      | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-aarch64-cpu-gpu-bin.tar.gz) |
 
 <br>
 
 | Architecture | Operating System | Release archive (Download) |
 | ------------ | ---------------- | -------------------------- |
-| armv7        | Linux®            | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-armv7a-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-armv7a-cpu-gpu-bin.tar.gz) |
-| arm64-v8a    | Android™          | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-android-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-android-aarch64-cpu-gpu-bin.tar.gz) |
-| arm64-v8a    | Linux®            | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.03.1/arm_compute-v25.03.1-linux-aarch64-cpu-gpu-bin.tar.gz) |
+| armv7        | Linux®            | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-armv7a-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-armv7a-cpu-gpu-bin.tar.gz) |
+| arm64-v8a    | Android™          | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-android-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-android-aarch64-cpu-gpu-bin.tar.gz) |
+| arm64-v8a    | Linux®            | [![](https://img.shields.io/badge/build-neon-orange)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-aarch64-cpu-bin.tar.gz) [![](https://img.shields.io/badge/build-neon+cl-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/download/v25.04/arm_compute-v25.04-linux-aarch64-cpu-gpu-bin.tar.gz) |
 
 <br>
 
-Please refer to the following link for more pre-built binaries: [![](https://img.shields.io/badge/v25.03.1-bins-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/tag/v25.03.1)
+Please refer to the following link for more pre-built binaries: [![](https://img.shields.io/badge/v25.04-bins-yellowgreen)](https://github.com/ARM-software/ComputeLibrary/releases/tag/v25.04)
 
 Pre-build binaries are generated with the following security / good coding practices related flags:
 > -Wall, -Wextra, -Wformat=2, -Winit-self, -Wstrict-overflow=2, -Wswitch-default, -Woverloaded-virtual, -Wformat-security, -Wctor-dtor-privacy, -Wsign-promo, -Weffc++, -pedantic, -fstack-protector-strong
@@ -108,13 +108,13 @@ Pre-build binaries are generated with the following security / good coding pract
 
 ## Experimental builds
 
-**⚠ Important** Bazel and CMake builds are experimental CPU only builds, please see the [documentation](https://artificial-intelligence.sites.arm.com/computelibrary/v25.03.1/how_to_build.xhtml) for more details.
+**⚠ Important** Bazel and CMake builds are experimental CPU only builds, please see the [documentation](https://artificial-intelligence.sites.arm.com/computelibrary/v25.04/how_to_build.xhtml) for more details.
 
 <br>
 
 ## How to contribute
 
-Contributions to the Compute Library are more than welcome. If you are interested on contributing, please have a look at our [how to contribute guidelines](https://artificial-intelligence.sites.arm.com/computelibrary/v25.03.1/contribution_guidelines.xhtml).
+Contributions to the Compute Library are more than welcome. If you are interested on contributing, please have a look at our [how to contribute guidelines](https://artificial-intelligence.sites.arm.com/computelibrary/v25.04/contribution_guidelines.xhtml).
 
 ### Developer Certificate of Origin (DCO)
 Before the Compute Library accepts your contribution, you need to certify its origin and give us your permission. To manage this process we use the Developer Certificate of Origin (DCO) V1.1 (https://developercertificate.org/)
 
@@ -33,8 +33,8 @@ import codecs
 import platform
 import SCons
 
-VERSION = "v25.03.1"
-LIBRARY_VERSION_MAJOR = 50
+VERSION = "v25.04"
+LIBRARY_VERSION_MAJOR = 51
 LIBRARY_VERSION_MINOR = 0
 LIBRARY_VERSION_PATCH = 0
 SONAME_VERSION = str(LIBRARY_VERSION_MAJOR) + "." + str(LIBRARY_VERSION_MINOR) + "." + str(LIBRARY_VERSION_PATCH)
 
@@ -105,7 +105,8 @@ class GEMMInfo
           _activation_info(),
           _fixed_format(false),
           _weight_format(arm_compute::WeightFormat::UNSPECIFIED),
-          _accumulate(false)
+          _accumulate(false),
+          _use_fp32_acc(false)
     {
     }
     /** Constructor
@@ -127,6 +128,7 @@ class GEMMInfo
      * @param[in] weight_format               (Optional) arm_gemm:WeightFormat enumeration requested by the user. Default is arm_compute::WeightFormat::UNSPECIFIED.
      * @param[in] pretranspose_B              (Optional) Pretranspose matrix B (transposition of its lowest 2 dimensions), in addition to and before, any further transformations of B
      * @param[in] accumulate                  (Optional) Whether to accumulate in destination or not
+     * @param[in] use_fp32_acc                (Optional) Whether to use fp32 accumulation in fp16 matmul (applicable to fp16 matmul only, ignored in other configurations)
      */
     GEMMInfo(bool                       is_a_reshaped,
              bool                       is_b_reshaped,
@@ -142,7 +144,8 @@ class GEMMInfo
              bool                       fixed_format            = false,
              arm_compute::WeightFormat  weight_format           = arm_compute::WeightFormat::UNSPECIFIED,
              bool                       pretranspose_B          = false,
-             bool                       accumulate              = false) noexcept
+             bool                       accumulate              = false,
+             bool                       use_fp32_acc            = false) noexcept
         : _is_a_reshaped(is_a_reshaped),
           _is_b_reshaped(is_b_reshaped),
           _reshape_b_only_on_first_run(reshape_b_only_on_first_run),
@@ -158,7 +161,8 @@ class GEMMInfo
           _activation_info(activation_info),
           _fixed_format(fixed_format),
           _weight_format(weight_format),
-          _accumulate(accumulate)
+          _accumulate(accumulate),
+          _use_fp32_acc(use_fp32_acc)
     {
     }
     /** Flag which specifies if the matrix A has been reshaped
@@ -342,6 +346,10 @@ class GEMMInfo
         _accumulate = accumulate;
     }
 
+    /** Weight format to be used
+     *
+     * @return The selected weight format.
+     */
     arm_compute::WeightFormat weight_format() const
     {
         return _weight_format;
@@ -354,6 +362,22 @@ class GEMMInfo
     {
         _weight_format = weight_format;
     }
+    /** Flag which specifies if the GEMM operation is running in f16 matmul with f32 accumulation.
+     *
+     * @return True if the GEMM operation is running in f16 matmul with f32 accumulation else false.
+     */
+    bool use_fp32_acc() const
+    {
+        return _use_fp32_acc;
+    }
+    /** Set use_fp32_acc flag
+     *
+     * @param[in] use_fp32_acc set wheter or not to use f32 accumulation in f16 matmul
+     */
+    void set_use_fp32_acc(bool use_fp32_acc)
+    {
+        _use_fp32_acc = use_fp32_acc;
+    }
 
 private:
     bool                      _is_a_reshaped;
@@ -372,6 +396,7 @@ class GEMMInfo
     bool                      _fixed_format;
     arm_compute::WeightFormat _weight_format;
     bool                      _accumulate;
+    bool                      _use_fp32_acc;
 };
 } //namespace arm_compute
 #endif // ACL_ARM_COMPUTE_FUNCTION_INFO_GEMMINFO_H
@@ -60,7 +60,7 @@ PROJECT_NAME           = "Compute Library"
 # could be handy for archiving the generated documentation or if some version
 # control system is used.
 
-PROJECT_NUMBER         = 25.03.1
+PROJECT_NUMBER         = 25.04
 
 # Using the PROJECT_BRIEF tag one can provide an optional one line description
 # for a project that appears at the top of each page and should give viewer a
 
@@ -95,6 +95,10 @@ class NESGEMMExample : public Example
         auto mode_opt = parser.add_option<utils::SimpleOption<std::string>>("mode", "static");
         mode_opt->set_help("GEMM mode. Allowed values: static, dynamic. Default value: static");
 
+        auto threads_ops = parser.add_option<utils::SimpleOption<int>>("threads", 0);
+        threads_ops->set_help(
+            "Number of threads to use. When 0 or not present - one thread per CPU core will be used.");
+
         parser.parse(argc, argv);
 
         if (help_opt->is_set() && help_opt->value())
@@ -253,6 +257,8 @@ class NESGEMMExample : public Example
             }
         }
 
+        Scheduler::get().set_num_threads(threads_ops->value());
+
         // Dummy run for CLTuner
         sgemm.run();
 
 
@@ -1742,7 +1742,10 @@
                     "src/cpu/kernels/gemm_matrix_add/generic/neon/fp16.cpp",
                     "src/core/NEON/kernels/arm_gemm/gemm_fp16fp32.cpp",
                     "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp16fp32_mla_6x16/generic.cpp",
-                    "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp16fp32_mla_6x16/generic.cpp"
+                    "src/core/NEON/kernels/arm_gemm/kernels/a64_hybrid_fp16fp32fp16_mla_6x16/generic.cpp",
+                    "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp16fp32_mla_6x16/generic.cpp",
+                    "src/core/NEON/kernels/arm_gemm/kernels/a64_ffhybrid_fp16fp32fp16_mla_6x16/generic.cpp"
+
                   ],
             "estate32": [
               "src/core/NEON/kernels/arm_gemm/kernels/a32_sgemm_8x6/a53.cpp",
@@ -1808,7 +1811,9 @@
               "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp32bf16fp32_mmla_4x6VL/generic.cpp",
               "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp32bf16fp32_mmla_6x4VL/generic.cpp",
               "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp16fp32_mla_6x4VL/generic.cpp",
+              "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_fp16fp32fp16_mla_6x4VL/generic.cpp",
               "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp16fp32_mla_6x4VL/generic.cpp",
+              "src/core/NEON/kernels/arm_gemm/kernels/sve_ffhybrid_fp16fp32fp16_mla_6x4VL/generic.cpp",
               "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_s8qa_dot_4x4VL/generic.cpp",
               "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_s8qa_mmla_4x4VL/generic.cpp",
               "src/core/NEON/kernels/arm_gemm/kernels/sve_hybrid_s8qs_dot_6x4VL/generic.cpp",