Add SVE2 implementation of vpx_highbd_convolve12_vert

alex-davicenko-arm · jwright-arm · commit e21e962e5b7f · 2025-10-28T16:59:26.000-07:00
Add an Arm SVE2 implementation of vpx_highbd_convolve12_horiz and
associated unit tests.

Change-Id: Ibd086b6db1769fa90e428426eb99073151ba2c00
diff --git a/test/convolve_test.cc b/test/convolve_test.cc
@@ -1818,8 +1818,11 @@ WRAP12TAP(convolve12_neon, 12)
 
 #if HAVE_SVE2
 WRAP12TAP(convolve12_horiz_sve2, 8)
+WRAP12TAP(convolve12_vert_sve2, 8)
 WRAP12TAP(convolve12_horiz_sve2, 10)
+WRAP12TAP(convolve12_vert_sve2, 10)
 WRAP12TAP(convolve12_horiz_sve2, 12)
+WRAP12TAP(convolve12_vert_sve2, 12)
 #endif  // HAVE_SVE2
 
 WRAP12TAP(convolve12_horiz_c, 8)
@@ -2189,15 +2192,15 @@ INSTANTIATE_TEST_SUITE_P(SVE2, ConvolveTest,
 
 #if !CONFIG_REALTIME_ONLY && CONFIG_VP9_ENCODER
 const ConvolveFunctions12Tap convolve12tap_8bit_sve2(
-    wrap_convolve12_horiz_sve2_8, wrap_convolve12_vert_c_8, wrap_convolve12_c_8,
-    8);
+    wrap_convolve12_horiz_sve2_8, wrap_convolve12_vert_sve2_8,
+    wrap_convolve12_c_8, 8);
 
 const ConvolveFunctions12Tap convolve12tap_10bit_sve2(
-    wrap_convolve12_horiz_sve2_10, wrap_convolve12_vert_c_10,
+    wrap_convolve12_horiz_sve2_10, wrap_convolve12_vert_sve2_10,
     wrap_convolve12_c_10, 10);
 
 const ConvolveFunctions12Tap convolve12tap_12bit_sve2(
-    wrap_convolve12_horiz_sve2_12, wrap_convolve12_vert_c_12,
+    wrap_convolve12_horiz_sve2_12, wrap_convolve12_vert_sve2_12,
     wrap_convolve12_c_12, 12);
 
 const Convolve12TapParam kArrayConvolve12Tap_sve2[] = {
diff --git a/vp9/common/vp9_rtcd_defs.pl b/vp9/common/vp9_rtcd_defs.pl
@@ -206,7 +206,7 @@ ()
 
   if (vpx_config("CONFIG_VP9_HIGHBITDEPTH") eq "yes") {
     add_proto qw/void vpx_highbd_convolve12_vert/, "const uint16_t *src, ptrdiff_t src_stride, uint16_t *dst, ptrdiff_t dst_stride, const InterpKernel12 *filter, int x0_q4, int x_step_q4, int y0_q4, int y_step_q4, int w, int h, int bd";
-    specialize qw/vpx_highbd_convolve12_vert ssse3 avx2 neon/;
+    specialize qw/vpx_highbd_convolve12_vert ssse3 avx2 neon sve2/;
 
     add_proto qw/void vpx_highbd_convolve12_horiz/, "const uint16_t *src, ptrdiff_t src_stride, uint16_t *dst, ptrdiff_t dst_stride, const InterpKernel12 *filter, int x0_q4, int x_step_q4, int y0_q4, int y_step_q4, int w, int h, int bd";
     specialize qw/vpx_highbd_convolve12_horiz ssse3 avx2 neon sve2/;
diff --git a/vp9/encoder/arm/neon/vp9_highbd_temporal_filter_sve2.c b/vp9/encoder/arm/neon/vp9_highbd_temporal_filter_sve2.c
@@ -17,6 +17,7 @@
 #include "./vpx_config.h"
 #include "vpx/vpx_integer.h"
 #include "vpx_dsp/arm/mem_neon.h"
+#include "vpx_dsp/arm/transpose_neon.h"
 #include "vp9/encoder/vp9_temporal_filter.h"
 #include "vpx_dsp/arm/vpx_neon_sve_bridge.h"
 #include "vpx_dsp/arm/vpx_neon_sve2_bridge.h"
@@ -132,3 +133,120 @@ void vpx_highbd_convolve12_horiz_sve2(const uint16_t *src, ptrdiff_t src_stride,
     h -= 2;
   } while (h != 0);
 }
+
+static INLINE uint16x4_t highbd_convolve12_4_v(const int16x8_t s0[2],
+                                               const int16x8_t s1[2],
+                                               const int16x8_t s2[2],
+                                               const int16x8_t filter_0_7,
+                                               const int16x8_t filter_4_11,
+                                               const uint16x4_t max) {
+  int64x2_t sum01 = vpx_dotq_lane_s16(vdupq_n_s64(0), s0[0], filter_0_7, 0);
+  sum01 = vpx_dotq_lane_s16(sum01, s1[0], filter_0_7, 1);
+  sum01 = vpx_dotq_lane_s16(sum01, s2[0], filter_4_11, 1);
+
+  int64x2_t sum23 = vpx_dotq_lane_s16(vdupq_n_s64(0), s0[1], filter_0_7, 0);
+  sum23 = vpx_dotq_lane_s16(sum23, s1[1], filter_0_7, 1);
+  sum23 = vpx_dotq_lane_s16(sum23, s2[1], filter_4_11, 1);
+
+  int32x4_t sum0123 = vcombine_s32(vmovn_s64(sum01), vmovn_s64(sum23));
+
+  uint16x4_t res = vqrshrun_n_s32(sum0123, FILTER_BITS);
+
+  return vmin_u16(res, max);
+}
+
+void vpx_highbd_convolve12_vert_sve2(const uint16_t *src, ptrdiff_t src_stride,
+                                     uint16_t *dst, ptrdiff_t dst_stride,
+                                     const InterpKernel12 *filter, int x0_q4,
+                                     int x_step_q4, int y0_q4, int y_step_q4,
+                                     int w, int h, int bd) {
+  // Scaling not supported by SVE2 implementation.
+  if (y_step_q4 != 16) {
+    vpx_highbd_convolve12_vert_c(src, src_stride, dst, dst_stride, filter,
+                                 x0_q4, x_step_q4, y0_q4, y_step_q4, w, h, bd);
+    return;
+  }
+  assert(w == 32 || w == 16 || w == 8);
+  assert(h % 4 == 0);
+
+  const int16x8_t filter_0_7 = vld1q_s16(filter[y0_q4]);
+  const int16x8_t filter_4_11 = vld1q_s16(filter[y0_q4] + 4);
+
+  const uint16x4_t max = vdup_n_u16((1 << bd) - 1);
+
+  src -= src_stride * (MAX_FILTER_TAP / 2 - 1);
+
+  do {
+    const int16_t *s = (const int16_t *)src;
+    uint16_t *d = dst;
+    int height = h;
+
+    int16x4_t s0, s1, s2, s3, s4, s5, s6, s7, s8, s9, sA;
+    load_s16_4x11(s, src_stride, &s0, &s1, &s2, &s3, &s4, &s5, &s6, &s7, &s8,
+                  &s9, &sA);
+    s += 11 * src_stride;
+
+    int16x8_t s0123[2], s1234[2], s2345[2], s3456[2], s4567[2], s5678[2],
+        s6789[2], s789A[2];
+    transpose_concat_s16_4x4(s0, s1, s2, s3, &s0123[0], &s0123[1]);
+    transpose_concat_s16_4x4(s1, s2, s3, s4, &s1234[0], &s1234[1]);
+    transpose_concat_s16_4x4(s2, s3, s4, s5, &s2345[0], &s2345[1]);
+    transpose_concat_s16_4x4(s3, s4, s5, s6, &s3456[0], &s3456[1]);
+    transpose_concat_s16_4x4(s4, s5, s6, s7, &s4567[0], &s4567[1]);
+    transpose_concat_s16_4x4(s5, s6, s7, s8, &s5678[0], &s5678[1]);
+    transpose_concat_s16_4x4(s6, s7, s8, s9, &s6789[0], &s6789[1]);
+    transpose_concat_s16_4x4(s7, s8, s9, sA, &s789A[0], &s789A[1]);
+
+    do {
+      int16x4_t sB, sC, sD, sE;
+      load_s16_4x4(s, src_stride, &sB, &sC, &sD, &sE);
+
+      int16x8_t s89AB[2], s9ABC[2], sABCD[2], sBCDE[2];
+      transpose_concat_s16_4x4(s8, s9, sA, sB, &s89AB[0], &s89AB[1]);
+      transpose_concat_s16_4x4(s9, sA, sB, sC, &s9ABC[0], &s9ABC[1]);
+      transpose_concat_s16_4x4(sA, sB, sC, sD, &sABCD[0], &sABCD[1]);
+      transpose_concat_s16_4x4(sB, sC, sD, sE, &sBCDE[0], &sBCDE[1]);
+
+      uint16x4_t d0 = highbd_convolve12_4_v(s0123, s4567, s89AB, filter_0_7,
+                                            filter_4_11, max);
+      uint16x4_t d1 = highbd_convolve12_4_v(s1234, s5678, s9ABC, filter_0_7,
+                                            filter_4_11, max);
+      uint16x4_t d2 = highbd_convolve12_4_v(s2345, s6789, sABCD, filter_0_7,
+                                            filter_4_11, max);
+      uint16x4_t d3 = highbd_convolve12_4_v(s3456, s789A, sBCDE, filter_0_7,
+                                            filter_4_11, max);
+
+      store_u16_4x4(d, dst_stride, d0, d1, d2, d3);
+
+      // Prepare block for next iteration - reusing as much as possible.
+      // Shuffle everything up four rows.
+      s0123[0] = s4567[0];
+      s0123[1] = s4567[1];
+      s1234[0] = s5678[0];
+      s1234[1] = s5678[1];
+      s2345[0] = s6789[0];
+      s2345[1] = s6789[1];
+      s3456[0] = s789A[0];
+      s3456[1] = s789A[1];
+      s4567[0] = s89AB[0];
+      s4567[1] = s89AB[1];
+      s5678[0] = s9ABC[0];
+      s5678[1] = s9ABC[1];
+      s6789[0] = sABCD[0];
+      s6789[1] = sABCD[1];
+      s789A[0] = sBCDE[0];
+      s789A[1] = sBCDE[1];
+
+      s8 = sC;
+      s9 = sD;
+      sA = sE;
+
+      s += 4 * src_stride;
+      d += 4 * dst_stride;
+      height -= 4;
+    } while (height != 0);
+    src += 4;
+    dst += 4;
+    w -= 4;
+  } while (w != 0);
+}
diff --git a/vpx_dsp/arm/mem_neon.h b/vpx_dsp/arm/mem_neon.h
@@ -499,6 +499,34 @@ static INLINE void load_s16_4x4(const int16_t *s, const ptrdiff_t p,
   *s3 = vld1_s16(s);
 }
 
+static INLINE void load_s16_4x11(const int16_t *s, const ptrdiff_t p,
+                                 int16x4_t *s0, int16x4_t *s1, int16x4_t *s2,
+                                 int16x4_t *s3, int16x4_t *s4, int16x4_t *s5,
+                                 int16x4_t *s6, int16x4_t *s7, int16x4_t *s8,
+                                 int16x4_t *s9, int16x4_t *s10) {
+  *s0 = vld1_s16(s);
+  s += p;
+  *s1 = vld1_s16(s);
+  s += p;
+  *s2 = vld1_s16(s);
+  s += p;
+  *s3 = vld1_s16(s);
+  s += p;
+  *s4 = vld1_s16(s);
+  s += p;
+  *s5 = vld1_s16(s);
+  s += p;
+  *s6 = vld1_s16(s);
+  s += p;
+  *s7 = vld1_s16(s);
+  s += p;
+  *s8 = vld1_s16(s);
+  s += p;
+  *s9 = vld1_s16(s);
+  s += p;
+  *s10 = vld1_s16(s);
+}
+
 static INLINE void store_u16_4x4(uint16_t *s, const ptrdiff_t p,
                                  const uint16x4_t s0, const uint16x4_t s1,
                                  const uint16x4_t s2, const uint16x4_t s3) {