[x264-devel] [PATCH 3/4] x264_intra_sad_x3_8x8c_neon

Sat Jan 28 19:51:31 CET 2012

---
 common/arm/pixel-a.S |  127 ++++++++++++++++++++++++++++++++++++++++++++++++++
 common/arm/pixel.h   |    1 +
 common/pixel.c       |    1 +
 3 files changed, 129 insertions(+), 0 deletions(-)

diff --git a/common/arm/pixel-a.S b/common/arm/pixel-a.S
index ece299c..8e9b5b1 100644
--- a/common/arm/pixel-a.S
+++ b/common/arm/pixel-a.S
@@ -1364,3 +1364,130 @@ function x264_intra_sad_x3_8x8_neon
     bx          lr
 .endfunc
 
+function x264_intra_sad_x3_8x8c_neon
+    push        {r4, lr}
+    vmov.i8     q2, #0
+    vmov.i8     q8, #0
+    vmov.i8     q10, #0
+    vmov.i8     q11, #0
+    add         r2, #8
+    sub         lr, r1, #FDEC_STRIDE
+    mov         r3, #FENC_STRIDE
+    vld1.8      {d0}, [lr]
+    mov         r4, #FDEC_STRIDE
+    sub         lr, r1, #1
+
+    vld1.8      {d24}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d24
+    vdup.8      d18, d19[0]
+    vaddw.u8    q8, d19
+    vabal.u8    q10, d18, d24
+
+    vld1.8      {d25}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d25
+    vdup.8      d18, d19[0]
+    vaddw.u8    q8, d19
+    vabal.u8    q10, d18, d25
+
+    vld1.8      {d26}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d26
+    vdup.8      d18, d19[0]
+    vaddw.u8    q8, d19
+    vabal.u8    q10, d18, d26
+
+    vld1.8      {d27}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d27
+    vdup.8      d18, d19[0]
+    vaddw.u8    q8, d19
+    vabal.u8    q10, d18, d27
+
+    vld1.8      {d28}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d28
+    vdup.8      d18, d19[0]
+    vaddw.u8    q11, d19
+    vabal.u8    q10, d18, d28
+
+    vld1.8      {d29}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d29
+    vdup.8      d18, d19[0]
+    vaddw.u8    q11, d19
+    vabal.u8    q10, d18, d29
+
+    vld1.8      {d30}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d30
+    vdup.8      d18, d19[0]
+    vaddw.u8    q11, d19
+    vabal.u8    q10, d18, d30
+
+    vld1.8      {d31}, [r0], r3
+    vld1.8      {d19[0]}, [lr], r4
+    vabal.u8    q2, d0, d31
+    vdup.8      d18, d19[0]
+    vaddw.u8    q11, d19
+    vabal.u8    q10, d18, d31
+
+    vadd.u16    d20, d21
+    vadd.u16    d4, d5
+    vshr.u64    d21, d20, #32
+    vshr.u64    d5, d4, #32
+    vadd.u16    d20, d21
+    vadd.u16    d4, d5
+    vshr.u64    d21, d20, #16
+    vshr.u64    d5, d4, #16
+    vmovl.u8    q3, d0
+    vadd.u16    d20, d21
+    vshr.u64    q9, q3, #32
+    vadd.u16    d4, d5
+    vadd.u16    q3, q9
+    vst1.16     {d4[0]}, [r2]
+    vshr.u64    q9, q3, #16
+    sub         r2, #4
+    vadd.u16    q3, q9
+
+    vst1.16     {d20[0]}, [r2]
+
+    vadd.u16    d3, d7, d22
+    vadd.u16    d0, d6, d16
+    vrshr.u16   d1, d7, #2
+    vrshr.u16   d3, #3
+    vrshr.u16   d0, #3
+    vrshr.u16   d2, d22, #2
+    vdup.8      d1, d1[0]
+    vdup.8      d3, d3[0]
+    vdup.8      d0, d0[0]
+    vdup.8      d2, d2[0]
+
+    vmov.i8     q10, #0
+    vmov.i8     q11, #0
+
+    vext.8      d0, d0, d1, #4
+    vext.8      d1, d2, d3, #4
+
+    vabal.u8    q11, d0, d24
+    vabal.u8    q10, d0, d25
+    vabal.u8    q11, d0, d26
+    vabal.u8    q10, d0, d27
+    vabal.u8    q11, d1, d28
+    vabal.u8    q10, d1, d29
+    vabal.u8    q11, d1, d30
+    vabal.u8    q10, d1, d31
+
+    sub         r2, #4
+    vadd.u16    q11, q10
+    vadd.u16    d22, d23
+    vshr.u64    d23, d22, #32
+    vadd.u16    d22, d23
+    vshr.u64    d23, d22, #16
+    vadd.u16    d22, d23
+    vst1.16     {d22[0]}, [r2]
+
+    pop        {r4, pc}
+.endfunc
+
diff --git a/common/arm/pixel.h b/common/arm/pixel.h
index 07a72c2..506cf59 100644
--- a/common/arm/pixel.h
+++ b/common/arm/pixel.h
@@ -71,4 +71,5 @@ float x264_pixel_ssim_end4_neon( int sum0[5][4], int sum1[5][4], int width );
 
 void x264_intra_sad_x3_4x4_armv6( uint8_t *, uint8_t *, int * );
 void x264_intra_sad_x3_8x8_neon( uint8_t *, uint8_t *, int * );
+void x264_intra_sad_x3_8x8c_neon( uint8_t *, uint8_t *, int * );
 #endif
diff --git a/common/pixel.c b/common/pixel.c
index af7006f..f6d6a04 100644
--- a/common/pixel.c
+++ b/common/pixel.c
@@ -1213,6 +1213,7 @@ void x264_pixel_init( int cpu, x264_pixel_function_t *pixf )
     if( cpu&X264_CPU_NEON )
     {
         pixf->intra_sad_x3_8x8  = x264_intra_sad_x3_8x8_neon;
+        pixf->intra_sad_x3_8x8c   = x264_intra_sad_x3_8x8c_neon;
         INIT5( sad, _neon );
         INIT5( sad_aligned, _neon );
         INIT7( sad_x3, _neon );
-- 
1.7.4.1