<div style="line-height:1.7;color:#000000;font-size:14px;font-family:arial"><div> </div><pre><br>At 2014-10-17 18:29:49,praveen@multicorewareinc.com wrote:

># HG changeset patch

># User Praveen Tiwari

># Date 1413541750 -19800

># Node ID 61051f5a16b387120b17be2024543d14aea61f16

># Parent  b7eeae24aae63495bcad1570ecd76cae988f0f6e

>weighted prediction (pixel), interface simplification

>

> void x265_pixel_ssim_4x4x2_core_mmx2(const uint8_t * pix1, intptr_t stride1,

>diff -r b7eeae24aae6 -r 61051f5a16b3 source/common/x86/pixel-util8.asm

>--- a/source/common/x86/pixel-util8.asm        Thu Oct 16 21:57:30 2014 +0530

>+++ b/source/common/x86/pixel-util8.asm        Fri Oct 17 15:59:10 2014 +0530

>@@ -1298,35 +1298,32 @@

> 

> 

> ;-----------------------------------------------------------------------------------------------------------------------------------------------

>-;void weight_pp(pixel *src, pixel *dst, intptr_t srcStride, intptr_t dstStride, int width, int height, int w0, int round, int shift, int offset)

>+;void weight_pp(pixel *src, pixel *dst, intptr_t stride, int width, int height, int w0, int round, int shift, int offset)

> ;-----------------------------------------------------------------------------------------------------------------------------------------------

> INIT_XMM sse4

> cglobal weight_pp, 6, 7, 6

> 

>+    shl         r5d, 6      ; m0 = [w0<<6]

>     mov         r6d, r6m

>-    shl         r6d, 6

>-    movd        m0, r6d         ; m0 = [w0<<6]

>-

>-    movd        m1, r7m         ; m1 = [round]

>-    punpcklwd   m0, m1          ; assuming both (w0<<6) and round are using maximum of 16 bits each.

>-    pshufd      m0, m0, 0       ; m0 = [w0<<6 round]

>-

>-    movd        m1, r8m

>-

>-    movd        m2, r9m

>+    shl         r6d, 16

>+    or          r6d, r5d    ; assuming both (w0<<6) and round are using maximum of 16 bits each.

</pre><pre>Please modify C model with assert()</pre><pre> </pre><pre>>+    movd        m0, r6d

>+    pshufd      m0, m0, 0   ; m0 = [w0<<6, round]

>+

>+    movd        m1, r7m

>+

>+    movd        m2, r8m

>     pshufd      m2, m2, 0

> 

>     mova        m5, [pw_1]

> 

>-    sub         r2d, r4d

>-    sub         r3d, r4d

>-

>+    sub         r2d, r3d

>+    shr         r3d, 4

> .loopH:

>-    mov         r6d, r4d

>-    shr         r6d, 4

>+    mov         r5d, r3d

>+

> .loopW:

>-    movh        m4, [r0]

>-    pmovzxbw    m4, m4

>+    pmovzxbw    m4, [r0]

> 

>     punpcklwd   m3, m4, m5

>     pmaddwd     m3, m0

>@@ -1364,13 +1361,13 @@

>     add         r0, 16

>     add         r1, 16

> 

>-    dec         r6d

>+    dec         r5d

>     jnz         .loopW

> 

>     lea         r0, [r0 + r2]

>-    lea         r1, [r1 + r3]

>-

>-    dec         r5d

>+    lea         r1, [r1 + r2]

>+

>+    dec         r4d

>     jnz         .loopH

> 

>     RET

</pre></div>