<div style="line-height:1.7;color:#000000;font-size:14px;font-family:arial"><DIV>seems right.<BR><BR>btw: I think size less than 8x8 is not need 32bits intermedia result, </DIV>
<DIV>input is 9 bits, so the maximum dynamic range of 4x4 is 13bits, one 8x8 have four 4x4 block, it is 15bits sum.<BR><BR>At 2014-01-27 17:52:03,"Yuvaraj Venkatesh" <yuvaraj@multicorewareinc.com> wrote:<BR></DIV>
<BLOCKQUOTE id="isReplyContent" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">
<DIV dir="ltr">
<DIV># HG changeset patch<BR></DIV>
<DIV># User Yuvaraj Venkatesh <<A href="mailto:yuvaraj@multicorewareinc.com">yuvaraj@multicorewareinc.com</A>></DIV>
<DIV># Date 1390811862 -19800</DIV>
<DIV>#      Mon Jan 27 14:07:42 2014 +0530</DIV>
<DIV># Node ID d1b8baced215bdbb8e018d66db701786bdddeef2</DIV>
<DIV># Parent  b59b1e579f78b4c29c0c1491e6198a63ba1d597f</DIV>
<DIV>asm: fix overflow due to pixel_satd asm function for 64-bit build</DIV>
<DIV><BR></DIV>
<DIV>diff -r b59b1e579f78 -r d1b8baced215 source/common/x86/asm-primitives.cpp</DIV>
<DIV>--- a/source/common/x86/asm-primitives.cpp<SPAN class="" style="WHITE-SPACE: pre"> </SPAN>Mon Jan 27 00:10:56 2014 -0600</DIV>
<DIV>+++ b/source/common/x86/asm-primitives.cpp<SPAN class="" style="WHITE-SPACE: pre"> </SPAN>Mon Jan 27 14:07:42 2014 +0530</DIV>
<DIV>@@ -64,14 +64,30 @@</DIV>
<DIV> #define INIT8(name, cpu) INIT8_NAME(name, name, cpu)</DIV>
<DIV> </DIV>
<DIV> #define HEVC_SATD(cpu) \</DIV>
<DIV>-    p.satd[LUMA_32x32] = x265_pixel_satd_32x32_ ## cpu; \</DIV>
<DIV>-    p.satd[LUMA_24x32] = x265_pixel_satd_24x32_ ## cpu; \</DIV>
<DIV>-    p.satd[LUMA_64x64] = x265_pixel_satd_64x64_ ## cpu; \</DIV>
<DIV>-    p.satd[LUMA_64x32] = x265_pixel_satd_64x32_ ## cpu; \</DIV>
<DIV>-    p.satd[LUMA_32x64] = x265_pixel_satd_32x64_ ## cpu; \</DIV>
<DIV>-    p.satd[LUMA_64x48] = x265_pixel_satd_64x48_ ## cpu; \</DIV>
<DIV>-    p.satd[LUMA_48x64] = x265_pixel_satd_48x64_ ## cpu; \</DIV>
<DIV>-    p.satd[LUMA_64x16] = x265_pixel_satd_64x16_ ## cpu</DIV>
<DIV>+    p.satd[LUMA_4x8]   = x265_pixel_satd_4x8_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_4x16]   = x265_pixel_satd_4x16_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_8x4]   = x265_pixel_satd_8x4_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_8x8]   = x265_pixel_satd_8x8_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_8x16]   = x265_pixel_satd_8x16_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_8x32]   = x265_pixel_satd_8x32_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_12x16]   = x265_pixel_satd_12x16_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_16x4]   = x265_pixel_satd_16x4_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_16x8]   = x265_pixel_satd_16x8_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_16x12]   = x265_pixel_satd_16x12_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_16x16]   = x265_pixel_satd_16x16_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_16x32]   = x265_pixel_satd_16x32_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_16x64]   = x265_pixel_satd_16x64_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_24x32]   = x265_pixel_satd_24x32_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_32x8]   = x265_pixel_satd_32x8_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_32x16]   = x265_pixel_satd_32x16_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_32x24]   = x265_pixel_satd_32x24_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_32x32]   = x265_pixel_satd_32x32_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_32x64]   = x265_pixel_satd_32x64_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_48x64]   = x265_pixel_satd_48x64_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_64x16]   = x265_pixel_satd_64x16_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_64x32]   = x265_pixel_satd_64x32_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_64x48]   = x265_pixel_satd_64x48_ ## cpu; \</DIV>
<DIV>+    p.satd[LUMA_64x64]   = x265_pixel_satd_64x64_ ## cpu;</DIV>
<DIV> </DIV>
<DIV> #define SAD_X3(cpu) \</DIV>
<DIV>     p.sad_x3[LUMA_16x8] = x265_pixel_sad_x3_16x8_ ## cpu; \</DIV>
<DIV>@@ -775,17 +791,8 @@</DIV>
<DIV>         INIT8(sad, _mmx2);</DIV>
<DIV>         INIT8(sad_x3, _mmx2);</DIV>
<DIV>         INIT8(sad_x4, _mmx2);</DIV>
<DIV>-        INIT8(satd, _mmx2);</DIV>
<DIV>+        p.satd[LUMA_4x4] = x265_pixel_satd_4x4_mmx2;</DIV>
<DIV>         p.sa8d_inter[LUMA_4x4]  = x265_pixel_satd_4x4_mmx2;</DIV>
<DIV>-        p.satd[LUMA_8x32] = x265_pixel_satd_8x32_sse2;</DIV>
<DIV>-        p.satd[LUMA_12x16] = x265_pixel_satd_12x16_sse2;</DIV>
<DIV>-        p.satd[LUMA_16x4] = x265_pixel_satd_16x4_sse2;</DIV>
<DIV>-        p.satd[LUMA_16x12] = x265_pixel_satd_16x12_sse2;</DIV>
<DIV>-        p.satd[LUMA_16x32] = x265_pixel_satd_16x32_sse2;</DIV>
<DIV>-        p.satd[LUMA_16x64] = x265_pixel_satd_16x64_sse2;</DIV>
<DIV>-        p.satd[LUMA_32x8]  = x265_pixel_satd_32x8_sse2;</DIV>
<DIV>-        p.satd[LUMA_32x16] = x265_pixel_satd_32x16_sse2;</DIV>
<DIV>-        p.satd[LUMA_32x24] = x265_pixel_satd_32x24_sse2;</DIV>
<DIV>         p.frame_init_lowres_core = x265_frame_init_lowres_core_mmx2;</DIV>
<DIV> </DIV>
<DIV>         PIXEL_AVG(sse2);</DIV>
<DIV>@@ -916,6 +923,7 @@</DIV>
<DIV> </DIV>
<DIV>         p.sad_x3[LUMA_12x16] = x265_pixel_sad_x3_12x16_ssse3;</DIV>
<DIV>         p.sad_x4[LUMA_12x16] = x265_pixel_sad_x4_12x16_ssse3;</DIV>
<DIV>+        HEVC_SATD(ssse3);</DIV>
<DIV> </DIV>
<DIV>         p.luma_hvpp[LUMA_8x8] = x265_interp_8tap_hv_pp_8x8_ssse3;</DIV>
<DIV>         p.luma_p2s = x265_luma_p2s_ssse3;</DIV>
<DIV>@@ -928,11 +936,6 @@</DIV>
<DIV>     }</DIV>
<DIV>     if (cpuMask & X265_CPU_SSE4)</DIV>
<DIV>     {</DIV>
<DIV>-        p.satd[LUMA_4x16]   = x265_pixel_satd_4x16_sse4;</DIV>
<DIV>-        p.satd[LUMA_12x16]  = x265_pixel_satd_12x16_sse4;</DIV>
<DIV>-        p.satd[LUMA_32x8] = x265_pixel_satd_32x8_sse4;</DIV>
<DIV>-        p.satd[LUMA_32x16] = x265_pixel_satd_32x16_sse4;</DIV>
<DIV>-        p.satd[LUMA_32x24] = x265_pixel_satd_32x24_sse4;</DIV>
<DIV>         SA8D_INTER_FROM_BLOCK(sse4);</DIV>
<DIV> </DIV>
<DIV>         p.sse_pp[LUMA_12x16] = x265_pixel_ssd_12x16_sse4;</DIV>
<DIV>@@ -1022,17 +1025,13 @@</DIV>
<DIV>     if (cpuMask & X265_CPU_AVX)</DIV>
<DIV>     {</DIV>
<DIV>         p.frame_init_lowres_core = x265_frame_init_lowres_core_avx;</DIV>
<DIV>-        p.satd[LUMA_4x16]   = x265_pixel_satd_4x16_avx;</DIV>
<DIV>-        p.satd[LUMA_12x16]  = x265_pixel_satd_12x16_avx;</DIV>
<DIV>-        p.satd[LUMA_32x8] = x265_pixel_satd_32x8_avx;</DIV>
<DIV>-        p.satd[LUMA_32x16] = x265_pixel_satd_32x16_avx;</DIV>
<DIV>-        p.satd[LUMA_32x24] = x265_pixel_satd_32x24_avx;</DIV>
<DIV>+</DIV>
<DIV>         SA8D_INTER_FROM_BLOCK(avx);</DIV>
<DIV>         ASSGN_SSE(avx);</DIV>
<DIV>         HEVC_SATD(avx);</DIV>
<DIV>         ASSGN_SSE_SS(avx);</DIV>
<DIV>         SAD_X3(avx);</DIV>
<DIV>-        SAD_X3(avx);</DIV>
<DIV>+        SAD_X4(avx);</DIV>
<DIV>         p.sad_x3[LUMA_12x16] = x265_pixel_sad_x3_12x16_avx;</DIV>
<DIV>         p.sad_x4[LUMA_12x16] = x265_pixel_sad_x4_12x16_avx;</DIV>
<DIV>         p.sad_x3[LUMA_16x4]  = x265_pixel_sad_x3_16x4_avx;</DIV>
<DIV>diff -r b59b1e579f78 -r d1b8baced215 source/common/x86/pixel-a.asm</DIV>
<DIV>--- a/source/common/x86/pixel-a.asm<SPAN class="" style="WHITE-SPACE: pre"> </SPAN>Mon Jan 27 00:10:56 2014 -0600</DIV>
<DIV>+++ b/source/common/x86/pixel-a.asm<SPAN class="" style="WHITE-SPACE: pre"> </SPAN>Mon Jan 27 14:07:42 2014 +0530</DIV>
<DIV>@@ -674,197 +674,6 @@</DIV>
<DIV> %if vertical</DIV>
<DIV>     mova m7, [pw_00ff]</DIV>
<DIV> %endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_16x8, 4,6,12</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_16x12, 4,6,12</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m10  </DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_16x32, 4,6,12</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_16x64, 4,6,12</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m10    </DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_16x16, 4,6,12</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-%%pixel_satd_16x8_internal:</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_32x8, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-    mov r6, r0</DIV>
<DIV>-    mov r7, r2</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    lea r0, [r6 + 16]</DIV>
<DIV>-    lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_32x16, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-    mov r6, r0</DIV>
<DIV>-    mov r7, r2</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    lea r0, [r6 + 16]</DIV>
<DIV>-    lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_32x24, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-    mov r6, r0</DIV>
<DIV>-    mov r7, r2</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    lea r0, [r6 + 16]</DIV>
<DIV>-    lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_32x32, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-    mov r6, r0</DIV>
<DIV>-    mov r7, r2</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    lea r0, [r6 + 16]</DIV>
<DIV>-    lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_32x64, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-    mov r6, r0</DIV>
<DIV>-    mov r7, r2</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 16]</DIV>
<DIV>-    lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     pxor     m9, m9</DIV>
<DIV>     movhlps  m9, m10</DIV>
<DIV>@@ -874,63 +683,63 @@</DIV>
<DIV>     movd    eax, m10</DIV>
<DIV>     RET</DIV>
<DIV> </DIV>
<DIV>-cglobal pixel_satd_48x64, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+cglobal pixel_satd_16x8, 4,6,12</DIV>
<DIV>     SATD_START_SSE2 m10, m7</DIV>
<DIV>-    mov r6, r0</DIV>
<DIV>-    mov r7, r2</DIV>
<DIV> %if vertical</DIV>
<DIV>     mova m7, [pw_00ff]</DIV>
<DIV> %endif</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 16]</DIV>
<DIV>-    lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 32]</DIV>
<DIV>-    lea r2, [r7 + 32]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>+    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_16x12, 4,6,12</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_16x32, 4,6,12</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_16x64, 4,6,12</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    jmp %%pixel_satd_16x8_internal</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_16x16, 4,6,12</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+%%pixel_satd_16x8_internal:</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     pxor     m9, m9</DIV>
<DIV>@@ -941,83 +750,19 @@</DIV>
<DIV>     movd    eax, m10</DIV>
<DIV>     RET</DIV>
<DIV> </DIV>
<DIV>-cglobal pixel_satd_64x16, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+cglobal pixel_satd_32x8, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>     SATD_START_SSE2 m10, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV> %if vertical</DIV>
<DIV>     mova m7, [pw_00ff]</DIV>
<DIV> %endif</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>     lea r0, [r6 + 16]</DIV>
<DIV>     lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    lea r0, [r6 + 32]</DIV>
<DIV>-    lea r2, [r7 + 32]</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    lea r0, [r6 + 48]</DIV>
<DIV>-    lea r2, [r7 + 48]</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    call pixel_satd_16x4_internal</DIV>
<DIV>-    SATD_END_SSE2 m10</DIV>
<DIV>-</DIV>
<DIV>-cglobal pixel_satd_64x32, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>-    SATD_START_SSE2 m10, m7</DIV>
<DIV>-    mov r6, r0</DIV>
<DIV>-    mov r7, r2</DIV>
<DIV>-%if vertical</DIV>
<DIV>-    mova m7, [pw_00ff]</DIV>
<DIV>-%endif</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 16]</DIV>
<DIV>-    lea r2, [r7 + 16]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 32]</DIV>
<DIV>-    lea r2, [r7 + 32]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 48]</DIV>
<DIV>-    lea r2, [r7 + 48]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>     pxor     m9, m9</DIV>
<DIV>     movhlps  m9, m10</DIV>
<DIV>     paddd   m10, m9</DIV>
<DIV>@@ -1026,7 +771,7 @@</DIV>
<DIV>     movd    eax, m10</DIV>
<DIV>     RET</DIV>
<DIV> </DIV>
<DIV>-cglobal pixel_satd_64x48, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+cglobal pixel_satd_32x16, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>     SATD_START_SSE2 m10, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>@@ -1037,57 +782,12 @@</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>     lea r0, [r6 + 16]</DIV>
<DIV>     lea r2, [r7 + 16]</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 32]</DIV>
<DIV>-    lea r2, [r7 + 32]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 48]</DIV>
<DIV>-    lea r2, [r7 + 48]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-</DIV>
<DIV>     pxor     m9, m9</DIV>
<DIV>     movhlps  m9, m10</DIV>
<DIV>     paddd   m10, m9</DIV>
<DIV>@@ -1096,7 +796,7 @@</DIV>
<DIV>     movd    eax, m10</DIV>
<DIV>     RET</DIV>
<DIV> </DIV>
<DIV>-cglobal pixel_satd_64x64, 4,8,8    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+cglobal pixel_satd_32x24, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>     SATD_START_SSE2 m10, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>@@ -1109,16 +809,6 @@</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>     lea r0, [r6 + 16]</DIV>
<DIV>     lea r2, [r7 + 16]</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>@@ -1127,53 +817,6 @@</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>     call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 32]</DIV>
<DIV>-    lea r2, [r7 + 32]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    lea r0, [r6 + 48]</DIV>
<DIV>-    lea r2, [r7 + 48]</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-    call pixel_satd_16x4_internal2</DIV>
<DIV>-</DIV>
<DIV>     pxor     m9, m9</DIV>
<DIV>     movhlps  m9, m10</DIV>
<DIV>     paddd   m10, m9</DIV>
<DIV>@@ -1182,6 +825,402 @@</DIV>
<DIV>     movd    eax, m10</DIV>
<DIV>     RET</DIV>
<DIV> </DIV>
<DIV>+cglobal pixel_satd_32x32, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+    mov r6, r0</DIV>
<DIV>+    mov r7, r2</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 16]</DIV>
<DIV>+    lea r2, [r7 + 16]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    pxor     m9, m9</DIV>
<DIV>+    movhlps  m9, m10</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    pshufd   m9, m10, 1</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    movd    eax, m10</DIV>
<DIV>+    RET</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_32x64, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+    mov r6, r0</DIV>
<DIV>+    mov r7, r2</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 16]</DIV>
<DIV>+    lea r2, [r7 + 16]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    pxor     m9, m9</DIV>
<DIV>+    movhlps  m9, m10</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    pshufd   m9, m10, 1</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    movd    eax, m10</DIV>
<DIV>+    RET</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_48x64, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+    mov r6, r0</DIV>
<DIV>+    mov r7, r2</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 16]</DIV>
<DIV>+    lea r2, [r7 + 16]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 32]</DIV>
<DIV>+    lea r2, [r7 + 32]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    pxor     m9, m9</DIV>
<DIV>+    movhlps  m9, m10</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    pshufd   m9, m10, 1</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    movd    eax, m10</DIV>
<DIV>+    RET</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_64x16, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+    mov r6, r0</DIV>
<DIV>+    mov r7, r2</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 16]</DIV>
<DIV>+    lea r2, [r7 + 16]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 32]</DIV>
<DIV>+    lea r2, [r7 + 32]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 48]</DIV>
<DIV>+    lea r2, [r7 + 48]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    pxor     m9, m9</DIV>
<DIV>+    movhlps  m9, m10</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    pshufd   m9, m10, 1</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    movd    eax, m10</DIV>
<DIV>+    RET</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_64x32, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+    mov r6, r0</DIV>
<DIV>+    mov r7, r2</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 16]</DIV>
<DIV>+    lea r2, [r7 + 16]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 32]</DIV>
<DIV>+    lea r2, [r7 + 32]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 48]</DIV>
<DIV>+    lea r2, [r7 + 48]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+</DIV>
<DIV>+    pxor     m9, m9</DIV>
<DIV>+    movhlps  m9, m10</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    pshufd   m9, m10, 1</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    movd    eax, m10</DIV>
<DIV>+    RET</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_64x48, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+    mov r6, r0</DIV>
<DIV>+    mov r7, r2</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 16]</DIV>
<DIV>+    lea r2, [r7 + 16]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 32]</DIV>
<DIV>+    lea r2, [r7 + 32]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 48]</DIV>
<DIV>+    lea r2, [r7 + 48]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+</DIV>
<DIV>+    pxor     m9, m9</DIV>
<DIV>+    movhlps  m9, m10</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    pshufd   m9, m10, 1</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    movd    eax, m10</DIV>
<DIV>+    RET</DIV>
<DIV>+</DIV>
<DIV>+cglobal pixel_satd_64x64, 4,8,11    ;if WIN64 && notcpuflag(avx)</DIV>
<DIV>+    SATD_START_SSE2 m10, m7</DIV>
<DIV>+    mov r6, r0</DIV>
<DIV>+    mov r7, r2</DIV>
<DIV>+%if vertical</DIV>
<DIV>+    mova m7, [pw_00ff]</DIV>
<DIV>+%endif</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 16]</DIV>
<DIV>+    lea r2, [r7 + 16]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 32]</DIV>
<DIV>+    lea r2, [r7 + 32]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    lea r0, [r6 + 48]</DIV>
<DIV>+    lea r2, [r7 + 48]</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+    call pixel_satd_16x4_internal2</DIV>
<DIV>+</DIV>
<DIV>+    pxor     m9, m9</DIV>
<DIV>+    movhlps  m9, m10</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    pshufd   m9, m10, 1</DIV>
<DIV>+    paddd   m10, m9</DIV>
<DIV>+    movd    eax, m10</DIV>
<DIV>+    RET</DIV>
<DIV>+</DIV>
<DIV> %else</DIV>
<DIV> </DIV>
<DIV> %if WIN64</DIV>
<DIV>@@ -1189,17 +1228,23 @@</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 8*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 8*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 16*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 16*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 24*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 24*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> %else</DIV>
<DIV> cglobal pixel_satd_32x8, 4,7,8,0-gprsize    ;if !WIN64</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>@@ -1226,21 +1271,27 @@</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 8*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 8*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 16*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 16*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 24*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 24*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> %else</DIV>
<DIV> cglobal pixel_satd_32x16, 4,7,8,0-gprsize   ;if !WIN64</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>@@ -1271,28 +1322,34 @@</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 8*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 8*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 16*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 16*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 24*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 24*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6, m7</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> %else</DIV>
<DIV> cglobal pixel_satd_32x24, 4,7,8,0-gprsize   ;if !WIN64</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>@@ -1333,32 +1390,38 @@</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 8*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 8*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 16*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 16*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 24*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 24*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6, m7</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> %else</DIV>
<DIV> cglobal pixel_satd_32x32, 4,7,8,0-gprsize   ;if !WIN64</DIV>
<DIV> </DIV>
<DIV>@@ -1658,44 +1721,50 @@</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 8*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 8*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 16*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 16*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 24*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 24*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 32*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 32*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 40*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 40*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 48*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 48*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     SATD_ACCUM m6, m0, m7</DIV>
<DIV>     lea r0, [r6 + 56*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 56*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6, m7</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> %else</DIV>
<DIV> cglobal pixel_satd_64x16, 4,7,8,0-gprsize   ;if !WIN64</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>@@ -2362,25 +2431,29 @@</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>     mov r6, r0</DIV>
<DIV>     mov r7, r2</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_ACCUM m6, m0, m7</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 8*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 8*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_ACCUM m6, m0, m7</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>     lea r0, [r6 + 16*SIZEOF_PIXEL]</DIV>
<DIV>     lea r2, [r7 + 16*SIZEOF_PIXEL]</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6, m7</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> %else</DIV>
<DIV> cglobal pixel_satd_24x32, 4,7,8,0-gprsize</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>@@ -2417,22 +2490,40 @@</DIV>
<DIV> %if vertical</DIV>
<DIV>     mova m7, [pw_00ff]</DIV>
<DIV> %endif</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> </DIV>
<DIV> cglobal pixel_satd_8x16, 4,6,8</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> </DIV>
<DIV> cglobal pixel_satd_8x8, 4,6,8</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>-    call pixel_satd_8x8_internal</DIV>
<DIV>-    SATD_END_SSE2 m6</DIV>
<DIV>+    call pixel_satd_8x8_internal2</DIV>
<DIV>+    pxor    m7, m7</DIV>
<DIV>+    movhlps m7, m6</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    pshufd  m7, m6, 1</DIV>
<DIV>+    paddd   m6, m7</DIV>
<DIV>+    movd   eax, m6</DIV>
<DIV>+    RET</DIV>
<DIV> </DIV>
<DIV> cglobal pixel_satd_8x4, 4,6,8</DIV>
<DIV>     SATD_START_SSE2 m6, m7</DIV>
<DIV>@@ -2440,7 +2531,6 @@</DIV>
<DIV>     SATD_END_SSE2 m6</DIV>
<DIV> %endmacro ; SATDS_SSE2</DIV>
<DIV> </DIV>
<DIV>-</DIV>
<DIV> ;=============================================================================</DIV>
<DIV> ; SA8D</DIV>
<DIV> ;=============================================================================</DIV>
<DIV><BR></DIV></DIV></BLOCKQUOTE></div>