<div dir="ltr">Sent updated patch. Thanks.<div><br></div><div>Regards,</div><div>Praveen</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Feb 2, 2015 at 4:39 PM, chen <span dir="ltr"><<a href="mailto:chenm003@163.com" target="_blank">chenm003@163.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="line-height:1.7;color:#000000;font-size:14px;font-family:arial"><div><br><br> </div><pre><br>At 2015-02-02 16:55:16,<a href="mailto:praveen@multicorewareinc.com" target="_blank">praveen@multicorewareinc.com</a> wrote:
># HG changeset patch
># User Praveen Tiwari
># Date 1422867249 -19800
># Branch stable
># Node ID 2618352a21d5917ee8c1f79bcc159e858dd19daa
># Parent  e2c958ff874e2bf8992ba22605e993530e8a2d8c
>blockfill_s_8x8 sse2 asm code optimization
>
>improved, 100.04c -> 90.05c
>
>diff -r e2c958ff874e -r 2618352a21d5 source/common/x86/blockcopy8.asm
>--- a/source/common/x86/blockcopy8.asm     Sat Jan 31 13:48:34 2015 -0600
>+++ b/source/common/x86/blockcopy8.asm     Mon Feb 02 14:24:09 2015 +0530
>@@ -1748,9 +1748,10 @@
> ; void blockfill_s_8x8(int16_t* dst, intptr_t dstride, int16_t val)
> ;-----------------------------------------------------------------------------
> INIT_XMM sse2
>-cglobal blockfill_s_8x8, 3, 3, 1, dst, dstStride, val
>+cglobal blockfill_s_8x8, 3, 4, 1, dst, dstStride, val

> add        r1,            r1
>+lea        r3,            [3 * r1]

> movd       m0,            r2d
> pshuflw    m0,            m0,         0
>@@ -1760,17 +1761,13 @@
> movu       [r0 + r1],     m0
> movu       [r0 + 2 * r1], m0

>-lea        r0,            [r0 + 2 * r1]
>+movu       [r0 + r3],     m0
>+movu       [r0 + 4 * r1], m0
>+
>+lea        r0,            [r0 + 4 * r1]<br>swap LEA and above movu, you will get less bytes on binary code<span class=""><br>
<br><br>> movu       [r0 + r1],     m0
> movu       [r0 + 2 * r1], m0
>-
>-lea        r0,            [r0 + 2 * r1]
>-movu       [r0 + r1],     m0
>-movu       [r0 + 2 * r1], m0
>-
>-lea        r0,            [r0 + 2 * r1]
>-movu       [r0 + r1],     m0
>-
>+movu       [r0 + r3],     m0
> RET

> ;---------------------------------------------------------</span>--------------------
>_______________________________________________
>x265-devel mailing list
><a href="mailto:x265-devel@videolan.org" target="_blank">x265-devel@videolan.org</a>
><a href="https://mailman.videolan.org/listinfo/x265-devel" target="_blank">https://mailman.videolan.org/listinfo/x265-devel</a>
</pre></div><br>_______________________________________________<br>
x265-devel mailing list<br>
<a href="mailto:x265-devel@videolan.org">x265-devel@videolan.org</a><br>
<a href="https://mailman.videolan.org/listinfo/x265-devel" target="_blank">https://mailman.videolan.org/listinfo/x265-devel</a><br>
<br></blockquote></div><br></div>