<div style="line-height:1.7;color:#000000;font-size:14px;font-family:arial"><div>Code is right, but just improve up to 4 cycles, I suggest not AVX2 on small size functions<br></div><pre><br>At 2015-03-04 14:19:46,"Divya Manivannan" <divya@multicorewareinc.com> wrote:
># HG changeset patch
># User Divya Manivannan <a href="mailto:divya@multicorewareinc.com>># Date 1425449960 -19800>#      Wed Mar 04 11:49:20 2015 +0530># Node ID 526974a41de7f30f53375a9583ddb3320384cd7f># Parent  018e8bbaa854b1a4bd82b3a2e23f7775a77da5cc>asm-avx2: filter_vpp[4x2], filter_vps[4x2]: improve 142c->130c, 126c->121c">divya@multicorewareinc.com>
># Date 1425449960 -19800
>#      Wed Mar 04 11:49:20 2015 +0530
># Node ID 526974a41de7f30f53375a9583ddb3320384cd7f
># Parent  018e8bbaa854b1a4bd82b3a2e23f7775a77da5cc
>asm-avx2: filter_vpp[4x2], filter_vps[4x2]: improve 142c->130c, 126c->121c
</a></pre></div>