[x264-devel] x86: Fix integral_init4/8h_avx2

Sun Oct 11 21:19:37 CEST 2015

On Sun, Oct 11, 2015 at 8:43 PM, James Almer <jamrial at gmail.com> wrote:
> No sure if it will be faster, but you could try
>
> vpermq m0, [r1+r2], q2110
> vpermq m1, [r1+r2+8], q3221
>
> Instead of mova + vinserti128, here and below.

Already tried, and it's slower (on Haswell). Cross-lane shuffles are
slow, while unaligned memory loads are decently fast.