<div dir="ltr"><br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">chen</b> <span dir="ltr"><<a href="mailto:chenm003@163.com">chenm003@163.com</a>></span><br>Date: Wed, Mar 11, 2015 at 6:32 AM<br>Subject: Re: [x265] [PATCH] asm: intra_pred_ang16_34<br>To: Development for x265 <<a href="mailto:x265-devel@videolan.org">x265-devel@videolan.org</a>><br><br><br><div style="line-height:1.7;color:rgb(0,0,0);font-size:14px;font-family:arial"><div>>>same speed to old version</div><div><br></div><div><div style="line-height:1.7">This avx2 version of asm code eliminates following instruction on cost of one vextracti128 instruction as compare to SSEE3, may not be a visible impact in testBench but seems worth to push.  </div><div style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:13px;line-height:normal"><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px">    add             r2, 34</span></font></div><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px">    cmp             r3m, byte 34</span></font></div><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px">    cmove           r2, r4</span></font></div><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px">    movu            m1, [r2 + 16]</span></font></div><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px"><br></span></font></div><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px"><br></span></font></div><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px">Regards,</span></font></div><div><font color="#000000" face="arial"><span style="font-size:14px;line-height:23.7999992370605px">Praveen</span></font></div></div></div><pre><br></pre></div>
<br></div><br></div>