<div dir="ltr">Sorry please ignore previous mail. <br></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div><span style="color:rgb(56,118,29)"><br></span></div><div><span style="color:rgb(56,118,29)">Thank you<br></span></div><span style="color:rgb(56,118,29)">Regards<br></span></div><span style="color:rgb(56,118,29)">Ramya</span><br></div></div></div></div></div>
<br><div class="gmail_quote">On Mon, May 23, 2016 at 9:37 AM, Ramya Sriraman <span dir="ltr"><<a href="mailto:ramya@multicorewareinc.com" target="_blank">ramya@multicorewareinc.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><b style="line-height:23.324px">Highlights</b></div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><span style="line-height:23.324px"><br></span></div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><span style="line-height:23.324px"><br></span></div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><b>Details</b></div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><span style="line-height:23.324px">I
 design and implement ARM NEON algorithm on DCT16x16, since ARM 
registers very limited, I design algorithm to process 16x4 everytime, 
and loop 4 times to process all of DCT-1D rows. the DCT-2D is similar 
but work on 32-bits intermedia (the 32-bits multiplication is bottleneck
 here, as compare to single cycle 16-bits multiplication, it is 
4-cycles)</span></div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><br></div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><b>Plans</b></div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px">Write a example for psyCost_pp<2> (psyCost_pp_4x4)</div><div><div style="font-family:Helvetica,"Microsoft Yahei",verdana;line-height:23.324px"><span style="line-height:23.324px">I
 need more ~2 weeks to finish the DCT16x16, the function too large and 
complex, I need more time to debug and adjust my algorithm / code, and I
 need average ~20 minutes to execute debug top (modify from our 
Testbench) in the simulate environment.</span></div></div><div><div><div dir="ltr"><div><div dir="ltr"><div><div><span style="color:rgb(56,118,29)"><br></span></div><div><span style="color:rgb(56,118,29)">Thank you<br></span></div><span style="color:rgb(56,118,29)">Regards<span class="HOEnZb"><font color="#888888"><br></font></span></span></div><span class="HOEnZb"><font color="#888888"><span style="color:rgb(56,118,29)">Ramya</span><br></font></span></div></div></div></div></div>
</div>
</blockquote></div><br></div>