<div dir="ltr"><span style="font-size:12.8px">In order to do significant optimisations, following approach is proposed.</span><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">1. Perform C level simulation with frame buffer data</div><div style="font-size:12.8px">    rearranged at the initialise stage itself in picking 16x16 blocks in raster</div><div style="font-size:12.8px">    scan order within CTU size 64x64 along entire CTU sized slices.</div><div style="font-size:12.8px">2. The savings are immense in terms of cached access to memory lines</div><div style="font-size:12.8px">    in ME module, filter modules, MC reconstruction module, and other low</div><div style="font-size:12.8px">    level modules (transforms, quant, etc.)</div><div style="font-size:12.8px">3. The overhead is code readability and logic to read a block of data.</div><div style="font-size:12.8px">4. The existing numbers on instructions to compute a module isn't affected</div><div style="font-size:12.8px">    much, but cycles to compute is reduced significantly.</div><div style="font-size:12.8px">5. We need to percolate the changes affected to assembly modules (load and</div><div style="font-size:12.8px">    and maybe store instructions only)</div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">-Vijay</div><div style="font-size:12.8px"><br></div><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
It might be more prudent to start from a profile showing the top functions<br>
that are limiting performance instead of a blind list of functions to<br>
optimize. You can use gprof (on linux), or vtune to extract this profile.<br>
Just make sure to compile with RelWithDebInfo to get debug symbols for the<br>
profiler to use. If you are using vtune, you can enable ENABLE_VTUNE in<br>
cmake.<br>
<br>
Pradeep.<br>
<br>
On Tue, Aug 23, 2016 at 11:22 AM, N Vijay Anand <<br>
<a href="mailto:nvijay.anand@trispacetech.com">nvijay.anand@trispacetech.com</a>> wrote:<br>
<br>
> I was under impression typecasting does sign extension<br>
> irrespective of unsigned/signed type of data.<br>
><br>
> BTW, I was trying to vectorise deblock filter.<br>
> Seems not much gain in this function. It would be useful<br>
> to have a list of function yet to be vector optimised.<br>
><br>
><br>
><br>
> ______________________________<wbr>_________________<br>
> x265-devel mailing list<br>
> <a href="mailto:x265-devel@videolan.org">x265-devel@videolan.org</a><br>
> <a href="https://mailman.videolan.org/listinfo/x265-devel" rel="noreferrer" target="_blank">https://mailman.videolan.org/<wbr>listinfo/x265-devel</a><br>
><br></blockquote></div>
</div></div>