<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:DengXian;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:Aptos;
        panose-1:2 11 0 4 2 2 2 2 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
@font-face
        {font-family:"\@DengXian";
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:"\@SimSun";
        panose-1:2 1 6 0 3 1 1 1 1 1;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:10.0pt;
        font-family:"Aptos",sans-serif;}
pre
        {mso-style-priority:99;
        mso-style-link:"HTML Preformatted Char";
        margin:0in;
        font-size:10.0pt;
        font-family:"Courier New";}
span.HTMLPreformattedChar
        {mso-style-name:"HTML Preformatted Char";
        mso-style-priority:99;
        mso-style-link:"HTML Preformatted";
        font-family:Consolas;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;
        mso-ligatures:none;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="EN-US" link="#467886" vlink="#96607D" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Chen,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Thanks for the feedback.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">The intrinsics is 1.07-1.18x speedup comparing to SVE asm, 1.03-1.18x speedup comparing
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">to Neon asm, depending on the block sizes.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Regards,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Li<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<div id="mail-editor-reference-message-container">
<div>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">chen <chenm003@163.com><br>
<b>Date: </b>Wednesday, 2025. June 18. at 6:37<br>
<b>To: </b>Development for x265 <x265-devel@videolan.org><br>
<b>Cc: </b>nd <nd@arm.com>, Li Zhang <Li.Zhang2@arm.com><br>
<b>Subject: </b>Re:[x265] [PATCH 0/4] AArch64: Optimize and add pixel_var Implementations<o:p></o:p></span></p>
</div>
<div>
<div id="spnEditorContent">
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">Hi Li,<o:p></o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black"><o:p> </o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">Thank for the patches, it looks good to me, the only question is how much<o:p></o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">improve on the performance after change asm to intrinsic.<o:p></o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black"><o:p> </o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">Regards,<br>
Chen<o:p></o:p></span></p>
</div>
<pre><span style="color:black">At 2025-06-18 02:22:25, "Li Zhang" <li.zhang2@arm.com> wrote:<o:p></o:p></span></pre>
<pre><span style="color:black">>Hi,<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>This patch series optimizes the exisiting standard bit-depth pixel_var<o:p></o:p></span></pre>
<pre><span style="color:black">>Neon intrinsics implementation, deletes the slower assembly<o:p></o:p></span></pre>
<pre><span style="color:black">>implementation. It also adds Neon DotProd intrinsics implementation for<o:p></o:p></span></pre>
<pre><span style="color:black">>the standard bit-depth and Neon, SVE intrinsics implementations for the<o:p></o:p></span></pre>
<pre><span style="color:black">>high bit-depth of pixel_var function.<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>Many thanks,<o:p></o:p></span></pre>
<pre><span style="color:black">>Li<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>Li Zhang (4):<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Optimize and clean up SBD pixel_var functions<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Add HBD pixel_var Neon intrinscis implementations<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Add SBD pixel_var Neon DotProd intrinsics implementations<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Add HBD pixel_var SVE intrinsics implementations<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">> source/common/CMakeLists.txt                  |   4 +-<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/asm-primitives.cpp      |  14 +-<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/fun-decls.h             |  10 -<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/neon-sve-bridge.h       |   7 +<o:p></o:p></span></pre>
<pre><span style="color:black">> .../aarch64/pixel-prim-neon-dotprod.cpp       | 111 ++++++++++<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/pixel-prim-sve.cpp      | 137 ++++++++++++<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/pixel-prim.cpp          | 197 +++++++++++++++---<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/pixel-prim.h            |   6 +<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/pixel-util-common.S     |  27 ---<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/pixel-util-sve2.S       | 195 -----------------<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/pixel-util.S            |  61 ------<o:p></o:p></span></pre>
<pre><span style="color:black">> 11 files changed, 434 insertions(+), 335 deletions(-)<o:p></o:p></span></pre>
<pre><span style="color:black">> create mode 100644 source/common/aarch64/pixel-prim-neon-dotprod.cpp<o:p></o:p></span></pre>
<pre><span style="color:black">> create mode 100644 source/common/aarch64/pixel-prim-sve.cpp<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>--<o:p></o:p></span></pre>
<pre><span style="color:black">>2.39.5 (Apple Git-154)<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>_______________________________________________<o:p></o:p></span></pre>
<pre><span style="color:black">>x265-devel mailing list<o:p></o:p></span></pre>
<pre><span style="color:black">>x265-devel@videolan.org<o:p></o:p></span></pre>
<pre><span style="color:black">>https://mailman.videolan.org/listinfo/x265-devel<o:p></o:p></span></pre>
</div>
</div>
</div>
</div>
</div>
</body>
</html>