<div data-ntes="ntes_mail_body_root" style="line-height:1.7;color:#000000;font-size:14px;font-family:Arial"><div id="spnEditorContent"><p style="margin: 0;">Hi Li,</p><p style="margin: 0;"><br></p><p style="margin: 0;">Thank for details, we may keep current method.</p><p style="margin: 0;"><br></p><p style="margin: 0;">Regards,<br>Min</p><p style="margin: 0;"><br></p><p style="margin: 0;"><br></p></div><div style="position:relative;zoom:1"></div><div id="divNeteaseMailCard"></div><p style="margin: 0;"><br></p><p>At 2025-05-20 17:42:58, "Li Zhang" <Li.Zhang2@arm.com> wrote:</p><blockquote id="isReplyContent" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid"><div xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml">



<style></style>

<div lang="EN-US" link="#467886" vlink="#96607D" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Chen,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Thanks for the comment.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">LDP+STP is recommended in optimization guide for the memory copy loops.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Older compilers sometimes struggle to generate optimal code from the vld1q_<x>_x2 intrinsics.
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Using 2 </span><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">vld1q_<x>
</span><span style="font-size:11.0pt">is most likely to get most compilers to generate something optimal (LDP + STP).<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Regards,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Li<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<div id="mail-editor-reference-message-container">
<div>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">chen <chenm003@163.com><br>
<b>Date: </b>Tuesday, 2025. May 20. at 5:18<br>
<b>To: </b>Development for x265 <x265-devel@videolan.org><br>
<b>Cc: </b>nd <nd@arm.com>, Li Zhang <Li.Zhang2@arm.com><br>
<b>Subject: </b>Re:[x265] [PATCH 0/8] AArch64: Clean up and optimize block copy primitives<o:p></o:p></span></p>
</div>
<div>
<div id="spnEditorContent">
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">Hi Li,<o:p></o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black"><o:p> </o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">Thank for the improve patches.<o:p></o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">It looks good to me, just a little comment below<o:p></o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black"><o:p> </o:p></span></p>
<p style="margin:0in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">In the most function,<br>
+ int16x8_t a0 = vld1q_s16(src + w + 0); + int16x8_t a1 = vld1q_s16(src + w + 8);<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black">How about performance compare to vld1q_s16_x2 ?<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:black"><o:p> </o:p></span></p>
</div>
<div>
<pre><span style="color:black">Regards,<o:p></o:p></span></pre>
<pre><span style="color:black">Chen<o:p></o:p></span></pre>
<pre><span style="color:black"><o:p> </o:p></span></pre>
</div>
<pre><span style="color:black">At 2025-05-20 00:41:39, "Li Zhang" <li.zhang2@arm.com> wrote:<o:p></o:p></span></pre>
<pre><span style="color:black">>Hello,<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>This patch series optimizes and implements several AArch64 block copy<o:p></o:p></span></pre>
<pre><span style="color:black">>primitives using Neon intrinsics. It also cleans up and removes the Neon<o:p></o:p></span></pre>
<pre><span style="color:black">>and SVE assembly implementations that are either slower or offer no<o:p></o:p></span></pre>
<pre><span style="color:black">>performance benefit.<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>Many thanks,<o:p></o:p></span></pre>
<pre><span style="color:black">>Li<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>Li Zhang (8):<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Optimize blockcopy_pp_neon intrinsics implementation<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Optimize blockcopy_ps Neon intrinsics implementation<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Implement blockcopy_ss primitives using Neon intrinsics<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Implement blockcopy_sp primitives using Neon intrinsics<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Optimize cpy1Dto2D_shl Neon intrinsics implementation<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Optimize cpy2Dto1D_shl Neon intrinsics implementation<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Implement cpy2Dto1D_shr using Neon intrinsics<o:p></o:p></span></pre>
<pre><span style="color:black">>  AArch64: Implement cpy1Dto2D_shr using Neon intrinsics<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">> source/common/CMakeLists.txt              |    2 +-<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/asm-primitives.cpp  |  180 ---<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/blockcopy8-common.S |   54 -<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/blockcopy8-sve.S    | 1346 ---------------------<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/blockcopy8.S        | 1049 ----------------<o:p></o:p></span></pre>
<pre><span style="color:black">> source/common/aarch64/pixel-prim.cpp      |  358 +++++-<o:p></o:p></span></pre>
<pre><span style="color:black">> 6 files changed, 305 insertions(+), 2684 deletions(-)<o:p></o:p></span></pre>
<pre><span style="color:black">> delete mode 100644 source/common/aarch64/blockcopy8-common.S<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>--<o:p></o:p></span></pre>
<pre><span style="color:black">>2.39.5 (Apple Git-154)<o:p></o:p></span></pre>
<pre><span style="color:black">><o:p> </o:p></span></pre>
<pre><span style="color:black">>_______________________________________________<o:p></o:p></span></pre>
<pre><span style="color:black">>x265-devel mailing list<o:p></o:p></span></pre>
<pre><span style="color:black">>x265-devel@videolan.org<o:p></o:p></span></pre>
<pre><span style="color:black">>https://mailman.videolan.org/listinfo/x265-devel<o:p></o:p></span></pre>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</blockquote></div>