<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<div dir="auto" style="direction: ltr; margin: 0; padding: 0; font-family: sans-serif; font-size: 11pt; color: black; ">
What I gather for background information (which you may well already be aware of, but just in case) is that:<br>
<br>
</div>
<div dir="auto" style="direction: ltr; margin: 0; padding: 0; font-family: sans-serif; font-size: 11pt; color: black; ">
① Normalisation rules are set in stone per stability policy (software has to be able to rely on any input that normalises to a certain output continuing to normalise like that, so it can use a normalised form as e.g. a database key, input for a password hash,
 etc.—even if a better behaviour theoretically exists).<br>
<br>
</div>
<div dir="auto" style="direction: ltr; margin: 0; padding: 0; font-family: sans-serif; font-size: 11pt; color: black; ">
② A cluster of a base character and combining characters can be interrupted with one or more of the confusingly named Combining Grapheme Joiner, which is typically used to split what is one grapheme cluster for display purposes into multiple grapheme clusters
 for normalisation and/or collation purposes. This can be used to inhibit diacritic reörderings that pose an issue in practice.<br>
<br>
</div>
<div dir="auto" style="direction: ltr; margin: 0; padding: 0; font-family: sans-serif; font-size: 11pt; color: black; ">
—Har.<br>
<br>
</div>
<div dir="auto" style="direction: ltr; margin: 0; padding: 0; font-family: sans-serif; font-size: 11pt; color: black; ">
<span id="OutlookSignature">
<div dir="auto" style="direction: ltr; margin: 0; padding: 0; font-family: sans-serif; font-size: 11pt; color: black; ">
Get <a href="https://aka.ms/ghei36">Outlook for Android</a></div>
</span><br>
</div>
<hr style="display:inline-block;width:98%" tabindex="-1">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> Unicode <unicode-bounces@unicode.org> on behalf of Lorna Evans via Unicode <unicode@unicode.org><br>
<b>Sent:</b> Monday, April 26, 2021 10:50:40 PM<br>
<b>To:</b> Unicode Mailing List <unicode@unicode.org><br>
<b>Subject:</b> Normalizing Syriac</font>
<div> </div>
</div>
<div>
<p>I've got a situation that I'm not sure how to handle...or even if Unicode or the rendering engines need update.</p>
<p>In a language using Syriac there is a <i>rish seyame</i> which can be followed by U+0739 or U+0738</p>
<p><i>rish </i>= 072A</p>
<p><i>seyame </i>= 0308</p>
<p>In TUS, chapter 9, it says:<br>
</p>
<p></p>
<blockquote type="cite">In Modern Syriac usage, when a word contains a <i>rish </i>
and a <i>seyame</i>, the dot of<br>
the <i>rish </i>and the <i>seyame </i>are replaced by a <i>rish </i>with two dots above it.</blockquote>
Then, there's a table which indicates this ligature is obligatory:<br>
<p></p>
<blockquote type="cite">
<p>Table 9-17. Syriac Ligatures</p>
<p>Ligature Classes. As in other scripts, ligatures in Syriac vary depending on the font style.<br>
Table 9-17 identifies the principal valid ligatures for each font style. When applicable, these<br>
ligatures are obligatory, unless denoted with an asterisk (*).<br>
</p>
<p>rish seyame Right-joining Right-joining Right-joining BFBS (no asterisk, so it is obligatory)</p>
</blockquote>
<p><br>
</p>
<p>Finally, in "Developing OpenType Fonts for Syriac Script" <a class="x_moz-txt-link-freetext" href="https://docs.microsoft.com/en-us/typography/script-development/syriac">
https://docs.microsoft.com/en-us/typography/script-development/syriac</a></p>
<p>In the "Glossary section" it says:</p>
<p></p>
<blockquote type="cite">
<p><strong>Ligature</strong> - A combination of glyphs that join to form a single glyph. For example, the 'rish seyame' (U072a + U0308) combinations of glyphs are mandatory ligatures for Syriac. Other ligatures are optional.</p>
</blockquote>
So, it seems clear that 072a+0308 is a mandatory ligature. The problem I'm seeing is that when this ligature is followed by U+0739 or U+0738 AND an application does normalization, it changes the sequence to U+072A U+0739 U+0308 and that breaks the ligature.<br>
<p></p>
<p>You can see why they are reordering it when you see 0308 is 230 and U+0738 or U+0739 are 220.</p>
0308;COMBINING DIAERESIS;Mn;<b>230</b>;NSM;;;;;N;NON-SPACING DIAERESIS;;;; <br>
0738;SYRIAC DOTTED ZLAMA HORIZONTAL;Mn;<b>220</b>;NSM;;;;;N;;;;;<br>
0739;SYRIAC DOTTED ZLAMA ANGULAR;Mn;<b>220</b>;NSM;;;;;N;;;;;<br>
<p></p>
All of the Syriac fonts that I see only handle this sequence <b>U+072A U+0308 U+0739</b> and not the reordered
<b>U+072A U+0739 U+0308</b>
<p>Are the fonts wrong, should they be able to handle U+072A U+0739 U+0308?</p>
<p>Or, is there a special normalization rule for this?</p>
<p>How should <i>rish seyame</i> followed by a below mark like U+0738 or U+0739 be handled?</p>
<p>Lorna</p>
<p><br>
</p>
<strong></strong>
<p><br>
</p>
</div>
</body>
</html>