<html><body><div dir="ltr">It’s not immediately clear from the specification what the correct implementation would be for a few pathological cases of the Indic Conjuct Cluster specification in the Unicode 15.1.0 specification.<div><br></div><div dir="ltr"><div><div class="gmail_signature" data-smartmail="gmail_signature" dir="ltr">For convenience’s sake, let’s use the following shorthand:</div><div class="gmail_signature" data-smartmail="gmail_signature" dir="ltr"><br></div><div class="gmail_signature" data-smartmail="gmail_signature" dir="ltr">C = \p{InCB=Consonant}</div><div class="gmail_signature" data-smartmail="gmail_signature" dir="ltr">E = \p{InCB=Extend}<br>L = \p{InCB=Linker}</div></div><div class="gmail_signature" data-smartmail="gmail_signature" dir="ltr">M = \p{M}</div><div class="gmail_signature" data-smartmail="gmail_signature" dir="ltr"><br></div><div class="gmail_signature" data-smartmail="gmail_signature" dir="ltr"><ol start="1" style="margin:0px" dir="ltr"><li>It appears that both E and L are subsets of M and I think E∪L = M . Is this correct? If so, is GB9c equivalent to saying that CM+C should be considered a single cluster iff that sequence of characters M+ contains at least one character from L? (Having written this question and looking at the statement of the rule from <a href="https://www.unicode.org/Public/UCD/latest/ucd/auxiliary/GraphemeBreakTest.html">https://www.unicode.org/Public/UCD/latest/ucd/auxiliary/GraphemeBreakTest.html</a>, my restatement seems to correspond to 9.3 in that list).<br></li><li>Should a sequence like, e.g., CLCLC be considered a single cluster or would it be two clusters, CLCL ÷ C?</li></ol><div><br></div><div dir="ltr">I would note also that the chart at <a href="https://www.unicode.org/Public/UCD/latest/ucd/auxiliary/GraphemeBreakTest.html">https://www.unicode.org/Public/UCD/latest/ucd/auxiliary/GraphemeBreakTest.html</a> seems to be not quite correct.</div><div dir="ltr"><br></div><div dir="ltr">-dh</div></div></div></div></body></html>