<div dir="ltr"><div dir="ltr">On Mon, Sep 4, 2023 at 6:36 AM Daniel Bünzli via Unicode <<a href="mailto:unicode@corp.unicode.org">unicode@corp.unicode.org</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Also it would be nicer for certain implementations if that was somehow integrated as a character class in the rules like e.g. ZJW is.<br></blockquote><div><br></div><div>It didn't seem worth it for a one-off, especially now that we no longer partition the code space with exactly one property value per code point.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">is there a machine readable version of the rules for all the Unicode segmentation standards ?<br></blockquote><div><br></div><div>There is not an official version like that.</div><div><br></div><div>Unofficially, we have such a version in the tools code that generates the test data:</div><div><br></div><div><a href="https://github.com/unicode-org/unicodetools/blob/main/unicodetools/src/main/resources/org/unicode/tools/SegmenterDefault.txt">https://github.com/unicode-org/unicodetools/blob/main/unicodetools/src/main/resources/org/unicode/tools/SegmenterDefault.txt</a><br></div><div>for the UAX #14/#29 default behavior</div><div><br></div><div><a href="https://github.com/unicode-org/unicodetools/blob/main/unicodetools/src/main/resources/org/unicode/tools/SegmenterCldr.txt">https://github.com/unicode-org/unicodetools/blob/main/unicodetools/src/main/resources/org/unicode/tools/SegmenterCldr.txt</a><br></div><div>for CLDR/ICU root locale tailorings, if any</div><div><br></div><div>markus</div></div></div>