Bengla syllables <... 09BF 09BE> and <... 09BF 09C0>

Manish Goregaokar manish at mozilla.com
Tue Feb 7 14:22:44 CST 2017


Not a Bangla speaker, but they look like typos to me too. Only certain
vowel diacritics double up in Indic languages (e.g. anusvaras). I'm
not sure how you would even pronounce such sounds. I suppose such
combinations of diacritics could be used to represent dipthongs in
words from other languages, but some of these dipthongs already exist
in the regular script.

I found things like this[1] on wikisource which seems like an OCR of
some really garbled text. The text does indeed seem like it has
additional vowel diacritics, but that could also be a scanning glitch.
The same word appears twice in the document, but once in the text.

Another sequence I found in [2][3] seems to only happen when the text
is really garbled. All of these documents have random Latin stuff
interspersed in the OCR, and sometimes Devanagri. [2] even has a Han
character at the end.

I think it's just an OCR algorithm handling garbled Bangla text
poorly. Such an algorithm might have a tendency to produce certain
specific invalid sequences like the ones listed in your email. Might
want to double-check with a native Bangla speaker.

Thanks,
-Manish

 [1]: https://bn.wikisource.org/wiki/%E0%A6%AA%E0%A6%BE%E0%A6%A4%E0%A6%BE:%E0%A6%B0%E0%A6%BE%E0%A6%AE%E0%A6%BE%E0%A6%AF%E0%A6%BC%E0%A6%A3%E0%A6%AE%E0%A7%8D%E2%80%8C_-_%E0%A6%AA%E0%A6%9E%E0%A7%8D%E0%A6%9A%E0%A6%BE%E0%A6%A8%E0%A6%A8_%E0%A6%A4%E0%A6%B0%E0%A7%8D%E0%A6%95%E0%A6%B0%E0%A6%A4%E0%A7%8D%E0%A6%A8.pdf/%E0%A7%A7%E0%A7%A9%E0%A7%A7%E0%A7%A7
 [2]: https://bn.wikisource.org/wiki/%E0%A6%AA%E0%A6%BE%E0%A6%A4%E0%A6%BE:%E0%A6%AC%E0%A6%BF%E0%A6%B6%E0%A7%8D%E0%A6%AC%E0%A6%95%E0%A7%8B%E0%A6%B7_%E0%A6%A8%E0%A6%AC%E0%A6%AE_%E0%A6%96%E0%A6%A3%E0%A7%8D%E0%A6%A1.djvu/%E0%A7%AD%E0%A7%AD%E0%A7%A6
 [3]: https://bn.wikisource.org/wiki/%E0%A6%AA%E0%A6%BE%E0%A6%A4%E0%A6%BE:%E0%A6%B6%E0%A6%BF%E0%A6%95%E0%A7%8D%E0%A6%B7%E0%A6%BE%E0%A6%AC%E0%A6%BF%E0%A6%A7%E0%A6%BE%E0%A6%AF%E0%A6%BC%E0%A6%95_%E0%A6%AA%E0%A7%8D%E0%A6%B0%E0%A6%B8%E0%A7%8D%E0%A6%A4%E0%A6%BE%E0%A6%AC.pdf/%E0%A7%A7%E0%A7%AD%E0%A7%AE
-Manish


On Tue, Feb 7, 2017 at 10:08 AM, Eric Muller <eric.muller at efele.net> wrote:
> In looking at the wiki{pedia,book.source,tionary} corpus for Bengla, I see a
> relatively large number of syllables with  <... 09BF 09BE> or <... 09BF
> 09C0>. I checked a couple of sources, and I did not find them listed
> anywhere as being normally used.
>
> Are they in normal use or are those all typos?
>
> I did not find any occurrence in the Assamese corpus.
>
> Thanks,
> Eric.
>
> The syllables (o is the number of occurrences):
>
>
> <string s='&#x0995;&#x09bf;&#x09c0;' o='198'/>
> <string s='&#x0995;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='262'/>
> <string s='&#x0995;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='447'/>
> <string s='&#x0995;&#x09cd;&#x09b0;&#x09bf;&#x09c0;' o='77'/>
> <string s='&#x0995;&#x09cd;&#x09b2;&#x09bf;&#x09be;' o='245'/>
> <string s='&#x0995;&#x09cd;&#x09b7;&#x09bf;&#x09c0;' o='161'/>
> <string s='&#x0995;&#x09cd;&#x09b8;&#x09bf;&#x09be;' o='138'/>
> <string s='&#x0996;&#x09bf;&#x09be;' o='949'/>
> <string s='&#x0997;&#x09bf;&#x09be;' o='2671'/>
> <string s='&#x0997;&#x09bf;&#x09c0;' o='250'/>
> <string s='&#x0997;&#x09cd;&#x09a8;&#x09bf;&#x09be;' o='57'/>
> <string s='&#x0997;&#x09cd;&#x09a8;&#x09bf;&#x09c0;' o='110'/>
> <string s='&#x0997;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='143'/>
> <string s='&#x0998;&#x09bf;&#x09be;' o='83'/>
> <string s='&#x0999;&#x09cd;&#x0995;&#x09bf;&#x09be;' o='403'/>
> <string s='&#x0999;&#x09cd;&#x0997;&#x09bf;&#x09be;' o='267'/>
> <string s='&#x0999;&#x09cd;&#x0997;&#x09bf;&#x09c0;' o='150'/>
> <string s='&#x099a;&#x09bf;&#x09be;' o='905'/>
> <string s='&#x099a;&#x09bf;&#x09c0;' o='135'/>
> <string s='&#x099a;&#x09cd;&#x099a;&#x09bf;&#x09be;' o='91'/>
> <string s='&#x099a;&#x09cd;&#x099b;&#x09bf;&#x09be;' o='323'/>
> <string s='&#x099b;&#x09bf;&#x09be;' o='712'/>
> <string s='&#x099b;&#x09bf;&#x09c0;' o='61'/>
> <string s='&#x099c;&#x09bf;&#x09be;' o='527'/>
> <string s='&#x099c;&#x09bf;&#x09c0;' o='140'/>
> <string s='&#x099c;&#x09cd;&#x099c;&#x09bf;&#x09be;' o='56'/>
> <string s='&#x099d;&#x09bf;&#x09be;' o='81'/>
> <string s='&#x099e;&#x09bf;&#x09be;' o='71'/>
> <string s='&#x099e;&#x09cd;&#x099a;&#x09bf;&#x09be;' o='175'/>
> <string s='&#x099e;&#x09cd;&#x099c;&#x09bf;&#x09be;' o='270'/>
> <string s='&#x099e;&#x09cd;&#x099c;&#x09bf;&#x09c0;' o='316'/>
> <string s='&#x099f;&#x09bf;&#x09be;' o='807'/>
> <string s='&#x099f;&#x09bf;&#x09c0;' o='586'/>
> <string s='&#x09a0;&#x09bf;&#x09be;' o='549'/>
> <string s='&#x09a0;&#x09bf;&#x09c0;' o='89'/>
> <string s='&#x09a1;&#x09bc;&#x09bf;&#x09be;' o='1361'/>
> <string s='&#x09a1;&#x09bc;&#x09bf;&#x09c0;' o='135'/>
> <string s='&#x09a1;&#x09bf;&#x09be;' o='257'/>
> <string s='&#x09a2;&#x09bc;&#x09bf;&#x09be;' o='71'/>
> <string s='&#x09a3;&#x09bf;&#x09be;' o='354'/>
> <string s='&#x09a4;&#x09bf;&#x09c0;' o='270'/>
> <string s='&#x09a4;&#x09bf;&#x09cd;&#x09af;&#x09c1;' o='75'/>
> <string s='&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='143'/>
> <string s='&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09c0;' o='144'/>
> <string s='&#x09a4;&#x09cd;&#x09a4;&#x09cd;&#x09ac;&#x09bf;&#x09be;'
> o='54'/>
> <string s='&#x09a4;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='72'/>
> <string s='&#x09a4;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='161'/>
> <string s='&#x09a4;&#x09cd;&#x09af;&#x09bf;&#x09be;' o='129'/>
> <string s='&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='217'/>
> <string s='&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09c0;' o='264'/>
> <string s='&#x09a4;&#x09cd;&#x09f0;&#x09bf;&#x09be;' o='102'/>
> <string s='&#x09a5;&#x09bf;&#x09be;' o='290'/>
> <string s='&#x09a5;&#x09bf;&#x09c0;' o='127'/>
> <string s='&#x09a6;&#x09bf;&#x09c0;' o='514'/>
> <string s='&#x09a6;&#x09cd;&#x09a7;&#x09bf;&#x09be;' o='228'/>
> <string s='&#x09a6;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='505'/>
> <string s='&#x09a6;&#x09cd;&#x09ac;&#x09bf;&#x09c0;' o='121'/>
> <string s='&#x09a6;&#x09cd;&#x09af;&#x09bf;&#x09be;' o='53'/>
> <string s='&#x09a7;&#x09bf;&#x09c0;' o='235'/>
> <string s='&#x09a8;&#x09bf;&#x09c0;' o='551'/>
> <string s='&#x09a8;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='100'/>
> <string s='&#x09a8;&#x09cd;&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09be;'
> o='93'/>
> <string s='&#x09a8;&#x09cd;&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09c0;'
> o='171'/>
> <string s='&#x09a8;&#x09cd;&#x09a6;&#x09bf;&#x09be;' o='102'/>
> <string s='&#x09a8;&#x09cd;&#x09a6;&#x09cd;&#x09b0;&#x09bf;&#x09be;'
> o='238'/>
> <string s='&#x09a8;&#x09cd;&#x09a6;&#x09cd;&#x09b0;&#x09bf;&#x09c0;'
> o='79'/>
> <string s='&#x09a8;&#x09cd;&#x09a7;&#x09bf;&#x09be;' o='109'/>
> <string s='&#x09a8;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='98'/>
> <string s='&#x09aa;&#x09bf;&#x09be;' o='1199'/>
> <string s='&#x09aa;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='67'/>
> <string s='&#x09aa;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='203'/>
> <string s='&#x09ab;&#x09bf;&#x09be;' o='174'/>
> <string s='&#x09ab;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='60'/>
> <string s='&#x09ac;&#x09bf;&#x09c0;' o='715'/>
> <string s='&#x09ac;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='87'/>
> <string s='&#x09ad;&#x09bf;&#x09be;' o='908'/>
> <string s='&#x09ad;&#x09bf;&#x09c0;' o='80'/>
> <string s='&#x09ae;&#x09bf;&#x09c0;' o='373'/>
> <string s='&#x09ae;&#x09cd;&#x09aa;&#x09bf;&#x09be;' o='55'/>
> <string s='&#x09ae;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='117'/>
> <string s='&#x09ae;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='67'/>
> <string s='&#x09af;&#x09bf;&#x09be;' o='204'/>
> <string s='&#x09b0;&#x09bf;&#x09be;' o='4703'/>
> <string s='&#x09b0;&#x09cd;&#x09a3;&#x09bf;&#x09be;' o='55'/>
> <string s='&#x09b0;&#x09cd;&#x09a4;&#x09bf;&#x09c0;' o='56'/>
> <string s='&#x09b0;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='105'/>
> <string s='&#x09b0;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='68'/>
> <string s='&#x09b0;&#x09cd;&#x09ae;&#x09bf;&#x09c0;' o='70'/>
> <string s='&#x09b0;&#x09cd;&#x09b7;&#x09bf;&#x09be;' o='65'/>
> <string s='&#x09b2;&#x09bf;&#x09c0;' o='419'/>
> <string s='&#x09b2;&#x09cd;&#x09aa;&#x09bf;&#x09c0;' o='113'/>
> <string s='&#x09b6;&#x09bf;&#x09c0;' o='216'/>
> <string s='&#x09b6;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='145'/>
> <string s='&#x09b7;&#x09bf;&#x09be;' o='376'/>
> <string s='&#x09b7;&#x09cd;&#x099f;&#x09bf;&#x09be;' o='269'/>
> <string s='&#x09b7;&#x09cd;&#x099f;&#x09cd;&#x09af;&#x09bf;&#x09be;'
> o='75'/>
> <string s='&#x09b7;&#x09cd;&#x09a0;&#x09bf;&#x09c0;' o='99'/>
> <string s='&#x09b8;&#x09bf;&#x09be;' o='760'/>
> <string s='&#x09b8;&#x09bf;&#x09c0;' o='117'/>
> <string s='&#x09b8;&#x09cd;&#x0995;&#x09bf;&#x09be;' o='106'/>
> <string s='&#x09b8;&#x09cd;&#x099f;&#x09cd;&#x09b0;&#x09bf;&#x09c0;'
> o='157'/>
> <string s='&#x09b8;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='311'/>
> <string s='&#x09b8;&#x09cd;&#x09a4;&#x09bf;&#x09c0;' o='50'/>
> <string s='&#x09b8;&#x09cd;&#x09a5;&#x09bf;&#x09be;' o='1946'/>
> <string s='&#x09b8;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='97'/>
> <string s='&#x09b8;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='74'/>
> <string s='&#x09b9;&#x09bf;&#x09c0;' o='424'/>
> <string s='&#x09b9;&#x09cd;&#x09af;&#x09bf;&#x09be;' o='89'/>
> <string s='&#x09f0;&#x09bf;&#x09c0;' o='204'/>
> <string s='&#x09f0;&#x09cd;&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09be;'
> o='125'/>
> <string s='&#x09f0;&#x09cd;&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09c0;'
> o='118'/>
> <string s='&#x09f0;&#x09cd;&#x09ae;&#x09cd;&#x09ae;&#x09bf;&#x09be;'
> o='58'/>
> <string s='&#x09f1;&#x09bf;&#x09be;' o='264'/>
>
>



More information about the Unicode mailing list