[oodisc] Slavi cyrillic letters

Aleksey Novodvorsky aen на altlinux.ru
Сб Апр 6 17:29:35 MSD 2002


Vladimir NOVIKOV wrote:

> Aleksey Novodvorsky <aen на altlinux.ru> wrote:
> > Благодаря ошибке в OOo, выявленной Владимиром Стусем  и помощи Владимира
> > Новикова, я составил вирутальный алфайвит славянской кириллицы. Он
> > прилагается, замечания приветствуются. Напомню, что пересечение этого
> > упорядоченного множества   с множеством букв любого славянского
> > кириллического алфавита должно быть упорядочено в соответствие с этим
> > алфавитом. Аналогичная задача для тюркской кириллицы, увы, неразрешима.
> > Если этот алфавит верен, то в ISO-14651  есть  ошибки.
>
> Если я правильно понимаю, это что-то типа супер алфавита, в
> котором присутствуют буквы ВСЕХ кириллических языков, или
> на сегодня русского, украинского, белорусского, болгарского,
> сербского, македонского?
>
> При этом буквы расположены так, чтобы сортировка работала
> в любом языке, пропуская другие буквы.

Да.

>
>
> Я так же догадываюсь, что I_BT является неким служебным
> кодом, а затем идёт название буквы.

Это кусок  испраленного мной текста OOo, I_BT -- некая мнемоника, для меня
неясная :-).

>
>
> Я начинаю проверять по таблицам Unicode 3.2, но у меня
> возникают два вопроса:
>
> 1. Не надо ли вводить большую и малую буквы, ведь по
> правилам сортировки сначала сортируется заглавная буква,
> потом та же строчная. Быть может, это правило определено в
> другом месте?

Да.

>
>
> 2. Не надо ли ставить метку языка? При данной системе
> русский текст, в котором присутствует одно слово с "г с
> чубом" будет отсортирован таким образом, что это самое "г с
> чубом" окажется в середине. А надо, чтобы сначала
> просортировались все буквы русского алфавита, а затем
> украинского. Разумеется, все это относится и к каждому из
> других языков.

Так как это просто кусок текста конкретной программы, то все сделано ровно
так, как нужно ее авторам. Для других применений, естественно, можно изменить
и дополнить формат.

В списке есть две "лишние" буквы, не встречающиеся в указанные алфавитах, --
те, которые с grave . Они добавлены для исчерпания фрагмента Unicode с 0x0400
до 0x45FF

Rgrds, AEN





Подробная информация о списке рассылки Oo-discuss