[oodisc] Slavi cyrillic letters
Aleksey Novodvorsky
aen на altlinux.ru
Сб Апр 6 17:29:35 MSD 2002
Vladimir NOVIKOV wrote:
> Aleksey Novodvorsky <aen на altlinux.ru> wrote:
> > Благодаря ошибке в OOo, выявленной Владимиром Стусем и помощи Владимира
> > Новикова, я составил вирутальный алфайвит славянской кириллицы. Он
> > прилагается, замечания приветствуются. Напомню, что пересечение этого
> > упорядоченного множества с множеством букв любого славянского
> > кириллического алфавита должно быть упорядочено в соответствие с этим
> > алфавитом. Аналогичная задача для тюркской кириллицы, увы, неразрешима.
> > Если этот алфавит верен, то в ISO-14651 есть ошибки.
>
> Если я правильно понимаю, это что-то типа супер алфавита, в
> котором присутствуют буквы ВСЕХ кириллических языков, или
> на сегодня русского, украинского, белорусского, болгарского,
> сербского, македонского?
>
> При этом буквы расположены так, чтобы сортировка работала
> в любом языке, пропуская другие буквы.
Да.
>
>
> Я так же догадываюсь, что I_BT является неким служебным
> кодом, а затем идёт название буквы.
Это кусок испраленного мной текста OOo, I_BT -- некая мнемоника, для меня
неясная :-).
>
>
> Я начинаю проверять по таблицам Unicode 3.2, но у меня
> возникают два вопроса:
>
> 1. Не надо ли вводить большую и малую буквы, ведь по
> правилам сортировки сначала сортируется заглавная буква,
> потом та же строчная. Быть может, это правило определено в
> другом месте?
Да.
>
>
> 2. Не надо ли ставить метку языка? При данной системе
> русский текст, в котором присутствует одно слово с "г с
> чубом" будет отсортирован таким образом, что это самое "г с
> чубом" окажется в середине. А надо, чтобы сначала
> просортировались все буквы русского алфавита, а затем
> украинского. Разумеется, все это относится и к каждому из
> других языков.
Так как это просто кусок текста конкретной программы, то все сделано ровно
так, как нужно ее авторам. Для других применений, естественно, можно изменить
и дополнить формат.
В списке есть две "лишние" буквы, не встречающиеся в указанные алфавитах, --
те, которые с grave . Они добавлены для исчерпания фрагмента Unicode с 0x0400
до 0x45FF
Rgrds, AEN
Подробная информация о списке рассылки Oo-discuss