[oodisc] Кодировка файлов ООо ?

Alexej Kryukov akrioukov на newmail.ru
Пн Фев 28 19:22:13 MSK 2005


On Monday 28 February 2005 18:03, Denis Smirnov wrote:
> On Sun, Feb 27, 2005 at 08:29:24PM +0300, Alexej Kryukov wrote:
>
> AK> vim тем и хорош, что понимает всё, что угодно. Но для Unix,
> AK> насколько я понимаю, стандартом всё же является utf-8 без
> сигнатуры.
>
> IMHO сигнатура обязательно должна корректно обрабатываться.

Вот так вот проприетарщина вторгается в нашу жизнь и заставляет
принимать себя за стандарт. Ведь откуда взялась эта сигнатура?
Был символ U+FEFF (Byte Order Mark), придуманный затем, чтобы
по способу его представления отличать UCS-2 LE от BE. Нигде, ни в 
одном стандарте не говорилось, что этот символ должен присутствовать
и в тех представлениях Юникода, которые независимы от порядка
байтов (как UTF-8).

Однако же Notepad почему-то принялся записывать этот символ в начале
файлов. Возможно, даже просто по ошибке. Так появилось новое
представление Юникода: UTF-8 + BOM, которое некоторые по незнанию
принимают за стандарт... А между тем единственное настоящее значение
этой сигнатуры: "Designed by Windows Notepad".

> Вешать багу на ООо.
> Наличие сигнатуры резко облегчает жизнь. 

Ага. Резко облегчает жизнь тому же самому Блокноту, поскольку тот
знает всего три кодировки (ANSI, UTF-8 и UCS-2 LE), а переключаться
между ними на ходу не умеет. А на самом деле, восьмибитных способов
представления текста -- море. Причем среди них есть и азиатские
кодировки типа shift-jis или euc-jp, в которых один символ тоже
может кодироваться несколькими байтами. И почему именно UTF-8 должна
от них отличаться наличием какой-то особой сигнатуры -- непонятно.

> Как раз потому, что не надо указывать кодировку.

Я с трудом себе представляю ситуацию, где ее в противном случае
пришлось бы указывать, а так не надо. В xml, что ли? Так там кодировка
обязательно должна быть отмечена в заголовке, так что дополнительные
указатели избыточны. И таких примеров много. Или речь идет о
способности *редактора* отличать utf-8 от чего-то еще? Так vim
это и так умеет, если файл не сплошь состоит из символов ASCII.

-- 
Regards,
Alexej Kryukov <akrioukov at newmail dot ru>

Moscow State University
Historical Faculty


Подробная информация о списке рассылки Oo-discuss